CN111209476A

CN111209476A - 推荐方法、模型生成方法、装置、介质及设备

Info

Publication number: CN111209476A
Application number: CN201911418934.6A
Authority: CN
Inventors: 杨晚鹏; 谭怒涛
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-29
Anticipated expiration: 2039-12-31
Also published as: WO2021135588A1; CN111209476B

Abstract

本发明实施例提供了一种内容的推荐方法、模型生成方法、装置、存储介质以及计算机设备，其中，所述推荐方法包括：获取与原始推荐内容对应的内容特征信息，以及，用户行为信息，接着先根据用户行为信息，生成用户行为预估值，然后根据用户行为预估值、用户行为信息以及内容特征信息，得到各个原始推荐内容的内容推荐值，然后根据内容推荐值，确定至少两个目标推荐内容，并展示至少两个目标推荐内容，从而更加精准地预测用户对推荐内容的喜好度，并依次挑选最优的推荐内容，然后展示给用户，提高了向用户推荐内容的精准度。

Description

推荐方法、模型生成方法、装置、介质及设备

技术领域

本发明涉及数据技术领域，特别是涉及一种内容的推荐方法及装置、一种行为预估模型的生成方法及装置、一种内容推荐模型的生成方法及装置、一种存储介质以及一种计算机设备。

背景技术

随着互联网领域的飞速发展，爆炸式增长的信息导致用户想要获取感兴趣的有效内容越来越困难，个性化推荐系统显然已经成为互联网领域不可或缺的基础技术，在新闻、短视频和音乐等产品中扮演着越来越重要的角色。

在实施本发明过程中，发明人发现当前的内容推送方式中至少存在如下问题：传统的内容排序算法通过离线获取用户反馈行为数据，得到样本标签，同时从线上服务器存储的特征日志中进行特征提取，将两者结合后得到训练样本，然后在模型训练过程中，尽量拟合适配用户喜好度的模型。在模型应用过程中，线上基于该模型预测用户对内容条目的喜好度，并根据喜好度的高低，选择若干条最优内容条目构成推送列表，并推送给用户。

在大多数产品推荐场景中，用户的反馈行为是多种多样的，根据用户的反馈行为，设定训练样本的标签以及对应的权重存在严重的主观局限性，并且不同用户之间行为习惯存在较大差异，用户的主观能动性会限制模型分辨同一个用户对不同条目喜好度差异的能力。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种内容的推荐方法和相应的一种内容的推荐装置。

为了解决上述问题，本发明实施例公开了一种内容的推荐方法，所述方法包括：

获取与原始推荐内容对应的内容特征信息，以及，用户行为信息；

根据所述用户行为信息，生成用户行为预估值；

根据所述用户行为预估值、所述用户行为信息以及所述内容特征信息，得到各个所述原始推荐内容的内容推荐值；

根据所述内容推荐值，确定至少两个目标推荐内容。

本发明实施例还提供了一种行为预估模型的生成方法，包括：

获取历史用户行为信息以及初始行为预估模型；

对所述历史用户行为信息进行向量化，生成训练向量信息；

在所述初始行为预估模型中，输入所述训练向量信息进行迭代，并计算每次迭代后的初始行为预估模型的多个损失函数；所述多个损失函数包括基于不同历史用户行为信息的损失函数；

当迭代之后的初始行为预估模型的多个损失函数均最小化时，停止迭代，生成目标行为预估模型；

其中，所述历史用户行为信息包括点击率、点赞率、播完率、关注率、分享率、评论率、收藏率、浏览时长等中至少两种。

本发明实施例还提供了一种内容推荐模型的生成方法，包括：

获取样本数据以及初始内容推荐模型，所述样本数据包括历史用户行为信息，与所述历史用户行为信息对应的历史用户行为预估值，推荐内容的内容特征信息；

对所述历史用户行为信息、所述历史用户行为预估值以及所述内容特征信息进行向量化，生成训练向量信息；

在所述初始内容推荐模型中，输入所述训练向量信息进行迭代，并计算每次迭代后的初始内容推荐模型的多个损失函数；

当迭代之后的初始内容推荐模型的多个损失函数均最小化时，停止迭代，生成目标内容推荐模型；

本发明实施例还提供了一种内容的推荐装置，所述装置包括：

信息获取模块，用于获取与原始推荐内容对应的内容特征信息，以及，用户行为信息；

预估值生成模块，用于根据所述用户行为信息，生成用户行为预估值；

推荐值生成模块，用于根据所述用户行为预估值、所述用户行为信息以及所述内容特征信息，得到各个所述原始推荐内容的内容推荐值；

推荐内容确定模块，用于根据所述内容推荐值，确定至少两个目标推荐内容。

本发明实施例还提供了一种行为预估模型的生成装置，包括：

信息与模型获取模块，用于获取历史用户行为信息以及初始行为预估模型；

信息向量化模块，用于对所述历史用户行为信息进行向量化，生成训练向量信息；

模型迭代模块，用于在所述初始行为预估模型中，输入所述训练向量信息进行迭代，并计算每次迭代后的初始行为预估模型的多个损失函数；所述多个损失函数包括基于不同历史用户行为信息的损失函数；

模型生成模块，用于当迭代之后的初始行为预估模型的多个损失函数均最小化时，停止迭代，生成目标行为预估模型；

本发明实施例还提供了一种内容推荐模型的生成装置，包括：

数据与模型获取模块，用于获取样本数据以及初始内容推荐模型，所述样本数据包括历史用户行为信息，与所述历史用户行为信息对应的历史用户行为预估值，推荐内容的内容特征信息；

信息向量化模块，用于对所述历史用户行为信息、所述历史用户行为预估值以及所述内容特征信息进行向量化，生成训练向量信息；

模型迭代模块，用于在所述初始内容推荐模型中，输入所述训练向量信息进行迭代，并计算每次迭代后的初始内容推荐模型的多个损失函数；

模型生成模块，用于当迭代之后的初始内容推荐模型的多个损失函数均最小化时，停止迭代，生成目标内容推荐模型；

本发明实施例还提供了一种存储介质，

其上存储有计算机程序；所述计算机程序适于由处理器加载并执行上述的一个或多个的方法。

本发明实施例还提供了一种计算机设备，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行根据上述的方法。

本发明实施例包括以下优点：

在本发明实施例中，通过获取与原始推荐内容对应的内容特征信息，以及，用户行为信息，接着先根据用户行为信息，生成用户行为预估值，然后根据用户行为预估值、用户行为信息以及内容特征信息，得到各个原始推荐内容的内容推荐值，然后根据内容推荐值，确定至少两个目标推荐内容，并展示至少两个目标推荐内容，从而更加精准地预测用户对推荐内容的喜好度，并依次挑选最优的推荐内容，然后展示给用户，提高了向用户推荐内容的精准度。

此外，通过将行为预估模型输出的用户行为预估值作为内容推荐模型的输入，从而解决了模型训练过程中，人为设定训练样本的标签与权重的主观性，以及用户行为习惯之间的偏差对模型训练的干扰，进一步提高了向用户推荐内容的精准度。

附图说明

图1是本发明的一种内容的推荐方法实施例的步骤流程图；

图2是本发明的一种内容的推荐方法实施例中的示例图一；

图3是本发明的一种内容的推荐方法实施例中的示例图二；

图4是本发明的一种行为预估模型的生成方法实施例的步骤流程图；

图5是本发明的一种内容推荐模型的生成方法实施例的步骤流程图；

图6是本发明的一种内容的推荐装置实施例的结构框图；

图7是本发明的一种行为预估模型的生成方法实施例的结构框图；

图8是本发明的一种内容推荐模型的生成方法实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种内容的推荐方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，获取与原始推荐内容对应的内容特征信息，以及，用户行为信息；

作为一种示例，随着互联网领域的飞速发展，爆炸式增长的信息导致用户想要获取感兴趣的有效内容越来越难，因此，个性化推荐系统已经成为互联网领域不可或缺的基础技术。则如何预测用户的喜好，并根据用户的喜好为用户推荐相应的内容，显得愈发重要。

在本发明实施例中，原始推送内容可以是新闻、商品、广告、文章、音乐以及短视频等内容。其对应的内容特征信息可以包括原始推荐内容自身特性的内容特征信息以及与原始推荐内容关联的非自身特性的内容特征信息，其中，自身特性的内容特征信息可以为内容属性、内容类型、内容的上传时间以及内容的上传者等等，非自身特征的内容特征信息可以为内容的点击率、内容的点开率、内容的点赞率、内容的阅读率、内容的收藏率，内容的关注率等等，如当原始推荐内容为短视频内容时，则自身特性的内容特征信息可以包括短视频的上传者、短视频的类型(搞笑、动漫、电视剧、电影、饮食等)、短视频的上传时间、短视频的上传地址等等，非自身特征的内容特征信息可以包括短视频的点击率、短视频的点赞率、短视频的收藏率、短视频上传者的关注率、在线观看人数以及历史观看人数等等。

用户行为信息可以为与用户行为特征相关的行为信息，如点击率、点赞率、播完率、关注率、分享率、评论率等用户针对不同内容的反馈行为。

在具体实现中，用户可以通过终端中的应用程序获取相应的内容，当用户打开终端进行内容获取时，服务器可以在后台实时获取待推荐的原始推荐内容，并获取用户的用户行为信息，以根据原始推荐内容的内容特征信息以及用户行为信息，实时根据用户的喜好度，进行精准地内容推荐。

其中，终端可以包括移动设备，具体可以包括手机、PDA(Personal DigitalAssistant，个人数字助理)、膝上型计算机、掌上电脑、智能穿戴设备(如智能手环、智能眼镜、智能头箍等)等等，也可以包括固定设备，具体可以包括车载终端、智能家居等等，这些终端可以支持Windows、Android(安卓)、IOS、WindowsPhone等操作系统，本发明实施例对此不作限制。应用程序可以包括新闻应用程序、音乐应用程序、短视频应用程序、阅读应用程序等等，本发明实施例对此不作限制。

步骤102，根据所述用户行为信息，生成用户行为预估值；

在本发明实施例中，由于用户的反馈行为多种多样，且不同用户的反馈行为各不相同，则可以根据用户行为信息，生成针对用户的多个用户行为预估值，其中，用户行为与用户行为预估值一一对应。

在本发明实施例的一种可选实施例中，可以先对所述用户行为信息进行向量化处理，生成行为特征向量，接着将所述行为特征向量输入预设的目标行为预估模型，生成所述用户行为预估值。

在具体实现中，目标行为预估模型可以为多目标深度神经网络模型，其可以包括预设数目的隐藏层、与最后一层隐藏层连接的全连接层以及与全连接层连接的多个输出节点，其中，全连接层用于将最后一层隐藏层的输出结果拆分，并将拆分的输出结果分别输入到多个输出节点，各个输出节点输出对应的用户行为预估值。

具体的，可以获取已经训练好的行为预估模型，接着将用户行为信息进行向量化处理，生成对应的行为特征向量，然后可以将行为特征向量输入至目标行为预估模型，从而得到用户行为预估值，其中，用户的每个反馈行为均对应一个用户行为预估值。如当用户行为信息包括针对不同内容的点击率、点赞率、播完率、关注率、分享率、评论率时，则用户行为预估值可以包括针对不同内容的点击率预估值、点赞率预估值、播完率预估值、关注率预估值、分享率预估值、评论率预估值等，从而可以得到用户针对不同内容的用户行为预估值。

在行为评估过程中，利用多目标深度神经网络模型将多个用户行为信息进行关联，提高了输出的多个用户行为预估值的准确度，有利于后续为用户提供更加精准地内容。

在本发明实施例的一种可选实施例中，可以通过如下步骤生成行为预估模型：

步骤S11，获取历史用户行为信息以及初始行为预估模型；

步骤S12，对所述历史用户行为信息进行向量化，生成第一训练向量信息；

步骤S13，在所述初始行为预估模型中，输入所述第一训练向量信息进行迭代，并计算每次迭代后的初始行为预估模型的多个损失函数；所述多个损失函数包括基于不同历史用户行为信息的损失函数；

步骤S14，当迭代之后的初始行为预估模型的多个损失函数均最小化时，停止迭代，生成目标行为预估模型。

在具体实现中，历史用户行为信息可以包括点击率、点赞率、播完率、关注率、分享率、评论率等用户针对不同内容的历史反馈行为。则当获取了历史用户行为信息后，可以对历史用户行为信息进行向量化处理，生成第一训练向量信息，然后将第一训练向量信息输入初始行为预估模型，进行模型训练，从而得到目标行为预估模型。

在训练过程中，将初始行为预估模型的多个损失函数作为初始行为预估模型的监督和指导。其中，多个损失函数包括基于不同历史用户行为信息的损失函数，如历史用户行为信息包括点击率、点赞率、播完率、关注率、分享率、评论率等，则多个损失函数包括点击率评估值、点赞率评估值、播完率评估值、关注率评估值、分享率评估值、评论率评估值等对应的损失函数。

在具体实现中，可以设置模型迭代的停止条件是：初始行为预估模型的多个损失函数最小化，当初始行为预估模型的多个损失函数都最小化时，停止迭代初始行为预估模型，并生成对应的目标行为预估模型。

步骤103，根据所述用户行为预估值、所述用户行为信息以及所述内容特征信息，得到各个所述原始推荐内容的内容推荐值；

在本发明实施例中，当通过行为预估模型得到与用户行为信息匹配的用户行为预估值后，可以根据用户行为预估值、用户行为信息以及原始推荐内容的内容特征信息，得到针对各个原始推荐内容的内容推荐值，从而融合用户行为预估值，可以更加精准地预测用户对待推荐内容的喜好度，以便向用户推荐优质的内容。

在本发明实施例的一种可选实施例中，可以对所述用户行为预估值、所述用户行为信息以及所述内容特征信息进行向量化处理，生成内容推荐特征向量；将所述内容推荐向量输入预设的目标内容推荐模型，生成各个所述原始推荐内容的内容推荐值。

在具体实现中，目标内容推荐模型可以为基于Pairwise的LTR(learning ToRank，排序学习)模型，其可以包括预设数目的隐藏层、与最后一层隐藏层连接的全连接层、与全连接层连接的Rank Cost层以及与Rank Cost层连接的多个输出节点，其中，Rank Cost层用于将全连接层的输出结果进行转换，并将转换后的输出结果分别输入到多个输出节点，各个输出节点输出对应的内容推荐值。

具体的，可以获取已经训练好的内容推荐模型，接着将用户行为预估值、用户行为信息以及原始推荐内容的内容特征信息进行向量化处理，生成内容推荐特征向量，然后将内容推荐向量输入至目标内容推荐模型中，从而得到针对不同原始推荐内容的内容推荐值。如原始推荐内容包括内容一、内容二、内容三、内容四以及内容五等，则可以得到内容一的内容推荐值A、内容二的内容推荐值B、内容三的内容推荐值C、内容四的内容推荐值D以及内容五的内容推荐值E等，从而可以得到不同原始推荐内容对应的内容推荐值，进而可以根据不同的内容推荐值，向用户推荐合适的内容。

在内容推荐过程中，根据同一用户在一定时间段内对两个历史展示过程的内容条目的不同反馈行为，判断用户对不同内容条目的喜好程度。具体的，通过将用户行为预估值、用户行为信息以及原始推荐内容的内容特征信息进行融合处理，将用户行为预估值加入到非线性的目标内容推荐模型中，实现了推荐内容可以因人因视频而异，更加精准地为用户提高合适的内容，提高了产品的用户体验以及用户粘性。

在本发明实施例的一种可选实施例中，可以通过如下步骤生成目标内容推荐模型：

步骤S21，获取样本数据以及初始内容推荐模型，所述样本数据包括历史用户行为信息，与所述历史用户行为信息对应的历史用户行为预估值，推荐内容的内容特征信息；

步骤S22，对所述历史用户行为信息、所述历史用户行为预估值以及所述内容特征信息进行向量化，生成第二训练向量信息；

步骤S23，在所述初始内容推荐模型中，输入所述第二训练向量信息进行迭代，并计算每次迭代后的初始内容推荐模型的多个损失函数；

步骤S24，当迭代之后的初始内容推荐模型的多个损失函数均最小化时，停止迭代，生成目标内容推荐模型。

在具体实现中，训练样本数据可以包括历史用户行为信息，与历史用户行为信息对应的历史用户行为预估值，以及推荐内容的内容特征信息等。当获取了样本数据后，可以将样本数据进行向量化处理，得到第二训练向量信息，然后将第二训练向量信息输入初始内容推荐模型，进行模型训练，从而得到目标内容推荐模型。

在训练过程中，将初始内容推荐模型的多个损失函数作为初始内容推荐模型的监督和指导。其中，多个损失函数可以基于不同推荐内容的内容推荐值，如推荐内容包括内容一、内容二、内容三、内容四以及内容五等，则多个损失函数可以包括内容一的内容推荐值、内容二的内容推荐值、内容三的内容推荐值、内容四的内容推荐值以及内容五的内容推荐值等对应的算是函数。

在具体实现中，可以设置模型迭代的停止条件是：初始内容推荐模型的多个损失函数最小化，当初始内容推荐模型的多个损失函数都最小化时，停止迭代初始内容推荐模型，并生成对应的目标内容推荐模型。

步骤104，根据所述内容推荐值，确定至少两个目标推荐内容。

在本发明实施例中，当得到与不同原始推荐内容对应的内容推荐值后，可以根据内容推荐值从原始推荐内容中，确定至少两个目标推荐内容，并展示给用户。

在具体实现中，服务器通过获取了用户的用户行为信息，以及原始推荐内容的内容特征信息后，得到原始推荐内容的内容推荐值，接着可以按照内容推荐值从高到低的顺序，对各个原始推荐内容进行排序，并采用排序后的原始推荐内容，生成对应内容推荐列表，然后可以从该内容推荐列表中，提取排序靠前的至少两个原始推荐内容，作为目标推荐内容，并通过客户端将目标推荐内容展示给用户，从而可以从多个原始推荐内容中筛选出与用户喜好度贴合的目标推荐内容，并向用户展示该目标推荐内容，提高了内容推荐的针对性，保证了产品的用户体验及用户粘性。

在本发明实施例的一种示例中，当原始推荐内容为短视频，客户端为短视频应用程序时，当用户启动终端中的短视频应用程序时，服务器可以根据用户的ID标识，获取针对用户的用户行为信息，并获取待推荐的短视频内容。接着可以对用户行为信息进行向量化处理，并输入行为预估模型，得到与用户的反馈行为匹配的用户行为预估值，然后可以所得到的用户行为预估值、用户行为信息以及短视频内容的内容特征信息进行向量化处理，并输入短视频推荐模型，生成与短视频内容对应的短视频推荐值，如表1所示：

短视频标识	短视频推荐值
		短视频①	75
短视频②	86
		短视频③	62
短视频④	80
		短视频⑤	90
短视频⑥	98
		短视频⑦	88
短视频⑧	56
		短视频⑨	93
短视频⑩	74
		…	N

表1

接着可以根据内容推荐值从高到低的顺序对短视频进行排序，生成短视频推荐列表，如表2所示：

短视频标识	短视频推荐值
		短视频⑥	98
短视频⑨	93
		短视频⑤	90
短视频⑦	88
		短视频②	86
短视频④	80
		短视频①	75
短视频⑩	74
		短视频③	62
短视频⑧	56
		…	N

表2

然后服务器可以根据终端的信息，或客户端的信息，从该短视频推荐列表中选择排序靠前的短视频，并通过客户端向用户展示推荐的短视频。具体的，不同的终端对应的屏幕信息不同，则终端所展示的短视频条目数量也不同，终端屏幕尺寸越大，则可以展示的短视频条目越多，因此，服务器可以根据终端的屏幕信息，从短视频推荐列表中选择合适数目的短视频，并推荐给用户。

如图2所示，为本发明实施例中的示例图一，当客户端向用户展示4个短视频时，则用户打开客户端，并进行更新时，服务器可以从上述短视频推荐列表中，选择4个最靠前的短视频推荐给用户，如短视频⑥、短视频⑨、短视频⑤以及短视频⑦，当用户在终端进行触摸操作，如将用户界面向上滑动时，则服务器可以根据短视频推荐列表实时向用户推荐短视频内容，进而实时更新客户端所展示的短视频内容，则此时用户将用户界面上滑时，客户端展示的内容可以更新为短视频⑤、短视频⑦、短视频②以及短视频④，当用户继续进行触摸操作时，则可以进一步更新为短视频②、短视频④、短视频①以及短视频⑩，从而当用户在使用短视频客户端时，服务器可以在后台实时地更新短视频推荐列表，并实时对客户端进行更新，从而更加精准地预测用户对推荐内容的喜好度，并依次挑选最优的推荐内容，然后展示给用户，提高了向用户推荐内容的精准度。

在本发明实施例的另一种示例中，当原始推荐内容为文章，客户端为阅读应用程序时，当用户启动终端中的阅读应用程序时，服务器可以根据用户的ID标识，获取针对用户的用户行为信息，并获取待推荐的文章内容。接着可以对用户行为信息进行向量化处理，并输入行为预估模型，得到与用户的反馈行为匹配的用户行为预估值，然后可以所得到的用户行为预估值、用户行为信息以及文章内容的内容特征信息进行向量化处理，并输入文章推荐模型，生成与文章内容对应的文章推荐值，如表3所示：

表3

接着可以根据内容推荐值从高到低的顺序对文章进行排序，生成文章推荐列表，如表4所示：

文章标识	文章推荐值
		文章⑥	98
文章⑨	93
		文章⑤	90
文章⑦	88
		文章②	86
文章④	80
		文章①	75
文章⑩	74
		文章③	62
文章⑧	56
		…	N

表4

然后服务器可以根据终端的信息，或客户端的信息，从该文章推荐列表中选择排序靠前的文章，并通过客户端向用户展示推荐的文章。具体的，不同的终端对应的屏幕信息不同，则终端所展示的文章条目数量也不同，终端屏幕尺寸越大，则可以展示的文章条目越多，因此，服务器可以根据终端的屏幕信息，从文章推荐列表中选择合适数目的文章，并推荐给用户。

如图3所示，为本发明实施例中的示例图二，当客户端向用户展示4个文章时，则用户打开客户端，并进行更新时，服务器可以从上述文章推荐列表中，选择4个最靠前的文章推荐给用户，如文章⑥、文章⑨、文章⑤以及文章⑦，当用户在终端进行触摸操作，如将用户界面向上滑动时，则服务器可以根据文章推荐列表实时向用户推荐文章内容，进而实时更新客户端所展示的文章内容，则此时用户将用户界面上滑时，客户端展示的内容可以更新为文章⑤、文章⑦、文章②以及文章④，当用户继续进行触摸操作时，则可以进一步更新为文章②、文章④、文章①以及文章⑩，从而当用户在使用文章客户端时，服务器可以在后台实时地更新文章推荐列表，并实时对客户端进行更新，从而更加精准地预测用户对推荐内容的喜好度，并依次挑选最优的推荐内容，然后展示给用户，提高了向用户推荐内容的精准度。

需要说明的是，本发明实施例包括但不限于上述示例，可以理解的是，本领域技术人员在本发明实施例的思想指导下，可以根据不同的推荐内容、不同终端、不同客户端等向用户推荐内容条目，本发明实施例对此不作限制。

参照图4，示出了本发明的一种行为预估模型的生成方法实施例的步骤流程图，具体可以包括如下步骤：

步骤401，获取历史用户行为信息以及初始行为预估模型；

在具体实现中，历史用户行为信息可以包括点击率、点赞率、播完率、关注率、分享率、评论率等用户针对不同内容的历史反馈行为。初始行为预估模型可以为多目标深度神经网络模型，可以包括预设数目的隐藏层、与最后一层隐藏层连接的全连接层以及与所述全连接层连接的多个输出节点；所述全连接层用于将所述最后一层隐藏层的输出结果拆分，并将拆分的输出结果分别输入到所述多个输出节点，其中，各个输出节点可以输出与用户的反馈行为对应的用户行为预估值。

步骤402，对所述历史用户行为信息进行向量化，生成训练向量信息；

在具体实现中，当得到历史用户行为信息后，可以进行向量化处理，生成训练向量信息，以输入初始行为预估模型进行模型训练。

步骤403，在所述初始行为预估模型中，输入所述训练向量信息进行迭代，并计算每次迭代后的初始行为预估模型的多个损失函数；所述多个损失函数包括基于不同历史用户行为信息的损失函数；

在具体实现中，可以在初始行为预估模型中，输入训练向量信息进行迭代，并计算每次迭代后初始行为预估模型对应的多个损失函数，其中，多个损失函数包括基于不同历史用户行为信息的损失函数，如历史用户行为信息包括点击率、点赞率、播完率、关注率、分享率、评论率等，则多个损失函数包括点击率评估值、点赞率评估值、播完率评估值、关注率评估值、分享率评估值、评论率评估值等对应的损失函数。

具体的，可以通过初始行为预估模型中预设数目的隐藏层每一神经元的激活函数，对训练特征向量逐层进行映射，并将最后一层隐藏层生成的输出结果传输至全连接层；通过全连接层采用输出结果，和与输出结果对应的多个损失函数，进行误差计算，生成多个梯度值。

在本发明实施例的一种示例中，初始行为预估模型可以包括2层隐藏层以及全连接层，当历史用户行为信息包括点击率、点赞率、播完率、关注率、分享率、评论率等6个行为信息时，则初始行为预估模型可以包括6个输出节点，与历史用户行为信息一一对应。

需要说明的是，本发明实施例包括但不限于上述示例，本领域技术人员在本发明实施例的思想指导下，可以根据实际情况设置行为预估模型的隐藏层数目，以及输出节点的数目，本发明实施例对此不作限制。

步骤404，当迭代之后的初始行为预估模型的多个损失函数均最小化时，停止迭代，生成目标行为预估模型；

在具体实现中，当迭代后的初始行为预估模型的多个损失函数均最小化，可以停止模型的迭代，从而生成目标行为预估模型。

具体的，可以通过各个输出节点判断多个梯度值是否满足预设阈值条件；若否，则根据多个梯度值更新每一神经元的激活函数的参数，继续迭代初始行为预估模型；若是，则生成目标行为预估模型。

其中，对激活函数的参数更新，可以是基于梯度下降策略，以目标梯度方向对参数进行更新。在具体实现中，可以预设一学习率，控制每一轮迭代中参数的更新步长，从而最终得到目标行为预估模型。

在本发明实施例中，通过获取历史用户行为信息以及初始行为预估模型，对历史用户行为信息进行向量化，生成训练向量信息，在初始行为预估模型中，输入训练向量信息进行迭代，并计算每次迭代后的初始行为预估模型的多个损失函数，多个损失函数包括基于不同历史用户行为信息的损失函数，当迭代之后的初始行为预估模型的多个损失函数均最小化时，停止迭代，生成目标行为预估模型，在训练的过程中，将用户针对不同内容的反馈行为作为模型的输入，通过模型的将各个不同的反馈行为进行关联，从而可以取得较好的泛化效果，同时提升了共享层的学习速率和减少过拟合的情况，进而提高了内容推荐的准确度。

参照图5，示出了本发明的一种内容推荐模型的生成方法实施例的步骤流程图，具体可以包括如下步骤：

步骤501，获取样本数据以及初始内容推荐模型，所述样本数据包括历史用户行为信息，与所述历史用户行为信息对应的历史用户行为预估值，推荐内容的内容特征信息；

在具体实现中，训练样本数据可以包括历史用户行为信息，与历史用户行为信息对应的历史用户行为预估值，以及推荐内容的内容特征信息等。其中，历史用户行为信息可以包括点击率、点赞率、播完率、关注率、分享率、评论率等用户针对不同内容的历史反馈行为。

其中，初始内容推荐模型可以包括预设数目的隐藏层、与最后一层隐藏层连接的全连接层、与全连接层连接的Rank Cost层以及与Rank Cost层连接的多个输出节点，其中，Rank Cost层用于将全连接层的输出结果进行转换，并将转换后的输出结果分别输入到多个输出节点，其中，输出节点可以输入与推荐内容对应的内容推荐值。

步骤502，对所述历史用户行为信息、所述历史用户行为预估值以及所述内容特征信息进行向量化，生成训练向量信息；

在具体实现中，当得到历史用户行为信息、历史用户行为预估值以及内容特征信息后，可以分别对三者进行向量化，并进行拼接，生成训练向量信息，以输入初始内容推荐模型进行模型训练。

步骤503，在所述初始内容推荐模型中，输入所述训练向量信息进行迭代，并计算每次迭代后的初始内容推荐模型的多个损失函数；

在具体实现中，可以在初始内容推荐模型中，输入训练向量信息进行迭代，并计算每次迭代后初始内容推荐模型对应的多个损失函数，其中，多个损失函数包括基于不同推荐内容的损失函数，如推荐内容包括内容一、内容二、内容三、内容四以及内容五等，则多个损失函数可以包括内容一的内容推荐值、内容二的内容推荐值、内容三的内容推荐值、内容四的内容推荐值以及内容五的内容推荐值等对应的算是函数。

具体的，可以通过初始内容推荐模型中预设数目的隐藏层、以及全连接层每一神经元的激活函数，对训练特征向量逐层进行映射，并将全连接层生成的输出结果传输至Rank Cost层，通过Rank Cost层采用输出结果，和与输出结果对应的多个损失函数，进行误差计算，生成多个梯度值。

在本发明实施例的一种示例中，初始内容推荐模型可以包括2层隐藏层以及全连接层，当待推荐内容为6个时，则初始内容推荐模型可以包括6个输出节点，与待推荐内容一一对应。

需要说明的是，本发明实施例包括但不限于上述示例，本领域技术人员在本发明实施例的思想指导下，可以根据实际情况设置内容推荐模型的隐藏层数目，以及输出节点的数目，本发明实施例对此不作限制。

步骤504，当迭代之后的初始内容推荐模型的多个损失函数均最小化时，停止迭代，生成目标内容推荐模型；

在具体实现中，当迭代后的初始内容推荐模型的多个损失函数均最小化，可以停止模型的迭代，从而生成目标内容推荐模型。

具体的，可以通过各个输出节点判断多个梯度值是否满足预设阈值条件；若否，则根据多个梯度值更新每一神经元的激活函数的参数，继续迭代初始内容推荐模型；若是，则生成目标内容推荐模型。

其中，对激活函数的参数更新，可以是基于梯度下降策略，以目标梯度方向对参数进行更新。在具体实现中，可以预设一学习率，控制每一轮迭代中参数的更新步长，从而最终得到目标内容推荐模型。

在本发明实施例中，通过获取样本数据以及初始内容推荐模型，样本数据包括历史用户行为信息，与历史用户行为信息对应的历史用户行为预估值，推荐内容的内容特征信息，对历史用户行为信息、历史用户行为预估值以及内容特征信息进行向量化，生成训练向量信息，在初始内容推荐模型中，输入训练向量信息进行迭代，并计算每次迭代后的初始内容推荐模型的多个损失函数，当迭代之后的初始内容推荐模型的多个损失函数均最小化时，停止迭代，生成初始内容推荐模型，从而通过将行为预估模型输出的用户行为预估值作为内容推荐模型的输入，从而解决了模型训练过程中，人为设定训练样本的标签与权重的主观性，以及用户行为习惯之间的偏差对模型训练的干扰，进一步提高了向用户推荐内容的精准度。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图6，示出了本发明的一种内容的推荐装置实施例的结构框图，具体可以包括如下模块：

信息获取模块601，用于获取与原始推荐内容对应的内容特征信息，以及，用户行为信息；

预估值生成模块602，用于根据所述用户行为信息，生成用户行为预估值；

推荐值生成模块603，用于根据所述用户行为预估值、所述用户行为信息以及所述内容特征信息，得到各个所述原始推荐内容的内容推荐值；

推荐内容确定模块604，用于根据所述内容推荐值，确定至少两个目标推荐内容。

在本发明实施例的一种可选实施例中，所述预估值生成模块602包括：

行为向量生成子模块，用于对所述用户行为信息进行向量化处理，生成行为特征向量；

预估值生成子模块，用于将所述行为特征向量输入预设的目标行为预估模型，生成所述用户行为预估值。

在本发明实施例的一种可选实施例中，所述推荐值生成模块603包括：

内容推荐向量生成子模块，用于对所述用户行为预估值、所述用户行为信息以及所述内容特征信息进行向量化处理，生成内容推荐特征向量；

推荐值生成子模块，用于将所述内容推荐向量输入预设的目标内容推荐模型，生成各个所述原始推荐内容的内容推荐值。

在本发明实施例的一种可选实施例中，所述推荐内容确定模块604包括：

推荐内容排序子模块，用于按照内容推荐值从高到低的顺序，对各个所述原始推荐内容进行排序；

推荐列表生成子模块，用于采用排序后的原始推荐内容，生成内容推荐列表；

推荐内容提取子模块，用于从所述内容推荐列表中，提取排序在前的至少两个原始推荐内容，作为目标推荐内容。

在本发明实施例的一种可选实施例中，所述目标行为预估模型通过如下模块生成：

第一信息向量化模块，用于对所述历史用户行为信息进行向量化，生成第一训练向量信息；

第一模型迭代模块，用于在所述初始行为预估模型中，输入所述第一训练向量信息进行迭代，并计算每次迭代后的初始行为预估模型的多个损失函数；所述多个损失函数包括基于不同历史用户行为信息的损失函数；

第一模型生成模块，用于当迭代之后的初始行为预估模型的多个损失函数均最小化时，停止迭代，生成目标行为预估模型。

在本发明实施例的一种可选实施例中，所述目标内容推荐模型通过如下模块生成：

第二信息向量化模块，用于对所述历史用户行为信息、所述历史用户行为预估值以及所述内容特征信息进行向量化，生成第二训练向量信息；

第二模型迭代模块，用于在所述初始内容推荐模型中，输入所述第二训练向量信息进行迭代，并计算每次迭代后的初始内容推荐模型的多个损失函数；

第二模型生成模块，用于当迭代之后的初始内容推荐模型的多个损失函数均最小化时，停止迭代，生成目标内容推荐模型。

在本发明实施例的一种可选实施例中，所述用户行为信息包括点击率、点赞率、播完率、关注率、分享率、评论率、收藏率、浏览时长等中至少两种。

参照图7，示出了本发明的一种行为预估模型的生成装置实施例的结构框图，具体可以包括如下模块：

信息与模型获取模块701，用于获取历史用户行为信息以及初始行为预估模型；

信息向量化模块702，用于对所述历史用户行为信息进行向量化，生成训练向量信息；

模型迭代模块703，用于在所述初始行为预估模型中，输入所述训练向量信息进行迭代，并计算每次迭代后的初始行为预估模型的多个损失函数；所述多个损失函数包括基于不同历史用户行为信息的损失函数；

模型生成模块704，用于当迭代之后的初始行为预估模型的多个损失函数均最小化时，停止迭代，生成目标行为预估模型；

在本发明实施例的一种可选实施例中，所述初始行为预估模型包括预设数目的隐藏层、与最后一层隐藏层连接的全连接层以及与所述全连接层连接的多个输出节点；所述全连接层用于将所述最后一层隐藏层的输出结果拆分，并将拆分的输出结果分别输入到所述多个输出节点。

在本发明实施例的一种可选实施例中，所述模型迭代模块703包括：

向量映射子模块，用于通过所述预设数目的隐藏层每一神经元的激活函数，对所述训练特征向量逐层进行映射，并将最后一层隐藏层生成的输出结果传输至所述全连接层；

梯度值生成子模块，用于通过所述全连接层采用所述输出结果，和与所述输出结果对应的多个损失函数，进行误差计算，生成多个梯度值。

在本发明实施例的一种可选实施例中，所述模型生成模块704具体用于：

通过所述输出节点判断所述多个梯度值是否满足预设阈值条件；

若否，则根据所述多个梯度值更新所述每一神经元的激活函数的参数，继续迭代所述初始行为预估模型；

若是，则生成所述目标行为预估模型。

参照图8，示出了本发明的一种内容推荐模型的生成装置实施例的结构框图，具体可以包括如下模块：

数据与模型获取模块801，用于获取样本数据以及初始内容推荐模型，所述样本数据包括历史用户行为信息，与所述历史用户行为信息对应的历史用户行为预估值，推荐内容的内容特征信息；

信息向量化模块802，用于对所述历史用户行为信息、所述历史用户行为预估值以及所述内容特征信息进行向量化，生成训练向量信息；

模型迭代模块803，用于在所述初始内容推荐模型中，输入所述训练向量信息进行迭代，并计算每次迭代后的初始内容推荐模型的多个损失函数；

模型生成模块804，用于当迭代之后的初始内容推荐模型的多个损失函数均最小化时，停止迭代，生成目标内容推荐模型；

在本发明实施例的一种可选实施例中，所述初始内容推荐模型包括预设数目的隐藏层、与最后一层隐藏层连接的全连接层、与所述全连接层连接的Rank Cost层以及与所述Rank Cost层连接的多个输出节点；所述Rank Cost层用于将所述全连接层的输出结果进行转换，并将转换后的输出结果分别输入到所述多个输出节点。

在本发明实施例的一种可选实施例中，所述模型迭代模块803包括：

向量映射子模块，用于通过所述预设数目的隐藏层、以及所述全连接层每一神经元的激活函数，对所述训练特征向量逐层进行映射，并将所述全连接层生成的输出结果传输至所述Rank Cost层；

梯度值生成子模块，用于通过所述Rank Cost层采用所述输出结果，和与所述输出结果对应的多个损失函数，进行误差计算，生成多个梯度值。

在本发明实施例的一种可选实施例中，所述模型生成模块804具体用于：

若否，则根据所述多个梯度值更新所述每一神经元的激活函数的参数，继续迭代所述初始内容推荐模型；

若是，则生成目标内容推荐模型。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种存储介质，

本发明实施例还提供了一种计算机设备，其包括：

一个或多个处理器；

存储器；

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种内容的推荐方法及装置、一种行为预估模型的生成方法及装置，以及一种内容推荐模型的生成方法及装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种内容的推荐方法，其特征在于，所述方法包括：

根据所述用户行为信息，生成用户行为预估值；

根据所述内容推荐值，确定至少两个目标推荐内容。

2.根据权利要求1所述的方法，其特征在于，所述根据所述用户行为信息，生成用户行为预估值，包括：

对所述用户行为信息进行向量化处理，生成行为特征向量；

将所述行为特征向量输入预设的目标行为预估模型，生成所述用户行为预估值。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述评估值以及所述内容特征信息，得到各个所述原始推荐内容的内容推荐值，包括：

对所述用户行为预估值、所述用户行为信息以及所述内容特征信息进行向量化处理，生成内容推荐特征向量；

将所述内容推荐向量输入预设的目标内容推荐模型，生成各个所述原始推荐内容的内容推荐值。

4.根据权利要求1所述的方法，其特征在于，所述根据所述内容推荐值，确定至少两个目标推荐内容，包括：

按照内容推荐值从高到低的顺序，对各个所述原始推荐内容进行排序；

采用排序后的原始推荐内容，生成内容推荐列表；

从所述内容推荐列表中，提取排序在前的至少两个原始推荐内容，作为目标推荐内容。

5.根据权利要求1所述的方法，其特征在于，所述目标行为预估模型通过如下方式生成：

获取历史用户行为信息以及初始行为预估模型；

对所述历史用户行为信息进行向量化，生成第一训练向量信息；

在所述初始行为预估模型中，输入所述第一训练向量信息进行迭代，并计算每次迭代后的初始行为预估模型的多个损失函数；所述多个损失函数包括基于不同历史用户行为信息的损失函数；

当迭代之后的初始行为预估模型的多个损失函数均最小化时，停止迭代，生成目标行为预估模型。

6.根据权利要求1所述的方法，其特征在于，所述目标内容推荐模型通过如下方式生成：

对所述历史用户行为信息、所述历史用户行为预估值以及所述内容特征信息进行向量化，生成第二训练向量信息；

在所述初始内容推荐模型中，输入所述第二训练向量信息进行迭代，并计算每次迭代后的初始内容推荐模型的多个损失函数；

当迭代之后的初始内容推荐模型的多个损失函数均最小化时，停止迭代，生成目标内容推荐模型。

7.根据权利要求5或6所述的方法，其特征在于，所述用户行为信息包括点击率、点赞率、播完率、关注率、分享率、评论率、收藏率、浏览时长等中至少两种。

8.一种行为预估模型的生成方法，其特征在于，包括：

获取历史用户行为信息以及初始行为预估模型；

对所述历史用户行为信息进行向量化，生成训练向量信息；

9.根据权利要求8所述的方法，其特征在于，所述初始行为预估模型包括预设数目的隐藏层、与最后一层隐藏层连接的全连接层以及与所述全连接层连接的多个输出节点；所述全连接层用于将所述最后一层隐藏层的输出结果拆分，并将拆分的输出结果分别输入到所述多个输出节点。

10.根据权利要求9所述的方法，其特征在于，所述在所述初始行为预估模型中，输入所述训练向量信息进行迭代，并计算每次迭代后的初始行为预估模型的多个损失函数，包括：

通过所述预设数目的隐藏层每一神经元的激活函数，对所述训练特征向量逐层进行映射，并将最后一层隐藏层生成的输出结果传输至所述全连接层；

通过所述全连接层采用所述输出结果，和与所述输出结果对应的多个损失函数，进行误差计算，生成多个梯度值。

11.根据权利要求10所述的方法，其特征在于，所述当迭代之后的初始行为预估模型的多个损失函数均最小化时，停止迭代，生成目标行为预估模型，包括：

若是，则生成所述目标行为预估模型。

12.一种内容推荐模型的生成方法，其特征在于，包括：

13.根据权利要求12所述的方法，其特征在于，所述初始内容推荐模型包括预设数目的隐藏层、与最后一层隐藏层连接的全连接层、与所述全连接层连接的Rank Cost层以及与所述Rank Cost层连接的多个输出节点；所述Rank Cost层用于将所述全连接层的输出结果进行转换，并将转换后的输出结果分别输入到所述多个输出节点。

14.根据权利要求13所述的方法，其特征在于，所述在所述初始内容推荐模型中，输入所述训练向量信息进行迭代，并计算每次迭代后的初始内容推荐模型的多个损失函数，包括：

通过所述预设数目的隐藏层、以及所述全连接层每一神经元的激活函数，对所述训练特征向量逐层进行映射，并将所述全连接层生成的输出结果传输至所述Rank Cost层；

通过所述Rank Cost层采用所述输出结果，和与所述输出结果对应的多个损失函数，进行误差计算，生成多个梯度值。

15.根据权利要求14所述的方法，其特征在于，当迭代之后的初始内容推荐模型的多个损失函数均最小化时，停止迭代，生成目标内容推荐模型，包括：

若是，则生成目标内容推荐模型。

16.一种内容的推荐装置，其特征在于，所述装置包括：

17.一种行为预估模型的生成装置，其特征在于，包括：

18.一种内容推荐模型的生成装置，其特征在于，包括：

19.一种存储介质，其特征在于，

其上存储有计算机程序；所述计算机程序适于由处理器加载并执行上述权利要求1-7或8-11或12-15所述的一个或多个的方法。

20.一种计算机设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行根据权利要求1-7或8-11或12-15所述的方法。