CN111177575B

CN111177575B - 一种内容推荐方法、装置、电子设备和存储介质

Info

Publication number: CN111177575B
Application number: CN202010263520.7A
Authority: CN
Inventors: 凌程; 王亚龙; 王瑞; 谢若冰; 夏锋; 林乐宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-07-24
Anticipated expiration: 2040-04-07
Also published as: US20220245213A1; CN111177575A; US11893071B2; WO2021203819A1

Abstract

本申请涉及计算机技术领域，尤其涉及机器学习技术领域，提供一种内容推荐方法、装置、电子设备和存储介质，用以提高网络数据传输和保存的安全性，其中，方法包括：响应目标对象的内容推荐请求，获取目标对象的内容反馈信息和待推荐内容的内容特征信息；根据内容反馈信息中的显式反馈信息和隐式反馈信息进行特征交叉，获得目标对象的行为偏好信息；基于行为偏好信息、内容反馈信息和内容特征信息进行特征提取，获得目标对象对待推荐内容的预估点击率；根据各个待推荐内容的预估点击率从待推荐内容中为目标对象确定推荐内容。由于本申请可以结合用户的显式反馈和隐式反馈推测用户喜好，进而结合用户喜欢向用户进行内容推荐，提升内容推荐的精确性。

Description

一种内容推荐方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及机器学习技术领域，提供一种内容推荐方法、装置、电子设备和存储介质。

背景技术

互联网的兴起使人们可以在浏览相同的页面时看到不同的网络内容，实现网络内容的个性化展示。基于点击率进行测试，可以了解不同用户感兴趣的网络内容，从而向每个用户更精准的展示对应的网络内容，以提高网络内容的点击率，改善网络内容投放效果和页面的访问量。

网络内容点击率预估指的是在每一次用户请求页面时，后台系统采用预置的预估模型对用户点击各个页面的点击率进行预测，进而根据点击率向用户推荐网络内容。在相关技术中，后台系统所采用的预估模型局限在于分析用户偏好时所采用的特征较为单一，分析得到的用户偏好和用户真实的偏好兴趣存在一定偏差，因此基于预估模型预估得到的点击率也有一定偏差，造成内容推荐精确性较低。

发明内容

本申请实施例提供一种内容推荐方法、装置、电子设备和存储介质，用以提升内容推荐的精确性。

本申请实施例提供的一种内容推荐方法，包括：

响应目标对象的内容推荐请求，获取所述目标对象的内容反馈信息和待推荐内容的内容特征信息，其中所述内容反馈信息至少包括所述目标对象对已推荐内容的显式反馈信息、隐式反馈信息以及所述目标对象的对象画像信息；

根据所述内容反馈信息中的显式反馈信息和隐式反馈信息进行特征交叉，获得所述目标对象的行为偏好信息；

基于所述行为偏好信息、所述内容反馈信息和所述内容特征信息进行特征提取，获得所述目标对象对所述待推荐内容的预估点击率；

根据预估得到的所述目标对象对各个待推荐内容的预估点击率，从待推荐内容中为所述目标对象确定推荐内容。

本申请实施例提供的一种内容推荐装置，包括：

信息获取单元，用于响应目标对象的内容推荐请求，获取所述目标对象的内容反馈信息和待推荐内容的内容特征信息，其中所述内容反馈信息至少包括所述目标对象对已推荐内容的显式反馈信息、隐式反馈信息以及所述目标对象的对象画像信息；

第一特征提取单元，用于根据所述内容反馈信息中的显式反馈信息和隐式反馈信息进行特征交叉，获得所述目标对象的行为偏好信息；

第二特征提取单元，用于基于所述行为偏好信息、所述内容反馈信息和所述内容特征信息进行特征提取，获得所述目标对象对所述待推荐内容的预估点击率；

预估单元，用于根据预估得到的所述目标对象对各个待推荐内容的预估点击率，从待推荐内容中为所述目标对象确定推荐内容。

可选的，所述第一特征提取单元具体用于：

分别将所述目标对象的内容反馈信息和待推荐内容的内容特征信息输入已训练的预估模型，通过所述已训练的预估模型对所述内容反馈信息中的显式反馈信息和隐式反馈信息进行特征交叉，获得所述目标对象的行为偏好信息；

所述第二特征提取单元具体用于：

通过所述已训练的预估模型对所述行为偏好信息、所述内容反馈信息和所述内容特征信息进行特征提取，获得所述预估模型输出的所述目标对象对所述待推荐内容的预估点击率；

其中，所述已训练的预估模型是根据已标注预估点击率的训练样本数据集训练得到的，所述训练样本数据集中的训练样本包括样本对象的内容反馈信息和样本内容的内容特征信息。

可选的，所述预估模型包括深度反馈交叉部分；所述第一特征提取单元具体用于：

分别将所述显式反馈信息和所述隐式反馈信息输入所述深度反馈交叉部分，获得所述深度反馈交叉部分输出的所述目标对象的行为偏好信息。

可选的，所述隐式反馈信息包括所述目标对象对应的点击历史序列和未点击历史序列，所述显式反馈信息包括所述目标对象对应的显式反馈历史序列；

所述第一特征提取单元具体用于：

分别将所述目标对象对应的点击历史序列、未点击历史序列和显式反馈历史序列输入所述深度反馈交叉部分，基于所述深度反馈交叉部分中的transformer对所述点击历史序列进行编解码处理得到对应的点击高阶向量，以及对所述未点击历史序列进行编解码处理得到对应的未点击高阶向量，以及对所述显式反馈历史序列进行编解码处理得到对应的显式反馈高阶向量；

通过注意力机制将所述点击高阶向量与所述未点击历史序列进行特征交叉，获得所述目标对象对应的第一交叉向量，以及将所述显式反馈高阶向量与所述未点击历史序列进行特征交叉，获得所述目标对象对应的第二交叉向量；

将所述点击高阶向量、未点击高阶向量、显式反馈高阶向量、第一交叉向量和第二交叉向量进行合并，得到所述目标对象的行为偏好特征向量，并将所述行为偏好特征向量作为所述目标对象的行为偏好信息。

可选的，所述第一特征提取单元还用于：

在基于所述深度反馈交叉部分中的transformer对所述点击历史序列进行编解码处理得到对应的点击高阶向量，以及对所述未点击历史序列进行编解码处理得到对应的未点击高阶向量，以及对所述显式反馈历史序列进行编解码处理得到对应的显式反馈高阶向量之前，分别将所述点击历史序列、所述未点击历史序列以及所述显式反馈历史序列与时间信息进行特征融合。

可选的，所述对象画像信息包括所述目标对象的各个对象画像特征字段，所述内容特征信息包括所述待推荐内容的各个内容画像特征字段；所述装置还包括：

第三特征提取单元，用于在所述第二特征提取单元通过所述已训练的预估模型对所述行为偏好信息、所述内容反馈信息和所述内容特征信息进行特征提取之前，将各个对象画像特征字段和各个内容画像特征字段对应的稀疏特征向量进行嵌入处理，得到各个对象画像特征字段和各个内容画像特征字段对应的稠密特征向量。

可选的，所述预估模型还包括宽度网络部分、因子分解机部分和深度神经网络部分；所述目标对象的行为偏好信息为行为偏好特征向量；

所述第二特征提取单元具体用于：

基于所述宽度网络部分学习所述内容反馈信息和所述内容特征信息中不同特征字段的权重贡献，获得特征权重向量，以及基于所述因子分解机部分对所述行为偏好特征向量和各个稠密特征向量进行特征提取，获得所述目标对象对应的低阶交叉特征向量，以及基于所述深度神经网络部分对所述行为偏好特征向量和所述各个稠密特征向量进行特征提取，获得所述目标对象对应的高阶交叉特征向量；

将所述特征权重向量、所述低阶交叉特征向量和所述高阶交叉特征向量合并到全连接层，通过加权求和确定所述目标对象对所述待推荐内容的预估点击率。

可选的，所述第二特征提取单元具体用于：

将所述各个稠密特征向量和所述行为偏好特征向量分别输入所述因子分解机部分，利用哈达马积提取所述各个稠密特征向量和所述行为偏好特征向量中任意两个特征向量之间的交叉结果；

基于不同特征向量之间的交叉结果生成所述低阶交叉特征向量。

可选的，所述装置还包括模型训练单元：

所述模型训练单元用于通过下列方式训练得到所述已训练的预估模型：

从所述训练样本数据集中选取训练样本，其中，所述训练样本中标注有样本对象对样本内容的预估点击率；

针对任意一个训练样本，将所述训练样本包含的样本对象的内容反馈信息和样本内容的内容特征信息输入未训练的预估模型，获得所述未训练的预估模型输出的所述样本对象对所述样本内容的预估点击率；

基于目标损失函数对所述未训练的预估模型中的参数进行优化，使得每个训练样本标注的预估点击率与通过所述未训练的预估模型得到的预估点击率的差值在允许的差距范围内为止，得到所述已训练的预估模型。

可选的，所述目标损失函数包括与所述样本对象的内容反馈信息对应的显式反馈损失项以及隐式反馈损失项。

本申请实施例提供的一种电子设备，包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行上述任意一种内容推荐方法的步骤。

本申请实施例提供一种计算机可读存储介质，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使所述电子设备执行上述任意一种内容推荐方法的步骤。

本申请有益效果如下：

本申请实施例提供的内容推荐方法、装置、电子设备和存储介质，由于本申请实施例在对待推荐内容进行点击率预估时，除了目标对象对已推荐内容的隐式反馈信息之外，还引入了目标对象对已推荐内容的显式反馈信息，将显式反馈信息与隐式反馈信息相结合，通过特征交叉的方式确定目标对象的行为偏好信息，该方式下确定出的行为偏好信息相比于仅依据目标对象的隐式反馈信息确定出的行为偏好信息更加准确可靠。在该方式获得的行为偏好信息的基础上，结合目标对象的内容反馈信息以及待推荐内容的内容特征信息获得的预估点击率相比于相关技术方案中仅依据隐式反馈信息确定出的预估点击率更加准确，因而基于此预估点击率对各个待推荐内容进行排序，根据排序结果向目标对象进行内容推荐时，推荐的内容更加符合目标对象的喜好，因此提升内容推荐的精确性，进而还提高目标对象对推荐内容的点击率。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中的一个可选的应用场景示意图；

图2为本申请实施例中的一种内容推荐方法的流程示意图；

图3为本申请实施例中的一种内容推荐界面的示意图；

图4为本申请实施例中的另一种内容推荐界面的示意图；

图5为本申请实施例中的一种预估模型的结构示意图；

图6为本申请实施例中的一种深度反馈交叉模块的结构示意图；

图7为本申请实施例中的一个可选的内容推荐完整方法的流程示意图；

图8为本申请实施例中的一种内容推荐装置的组成结构示意图；

图9为本申请实施例中的一种电子设备的组成结构示意图；

图10为应用本申请实施例的一种计算装置的一个硬件组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

下面对本申请实施例中涉及的部分概念进行介绍。

内容：指所有的被发布到互联网上可以被查看、读取的信息的统称，也可称作网络内容，例如视频、新闻、电子书籍、网络文章、资讯以及论坛帖子等，还可以指商品。本申请实施例中的内容主要分为待推荐内容和已推荐内容。其中，待推荐内容是指还未向目标对象进行推荐的网络内容，通过预估点击率来从多个待推荐内容中筛选取向目标对象推荐的网络内容。已推荐内容是指已经向目标对象推荐过的网络内容，因此已推荐内容会对应有目标对象行为反馈。

内容特征信息：是用于描述内容属性的信息，在本申请实施例中，也可称作内容画像，以待推荐内容为文章为例，用于描述文章的标题（切词）、类别、作者、自身ID（Identity，标识）等属性的信息都属于内容特征信息。

内容反馈信息：在推荐系统中，目标对象和系统存在着不同形式的交互行为，内容反馈信息则是根据目标对象对已推荐内容的交互行为确定的反馈信息，这些交互行为的方式可分为显式反馈和隐式反馈。在本申请实施例中，显式反馈行为指目标对象明确表示对已推荐内容喜好的行为，例如目标对象对已推荐内容的评分、评级，或者是喜欢或不喜欢等行为。隐式反馈行为指不能明确反映目标对象喜好的行为，来自于目标对象的非直接表达，例如浏览、点击或者不点击等行为。相对应地，反馈信息也可分为显式反馈信息和隐式反馈信息。除此之外，本申请实施例中的内容反馈信息还可包括对象画像的相关信息，例如用于描述目标对象的年龄、性别、职业、爱好等属性的信息。

行为偏好信息：是用于描述目标对象对网络内容偏好的信息，即目标对象喜欢哪些内容，不喜欢哪些内容等，在本申请实施例中，目标对象的行为偏好信息是结合目标对象的显式反馈信息和隐式反馈信息确定的，可表示为特征向量的形式。

feed流：指持续更新并呈现给目标对象内容的信息流。feed流推荐则是指一种聚合信息的内容推荐方式，通过feed流可以把动态实时的传播给订阅者，是目标对象获取信息流的一种有效方式。在本申请实施例中，可通过feed流推荐的方式向目标对象推荐内容。

CTR（Click-Through-Rate，点击通过率）：即点击率，在推荐系统中，通常是按照点击率对召回的内容子集进行排序，然后再结合策略进行内容的分发。在本申请实施例中，预估点击率则是指根据目标对象的喜欢预估得到的目标对象对待推荐内容的点击率，因此依据预估点击率可对召回的各个待推荐内容形成的内容子集进行排序，根据排序结果向目标对象进行个性化推荐。

点击历史序列：指根据用户对已推荐内容的点击行为确定出的各个已推荐内容的内容特征信息所组成的序列，例如在ID为1至10的10个已推荐内容中，用户点击的内容ID分别为1、3、5、7、9，则将这5个内容的内容特征信息按照随机顺序或者是时间顺序等排列组成点击历史序列。

未点击历史序列：指根据用户对已推荐内容的未点击行为确定出的各个已推荐内容的内容特征信息所组成的序列，例如在ID为1至10的10个已推荐内容中，用户未点击的内容ID分别为2、4、6、8、10，则将这5个内容的内容特征信息按照随机顺序或者是时间顺序等排列组成点击历史序列。

显式反馈历史序列：指根据用户对已推荐内容的显式反馈行为确定出的各个已推荐内容的内容特征信息所组成的序列，以点赞为例，若在ID为1至10的10个已推荐内容中，用户点赞的内容ID分别为1、3、5，则将这3个内容的内容特征信息按照随机顺序或者是时间顺序等排列组成点击历史序列。

哈达马积（Hadamard Product）：m×n矩阵

与m×n矩阵

的Hadamard积记作A*B。其元素定义为两个矩阵对应元素的乘积

的m×n矩阵。例如：

注意力机制：模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制，简单地说就是从大量信息中快速筛选出高价值信息。这种机制主要有两个方面：决定需要关注输入的哪部分；分配有限的信息处理资源给重要的部分。在神经网络中，基于注意力机制可以使得神经网络具备专注于其输入（或特征）子集的能力，选择特定的输入。

Transformer：来源于自然语言处理中的一种attention（注意力）机制，在推荐领域中能实现特征的深度交叉，学习出特征的高阶表达。

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在本申请实施例中提出的内容推荐方法可分为两部分，包括训练部分和应用部分；其中，训练部分就涉及到机器学习这一技术领域，在训练部分中，通过机器学习这一技术训练预估模型，使得训练样本中样本对象的内容反馈信息和样本内容的内容特征信息通过预估模型后，得到样本对象对样本内容的预估点击率，通过优化算法不断调整模型参数，得到已训练的预估模型；应用部分用于通过使用在训练部分训练得到的预估模型，获得目标对象对各个待推荐内容的预估点击率，进而依据各个待推荐内容对应的预估点击率，向目标对象推荐内容。

下面对本申请实施例的设计思想进行简要介绍：

在相关技术中的点击率预估模型输入特征较为单一，主要是基于用户画像和内容画像特征进行分析，并不包含用户的行为特征，因此分析得到的用户行为偏好不够准确，难以满足用户的个性化需求。

有鉴于此，本申请实施例提出一种内容推荐方法、装置、电子设备和存储介质。本申请实施例从用户反馈的角度出发，将用户和推荐系统的行为交互方式分成显式反馈和隐式反馈，而不是局限在点击和未点击两种行为方式上，基于此提出了一种预估模型，该模型可以很好地融入多种形式的用户行为反馈，除了点击已推荐内容和未点击已推荐内容两种行为方式外，主要还包括对已推荐内容进行分享、评分等行为方式，基于上述多种形式的用户行为可以确定用户的隐式反馈信息以及显式反馈信息，结合这些反馈信息可以更好地捕获用户兴趣，提高用户体验。具体的，本申请实施例中的预估模型主要包括深度反馈交叉（Deep feedback interaction）部分、宽度网络部分（Wide Component）、因子分解机部分（Factorization Machine Component，FM Component）和深度神经网络部分（Deep NeuralNetworks Component，DNN Component），其中Deep feedback interaction部分主要用于对用户的内容反馈信息进行特征交叉，获得用户的行为偏好信息，有效地捕获用户当前的兴趣。基于该部分确定的行为偏好信息后，主要通过Wide Component，FM Component和DNNComponent，对行为偏好信息、内容反馈信息和内容特征信息进行特征提取，最终获得预估点击率，通过本申请实施例中的内容推荐方法获得的点击率更加准确，因此基于该方式获得的预估点击率向用户推荐内容时，推荐的内容更加符合用户喜好，进而可提高内容推荐的精确性和点击率，提升了用户体验。

此外，在本申请实施例中，基于深度反馈交叉部分将反馈信息进行特征交叉时，还考虑了时间信息，将时间信息与用户历史行为序列进行融合，基于时间信息学习到的用户行为偏好更加贴合用户的生活习惯，更加真实可靠。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图1所示，其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备110和一个服务器130，可通过终端设备110登录内容推荐的相关界面120。终端设备110与服务器130之间可以通过通信网络进行通信。

在一种可选的实施方式中，通信网络是有线网络或无线网络。

在本申请实施例中，终端设备110为用户使用的电子设备，该电子设备可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器等具有一定计算能力并且运行有即时通讯类软件及网站或者社交类软件及网站的计算机设备。各终端设备110通过无线网络与服务器130连接，服务器130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

可选的，服务器130可以包括用于实现点击率预估平台131的服务器，可选的，服务器130还可以包括用于实现网络内容管理平台132的服务器。

其中，点击率预估平台131用于从网络对象发布的各个待推荐内容中确定出的为用户推荐针对至少一条网络内容。

可选的，网络内容管理平台132存储有网络对象发布的各条内容对应的用户行为。其中，内容对应的用户行为可以是用户对内容的点赞、回复、分享、评分以及引用等的用户行为。

可选的，网络内容管理平台132还用于维护以及向终端设备110推送网络内容，该网络内容包括但不限于电子书籍、网络文章、新闻、资讯、视频以及论坛帖子等。本申请实施例对于网络内容的具体形式不做限定。

需要说明的是，上述两个终端设备只是举例说明，在本申请实施例中实际一般可涉及若干终端设备。此外，上述点击率预估平台131、网络内容管理平台132的服务器可以是相互之间独立的服务器；或者，上述点击率预估平台131、网络内容管理平台132也可以实现在同一个服务器中。当上述两个平台实现在两个服务器中时，这两个服务器之间通过通信网络相连。

参阅图2所示，为本申请实施例提供的一种内容推荐方法的实施流程图，该方法的具体实施流程如下：

S21：响应目标对象的内容推荐请求，获取目标对象的内容反馈信息和待推荐内容的内容特征信息；

在本申请实施例中，目标对象可以指用户，还可以指用户所使用的账户等，下面主要以目标对象为用户为例进行详细介绍。

其中，内容反馈信息至少包括目标对象对已推荐内容的显式反馈信息、隐式反馈信息以及目标对象的对象画像信息。

在本申请实施例中，显式反馈信息指根据用户对已推荐内容的显式反馈行为确定的信息，包括显式负反馈信息和显式正反馈信息中的一种或多种。其中显式负反馈信息可以是用户借助显式负反馈按钮明确表示出喜好的已推荐内容的内容特征信息等，例如图3所示的负反馈按钮，用户关闭这一负反馈按钮的行为，可以明确表示出用户对该新闻的不喜欢或是不感兴趣的态度。

显式正反馈信息可以是用户借助正反馈按钮时明确表示出喜好的已推荐内容的内容特征信息等，例如图4所示的正反馈按钮，该按钮为点赞，用户点赞某一帖子的行为可以明确表示出用户对该帖子的喜欢或是赞同的态度。

可选的，目标对象的内容反馈信息还包括对象画像，也可称作用户画像，其中用户画像包括至少一个特征字段（feature field），例如：性别field、年龄field、职业field、爱好field（例如喜欢的游戏有游戏A、游戏B）等。

待推荐内容的内容特征信息则是指待推荐内容的内容画像，同样地，内容画像也包括至少一个特征字段，以待推荐内容为文章为例，内容画像特征字段可以是：文章标题field（或者文本标题切词）、ID field、作者field（例如出自哪一个公众号）、类别field（例如体育、教育、财经）等。

S22：根据内容反馈信息中的显式反馈信息和隐式反馈信息进行特征交叉，获得目标对象的行为偏好信息；

S23：基于行为偏好信息、内容反馈信息和内容特征信息进行特征提取，获得目标对象对待推荐内容的预估点击率；

在一种可选的实施方式中，根据目标对象的内容反馈信息和待推荐内容的内容特征信息，获得目标对象对待推荐内容的预估点击率时，可采用机器学习模型来实现，具体过程如下：

分别将目标对象的内容反馈信息和待推荐内容的内容特征信息输入已训练的预估模型，通过已训练的预估模型对内容反馈信息中的显式反馈信息和隐式反馈信息进行特征交叉，获得目标对象的行为偏好信息；进而通过已训练的预估模型对行为偏好信息、内容反馈信息和内容特征信息进行特征提取，获得预估模型输出的目标对象对待推荐内容的预估点击率。

其中，已训练的预估模型是根据已标注预估点击率的训练样本数据集训练得到的，训练样本数据集中的训练样本包括样本对象的内容反馈信息和样本内容的内容特征信息。

在本申请实施例中，训练样本中标注的预估点击率是根据用户行为确定的，若用户点击样本内容，则标注的预估点击率为1，若用户未点击样本内容，则标注的预估点击率为0。这些标注的预估点击率即训练样本的标签（label），基于标签可以将训练样本划分为正样本或是负样本，根据这些训练样本即可训练预估模型。

其中，训练样本数据集中包含多个训练样本，每一个训练样本是基于一个样本对象对一个样本内容的一次反馈行为生成的，包括样本对象的内容反馈信息以及样本内容的内容特征信息。

例如用户A在短视频软件A上浏览短视频时，针对其中一个短视频，用户A会产生点击或是未点击、点赞或是未点赞等反馈行为，此时用户A或者用户A当前登录的账户即样本对象，用户A当前浏览的短视频即样本内容。因此样本对象的内容反馈信息则包括用户A的年龄、性别等用户画像，以及用户A对应的显式反馈信息、隐式反馈信息等；样本内容的内容特征信息则是指该短视频的属性信息，具体包括该短视频的作者、类别等。

具体的，可通过终端设备中关于用户画像和内容画像提供的特征服务来获取样本对象的内容反馈信息，或是样本内容的内容特征信息。

其中，目标对象的行为偏好信息是基于目标对象的显式反馈信息和隐式反馈信息进行特征交叉提取到的，可用于描述目标对象行为偏好的反馈信息，具体可通过对目标对象的历史行为分析得到。

在本申请实施例中，基于预估模型确定目标对象对待推荐内容的预估点击率时，首先需要通过该模型对内容反馈信息中的显式反馈信息和隐式反馈信息进行特征交叉，获得目标对象的行为偏好信息；进而基于该模型结合目标对象的行为偏好信息、内容反馈信息以及待推荐内容的内容特征信息，获得目标对象对待推荐内容的预估点击率。

其中，预估模型输出的预估点击率可以是一个取值范围为0~1的概率值，待推荐内容对应的数值越大则表示向目标对象推荐该待推荐内容后，目标对象点击该待推荐内容的可能性越高。

在一种可选的实施方式中，通过下列方式训练得到已训练的预估模型：

从训练样本数据集中选取训练样本，其中，训练样本中标注有样本对象对样本内容的预估点击率；

针对任意一个训练样本，将训练样本包含的样本对象的内容反馈信息和样本内容的内容特征信息输入未训练的预估模型，获得未训练的预估模型输出的样本对象对样本内容的预估点击率；

通过目标损失函数对未训练的预估模型中的参数进行优化，使得每个训练样本标注的预估点击率与通过未训练的预估模型得到的预估点击率的差值在允许的差距范围内为止，得到已训练的预估模型。

在本申请实施例中，基于目标损失函数对预估模型进行优化时，主要是通过优化算法对目标损失函数进行优化，利用目标损失函数对预估模型进行至少一个阶段的训练直至模型收敛，从而训练出最好的模型。

其中，优化算法可以是梯度下降法、遗传算法、牛顿法、拟牛顿法等。

可选的，目标损失函数包括与样本对象的内容反馈信息对应的显式反馈损失项以及隐式反馈损失项。

在本申请实施例中，目标损失函数可以是交叉熵损失函数，也可以是其他类型的损失函数，下面主要是以交叉熵损失函数为例进行介绍，如下计算公式为本申请实施例提供的一种目标损失函数L：

其中，N为训练样本的数量，基于用户反馈行为可以将训练样本划分为三组，其中S_c中的训练样本对应的反馈行为为点击，S_u中的训练样本对应的反馈行为为未点击，S_d中的训练样本对应的反馈行为为显式负反馈行为（例如差评）；p（x）为预估模型针对训练样本x输出的预估点几率。

在上述计算公式中，根据用户的点击和未点击两种反馈行为将隐式反馈损失项分为：隐式正反馈损失项

；隐式负反馈损失项

；显式负反馈损失项为

。λ_c、λ_u、λ_d为各个损失项对应的权重，一般情况下，λ_c=λ_u=1，λ_d 较λ_c和λ_u更大一些，一般取值为7、8等。

在本申请实施例中，通过优化算法优化目标损失函数时，主要是根据预估模型的输出预估点击率对预估模型进行评测，根据评测结果调整λ_u，进而根据调整后的目标损失函数对预估模型进行优化，直至预估模型收敛，达到每个训练样本标注的预估点击率与通过未训练的预估模型得到的预估点击率的差值在允许的差距范围内的效果。

需要说明的是，在本模型中损失函数设计时，加入了与用户显式反馈行为相关的损失项，使模型对待推荐内容所组成的候选集进行排序时充分考虑了用户的显式反馈信息，使得排序结果更加精确。

在上述实施方式中，训练模型时所使用的训练样本越多，训练得到的模型越准确，因此在保证模型训练准确性和训练速度的基础上，可采用适量的训练样本进行训练。

S24：根据预估得到的目标对象对各个待推荐内容的预估点击率，从待推荐内容中为目标对象确定推荐内容。

在本申请实施例中，根据预估点击率向目标推荐进行内容推荐时，可将各个待推荐内容的预估点击率进行排序，选取排序结果在预设次序范围内的若干个待推荐内容推荐给目标对象，例如选取按照从大到小的顺序排序得到前N个的待推荐内容，或者选取按照从小到大的顺序排序得到的后N个的待推荐内容，其中N为正整数。

例如，目标对象为用户B，待推荐内容一共有10个，对应的预估点击率分别为：0.9、0.3、0.8、0.75、0.65、0.6、0.78、0.05、0.4、0.5。

若N=5，则向用户B推荐预估点击率分别为0.9、0.8、0.78、0.75、0.65的5个待推荐内容。

或者，选取预估点击率大于预设概率阈值的M个待推荐内容推荐给目标对象，其中M为正整数。

例如预设概率阈值为0.5，则向用户B推荐预估点击率分别为0.9、0.8、0.78、0.75、0.65、0.6的6个待推荐内容。

需要说明的是，上述实施例中所列举的几种根据预估点击率向目标对象进行内容推荐的方式只是举例说明，实际上任何一种根据预估点击率进行内容推荐的方式都适用于本申请实施例。

在本申请实施例中，可通过feed流推荐的方式向目标对象推荐内容，通过终端设备将选取出的若干个待推荐内容展示给目标对象，提升内容推荐的精确性和点击率。

下面结合图5对上述基于机器学习模型来获得目标对象对待推荐内容的预估点击率的过程进行详细介绍：

如图5所示，为本申请实施例提供的一种预估模型的结构示意图，预估模型的最低层即输入层，通过步骤S21获取到的信息可作为预估模型的输入参数，输入到预估模型中进行处理。其中，步骤S21中获取到的信息具体是指基于用户画像和内容画像提供的特征服务获取到的目标对象的内容反馈信息和待推荐内容的内容特征信息，其中目标对象的内容反馈信息至少包括目标对象对已推荐内容的显式反馈信息、隐式反馈信息，以及目标对象的对象画像信息；待推荐内容的内容特征信息主要是指内容画像信息。

在本申请实施例中，输入参数为Sparse features（稀疏特征）的形式，即输入的这些特征属于离散化特征，通常情况下，对于离散特征的处理，一般将其转化成one-hot（独热编码）的形式，但是one-hot类型的特征输入到神经网络中，会导致网络参数太多。因此本申请中预估模型的输入参数采用field的形式，把相同性质的特征归于同一个field，例如上文中介绍的年龄属于一个field、性别属于一个field、职业属于一个field、文章作者属于一个field、文章类别属于一个field等等。基于该方式可以有效减少网络参数，相应减小计算量，提高模型效率。

如图5所示，输入参数S50指目标对象的内容反馈信息和待推荐内容的内容特征信息对应的多个field，其中一个圆或多个圆对应一个field，例如针对用户年龄这一field，可以划分为5个圆，其中每个圆分别对应一个年龄区间，例如1~20岁对应一个圆，21~40对应一个圆，41~60对应一个圆，61~80对应一个圆，81~100对应一个圆。若目标对象的年龄为20岁，则其对应的年龄这一特征字段中的5个圆中的数字分别为1、0、0、0、0，其中数字为1表示目标对象的年龄落在这个圆所对应的年龄区间内。

以性别这一field为例，该field可以对应两个圆，一个圆表示性别女，另一个圆表示性别男，同样的，若目标对象的年龄为女，则这一field中的2个圆中的数字分别为1、0。以此类推，其他特征字段也是同样的道理，例如职业这一field，不同的圈可以代表不同的职业类型等等。在图5中输入层输入的Sparse features为海量的field对应的特征信息，其中每一个圈可对应一个16维的特征向量，即各个field对应的稀疏特征向量。

在本申请实施例中，根据输入预估模型的内容反馈信息和内容特征信息获取目标对象对待推荐内容的预估点击率时，主要分为S22和S23两个步骤；其中在步骤S22中，根据内容反馈信息中的显式反馈信息和隐式反馈信息进行特征交叉，获得目标对象的行为偏好信息时，主要是基于预估模型中的深度反馈交叉部分实现的；在步骤S23中，基于行为偏好信息、内容反馈信息和内容特征信息进行特征提取，获得目标对象对待推荐内容的预估点击率时，主要是基于预估模型中的宽度网络部分、因子分解机部分和深度神经网络部分实现的，下面将结合图5和图6进行详细说明：

在本申请实施例中，根据预估模型中的深度反馈交叉部分获取目标对象的行为偏好信息时，具体实施方式为：

分别将显式反馈信息和隐式反馈信息输入深度反馈交叉部分，获得深度反馈交叉部分输出的目标对象的行为偏好信息。

其中，图5中的multiple feedbacks（多路反馈）就是输入深度交叉部分的参数，指海量的特征信息中目标对象的显式反馈信息和隐式反馈信息，此外还包括待推荐内容的内容特征信息。

参阅图5所示的Deep feedback interaction（深度反馈交叉）即预估模型的深度反馈交叉部分，该部分主要用于对显式反馈信息和隐式反馈信息进行特征交叉，来获得目标对象的行为偏好信息。

在一种可选的实施方式中，隐式反馈信息包括目标对象对应的点击历史序列和未点击历史序列，显式反馈信息包括目标对象对应的显式反馈历史序列；基于Deep feedbackinteraction获得目标对象的行为偏好信息时具体过程如下：

首先，分别将目标对象对应的点击历史序列、未点击历史序列和显式反馈历史序列输入深度反馈交叉部分，基于深度反馈交叉部分中的transformer对点击历史序列进行编解码处理得到对应的点击高阶向量，以及对未点击历史序列进行编解码处理得到对应的未点击高阶向量，以及对显式反馈历史序列进行编解码处理得到对应的显式反馈高阶向量；

之后，通过注意力机制将点击高阶向量与未点击历史序列进行特征交叉，获得目标对象对应的第一交叉向量，以及将显式反馈高阶向量与未点击历史序列进行特征交叉，获得目标对象对应的第二交叉向量；

最后，将点击高阶向量、未点击高阶向量、显式反馈高阶向量、第一交叉向量和第二交叉向量进行合并，得到目标对象的行为偏好特征向量，并将行为偏好特征向量作为目标对象的行为偏好信息。

该方式下，利用Transformer从各个序列中提取出用户行为的高阶表达，并以点击历史序列和显式反馈历史序列作为参考，通过注意力机制从未点击历史序列行为中提取出关键有用信息，有效地捕获用户当前的兴趣，以便提高点击率，提升用户体验。

下面结合图6对基于Deep feedback interaction获取用户行为偏好信息的过程进行举例说明：

参阅图6所示，为本申请实施例中的一种Deep feedback interaction模块的内部结构示意图，具体包括Transformer和Vanilla attention（注意力机制）两部分，本申请实施例利用Transformer和Vanilla attention对根据用户历史行为确定的历史行为序列进行建模，将序列处理为向量。

其中，点击历史序列即图6中的Implicit positive feedback（click sequence）（隐式正反馈-点击序列），未点击历史序列即图6中的Implicit negative feedback（unclick sequence）（隐式负反馈-未点击序列），显式反馈历史序列可以包括显式正反馈历史序列和显式负反馈历史序列中的一个或多个，在图6中的Explicit negativefeedback（dislike sequence）（显式负反馈-不喜欢序列）是显式负反馈历史序列。

在图6中，Target Item（目标项目）是指待推荐内容的内容特征信息，用于结合历史行为序列生成高阶向量。以待推荐内容为文章为例，假设内容特征信息中共包含文章类别、文章ID、文章标题、文章作者这4个field，其中每个field对应一个16维的特征向量，则Target Item会对应一个64维的高维特征向量。同理，图6中最底层的各个历史序列中包含的多个矩形框则对应多个文章的内容特征信息，一个矩形框是指一个文章的内容特征信息，其中click sequence包含的是目标对象点击的各个文章的内容特征信息，unclicksequence包含目标对象未点击的各个文章的内容特征信息，dislike sequence包含目标对象不喜欢的各个文章的内容特征信息。

在本申请实施例中，可将图6中AVG（average，平均值）和Transformer看作一部分，用于生成历史行为序列对应的高阶向量。

基于Deep feedback interaction获得目标对象的行为偏好信息时具体过程如下：

首先，利用Transformer从各个历史序列中提取出用户行为的高阶表达，生成各个历史序列对应的高阶向量，具体是将Target Item和click sequence输入Transformer，获得点击高阶向量，即图6中的S61，该向量包含强正反馈信息（strong positivefeedbacks）；同理，将Target Item和unclick sequence输入Transformer，获得未点击高阶向量，即图6中的S62，该向量包含弱反馈信息（weak feedbacks）；将Target Item和dislikesequence输入Transformer，获得显式反馈高阶向量，即图6中的S63，该向量包含强正反馈信息（strong positive feedbacks）。

进一步，将点击高阶向量与未点击历史序列通过Vanilla attention操作进行特征交叉，获得第一交叉高阶向量，即图6中的S64；将显式反馈高阶向量与未点击历史序列通过Vanilla attention操作进行特征交叉，获得第二交叉高阶向量。该过程中，将点击历史序列和显式反馈历史序列作为参考，从未点击历史序列中提取出关键有用信息，用于建模用户的偏好。具体的，在构建用户的行为偏好特征向量时，则是将S61至S65这5个高阶向量进行contact（合并），即通过图6中的Feedback feature contact（反馈特征合并）生成用户的行为偏好特征向量，了解哪些是目标对象真正喜欢的，哪些是真正不喜欢的，哪些是有时候喜欢有时候不喜欢的等等。

在一种可选的实施方式中，在基于transformer获得各个历史序列对应的高阶向量之前，还可融入时间信息，具体的：分别将点击历史序列、未点击历史序列以及显式反馈历史序列与时间信息进行特征融合。

该方式下，基于深度反馈交叉部分将反馈信息进行特征交叉时，还考虑了时间信息，将时间信息与用户历史行为序列进行融合，基于时间信息学习到的用户行为偏好更加贴合用户的生活习惯，更加真实可靠，基于此预测得到的预估点击率更高。

需要说明的是，上述实施例中所列举的三种历史行为序列只是举例说明，在本申请实施例中，还可以融入其他类型的用户反馈信息生成历史行为序列来进行特征交叉，获取用户的行为偏好信息，例如融入用户点击分享、好看等产生的显式正反馈行为序列等。

在本申请实施例中，基于Deep feedback interaction获得目标对象的行为偏好信息之后，即可结合输入层的输入参数，即内容反馈信息和内容特征信息，来确定预估点击率。

其中，图5中的other features是指一些基础信息，具体包括目标对象的内容反馈信息中的各个对象画像特征字段（年龄、性别、职业、爱好等）以及待推荐内容的内容特征信息中的各个内容画像特征字段（ID、标题、类别、作者等）。

在一种可选的实施方式中，通过已训练的预估模型对行为偏好信息、内容反馈信息和内容特征信息进行特征提取之前，还需要将各个对象画像特征字段和各个内容画像特征字段对应的稀疏特征向量进行嵌入处理，得到各个对象画像特征字段和各个内容画像特征字段对应的稠密特征向量，即图中S51所示的虚线矩形框，其中该矩形框中的每个小矩形框对应一个field。

该方式下，可以对数据进行降维，减小计算量，只提取最底层输入的海量特征中数字为1的特征部分进行处理，通过embedding（嵌入）处理转换为维度相同的稠密特征向量。

之后，则可基于行为偏好信息、内容反馈信息和内容特征信息进行特征提取，获得目标对象对待推荐内容的预估点击率，该过程主要是基于预估模型中的宽度网络部分、因子分解机部分和深度神经网络部分实现的，具体过程如下：

首先，基于宽度网络部分学习内容反馈信息和内容特征信息中不同特征字段的权重贡献，获得特征权重向量，以及基于因子分解机部分对行为偏好特征向量和各个稠密特征向量进行特征提取，获得目标对象对应的低阶交叉特征向量，以及基于深度神经网络部分对行为偏好特征向量和各个稠密特征向量进行特征提取，获得目标对象对应的高阶交叉特征向量；

之后，将特征权重向量、低阶交叉特征向量和高阶交叉特征向量合并到全连接层，通过加权求和确定目标对象对待推荐内容的预估点击率。

其中，行为偏好特征向量为S52，对于FM Component和DNN Component，输入特征相同，都为各个稠密特征向量S51以及行为偏好特征向量S52。

在图5中，Contact&MLP即用于全连接和加权求和的，将特征权重向量S53，低阶交叉特征向量S54和高阶交叉特征向量S55都contact到全连接层后，进行加权求和，最终通过Softmax（分类）得到预估点击率。

该方式下，基于通过多种反馈信息获得的用户行为偏好信息与用户画像和内容画像来预估用户对待推荐内容的点击率，充分考虑了用户行为反馈对用户点击率的影响，因此基于该预估模型可以对每篇文章，每部视频，每篇新闻进行点击率预估，并按照点击率进行排序，最终将具有较高点击率的内容推荐给用户，提升用户点击率。

在一种可选的实施方式中，基于因子分解机部分对行为偏好特征向量和各个稠密特征向量进行特征提取，获得目标对象对应的低阶交叉特征向量时，具体方式为：

将各个稠密特征向量和行为偏好特征向量分别输入因子分解机部分，利用哈达马积提取各个稠密特征向量和行为偏好特征向量中任意两个特征向量之间的交叉结果；基于不同特征向量之间的交叉结果生成低阶交叉特征向量。

如图5所示，FM部分利用哈达马积提取不同field之间的交叉结果，该方式可以保留一些原始的特征，提高模型的准确性。

参阅图7所示，为一种内容推荐的完整流程时序图。该方法的具体实施流程如下：

步骤S71：响应目标对象的内容推荐请求，获取目标对象的内容反馈信息和待推荐内容的内容特征信息；

步骤S72：分别将目标对象的内容反馈信息和待推荐内容的内容特征信息输入已训练的预估模型；

步骤S73：通过预估模型中的嵌入层对将各个对象画像特征字段和各个内容画像特征字段对应的稀疏特征向量进行嵌入处理，得到各个对象画像特征字段和各个内容画像特征字段对应的稠密特征向量；

步骤S74：分别将内容反馈信息中的显式反馈信息和隐式反馈信息输入预估模型中的深度反馈交叉部分，获得深度反馈交叉部分输出的目标对象的行为偏好特征向量；

步骤S75：基于预估模型中的宽度网络部分学习内容反馈信息和内容特征信息中不同特征字段的权重贡献，获得特征权重向量；

步骤S76：基于预估模型中的因子分解机部分对行为偏好特征向量和各个稠密特征向量进行特征提取，获得目标对象对应的低阶交叉特征向量；

步骤S77：基于预估模型中的深度神经网络部分对行为偏好特征向量和各个稠密特征向量进行特征提取，获得目标对象对应的高阶交叉特征向量；

步骤S78：将特征权重向量、低阶交叉特征向量和高阶交叉特征向量合并到全连接层，通过加权求和确定目标对象对待推荐内容的预估点击率。

需要说明的是，步骤S75、S76、S77可以是并行执行的过程。

通过对本申请实施例提出的预估模型进行离线测试，相比于相关技术中的点击率预估模型，将模型上线后提高某应用曝光内容点击率3.6%，提升人均播放时长1.98%，其中PV（Page View，页面访问量）+VV（Visit View，访客访问量）提升2.38%，内容负反馈率降低12%，很明显可以更好地捕获用户兴趣，提高内容推荐的精确性，提高用户体验。

其中，PV指浏览量或点击量，同一页面多次访问，访问量累计。VV指统计访客一天内访问网站的次数，以浏览完成关掉所有页面算1次访问；比如10点打开浏览器，访问了3个页面，11点又打开浏览器，访问了2个页面，则PV数+5，VV数+2。

如图8所示，其为内容推荐方法装置800的结构示意图，可以包括：

信息获取单元801，用于响应目标对象的内容推荐请求，获取目标对象的内容反馈信息和待推荐内容的内容特征信息，其中内容反馈信息至少包括目标对象对已推荐内容的显式反馈信息、隐式反馈信息以及目标对象的对象画像信息；

第一特征提取单元802，用于根据内容反馈信息中的显式反馈信息和隐式反馈信息进行特征交叉，获得目标对象的行为偏好信息；

第二特征提取单元803，用于基于行为偏好信息、内容反馈信息和内容特征信息进行特征提取，获得目标对象对待推荐内容的预估点击率；

预估单元804，用于根据预估得到的目标对象对各个待推荐内容的预估点击率，从待推荐内容中为目标对象确定推荐内容。

可选的，第一特征提取单元802具体用于：

分别将目标对象的内容反馈信息和待推荐内容的内容特征信息输入已训练的预估模型，通过已训练的预估模型对内容反馈信息中的显式反馈信息和隐式反馈信息进行特征交叉，获得目标对象的行为偏好信息；

第二特征提取单元803具体用于：

通过已训练的预估模型对行为偏好信息、内容反馈信息和内容特征信息进行特征提取，获得预估模型输出的目标对象对待推荐内容的预估点击率；

可选的，预估模型包括深度反馈交叉部分；第一特征提取单元802具体用于：

可选的，隐式反馈信息包括目标对象对应的点击历史序列和未点击历史序列，显式反馈信息包括目标对象对应的显式反馈历史序列；

第一特征提取单元802具体用于：

分别将目标对象对应的点击历史序列、未点击历史序列和显式反馈历史序列输入深度反馈交叉部分，基于深度反馈交叉部分中的transformer对点击历史序列进行编解码处理得到对应的点击高阶向量，以及对未点击历史序列进行编解码处理得到对应的未点击高阶向量，以及对显式反馈历史序列进行编解码处理得到对应的显式反馈高阶向量；

通过注意力机制将点击高阶向量与未点击历史序列进行特征交叉，获得目标对象对应的第一交叉向量，以及将显式反馈高阶向量与未点击历史序列进行特征交叉，获得目标对象对应的第二交叉向量；

将点击高阶向量、未点击高阶向量、显式反馈高阶向量、第一交叉向量和第二交叉向量进行合并，得到目标对象的行为偏好特征向量，并将行为偏好特征向量作为目标对象的行为偏好信息。

可选的，第一特征提取单元802还用于：

在基于深度反馈交叉部分中的transformer对点击历史序列进行编解码处理得到对应的点击高阶向量，以及对未点击历史序列进行编解码处理得到对应的未点击高阶向量，以及对显式反馈历史序列进行编解码处理得到对应的显式反馈高阶向量之前，分别将点击历史序列、未点击历史序列以及显式反馈历史序列与时间信息进行特征融合。

可选的，对象画像信息包括目标对象的各个对象画像特征字段，内容特征信息包括待推荐内容的各个内容画像特征字段；装置还包括：

第三特征提取单元805，用于在第二特征提取单元803通过已训练的预估模型对行为偏好信息、内容反馈信息和内容特征信息进行特征提取之前，将各个对象画像特征字段和各个内容画像特征字段对应的稀疏特征向量进行嵌入处理，得到各个对象画像特征字段和各个内容画像特征字段对应的稠密特征向量。

可选的，预估模型还包括宽度网络部分、因子分解机部分和深度神经网络部分；目标对象的行为偏好信息为行为偏好特征向量；

第二特征提取单元803具体用于：

基于宽度网络部分学习内容反馈信息和内容特征信息中不同特征字段的权重贡献，获得特征权重向量，以及基于因子分解机部分对行为偏好特征向量和各个稠密特征向量进行特征提取，获得目标对象对应的低阶交叉特征向量，以及基于深度神经网络部分对行为偏好特征向量和各个稠密特征向量进行特征提取，获得目标对象对应的高阶交叉特征向量；

将特征权重向量、低阶交叉特征向量和高阶交叉特征向量合并到全连接层，通过加权求和确定目标对象对待推荐内容的预估点击率。

可选的，第二特征提取单元803具体用于：

将各个稠密特征向量和行为偏好特征向量分别输入因子分解机部分，利用哈达马积提取各个稠密特征向量和行为偏好特征向量中任意两个特征向量之间的交叉结果；

基于不同特征向量之间的交叉结果生成低阶交叉特征向量。

可选的，装置还包括模型训练单元806：

模型训练单元806用于通过下列方式训练得到已训练的预估模型：

为了描述的方便，以上各部分按照功能划分为各模块（或单元）分别描述。当然，在实施本申请时可以把各模块（或单元）的功能在同一个或多个软件或硬件中实现。

所属技术领域的技术人员能够理解，本申请的每个方面可以实现为系统、方法或程序产品。因此，本申请的每个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，本申请实施例还提供一种电子设备，参阅图9所示，电子设备900可以至少包括至少一个处理器901、以及至少一个存储器902。其中，存储器902存储有程序代码，当程序代码被处理器901执行时，使得处理器901执行本说明书上述描述的根据本申请各种示例性实施方式的内容推荐方法中的步骤。例如，处理器901可以执行如图2中所示的步骤。

在一些可能的实施方式中，本申请实施例还提供一种计算装置，可以至少包括至少一个处理单元、以及至少一个存储单元。其中，存储单元存储有程序代码，当程序代码被处理单元执行时，使得处理单元执行本说明书上述描述的根据本申请各种示例性实施方式的服务调用方法中的步骤。例如，处理单元可以执行如图2中所示的步骤。

下面参照图10来描述根据本申请的这种实施方式的计算装置100。图10的计算装置100仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图10，计算装置100以通用计算装置的形式表现。计算装置100的组件可以包括但不限于：上述至少一个处理单元101、上述至少一个存储单元102、连接不同系统组件（包括存储单元102和处理单元101）的总线103。

总线103表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元102可以包括易失性存储器形式的可读介质，例如随机存取存储器（RAM）1021和/或高速缓存存储单元1022，还可以进一步包括只读存储器（ROM）1023。

存储单元102还可以包括具有一组（至少一个）程序模块1024的程序/实用工具1025，这样的程序模块1024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算装置100也可以与一个或多个外部设备104（例如键盘、指向设备等）通信，还可与一个或者多个使得用户能与计算装置100交互的设备通信，和/或与使得该计算装置100能与一个或多个其它计算装置进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口105进行。并且，计算装置100还可以通过网络适配器106与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器106通过总线103与用于计算装置100的其它模块通信。应当理解，尽管图中未示出，可以结合计算装置100使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本申请提供的内容推荐方法的每个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的内容推荐方法中的步骤，例如，计算机设备可以执行如图2中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种内容推荐方法，其特征在于，该方法包括：

分别将所述目标对象的内容反馈信息和待推荐内容的内容特征信息输入已训练的预估模型，通过所述已训练的预估模型中的深度反馈交叉部分对所述内容反馈信息中的显式反馈信息和隐式反馈信息进行特征交叉，获得所述目标对象的行为偏好信息；其中，所述已训练的预估模型是根据已标注预估点击率的训练样本数据集训练得到的，所述训练样本数据集中的训练样本包括样本对象的内容反馈信息和样本内容的内容特征信息；

2.如权利要求1所述的方法，其特征在于，所述隐式反馈信息包括所述目标对象对应的点击历史序列和未点击历史序列，所述显式反馈信息包括所述目标对象对应的显式反馈历史序列；

所述通过所述已训练的预估模型中的深度反馈交叉部分对所述内容反馈信息中的显式反馈信息和隐式反馈信息进行特征交叉，获得所述深度反馈交叉部分输出的所述目标对象的行为偏好信息，具体包括：

3.如权利要求2所述的方法，其特征在于，在所述基于所述深度反馈交叉部分中的transformer对所述点击历史序列进行编解码处理得到对应的点击高阶向量，以及对所述未点击历史序列进行编解码处理得到对应的未点击高阶向量，以及对所述显式反馈历史序列进行编解码处理得到对应的显式反馈高阶向量之前，还包括：

分别将所述点击历史序列、所述未点击历史序列以及所述显式反馈历史序列与时间信息进行特征融合。

4.如权利要求1所述的方法，其特征在于，所述对象画像信息包括所述目标对象的各个对象画像特征字段，所述内容特征信息包括所述待推荐内容的各个内容画像特征字段；

在所述通过所述已训练的预估模型对所述行为偏好信息、所述内容反馈信息和所述内容特征信息进行特征提取之前，还包括：

将各个对象画像特征字段和各个内容画像特征字段对应的稀疏特征向量进行嵌入处理，得到各个对象画像特征字段和各个内容画像特征字段对应的稠密特征向量。

5.如权利要求4所述的方法，其特征在于，所述预估模型还包括宽度网络部分、因子分解机部分和深度神经网络部分；所述目标对象的行为偏好信息为行为偏好特征向量；

所述通过所述已训练的预估模型对所述行为偏好信息、所述内容反馈信息和所述内容特征信息进行特征提取，获得所述预估模型输出的所述目标对象对所述待推荐内容的预估点击率，具体包括：

6.如权利要求5所述的方法，其特征在于，所述基于所述因子分解机部分对所述行为偏好特征向量和各个稠密特征向量进行特征提取，获得所述目标对象对应的低阶交叉特征向量，具体包括：

7.如权利要求1~6任一所述的方法，其特征在于，通过下列方式训练得到所述已训练的预估模型：

8.如权利要求7所述的方法，其特征在于，所述目标损失函数包括与所述样本对象的内容反馈信息对应的显式反馈损失项以及隐式反馈损失项。

9.一种内容推荐装置，其特征在于，包括：

第一特征提取单元，用于分别将所述目标对象的内容反馈信息和待推荐内容的内容特征信息输入已训练的预估模型，通过所述已训练的预估模型中的深度反馈交叉部分对所述内容反馈信息中的显式反馈信息和隐式反馈信息进行特征交叉，获得所述目标对象的行为偏好信息；其中，所述已训练的预估模型是根据已标注预估点击率的训练样本数据集训练得到的，所述训练样本数据集中的训练样本包括样本对象的内容反馈信息和样本内容的内容特征信息；

第二特征提取单元，用于通过所述已训练的预估模型对所述行为偏好信息、所述内容反馈信息和所述内容特征信息进行特征提取，获得所述预估模型输出的所述目标对象对所述待推荐内容的预估点击率；

10.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1~8中任一所述方法的步骤。

11.一种计算机可读存储介质，其特征在于，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使所述电子设备执行权利要求1~8中任一所述方法的步骤。