CN114254193A

CN114254193A - 内容推荐方法、装置、电子设备及存储介质

Info

Publication number: CN114254193A
Application number: CN202111566648.1A
Authority: CN
Inventors: 吴鸿焕; 张雪妮; 王哲
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-03-29
Anticipated expiration: 2041-12-20
Also published as: CN114254193B

Abstract

本公开关于一种内容推荐方法、装置、电子设备及存储介质，所述方法包括：根据待推荐内容的第一资源特征向量和第一标识特征向量，得到所述待推荐内容的内容特征向量；根据待推荐帐户的历史互动内容的第二资源特征向量和第二标识特征向量，得到所述待推荐帐户的对象特征向量；调用训练完成的内容推荐模型，对所述待推荐内容的内容特征向量和所述待推荐帐户的对象特征向量进行处理，得到所述待推荐内容的推荐指标信息；根据所述推荐指标信息，将从所述待推荐内容中确定出的目标推荐内容推送至所述待推荐帐户。该方法可以提高对待推荐内容的推荐度的预估结果的准确性，提高待推荐内容的分发速度。

Description

内容推荐方法、装置、电子设备及存储介质

技术领域

本公开涉及物品冷启动的技术领域，尤其涉及一种内容推荐方法、装置、电子设备及存储介质。

背景技术

物品冷启动是推荐系统冷启动问题中的一个核心问题，物品冷启动指的是对于新加进来的物品，如何将其推荐给对它感兴趣的用户，由于新加进来的物品没有用户反馈的行为数据，因此，在分发过程中都需要经过零分发和低分发的过程。而且，在低分发的过程中，由于获取的用户反馈的行为数据较少，因此，依据这些稀疏的行为数据对新加进来的物品进行预估所得到的推荐度的准确性较低，从而容易出现分发不出去或者分发较慢的问题。

发明内容

本公开提供一种内容推荐方法、装置、电子设备及存储介质，以至少解决相关技术中对新加进来的物品进行预估所得到的推荐度的准确性较低，从而容易出现分发不出去或者分发较慢的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种内容推荐方法，包括：

根据待推荐内容的第一资源特征向量和第一标识特征向量，得到所述待推荐内容的内容特征向量；所述第一资源特征向量用于表征所述待推荐内容的先验资源信息，所述第一标识特征向量用于表征待推荐帐户对所述待推荐内容的行为反馈信息；所述第一资源特征向量、第一标识特征向量和所述内容特征向量的向量维度相同；

根据待推荐帐户的历史互动内容的第二资源特征向量和第二标识特征向量，得到所述待推荐帐户的对象特征向量；所述第二资源特征向量用于表征所述历史互动内容的先验资源信息，所述第二标识特征向量用于表征所述待推荐帐户对所述历史互动内容的行为反馈信息；所述第二资源特征向量、第二标识特征向量和所述对象特征向量的向量维度相同；

调用训练完成的内容推荐模型，对所述待推荐内容的内容特征向量和所述待推荐帐户的对象特征向量进行处理，得到所述待推荐内容的推荐指标信息；

根据所述推荐指标信息，将从所述待推荐内容中确定出的目标推荐内容推送至所述待推荐帐户。

在一示例性实施例中，所述训练完成的内容推荐模型通过下述方式训练得到，包括：

获取样本内容的内容特征向量和样本帐户的对象特征向量；所述样本内容的内容特征向量由向量维度相同的所述样本内容的第一资源特征向量和第一标识特征向量组成，所述样本帐户的对象特征向量由向量维度相同的所述样本帐户历史互动内容的第二资源特征向量和第二标识特征向量组成；所述样本内容的内容特征向量与对应的第一资源特征向量的向量维度相同，所述样本帐户的对象特征向量与对应的第二资源特征向量的向量维度相同；

根据所述样本内容的第一资源特征向量和所述样本帐户历史互动内容的第二资源特征向量，对待训练的内容推荐模型进行训练，得到初始内容推荐模型；

根据所述样本内容的内容特征向量和所述样本帐户的对象特征向量，对所述初始内容推荐模型进行再次训练，得到所述内容推荐模型；其中，所述第一资源特征向量和所述第二资源特征向量在训练过程中保持不变。

在一示例性实施例中，所述根据所述样本内容的第一资源特征向量和所述样本帐户历史互动内容的第二资源特征向量，对待训练的内容推荐模型进行训练，得到初始内容推荐模型，包括：

暂停所述样本内容的第一标识特征向量和所述样本帐户历史互动内容的第二标识特征向量的更新，根据所述样本内容的第一资源特征向量和所述样本帐户历史互动内容的第二资源特征向量，对所述待训练的内容推荐模型进行训练，得到初始内容推荐模型。

在一示例性实施例中，所述根据所述样本内容的内容特征向量和所述样本帐户的对象特征向量，对所述初始内容推荐模型进行再次训练，得到所述内容推荐模型，包括：

当获取到所述样本帐户对所述样本内容的行为反馈信息时，根据所述行为反馈信息对所述样本内容的第一标识特征向量和所述样本帐户历史互动内容的第二标识特征向量进行更新，得到更新的第一标识特征向量和更新的第二标识特征向量；

根据所述更新的第一标识特征向量、所述更新的第二标识特征向量、所述样本内容的第一资源特征向量和所述样本帐户历史互动内容的第二资源特征向量对所述初始内容推荐模型进行再次训练，直至所述样本内容的第一标识特征向量和所述样本帐户历史互动内容的第二标识特征向量收敛，得到所述内容推荐模型。

在一示例性实施例中，所述根据待推荐帐户的历史互动内容的第二资源特征向量和第二标识特征向量，得到所述待推荐帐户的对象特征向量，包括：

获取所述待推荐帐户对所述历史互动内容的行为序列信息；

对所述行为序列信息进行特征提取处理，得到所述待推荐帐户的兴趣行为特征向量；

基于所述待推荐帐户的历史互动内容的所述第二资源特征向量、所述第二标识特征向量以及所述兴趣行为特征向量，得到所述待推荐帐户的对象特征向量。

在一示例性实施例中，所述对所述行为序列信息进行特征提取处理，得到所述待推荐帐户的兴趣行为特征向量，包括：

调用兴趣特征提取模块对所述行为序列信息进行特征提取处理，得到所述待推荐帐户的兴趣行为特征信息；所述兴趣特征提取模块包括多头注意力单元；

对所述兴趣行为特征信息进行向量化处理，得到所述待推荐帐户的兴趣行为特征向量。

在一示例性实施例中，在根据待推荐内容的第一资源特征向量和第一标识特征向量，得到所述待推荐内容的内容特征向量之前，还包括：

将所述待推荐内容输入训练完成的资源特征提取模型，得到所述待推荐内容的资源信息；所述训练完成的资源特征提取模型基于样本内容的先验资源信息训练得到；

对所述资源信息进行向量化处理，得到所述待推荐内容的第一资源特征向量。

根据本公开实施例的第二方面，提供一种内容推荐装置，包括：

第一获取单元，被配置为执行根据待推荐内容的第一资源特征向量和第一标识特征向量，得到所述待推荐内容的内容特征向量；所述第一资源特征向量用于表征所述待推荐内容的先验资源信息，所述第一标识特征向量用于表征待推荐帐户对所述待推荐内容的行为反馈信息；所述第一资源特征向量、第一标识特征向量和所述内容特征向量的向量维度相同；

第二获取单元，被配置为执行根据待推荐帐户的历史互动内容的第二资源特征向量和第二标识特征向量，得到所述待推荐帐户的对象特征向量；所述第二资源特征向量用于表征所述历史互动内容的先验资源信息，所述第二标识特征向量用于表征所述待推荐帐户对所述历史互动内容的行为反馈信息；所述第二资源特征向量、第二标识特征向量和所述对象特征向量的向量维度相同；

推荐信息确定单元，被配置为执行调用训练完成的内容推荐模型，对所述待推荐内容的内容特征向量和所述待推荐帐户的对象特征向量进行处理，得到所述待推荐内容的推荐指标信息；

内容推送单元，被配置为执行根据所述推荐指标信息，将从所述待推荐内容中确定出的目标推荐内容推送至所述待推荐帐户。

在一示例性实施例中，所述装置还包括模型训练单元，被配置为执行获取样本内容的内容特征向量和样本帐户的对象特征向量；所述样本内容的内容特征向量由向量维度相同的所述样本内容的第一资源特征向量和第一标识特征向量组成，所述样本帐户的对象特征向量由向量维度相同的所述样本帐户历史互动内容的第二资源特征向量和第二标识特征向量组成；所述样本内容的内容特征向量与对应的第一资源特征向量的向量维度相同，所述样本帐户的对象特征向量与对应的第二资源特征向量的向量维度相同；根据所述样本内容的第一资源特征向量和所述样本帐户历史互动内容的第二资源特征向量，对待训练的内容推荐模型进行训练，得到初始内容推荐模型；根据所述样本内容的内容特征向量和所述样本帐户的对象特征向量，对所述初始内容推荐模型进行再次训练，得到所述内容推荐模型；其中，所述第一资源特征向量和所述第二资源特征向量在训练过程中保持不变。

在一示例性实施例中，所述模型训练单元，还被配置为执行暂停所述样本内容的第一标识特征向量和所述样本帐户历史互动内容的第二标识特征向量的更新，根据所述样本内容的第一资源特征向量和所述样本帐户历史互动内容的第二资源特征向量，对所述待训练的内容推荐模型进行训练，得到初始内容推荐模型。

在一示例性实施例中，所述模型训练单元，还被配置为执行当获取到所述样本帐户对所述样本内容的行为反馈信息时，根据所述行为反馈信息对所述样本内容的第一标识特征向量和所述样本帐户历史互动内容的第二标识特征向量进行更新，得到更新的第一标识特征向量和更新的第二标识特征向量；根据所述更新的第一标识特征向量、所述更新的第二标识特征向量、所述样本内容的第一资源特征向量和所述样本帐户历史互动内容的第二资源特征向量对所述初始内容推荐模型进行再次训练，直至所述样本内容的第一标识特征向量和所述样本帐户历史互动内容的第二标识特征向量收敛，得到所述内容推荐模型。

在一示例性实施例中，所述第二获取单元，还被配置为执行获取所述待推荐帐户对所述历史互动内容的行为序列信息；对所述行为序列信息进行特征提取处理，得到所述待推荐帐户的兴趣行为特征向量；基于所述待推荐帐户的历史互动内容的所述第二资源特征向量、所述第二标识特征向量以及所述兴趣行为特征向量，得到所述待推荐帐户的对象特征向量。

在一示例性实施例中，所述第二获取单元，还被配置为执行调用兴趣特征提取模块对所述行为序列信息进行特征提取处理，得到所述待推荐帐户的兴趣行为特征信息；所述兴趣特征提取模块包括多头注意力单元；对所述兴趣行为特征信息进行向量化处理，得到所述待推荐帐户的兴趣行为特征向量。

在一示例性实施例中，所述第一获取单元，还被配置为执行将所述待推荐内容输入训练完成的资源特征提取模型，得到所述待推荐内容的资源信息；所述训练完成的资源特征提取模型基于样本内容的先验资源信息训练得到；对所述资源信息进行向量化处理，得到所述待推荐内容的第一资源特征向量。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上任一项所述的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如上任一项所述的方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品中包括指令，所述指令被电子设备的处理器执行时，使得所述电子设备能够执行如上任一项所述的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过引入第一资源特征向量，与第一标识特征向量共同表征待推荐内容的内容特征向量，通过引入第二资源特征向量，与第二标识特征向量共同表征待推荐帐户的对象特征向量，能够更精确地刻画待推荐内容和待推荐帐户对各类内容的偏好情况，从而可提高对待推荐内容的推荐指标信息的预估结果的准确性，提高待推荐内容的分发速度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种内容推荐方法的流程示意图。

图2是根据另一示例性实施例示出的一种内容推荐方法的流程示意图。

图3是根据一示例性实施例示出的先验加后验偏差联合单元的示意图。

图4是根据一示例性实施例示出的具有多层神经网络的内容推荐模型的结构框架示意图。

图5是根据一示例性实施例示出的采用标识特征向量和采用标识特征向量以及资源特征向量进行视频推荐模型训练的对比图。

图6是根据一示例性实施例示出的一种内容推荐装置的结构框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种内容推荐方法的流程示意图，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

在步骤S110中，根据待推荐内容的第一资源特征向量和第一标识特征向量，得到待推荐内容的内容特征向量；第一资源特征向量用于表征待推荐内容的先验资源信息，第一标识特征向量用于表征待推荐帐户对待推荐内容的行为反馈信息；第一资源特征向量、第一标识特征向量和内容特征向量的向量维度相同。

其中，待推荐内容可以为冷启动的内容，也可以为非冷启动的内容，待推荐内容的形式可以为视频、图像或其他媒体资源。

其中，第一资源特征向量可以基于从待推荐内容中提取的资源信息得到。

其中，第一标识特征向量可以理解为待推荐内容的向量表示，第一标识特征向量可以基于用户对待推荐内容的行为反馈数据训练得到。

具体实现中，在获取待推荐内容后，可以通过先提取待推荐内容的资源信息，然后通过embedding(一种映射，从语义空间到向量空间的映射)将资源信息映射为资源特征向量，作为待推荐内容的第一资源特征向量，以及通过用户对待推荐内容的行为反馈数据训练得到标识特征向量，作为待推荐内容的第一标识特征向量，由第一资源特征向量和第一标识特征向量共同表征待推荐内容。

在步骤S120中，根据待推荐帐户的历史互动内容的第二资源特征向量和第二标识特征向量，得到待推荐帐户的对象特征向量；第二资源特征向量用于表征历史互动内容的先验资源信息，第二标识特征向量用于表征待推荐帐户对历史互动内容的行为反馈信息；第二资源特征向量、第二标识特征向量和对象特征向量的向量维度相同。

其中，第二资源特征向量可以基于待推荐帐户的历史互动内容的资源信息得到。

其中，第二标识特征向量可以理解为待推荐帐户的历史互动内容的向量表示，第二标识特征向量可以基于待推荐帐户对历史互动内容的行为反馈数据训练得到。

其中，对象特征向量还可包括待推荐帐户的扩展特征向量，扩展特征向量可以为基于待推荐帐户的上下文场景信息、环境信息、位置信息、网络信息得到的向量。

具体实现中，待推荐帐户的历史互动内容表征待推荐帐户的兴趣，因此，在获取待推荐帐户的历史互动内容后，可以通过提取历史互动内容的资源信息和扩展信息，并映射为对应的资源特征向量和扩展特征向量，作为表征待推荐帐户偏好内容的第二标识特征向量和扩展特征向量，通过待推荐帐户对历史互动内容的行为反馈数据训练得到历史互动内容的第二标识特征向量，将第二资源特征向量、第二标识特征向量和扩展特征向量组成待推荐帐户的对象特征向量。

在步骤S130中，调用训练完成的内容推荐模型，对待推荐内容的内容特征向量和待推荐帐户的对象特征向量进行处理，得到待推荐内容的推荐指标信息。

其中，推荐指标信息可以为推荐度。

具体实现中，可预先构建一个多层神经网络模型(Multilayer Perceptron，MLP)，作为待训练的内容推荐模型，获取样本帐户进行正向行为反馈的内容，如观看完的内容，点赞的内容或分享的内容作为正样本，获取样本帐户浏览但没有进行正向反馈的内容，如未观看完的内容、未点赞的内容或未分享的内容作为负样本，通过正样本和负样本对待训练的内容推荐模型进行训练，直至训练结果符合预设条件，得到训练完成的内容推荐模型，进而将待推荐内容的内容特征向量和待推荐帐户的对象特征向量，输入训练完成的内容推荐模型，得到待推荐内容的推荐指标信息。

实际应用中，由于对待推荐内容的预估可能需要预估多个目标，如完播率、点赞率和转发率等，因此，还可以采用多任务学习网络(multi-gate mixture of experts，mmoe)对这些目标进行多任务建模学习，最后将多任务学习网络输出的特征输入MLP(Multi-layerPerceptron，多层感知器)内容推荐模型中，得到各个目标的预估值，根据各个目标的预估值，计算得到待推荐内容的推荐度。

在步骤S140中，根据推荐指标信息，将从待推荐内容中确定出的目标推荐内容推送至待推荐帐户。

具体实现中，在得到各个待推荐内容的推荐度后，可按照推荐度从高到低或从低到高的顺序将各个待推荐内容进行排序，从待推荐内容中确定出推荐度最高的目标推荐内容，推送给待推荐帐户。

上述内容推荐方法中，首先根据待推荐内容的第一资源特征向量和第一标识特征向量，得到待推荐内容的内容特征向量，根据待推荐帐户的历史互动内容的第二资源特征向量和第二标识特征向量，得到待推荐帐户的对象特征向量，然后调用训练完成的内容推荐模型，对待推荐内容的内容特征向量和待推荐帐户的对象特征向量进行处理，得到待推荐内容的推荐指标信息，根据推荐指标信息，从待推荐内容中筛选出目标推荐内容并推送至待推荐帐户。该方法通过引入第一资源特征向量，与第一标识特征向量共同表征待推荐内容的内容特征向量，通过引入第二资源特征向量，与第二标识特征向量共同表征待推荐帐户的对象特征向量，能够更精确地刻画待推荐内容和待推荐帐户对各类内容的偏好情况，从而可提高对待推荐内容的推荐指标信息的预估结果的准确性，提高待推荐内容的分发速度。

在一示例性实施例中，训练完成的内容推荐模型通过下述方式训练得到，包括：获取样本内容的内容特征向量和样本帐户的对象特征向量；根据样本内容的内容特征向量中的第一资源特征向量和样本帐户的对象特征向量中的第二资源特征向量，对待训练的内容推荐模型进行训练，得到初始内容推荐模型；根据样本内容的内容特征向量和样本帐户的对象特征向量，对初始内容推荐模型进行再次训练，得到内容推荐模型；其中，第一资源特征向量和第二资源特征向量在训练过程中保持不变；样本内容的内容特征向量与对应的第一资源特征向量的向量维度相同，样本帐户的对象特征向量与对应的第二资源特征向量的向量维度相同。

其中，样本内容的内容特征向量由向量维度相同的样本内容的第一资源特征向量和第一标识特征向量组成。

其中，样本帐户的对象特征向量由向量维度相同的样本帐户历史互动内容的第二资源特征向量和第二标识特征向量组成。

其中，样本帐户的对象特征向量还可包括样本帐户的扩展特征向量，扩展特征向量可以为基于样本帐户的上下文场景信息、环境信息、位置信息、网络信息得到的向量。

实际应用中，样本帐户的历史互动内容有多个，可以组成互动内容序列，具体地，该互动内容序列可以为样本帐户短期的互动内容序列，也可以为样本帐户长期的互动内容序列，可以根据样本帐户的设备ID查找最近互动的多个互动内容，组成互动内容序列。

具体实现中，可获取样本帐户进行正向行为反馈的内容，如观看完的内容，点赞的内容或分享的内容作为正样本，获取样本帐户浏览但没有进行正向反馈的内容，如未观看完的内容、未点赞的内容或未分享的内容作为负样本，将正样本和负样本组成样本内容，并获取各个样本内容的第一资源特征向量和第一标识特征向量。然后先通过样本内容的第一资源特征向量和样本帐户的历史互动内容的第二资源特征向量对待训练的内容推荐模型进行训练，在训练结果收敛后，保存模型参数，得到初始内容推荐模型，之后，再通过样本内容中的第一资源特征向量结合第一标识特征向量，以及样本帐户的历史互动内容的第二资源特征向量结合第二标识特征向量，共同对初始内容推荐模型进行再次训练，最后得到训练完成的内容推荐模型，用于预估待推荐内容的推荐指标信息，其中，第一资源特征向量和第二资源特征向量在训练过程中保持不变，第一标识特征向量和第二标识特征向量在训练过程中将会随着训练逐渐收敛。

更具体地，在一示例性实施例中，根据样本内容的第一资源特征向量和样本帐户历史互动内容的第二资源特征向量，对待训练的内容推荐模型进行训练，得到初始内容推荐模型，包括：暂停样本内容的第一标识特征向量和样本帐户历史互动内容的第二标识特征向量的更新，根据样本内容的第一资源特征向量和样本帐户历史互动内容的第二资源特征向量，对待训练的内容推荐模型进行训练，得到初始内容推荐模型。

具体实现中，在通过样本的先验内容的第一资源特征向量和先验的样本帐户历史互动内容的第二资源特征向量，对待训练的内容推荐模型进行训练时，需要依赖用户行为反馈数据的后验的第一标识特征向量和第二标识特征向量可先不参与训练，即暂停冻结第一标识特征向量和第二标识特征向量的更新(相当于冻结第一标识特征向量和第二标识特征向量)，或者，通过随机初始化的方式，得到初始化第一标识特征向量和初始化第二标识特征向量，通过初始化第一标识特征向量、初始化第二标识特征向量参与初始内容推荐模型的训练，在模型拟合收敛后，再通过后验的第一标识特征向量和第二标识特征向量对初始内容推荐模型进行再次训练，由此提高模型训练结果的速率。

在一示例性实施例中，根据样本内容的内容特征向量和样本帐户的对象特征向量，对初始内容推荐模型进行再次训练，得到内容推荐模型，包括：当获取到样本帐户对样本内容的行为反馈信息时，根据行为反馈信息对样本内容的第一标识特征向量和样本帐户历史互动内容的第二标识特征向量进行更新，得到更新的第一标识特征向量和更新的第二标识特征向量；根据更新的第一标识特征向量、更新的第二标识特征向量、样本内容的第一资源特征向量和样本帐户历史互动内容的第二资源特征向量对初始内容推荐模型进行再次训练，直至样本内容的第一标识特征向量和样本帐户历史互动内容的第二标识特征向量收敛，得到内容推荐模型。

具体实现中，在根据样本内容的内容特征向量和样本帐户的对象特征向量，对初始内容推荐模型进行训练的过程中，若样本内容为冷启动内容，随着不同样本帐户对样本内容的行为反馈信息的增多，样本内容的第一标识特征向量和样本帐户历史互动内容的第二标识特征向量可随之不断进行更新，得到对样本内容和样本帐户历史互动内容表征更准确的更新的第一标识特征向量和更新的第二标识特征向量，通过更新的第一标识特征向量和更新的第二标识特征向量对初始内容推荐模型进行再次训练，直至所得到的对样本内容的行为反馈信息足够多，使得样本内容的第一标识特征向量和样本帐户历史互动内容的第二标识特征向量达到收敛状态，得到对样本内容表征足够准确的第一标识特征向量和对样本帐户历史互动内容表征足够准确的第二标识特征向量，将基于收敛的第一标识特征向量、收敛的第二标识特征向量，以及样本内容的第一资源特征向量和样本帐户历史互动内容的第二资源特征向量训练得到的内容推荐模型，作为训练完成的内容推荐模型。

本实施例中，在对训练待训练的内容推荐模型时，先冻结后验的标识特征向量，通过先验的第一资源特征向量和第二资源特征向量进行初始内容推荐模型的训练，由于资源特征向量为比较稳定的先验特征，能够保证网络逐渐拟合到一个较优解，并且可以避免互动行为较少的新的待推荐内容的标识特征向量受到噪声数据的干扰导致不稳定，从而影响模型的收敛，在模型收敛后，再加入后验的第一标识特征向量和第二标识特征向量，放开对标识特征向量的梯度更新，使用在线的真实用户行为反馈数据学习待推荐内容的标识特征向量，由于此时模型参数已经基本收敛，因此，标识特征向量可以慢慢积累后验数据进行学习，拟合用户对待推荐内容的行为偏差，使推荐度的预估结果更准确。

在一示例性实施例中，上述步骤S120包括：获取待推荐帐户对历史互动内容的行为序列信息；对行为序列信息进行特征提取处理，得到待推荐帐户的兴趣行为特征向量；基于待推荐帐户的历史互动内容的第二资源特征向量、第二标识特征向量、以及兴趣行为特征向量，得到待推荐帐户的对象特征向量。

具体实现中，为了确定待推荐帐户的兴趣，还可获取待推荐帐户对历史互动内容的行为序列信息，并对行为序列信息进行特征提取，得到待推荐帐户的兴趣行为特征向量，将兴趣行为特征向量、待推荐帐户历史互动内容的第二资源特征向量、第二标识特征向量共同组成待推荐帐户的对象特征向量。

本实施例中，通过对待推荐帐户对历史互动行为的行为序列信息的特征提取，得到待推荐帐户的兴趣行为特征向量，与第二资源特征向量、第二标识特征向量共同表征待推荐帐户的对象特征向量，使得对待推荐帐户的兴趣特征的表征更加精确，进而使得对于待推荐帐户对待推荐内容的兴趣度的预估更加准确。

在一示例性实施例中，对行为序列信息进行特征提取，得到待推荐帐户的兴趣行为特征向量的步骤通过下述方式实现，包括：调用兴趣特征提取模块对行为序列信息进行特征提取处理，得到待推荐帐户的兴趣行为特征信息；兴趣特征提取模块包括多头注意力单元；对兴趣行为特征信息进行向量化处理，得到待推荐帐户的兴趣行为特征向量。

实际应用中，可以基于多头注意力机制(multi-head attention)对待推荐帐户的行为序列信息进行建模，从多角度捕捉待推荐帐户的行为特征，反映待推荐帐户的兴趣信息。更具体地，在attention结构中，可使用待推荐帐户历史互动内容的第二资源特征向量、第二标识特征向量、待推荐帐户的扩展特征向量、交叉特征向量一起作为query，将待推荐帐户的行为特征信息作为key和value，进行attention的学习，具体可基于4个或6个头进行attention的学习。

本实施例中，通过多头注意力机制从多角度对待推荐帐户的行为序列信息进行特征提取，可以捕捉到更丰富的特征，从而提高所提取的兴趣行为特征信息的准确度，进而提高表征待推荐帐户的对象特征向量的准确度，提高待推荐帐户对待推荐内容的推荐指标信息的预估准确度。

在一示例性实施例中，在步骤S110之前，还包括：将待推荐内容输入训练完成的图像特征提取模型，得到待推荐内容的资源信息；训练完成的图像特征提取模型基于样本内容的先验资源信息训练得到；对资源信息进行向量化处理，得到待推荐内容的第一资源特征向量。

具体实现中，可通过样本内容预先训练一个图像特征提取模型，用于提取内容的资源信息，在获取待推荐内容后，可将待推荐内容输入训练完成的图像特征提取模型中，得到待推荐内容的资源信息，通过embedding(一种映射，从语义空间到向量空间的映射)将资源信息映射为向量，作为待推荐内容的第一资源特征向量。

实际应用中，可以使用审核标注或用户标注的哈希标签(hash tag)训练图像特征提取模型。

本实施例中，通过训练图像特征提取模型，提取待推荐内容的资源信息并转换得到第一资源特征向量，以便于引入第一资源特征向量来表征待推荐内容，使得对待推荐内容的刻画更准确，提高对待推荐内容的推荐度的预估准确性。

在另一示例性实施例中，如图2所示，是根据一示例性实施例示出的另一种内容推荐方法的流程图，本实施例中，该方法包括以下步骤：

步骤S210，获取样本内容的内容特征向量和样本帐户的对象特征向量；

步骤S220，暂停样本内容的第一标识特征向量和样本帐户历史互动内容的第二标识特征向量的更新，根据样本内容的第一资源特征向量和样本帐户历史互动内容的第二资源特征向量，对待训练的内容推荐模型进行训练，得到初始内容推荐模型；

步骤S230，根据样本内容的内容特征向量和样本帐户的对象特征向量，对初始内容推荐模型进行再次训练，得到内容推荐模型；

步骤S240，根据待推荐内容的第一资源特征向量和第一标识特征向量，得到待推荐内容的内容特征向量；

步骤S250，根据待推荐帐户的历史互动内容的第二资源特征向量和第二标识特征向量，得到待推荐帐户的对象特征向量；

步骤S260，将待推荐内容的内容特征向量和待推荐帐户的对象特征向量，输入训练完成的内容推荐模型，得到待推荐内容的推荐度；

步骤S270，按照推荐度，从待推荐内容中筛选出目标推荐内容并推送至待推荐帐户。

本实施例中，通过引入第一资源特征向量，与第一标识特征向量共同表征待推荐内容的内容特征向量，通过引入第二资源特征向量，与第二标识特征向量共同表征待推荐帐户的对象特征向量，能够更精确地刻画待推荐内容和待推荐帐户对各类内容的偏好情况，从而可提高对待推荐内容的推荐度的预估结果的准确性，提高待推荐内容的分发速度。

在一示例性实施例中，为了便于本领域技术人员理解本申请实施例，以下将结合附图的具体示例进行说明。如在短视频推荐领域，参考图3，为一个应用实例中先验加后验偏差联合单元(priori add posterior bias combine unit,PAPBC单元)的示意图，如图所示，视频的标识特征向量(item ID)作为后验向量，视频的资源特征向量(item资源)作为先验向量，PAPBC单元表示在视频标识特征向量的基础上，引入视频的资源特征向量，共同表征短视频。

参考图4，为具有多层神经网络的内容推荐模型的结构框架示意图，模型输入为用户侧特征(即待推荐帐户的对象特征向量)和物品侧特征(即待推荐内容的内容特征向量)，以及其它交叉特征和上下文特征，其中，用户侧特征和物品侧特征均由先验特征和后验特征组成，用户侧特征基于用户浏览历史的视频序列内容1、内容2…(即帐户的历史互动视频组成的序列)得到，包括有各个视频的先验特征和后验特征。

参考图5，为采用标识特征向量和采用标识特征向量以及资源特征向量进行视频推荐模型训练的对比图，图中左半部分表示采用标识特征向量进行视频推荐模型训练的示意图，右半部分表示采用标识特征向量以及资源特征向量进行视频推荐模型训练的示意图，假设两种方式都可训练达到相同的最优收敛状态，图中左半部分所示的采用标识特征向量的方式中，是通过先初始化一个embedding向量，然后通过用户对待推荐视频的后验行为反馈，学习得到后验的标识特征向量。对于一个新的待推荐视频，当采用左半部分所示的方法时，其初始化得到的标识特征向量为[0.01,0.02,-0.01,-0.02]，可见与收敛状态的目标向量值[0.6,0.5,0.3,0.7]相差甚远，可知该初始化得到的标识特征向量等于没有生效，导致对新的待推荐视频的预估不准。而右半部分基于本公开所提出的PAPBC单元，引入了待推荐视频的先验的资源特征向量，与相同维度的初始化的待推荐视频的标识特征向量共同表征待推荐视频的视频特征向量。从图中可以看出，在加入PAPBC单元后，由于先验的资源特征向量[0.5 0.6 0.2 0.5]的存在，因此，在加上初始化的标识特征向量[0.01,0.02,-0.01,-0.02]后，新的待推荐视频对应的向量为[0.51,0.62,0.19,0.48]，该向量已经是一个比较准确的对待推荐视频的表征，从而内容推荐模型能够对新的待推荐视频进行较准确的预测，并且随着待推荐视频曝光量的增加，进一步拟合用户行为偏差，完成新作品的全阶段承接，有了更多用户的行为与反馈后，经过对训练数据的学习可以逐渐收敛到最优解[0.6,0.5,0.3,0.7]。

应该理解的是，虽然图1和图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1和图2中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

可以理解的是，本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见，每个实施例重点说明的是与其他实施例的不同之处，相关之处参见其他方法实施例的说明即可。

图6是根据一示例性实施例示出的一种内容推荐装置的结构框图。参照图6，该装置包括：第一获取单元610、第二获取单元620、推荐信息确定单元630和内容推送单元640，其中，

第一获取单元610，被配置为执行根据待推荐内容的第一资源特征向量和第一标识特征向量，得到所述待推荐内容的内容特征向量；所述第一资源特征向量用于表征所述待推荐内容的先验资源信息，所述第一标识特征向量用于表征待推荐帐户对所述待推荐内容的行为反馈信息；所述第一资源特征向量、第一标识特征向量和所述内容特征向量的向量维度相同；

第二获取单元620，被配置为执行根据待推荐帐户的历史互动内容的第二资源特征向量和第二标识特征向量，得到所述待推荐帐户的对象特征向量；所述第二资源特征向量用于表征所述历史互动内容的先验资源信息，所述第二标识特征向量用于表征所述待推荐帐户对所述历史互动内容的行为反馈信息；所述第二资源特征向量、第二标识特征向量和所述对象特征向量的向量维度相同；

推荐信息确定单元630，被配置为执行调用训练完成的内容推荐模型，对所述待推荐内容的内容特征向量和所述待推荐帐户的对象特征向量进行处理，得到所述待推荐内容的推荐指标信息；

内容推送单元640，被配置为执行根据所述推荐指标信息，将从所述待推荐内容中确定出的目标推荐内容推送至所述待推荐帐户。

在一示例性实施例中，上述装置还包括模型训练单元，被配置为执行获取样本内容的内容特征向量和样本帐户的对象特征向量；样本内容的内容特征向量由向量维度相同的样本内容的第一资源特征向量和第一标识特征向量组成，样本帐户的对象特征向量由向量维度相同的样本帐户历史互动内容的第二资源特征向量和第二标识特征向量组成；样本内容的内容特征向量与对应的第一资源特征向量的向量维度相同，样本帐户的对象特征向量与对应的第二资源特征向量的向量维度相同；根据样本内容的第一资源特征向量和样本帐户历史互动内容的第二资源特征向量，对待训练的内容推荐模型进行训练，得到初始内容推荐模型；根据样本内容的内容特征向量和样本帐户的对象特征向量，对初始内容推荐模型进行再次训练，得到内容推荐模型；其中，第一资源特征向量和第二资源特征向量在训练过程中保持不变。

在一示例性实施例中，模型训练单元，还被配置为执行暂停样本内容的第一标识特征向量和样本帐户历史互动内容的第二标识特征向量的更新，根据样本内容的第一资源特征向量和样本帐户历史互动内容的第二资源特征向量，对待训练的内容推荐模型进行训练，得到初始内容推荐模型。

在一示例性实施例中，模型训练单元，还被配置为执行当获取到样本帐户对样本内容的行为反馈信息时，根据行为反馈信息对样本内容的第一标识特征向量和样本帐户历史互动内容的第二标识特征向量进行更新，得到更新的第一标识特征向量和更新的第二标识特征向量；根据更新的第一标识特征向量、更新的第二标识特征向量、样本内容的第一资源特征向量和样本帐户历史互动内容的第二资源特征向量对初始内容推荐模型进行再次训练，直至样本内容的第一标识特征向量和样本帐户历史互动内容的第二标识特征向量收敛，得到内容推荐模型。

在一示例性实施例中，第二获取单元，还被配置为执行获取待推荐帐户对历史互动内容的行为序列信息；对行为序列信息进行特征提取处理，得到待推荐帐户的兴趣行为特征向量；基于待推荐帐户的历史互动内容的第二资源特征向量、第二标识特征向量以及兴趣行为特征向量，得到待推荐帐户的对象特征向量。

在一示例性实施例中，第二获取单元，还被配置为执行调用兴趣特征提取模块对行为序列信息进行特征提取处理，得到待推荐帐户的兴趣行为特征信息；兴趣特征提取模块包括多头注意力单元；对兴趣行为特征信息进行向量化处理，得到待推荐帐户的兴趣行为特征向量。

在一示例性实施例中，第一获取单元，还被配置为执行将待推荐内容输入训练完成的资源特征提取模型，得到待推荐内容的资源信息；训练完成的资源特征提取模型基于样本内容的先验资源信息训练得到；对资源信息进行向量化处理，得到待推荐内容的第一资源特征向量。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种用于实现内容推荐方法的电子设备700的框图。例如，电子设备700可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图7，电子设备700可以包括以下一个或多个组件：处理组件702、存储器704、电源组件706、多媒体组件708、音频组件710、输入/输出(I/O)的接口712、传感器组件714以及通信组件716。

处理组件702通常控制电子设备700的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理组件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在电子设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘、光盘或石墨烯存储器。

电源组件706为电子设备700的各种组件提供电力。电源组件706可以包括电源管理系统，一个或多个电源，及其他与为电子设备700生成、管理和分配电力相关联的组件。

多媒体组件708包括在所述电子设备700和用户之间的提供输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括前置摄像头和/或后置摄像头。当电子设备700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括麦克风(MIC)，当电子设备700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括扬声器，用于输出音频信号。

I/O接口712为处理组件702和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件714包括一个或多个传感器，用于为电子设备700提供各个方面的状态评估。例如，传感器组件714可以检测到电子设备700的打开/关闭状态，组件的相对定位，例如所述组件为电子设备700的显示器和小键盘，传感器组件714还可以检测电子设备700或电子设备700组件的位置改变，用户与电子设备700接触的存在或不存在，设备700方位或加速/减速和电子设备700的温度变化。传感器组件714可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件714还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件716被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件716还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在一示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器704，上述指令可由电子设备700的处理器720执行以完成上述方法。例如，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在一示例性实施例中，还提供了一种计算机程序产品，所述计算机程序产品中包括指令，上述指令可由电子设备700的处理器720执行以完成上述方法。

需要说明的，上述的装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种内容推荐方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述训练完成的内容推荐模型通过下述方式训练得到，包括：

根据所述样本内容的内容特征向量中的第一资源特征向量和所述样本帐户的对象特征向量中的第二资源特征向量，对待训练的内容推荐模型进行训练，得到初始内容推荐模型；

3.根据权利要求2所述的方法，其特征在于，所述根据所述样本内容的第一资源特征向量和所述样本帐户历史互动内容的第二资源特征向量，对待训练的内容推荐模型进行训练，得到初始内容推荐模型，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述样本内容的内容特征向量和所述样本帐户的对象特征向量，对所述初始内容推荐模型进行再次训练，得到所述内容推荐模型，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据待推荐帐户的历史互动内容的第二资源特征向量和第二标识特征向量，得到所述待推荐帐户的对象特征向量，包括：

获取所述待推荐帐户对所述历史互动内容的行为序列信息；

6.根据权利要求5所述的方法，其特征在于，所述对所述行为序列信息进行特征提取处理，得到所述待推荐帐户的兴趣行为特征向量，包括：

7.一种内容推荐装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的内容推荐方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的内容推荐方法。

10.一种计算机程序产品，所述计算机程序产品中包括指令，其特征在于，所述指令被电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的内容推荐方法。