CN114610913A

CN114610913A - 多媒体数据的推荐方法、推荐模型训练方法及相关设备

Info

Publication number: CN114610913A
Application number: CN202111681672.XA
Authority: CN
Inventors: 王福晴; 陈科名; 王希栋; 宋勇; 叶晓舟; 欧阳晔
Original assignee: Asiainfo Technologies China Inc
Current assignee: Asiainfo Technologies China Inc
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-06-10

Abstract

本申请实施例提供一种多媒体数据的推荐方法、推荐模型训练方法及相关设备；涉及人工智能技术领域。该方法包括：通过获取至少一条多媒体数据，和与目标用户相关的至少一条浏览记录，进而分别对各浏览记录进行特征提取，得到对应的第一向量表示、分别对各多媒体数据进行特征提取，得到对应的第二向量表示和将该第一向量表示和与该浏览记录对应的多媒体数据对应的第二向量表示进行特征融合，得到融合特征，再基于融合特征在至少一条多媒体数据中确定用于推荐的多媒体数据。本申请的实施不仅有助于发现用户的深层次兴趣点，还有助于解决稀疏性和冷启动的问题。

Description

多媒体数据的推荐方法、推荐模型训练方法及相关设备

技术领域

本申请涉及人工智能及推荐技术领域，具体而言，本申请涉及一种多媒体数据的推荐方法、推荐模型训练方法及相关设备。

背景技术

随着科技的发展，推荐系统在互联网电商、搜索引擎、视频网站等领域的广泛应用，带来了巨大的经济效益，使得企业开始重视推荐算法的研究与应用，注重用户体验的提升。

传统的推荐算法多是采用协同过滤或基于内容的推荐算法，比如，基于用户个性特征(包括兴趣、爱好及行为习惯)以及与他相似的用户、基于推荐内容之间的相似度、基于推荐内容本身具有代表性的特征进行推荐的算法。

然而，上述推荐算法依赖于对用户特征、推荐内容特征的构造及相似性刻画，更多的只考虑到各推荐内容(或用户)之间的表面联系，对推荐的内容难以提供解释，明显可见，如何提取推荐内容的深层次特征成为了推荐技术领域的一大技术难题，且上述推荐算法又依赖于用户的惯用数据，难以解决稀疏性和冷启动的问题。

发明内容

本申请实施例提供了一种多媒体数据的推荐方法、推荐模型训练方法及相关设备，用于解决如何基于推荐内容深层次内容特征进行推荐的技术问题。

根据本申请实施例的一个方面，提供了一种多媒体数据的推荐方法，该方法包括：

获取至少一条多媒体数据，和与目标用户相关的至少一条浏览记录；

分别对各浏览记录进行特征提取，得到对应的第一向量表示；

分别对各多媒体数据进行特征提取，得到对应的第二向量表示；

针对每一浏览记录对应的第一向量表示执行融合步骤：将该第一向量表示和与该浏览记录对应的多媒体数据对应的第二向量表示进行特征融合，得到融合特征；

基于融合特征在至少一条多媒体数据中确定用于推荐的多媒体数据。

在一种可能的实现方式中，融合步骤，还包括：

采用基于视觉注意力机制确定的特征权重，和/或，基于时间注意力机制确定的时间权重，调整融合特征。

在一种可能的实现方式中，分别对各浏览记录进行特征提取，得到对应的第一向量表示，包括：

针对每一浏览记录对应的节点生成节点序列；所述节点序列中各节点之间的距离信息和相似度信息分别具有对应的随机游走权重；

基于节点序列，生成对应的第一向量表示。

在一种可能的实现方式中，分别对各多媒体数据进行特征提取，得到对应的第二向量表示，包括：

针对每一多媒体数据生成向量矩阵；

从向量矩阵中提取多媒体数据的隐式特征；

基于隐式特征，生成对应的第二向量表示。

在一种可能的实现方式中，基于融合特征在至少一条多媒体数据中确定用于推荐的多媒体数据，包括：

将融合特征与未在目标用户浏览记录中的多媒体数据对应的第二向量进行相似度计算，确定至少一条用于推荐的相似多媒体数据；

和/或，将融合特征与其他用户的融合特征进行相似度计算，确定至少一个相似用户，基于相似用户的浏览记录，确定至少一条未在目标用户浏览记录中的相似多媒体数据。

根据本申请实施例的另一个方面，提供了一种推荐模型的训练方法，推荐模型包括用于提取用户浏览记录特征的第一特征提取模块和用于提取多媒体数据特征的第二特征提取模块；该训练方法包括：

获取训练数据集；训练数据集包括至少一条多媒体数据，和与用户相关的至少一条浏览记录；

通过第一特征提取模块，基于浏览记录，得到预测第一向量表示；

通过第二特征提取模块，基于多媒体数据，得到预测第二向量表示；

基于预测第一向量和预测第二向量更新推荐模型；

其中，训练后的推荐模型应用于上述的多媒体数据的推荐方法。

根据本申请实施例的另一个方面，提供了一种多媒体的推荐装置，包括：

数据获取模块，用于获取至少一条多媒体数据，和与目标用户相关的至少一条浏览记录；

第一特征提取模块，用于分别对各浏览记录进行特征提取，得到对应的第一向量表示；

第二特征提取模块，用于分别对各多媒体数据进行特征提取，得到对应的第二向量表示；

融合模块，用于针对每一浏览记录对应的第一向量表示执行融合步骤：将该第一向量表示和与该浏览记录对应的多媒体数据对应的第二向量表示进行特征融合，得到融合特征；

确定模块，用于基于融合特征在至少一条多媒体数据中确定用于推荐的多媒体数据。

根据本申请实施例的另一个方面，提供了一种推荐模型的训练装置，推荐模型包括用于提取用户浏览记录中多媒体数据特征的第一特征提取模块和用于提取数据库中多媒体数据特征的第二特征提取模块；训练装置包括：

获取模块，用于获取训练数据集；训练数据集包括至少一条多媒体数据，和与用户相关的至少一条浏览记录；

训练模块，用于通过第一特征提取模块，基于浏览记录，得到预测第一向量表示；通过第二特征提取模块，基于多媒体数据，得到预测第二向量表示；基于预测第一向量表示和预测第二向量表示更新推荐模型；

根据本申请实施例的另一个方面，提供了一种计算机设备，包括：

一个或多个存储器；

处理器及存储在存储器上的计算机程序，

处理器执行计算机程序以实现上述方法的步骤。

根据本申请实施例的另一个方面，提供了一种计算机可读存储介质，包括：

其上存储有计算机程序，

计算机程序被处理器执行时实现上述方法的步骤。

根据本申请实施例的另一个方面，提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现上述方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例提供了一种多媒体数据的推荐方法，具体地，本申请可以分别对目标用户的至少一条浏览记录进行特征提取得到对应的第一向量表示，以通过目标用户的浏览记录发掘目标用户与多媒体数据之间相关的特征；同时，可以分别对至少一条多媒体数据进行特征提取得到对应的第二向量表示；继而，将浏览记录对应的第一向量表示和与该浏览记录对应的多媒体数据对应的第二向量表示进行特征融合，得到融合特征，以基于融合特征进行多媒体数据推荐，使得本申请的推荐方法不仅可以精确捕捉用户的兴趣爱好，还能深层次发掘用户与多媒体数据之间的相关性，如用户对多媒体数据的兴趣点等；另外，本申请是基于提取所得的第一向量表示和第二向量表示进行多媒体数据推荐，使得推荐结果有较好的解释性，且不再依赖于用户的惯用数据对多媒体数据或用户的特征进行刻画，有助于解决稀疏性和冷启动的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种多媒体数据的推荐方法的流程示意图；

图2为本申请实施例提供的一种推荐模型的训练方法流程示意图；

图3为本申请实施例提供的一种随机游走过程示意图；

图4为本申请实施例提供的一种推荐系统的系统架构示意图；

图5为本申请实施例提供的一种多媒体数据的推荐方法的应用场景示意图；

图6为本申请实施例提供的一种推荐模型的训练装置的结构示意图；

图7为本申请实施例提供的一种多媒体数据推荐装置的结构示意图；

图8为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。

为了更好的理解及说明本申请实施例所提供的方案，下面对本申请所涉及的相关技术进行说明。

关于基于用户的协同过滤推荐算法，依赖于专业人员对用户特征的构造，即便特征的构造十分精妙，仍然存在用户的某些特征难以捕捉的问题，也就是说对于用户爱好的召回率比较低，同时该推荐算法还依赖于用户的行为数据，存在稀疏性和冷启动的问题。

关于基于推荐内容的协同过滤推荐算法，依赖于专业人员对推荐内容特征的构造，如果仅依据推荐内容特征进行推荐，则有可能会一直给用户推荐虽然特征关联密切但又不喜欢的推荐内容，从而失去了推荐的多样性。

关于基于内容的推荐算法，容易受限于对推荐内容进行描述的详细程度，对于一些内容上的特有特征仍存有难以捕捉的问题(人们通常对于喜爱的东西很难说得清喜欢它的哪一点)。

根据上述内容，可知，现有的推荐算法严重依赖于人为对推荐内容特征的构造，而所构造的特征不仅存在难以全面表达推荐内容的技术问题，还存在难以捕捉用户深层次的兴趣点，同时基于推荐特征的推荐算法需要大量的用户数据，在面对稀疏性和冷启动的技术问题时，也显得无能为力，因此本申请实施例提供了一种多媒体数据的推荐方法、推荐模型训练方法及相关设备，以解决上述至少一个问题。

为使本申请的目的、技术方案和优点更加清楚，下面对本申请涉及的几个名词进行介绍和解释：

图嵌入模型：将原始的图数据(通常是稀疏的高维临接矩阵)映射成低纬的稠密向量，图嵌入模型一般有两种：节点嵌入是将原始图上每个节点通过嵌入得到一个向量表达，将该向量表达嵌入得到向量表示既可以用在简单任务，例如判断两个节点的相似性，在社交网络中判断两个用户是否相似从而推荐好友，也可以作为输入表示用在更上游的复杂任务，例如将社交网络中节点(用户)表示用在商品的推荐系统中；整图嵌入是将整张图通过嵌入得到一个向量，一般用在比较两个图的相似性上，比如判断蛋白质分子的相似性，两个社区是否相似等。

表示学习模型：在深度学习领域内，表示是指通过模型的参数，采用何种形式、何种方式来表示模型的输入观测样本X。表示学习是指学习对观测样本X有效的表示。表示学习有很多种形式，比如CNN(Convolutional Neural Networks，卷积神经网络)参数的有监督训练是一种有监督的表示学习形式，对自动编码器和限制玻尔兹曼机参数的无监督预训练是一种无监督的表示学习形式，对DBN(Deep neural network，深度神经网络)参数-先进行无监督预训练，再进行有监督fine-tuning(微调)是一种半监督的共享表示学习形式。

时间注意力机制：模仿人类视觉注意力机制，学习出一个对多媒体数据特征的权重分布，再把这些权重分布施加在原来的特征上，为基于多媒体数据的推荐和基于用户的推荐等提供不同的特征影响，使得任务主要关注一些重要特征，忽略不重要特征，提高任务效率。其中，视觉注意力机制是人脑特有的一种对信号处理的机制，人类视觉通过观察全局图像，选取一些局部重点关注区域，然后对这区域投入更多注意力来获取更多的细节信息，抑制其它无用信息。

网络的同质性：距离相近节点的嵌入应该尽量近似，在实际应用中，同质性的节目很可能是同品类、同属性，或者经常被一同购买、点击的节目。

网络的结构性：结构上相似的节点的嵌入应该尽量接近，在推荐系统中，结构性相似的物品一般是各品类的热播剧等拥有类似趋势或者结构性属性的节目。

下面通过对几个示例性实施方式的描述，对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。

在本申请实施例中所涉及的推荐方法是一种基于多模型融合的推荐方法，其特殊在于所涉及的图嵌入模型和表示学习模型优势互补，不仅解决了提取多媒体数据的内容特征难度大的技术问题，同时也有利于缓解稀疏性和冷启动等问题。本申请实施例基于多模型融合的推荐方法进行推荐的最终目的是使得推荐的结果具有良好的解释性。

请参阅图1，以下结合图1对本申请实施例的推荐方法进行详细说明。图1示出了本申请实施例提供的一种多媒体数据的推荐方法的流程示意图，该方法可以由任意的电子设备执行，如可以由终端设备，终端设备可以通过执行该方法，依据目标用户的浏览记录的第一向量表示和与该浏览记录对应的多媒体数据的第二向量表示进行特征融合，得到融合特征，从而后续可以基于该融合特征确定用于推荐的多媒体数据。该方法也可以由服务器执行，可选的，该服务器可以是云服务器，该方法可以实现为一个应用程序或者作为已有的具有推荐功能的应用程序的插件或功能模块，比如，可以作为多媒体类应用程序的一个新的功能模块，通过执行本申请实施例的该方法，对于不同的多媒体数据或用户，可以刻画出更加深层次的多媒体数据特征或用户特征，进而后续，还可以基于该特征确定用于推荐的多媒体数据，并推送到用户的终端设备，向用户进行展示；基于该方法可以学习到更多的多媒体数据特征，并有利于深层次发现用户的兴趣点，有利于解决稀疏性和冷启动等问题，为用户提供更加精准的推荐内容。其中，上述终端设备包括用户终端，用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、可穿戴电子设备、AR/VR设备等。

如图1中所示，本申请实施例提供的该多媒体数据的推荐方法可以包括以下步骤S100至步骤S500。

步骤S100：获取至少一条多媒体数据，和与目标用户相关的至少一条浏览记录。

具体地，目标用户相关的浏览记录是指目标用户在使用应用程序或小程序时所留下的浏览痕迹，其中，目标用户的浏览记录可以用来表征目标用户对多媒体数据的浏览行为，可以理解的是，目标用户所浏览的对象可以包括影视节目、短视频、推文、广告等。另外，浏览记录不仅包括用户所浏览的对象，还可以包括用户对该对象的浏览时间，浏览次数等信息。

其中，多媒体数据是指内容提供平台上所提供的可浏览对象，包括但不限于可浏览对象的媒资信息(包括：简介、经典台词、经典场面的关键词)、评论数据、可浏览对象的类型等，需要注意的是，上述步骤S100中的多媒体数据包括目标用户浏览记录中的浏览对象和未在用户浏览记录中的可浏览对象(也即包括已被目标用户浏览和未被目标用户浏览的多媒体数据)。

可选地，所获取的目标用户的浏览记录包括：基于预设时间段、目标用户的行为数据中的至少一种，对浏览记录进行筛选所得到的符合预设要求的浏览记录。

具体地，预设时间段是指预设的时间周期，其中，预设的时间周期包括但不限于一周、一个月、一个季度等，可以理解的是，热点内容的持续时间也可以作为预设的时间周期。

具体地，目标用户的行为数据是指用户点击数据、搜索数据，评论数据、浏览时长等。

在一种可能的情况中，获取到目标用户的浏览记录后，可以基于预设的时间段对目标用户的浏览记录进行筛选，举例说明：设置预设时间段为一个月，从目标用户所有的浏览记录中以月份(或30天)为时间周期，筛选出一个月内目标用户的浏览记录总数。

在另一种可能的情况中，获取到目标用户的浏览记录后，基于目标用户在浏览时的行为数据对浏览记录进行筛选，举例说明：基于目标用户的浏览时长为浏览对象打上个性化的特征标签，其中，为浏览时长设置浏览时长阈值，当浏览时长大于浏览时长阈值时，为浏览对象打上正标签，表征该浏览对象为正样本(即该条浏览记录为正样本)，当浏览时长小于或等于浏览时长阈值时，为浏览对象打上负标签，表征该浏览对象为负样本(即该条浏览记录为负样本)。其中，可将目标用户浏览记录的正样本筛选出来，作为本申请实施例的输入数据。

再一种可能的情况是，获取到目标用户的浏览记录后，同时基于预设的时间段和用户的行为数据对目标用户的浏览记录进行筛选，举例说明，设置预设时间段为一个月，从目标用户所有的浏览记录中以月份(或30天)为时间周期，筛选出一个月内目标用户的浏览记录总数，再根据目标用户的浏览时长为浏览对象打上个性化的特征标签，然后再筛选出一个月内目标用户的浏览记录的正样本的总数，作为本申请实施例的输入数据。

步骤S200：分别对各浏览记录进行特征提取，得到对应的第一向量表示。

其中，第一向量表示是指基于目标用户浏览记录中的多媒体数据的向量表示，表征用户浏览记录中的多媒体数据的上下文信息。

可选地，针对每一浏览记录对应的节点生成节点序列；所述节点序列中各节点之间的距离信息和相似度信息分别具有对应的随机游走权重；基于节点序列，生成对应的第一向量表示。

具体地，随机游走权重是指图嵌入模型中在节点网络中随机游走时，在节点网络路径上的权重，其中，路径上的权重由图嵌入模型的超参数控制，该超参数的具体数值可以人为设置，也可以通过半监督的方式学习得到。

具体地，节点网络是指根据用户的浏览记录所生成的一个复杂网络，其中，该复杂网络可以是有向图，也可以是无向图，本申请不做限制。

具体地，在节点网络中距离相近的节点应该相似，即网络的同质性，在节点网络中结构相似的节点也应该相似，即网络的结构性。为了在节点网络的同质性和结构性中进行权衡，可以根据不同节点之间的距离(或不同节点之间的结构)，调整随机游走权重，进而得到与节点相关的节点序列，基于该节点序列，再输入到推荐模型中，使得推荐模型学习到更多的关于节点的上下文信息，进而基于上下文信息生成第一向量表示。

具体地，节点的上下文信息是指在节点网络中与该节点密切相关(即与该节点距离相近或结构相似的其他节点)的信息。其中，每个节点表征一条浏览记录，即一个目标用户的浏览对象。需要说明的是，本申请实施例通过引入图嵌入模型提取用户浏览对象特征的方式，使得推荐模型可以基于用户的浏览记录学习到更多基于用户特征的用户浏览对象的特征。

在一种可能的情况中，将上述基于一个月的预设时间段所筛选出来的浏览记录与多媒体数据作为输入数据，输入到本申请实施例中，经过对浏览记录进行特征提取，得到基于用户特征的用户浏览对象的第一向量表示(即浏览记录的向量表示)。

在另一种可能的情况中，将上述基于浏览时长所筛选出来的浏览记录与多媒体数据作为输入数据，输入到本申请实施例中，经过对浏览记录进行特征提取，得到基于用户特征的用户浏览对象的第一向量表示(即浏览记录的向量表示)。

再一种可能的情况中，同时基于预设时间段和浏览时长对目标用户的浏览记录进行筛选，并经筛选后得到的目标用户的浏览记录，作为输入数据，输入到本申请实施例中，经过对浏览记录进行特征提取，得到基于用户特征的用户浏览对象的第一向量表示(即浏览记录的向量表示)。

换言之，上述基于目标用户的浏览记录进行特征提取，所得到的第一向量表示，也可用于表征目标用户的特征。是因为该浏览记录是用户基于自身的兴趣爱好在内容提供平台所留下的浏览痕迹，故在用户的浏览记录中实质上是隐含了用户的特征，同时本申请实施例可基于预设的时间段和用户的行为数据对目标用户的浏览记录进行筛选，剔除了脏数据，使得本申请实施例后续所得到的推荐列表更具解释性。

步骤S300：分别对各多媒体数据进行特征提取，得到对应的第二向量表示。

具体地，多媒体数据包括目标用户浏览记录中的多媒体数据和未在用户浏览记录中的多媒体数据，故第二向量表示包括目标用户浏览记录中的多媒体数据的第二向量表示和未在用户浏览记录中的多媒体数据的第二向量表示。其中，第二向量表示是指内容提供平台上可浏览对象的向量表示。即表征浏览对象的双向上下文信息。

可选地，将多媒体数据转换成向量矩阵；通过权重系数矩阵，从向量矩阵中提取多媒体数据的隐式特征；基于隐式特征，得到对应的第二向量表示。

具体地，权重系数矩阵是指推荐模型根据多媒体数据的字与字之间的关系学习到的权重系数矩阵。隐式特征是指多媒体数据的深层次特征。

在本申请实施例中，通过将多媒体数据转换成向量矩阵，再通过调整权重系数矩阵，便可以根据字与字之间的关系，从向量矩阵中提取出多媒体数据的隐式特征，基于该隐式特征，可以得到多媒体数据中一些比较重要的字的信息，其中这些字的信息是向量矩阵的双向上下文信息。具体地，向量矩阵(即多媒体数据的向量形式)的双向上下文信息是指从多媒体数据的正向或逆向所获得的上下文信息，举例说明，在人们对文本进行阅读的时候，往往是从左至右(从上到下)的方向进行阅读，但对于文章中某一处存疑时，则会从文章的上文或下文中对该存疑处的内容进行推敲，进而获知该处的内容信息，而所引入的表示学习模型，正是模仿人类的这一行为对多媒体数据进行学习，由此可见，对于多媒体数据中的单个字来说，按照顺序阅读所得到的单个字的信息，和按照逆序阅读所得到的单个字的信息是不一样的，为了得到该字所蕴含的准确意义，需要获取该字的双向上下文信息。需要说明的是，本申请实施例通过引入表示学习模型提取浏览对象特征的方式，使得推荐模型不仅可以有效提取捕捉用户对浏览对象潜在的关注点的特征，同时还有利于基于解决现有推荐算法中面临的稀疏性和冷启动的技术问题。

在一种可能的实施例中，当某应用程序缺少用户数据(其中用户数据可以是用户的浏览记录)时，可提取当前用户所浏览的浏览对象的深层次特征，并基于该浏览对象的深层次特征进行推荐。

步骤S400：针对每一浏览记录对应的第一向量表示执行融合步骤：将该第一向量表示和与该浏览记录对应的多媒体数据对应的第二向量表示进行特征融合，得到融合特征。

具体地，在本申请实施例中所获取的多媒体数据包括目标用户浏览记录中的浏览对象的多媒体数据和未在用户浏览记录中的浏览对象的多媒体数据，故第二向量表示包括目标用户浏览记录中的浏览对象对应的多媒体数据的第二向量表示和未在用户浏览记录中的浏览对象对应的多媒体数据的第二向量表示。因此，目标用户浏览记录中的浏览对象存在一个对应的第二向量表示，故将第一向量表示与浏览记录对应的多媒体数据对应的第二向量表示进行特征融合是指将同一浏览对象的两个种不同的向量表示进行融合。

根据上述内容可知，基于目标用户的浏览记录进行特征提取，所得到的第一向量表示，也可用于表征目标用户的特征，是因为该浏览记录是用户基于自身的兴趣爱好在内容提供平台所留下的浏览痕迹，故在用户的浏览记录中隐含着用户特征，可见，将第一向量表示和第二向量表示所得到的融合特征是可以同时表征目标用户特征和节目特征的向量表示。具体地，若将单个第一向量表示与其对应的第二向量表示进行融合时，所得到的融合特征可以用于表征多媒体数据特征的信息(即浏览对象向量表示)，后续再与时间注意力机制的函数进行融合，则可归纳为公式(1)、(2)；若将预设时间段的多个第一向量表示与其对应第二向量表示进行融合并求和(即将多个融合特征进行求和)，所得到的融合特征可以用于表征用户特征的信息(即用户向量表示)，后续再与时间注意力机制的函数进行融合，可归纳为公式(3)。

C＝[AB]

……(1)

其中，A为基于图嵌入模型在目标用户浏览记录中进行特征提取所得到的第一向量表示，B为基于表示学习模型在多媒体数据中进行特征提取所得的第二向量表示，C为表征多媒体数据特征的融合特征。

V＝C*f(x)

……(2)

其中，f(x)为时间注意力机制的函数。

其中，U_i为第i个用户的融合特征，m为用户i在一个周期内的浏览记录的总数，Σc_j为在一个周期内的目标用户浏览记录的第一向量表示和与该浏览记录对应的多媒体数据的第二向量表示的融合特征总和。

可选地，采用基于视觉注意力机制确定的特征权重，和/或，基于时间注意力机制确定的时间权重，调整融合特征。

具体地，时间注意力机制是指用户的关注对象随时间变化的机制。在发明人对用户的偏好现象进行研究时，考虑到用户对于待推荐对象的偏好具有显著的时间衰退性(比如用户的某些偏好只是出于对待推荐对象的追捧)，因此，为了模拟用户对于待推荐对象的兴趣随时间衰减的现象，引入时间注意力机制。

具体地，时间注意机制本质是模仿人类视觉注意力机制，学习出一个对浏览对象特征的权重分布，再把这些权重分布施加在浏览对象特征上，为基于浏览对象的特征进行推荐和基于用户的特征推荐等提供不同的特征影响，使得任务主要关注一些重要特征，忽略不重要特征，提高任务效率。

具体地，也可基于视觉注意力机制，学习出一个对浏览对象特征的权重分布，再把这些权重分布施加在浏览对象特征上，为基于浏览对象的特征进行推荐和基于用户的特征推荐等提供不同的特征影响，使得任务主要关注一些重要特征，忽略不重要特征，提高任务效率。

其中，权重计算过程是通过设计一个打分函数，针对每个Attention(注意力)向量，计算出一个分值，打分的依据就是和Attention所关注的对象(实质是一个向量)的相关程度，越相关，所得值越大，将分值映射成为(0，1)的值。

在一种可能的情况中，由于用户的兴趣是由时间变化的，所以待推荐对象的推荐应考虑时间效应，比如用户过去一周喜欢对象内容现在不一定感兴趣，相比于推荐过去喜欢的多媒体数据，推荐用户近期喜欢的多媒体数据更有参考价值，因此需要为时间注意力机制设置所构造的函数，加入时间参数。其中，该时间参数为一个时间周期，使得推荐模型模拟用户兴趣变化时以时间周期中点α为中心对称，并单调递减。可选地，可将时间参数设施为一周、一个月、一个季度等。举例说明，为贴合工作制周期，可以将时间参数设置为一周，时间注意力机制的输出映射在(0，1)之间，以α＝4(第四天)中心对称，单调递减。

具体地，时间注意力机制的函数，可参考公式(4)：

在另一种可能的情况中，由于用户的关注点是不同的，所以待推荐对象的推荐应考虑用户视觉上的关注点，比如有些用户关注的是多媒体数据中的人物或有些用户关注的是多媒体数据中的场景，基于用户的关注点向用户进行推荐更有参考价值，因此可以为融合特征设置视觉注意力机制，使得推荐模型模拟用户的关注点，基于用户的关注点进行推荐。

步骤S500:基于融合特征在至少一条多媒体数据中确定用于推荐的多媒体数据。

可选地，将融合特征与未在目标用户浏览记录中的多媒体数据对应的第二向量进行相似度计算，确定至少一条用于推荐的相似多媒体数据；和/或，将融合特征与其他用户的融合特征进行相似度计算，确定至少一个相似用户，基于相似用户的浏览记录，确定至少一条未在目标用户浏览记录中的用于推荐的相似多媒体数据。

具体地，相似度是用于度量两个向量之间的相似性，可以理解的是，相似度的计算方法包括但不限于：余弦相似度、曼哈顿距离、皮尔逊相关系数、斯皮尔曼等级相关系数等相似度计算方法。

在一种可能的实施例中，通过余弦相似度计算特征表示之间的相似度，筛选出一个或多个较为相似的待推荐对象，使得后续可向用户进行个性化推荐。其中，余弦相似度计算公式，参考如下公式(5)

具体地，待推荐对象是指未在目标用户浏览记录中的浏览对象。待推荐对象还可以是其他的相似用户。其中，未在用户浏览记录中的浏览对象的向量表示对应于浏览对象相应的多媒体数据的第二向量表示，可参考如下公式(6)。

V＝B……(6)

在一种可能的实施例中，将基于目标用户浏览记录所得到的融合特征与未在目标用户浏览记录中的浏览对象对应的多媒体数据对应的第二向量通过余弦相似度计算公式，筛选出最为相似的前几个浏览对象，作为推荐对象(即基于浏览对象的深层次特征进行推荐)。

在另一种可能的实施例中，将基于预设时间段(可以是一周)的目标用户的浏览记录对应的融合特征进行求和，所得到的融合特征(即目标用户的融合特征)与其他相同条件下的其他用户的融合特征通过余弦相似度计算公式，筛选出最为相似的前几个用户，作为相似用户，并在相似用户的浏览记录中，将目标用户尚未浏览过的浏览对象作为待推荐对象(即基于相似用户的深层次特征进行推荐)。

再一种可能的实施例中，可以将上述推荐方法所得到的待推荐对象，同时向用户进行推荐，即同时基于浏览对象和相似用户的深层次特征进行推荐。

可选地，若目标用户的浏览记录的数目低于预设值，则基于热门内容进行推荐。

具体地，现有的推荐算法不仅依赖于特征工程对用户特征或节目特征的构成，还依赖于用户的行为数据或待推荐物品的附件信息。另外，当用户使用某应用软件较少时，传统的推荐模型缺少训练数据，存在过拟合的风险(稀疏性问题)或新加入的待推荐商品缺少对应的历史信息，现有的推荐算法也难以准确地建模推荐(冷启动问题)。

为了解决上述问题，在一种可能情况中，针对未有浏览记录和浏览记录少于预设值的用户，可为其基于热门内容进行推荐，其中，将节目观看总次数除以节目观看去重总人数，得到可浏览对象的人均点击次数，以人均点击次数较高的前几位可浏览对象作为待推荐对象，可参考如下公式(7)：

本申请实施例提供了一种多媒体数据的推荐方法，通过分别对目标用户的各浏览记录进行特征提取，得到对应的第一向量表示，使得可以通过目标用户的浏览记录发掘基于目标用户特征的多媒体数据特征；通过分别对多媒体数据进行特征提取，得到对应的第二向量表示，使得可以本申请的推荐方法不再局限于多媒体数据的表面特征，而是进一步提取多媒体数据对应的多媒体数据的深层次特征；将浏览记录对应的第一向量表示和与该浏览记录对应的多媒体数据对应的第二向量表示进行特征融合，得到融合特征，使得本申请的推荐方法不仅可以精确捕捉用户的兴趣爱好，还能深层次发掘用户的兴趣点，使得推荐结果有较好的解释性，同时不再依赖于用户的惯用数据，对多媒体数据或用户的特征进行刻画，有助于解决稀疏性和冷启动的问题。

基于同一发明构思，本申请实施例还提供了一种推荐模型的训练方法，参考图2所示，本申请实施例对以下步骤S101至步骤S104进行详细说明：

推荐模型包括用于提取用户浏览记录中多媒体数据特征的第一特征提取模块和用于提取数据库中多媒体数据特征的第二特征提取模块；该训练方法包括

步骤S101：获取训练数据集；训练数据集包括至少一条多媒体数据，和与用户相关的至少一条浏览记录。

具体地，用户的浏览记录是指用户在使用应用程序时所留下的浏览痕迹，其中，用户的浏览记录可以用来表征用户所浏览过的对象，比如电影节目、短视频、推文、广告等。多媒体数据是指内容提供平台上所提供的所有可浏览对象的详细信息，包括但不限于可浏览对象的媒资信息(包括：简介、经典台词、经典场面的关键词)、评论数据、可浏览对象的类型等。

步骤S102：通过第一特征提取模块，基于浏览记录，得到预测第一向量表示。

可选地，将浏览记录转换成节点网络；根据可调整的超参数，确定随机游走权重，基于随机游走权重确定在节点网络中的遍历方式，并生成对应的节点序列；基于节点序列中的至少一个节点生成对应的至少一个预测第一向量表示。

具体地，节点网络可以是有向图也可以是无向图在本申请中不做限制，其中，节点网络中的节点为一条用户浏览记录，即为一个用户浏览过的对象的节点。节点网络可基于预设时间段(如一周、一个月、一个季度等)的浏览记录生成节点网络，也可基于用户的行为数据对浏览记录进行筛选后生成节点网络。可调整的超参数是Node2vec图嵌入模型(Nodeto vector，节点到向量模型)的随机游走超参数p、q，通过调整Node2vec模型中的随机游走超参数p、q，得到节点网络路径上的随机游走权重，使得Node2vec模型可以确定遍历的方式，使得推荐模型可以在节点网络的同质性和结构性中权衡，生成相应的节点序列，进而得到每一节点的上下文信息，基于节点的上下文信息，则可以生成节点(即浏览记录)对应的预测第一向量表示，其中遍历的方式包括：BFS(Breadth First Search，广度优先遍历)、DFS(Depth Fist Search，深度优先遍历)。其中随机游走超参数p、q的值可以是人为设定，也可以通过半监督的方式学习。需要说明的是，p表示回到上一节点的概率，q表示远离上一节点的概率，其中通过超参数p、q即可控制节点网络路径上的权重，如图3所示，如果t节点为v节点游走的下一个节点，则游走到t的概率为1/p(即节点网络路径上的权重，下同)，表征v节点下一步游走回到上一个节点(t节点)；如果x₁节点为v节点游走的下一个节点(t节点与x₁节点相连)，则游走到x₁的概率为1，表征v节点下一步游走至上一个节点(t节点)的邻接x₁节点，即表现为BFS；如果x₂或x₃节点为v节点游走的下一个节点(t节点与x₂、x₃节点不相连)，则游走到x₂或x₃的概率为1/q，表征v节点下一步游走至更远的节点(x₂、x₃节点)即表现为DFS；其中v节点为当前节点，t节点为v游走的上一个节点，α表征随机游走的概率。

具体地，节点序列是指通过调整上述随机游走超参数p、q，得到节点网络路径上的权重，进而确定在节点网络中的遍历方式，通过在节点网络中进行游走，所得到的随机游走的节点序列。如从图2中可以得到的节点序列：t->v->t、t->v->x₁、t->v->x₂、t->v->x₃等。

为了基于用户的浏览记录提取可浏览对象的特征，探索更多关于不同可浏览对象之间的联系，后续还将所得到的节点序列再输入至推荐模型中，通过学习各节点序列中目标节点与其他节点之间的特征，预测目标节点的上下文信息，得到各目标节点的预测第一向量表示，即表征可浏览对象上下文信息的预测第一向量表示。

在本申请实施例中，可以通过将所有不同用户的浏览记录生成节点网络。在一种可能的情况中，设置Node2vec的超参数基于网络的同质性探索可浏览对象节点在社区中的特征，得到可浏览对象的预测第一向量表示。其中社区是指在节点网络中因节点聚集所形成的节点部落。例如：战争类的节目与动漫类的节目会形成两个不同的社区，模型可在同一社区中，预测用户浏览了某个节目后，用户将会浏览的下一部节目。

在另一种可能的情况中，设置Node2vec的超参数基于网络的结构性探索可浏览对象节点在不同社区中特征，得到可浏览对象的预测第一向量表示。例如：在两个不同的社区中，可能会有在各自社区中结构类似的两个节点，模型可跳出本社区，前往其他社区中寻找与本社区目标节点类似的节点，向用户推荐结构相似的节点或与结构相似的节点的关联节点。

步骤S103：通过第二特征提取模块，基于多媒体数据，得到预测第二向量表示。

可选地，将多媒体数据转换成向量矩阵；其中，向量矩阵由字向量、分割向量及位置向量组成；通过调整权重系数矩阵，对向量矩阵进行词语特征提取，得到词语级别的双向上下文信息；对向量矩阵进行句子特征提取，得到句子级别的双向上下文信息；基于至少一个双向上下文信息生成至少一个预测第二向量表示。

具体地，词语(句子)级别双向上下文信息是指从字(词)或句子的正向或逆向所获得的上下文信息，举例说明，在人们对文本进行阅读的时候，往往是从左至右(从上到下)的方向进行阅读，但对于文章中某一处存疑时，则会从文章的上文或下文中对该存疑处的内容进行推敲，进而获知该处的内容信息，而所引入的表示学习模型，正是模仿人类的这一行为对多媒体数据进行学习，由此可见，对于多媒体数据中的单个字来说，按照顺序阅读所得到的单个字的信息，和按照逆序阅读所得到的单个字的信息是不一样的，为了得到该字所蕴含的准确意义，需要获取该字的双向上下文信息。

具体地，需要对多媒体信息进行分字处理(可选地，也可以进行分词处理)，并将每个字(词)转换成表征各个字(词)的语义的字向量。由于每个字(词)在句子中不同的位置(或在不同的句子中)应表达有不同的意思，因此，需要对不同的句子进行区分并引入字(词)的位置信息，故需要为每个字(词)设置句子索引(即分割向量)，并为每个字在不同句子中的不同位置设置位置索引(即位置向量)，最后将字向量、分割向量及位置向量进行求和，得到向量矩阵，输入至推荐模型中。其中，将附加信息转化成字向量，并在为字向量设置分割向量时，在句子的开头插入[CLS]符号(一方面用于聚集整个序列的信息，另一方面用于表示这是句子的开头)，在句子的结尾或分割处插入[SEP]符号。

具体地，通过对向量矩阵进行线性变换，得到Q(query，查询向量)、K(key，被查向量)、V(value，内容向量)三个字向量矩阵，为了得到每个字(词)在多媒体数据中的深层次含义，进一步地，需要得到每个字(词)与其他字(词)的关联程度，于是将每个字的Q、K矩阵进行点乘，并利用softmax函数进行归一化处理，得到当前字(词)与其他字(词)之间的关系矩阵，更进一步地，为了得到Attention(注意力)的结果，将归一化所得到关系矩阵与V进行点乘，得到Attention的结果。其中，为了保证Q、K点乘前后所得矩阵的维度一致，则需要将K进行转置后再与Q进行点乘。为了保证点乘前后梯度的稳定性，则需要对点乘后的矩阵进行降维(即除以维度d_k)。

换言之，基于向量矩阵的输入可以总结如下公式(8)所示：

具体地，为了提高推荐模型的性能，并得到更多附加信息的深层次含义，可选的，利用多头注意力机制设置更多的隐藏层，并通过公式(9)将多个Attention的结果进行拼接，再乘以一个权重系数矩阵W^O。其中，在拼接前需要公式(10)通过多个线性变换对不同隐藏层的Q、K、V进行投影(即乘以不同的权重系数矩阵W)，上述权重系数矩阵皆由推荐模型在学习的过程中得到，参考公式(9)、(10)所示：

MultiHead(Q,K,V)＝Concat(head₁,...,head_n)W^O

……(9)

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

……(10)

具体地，为了得到附加信息更深层次的含义，需要让推荐模型记住更多字(词)的上下文信息和句子的上下文关系，上述表示学习模型的训练过程中还包括两个预训练任务，即预测词训练任务和预测下一句训练任务。

其中预测词训练任务是指在训练过程中随机掩盖15％的字向量，其中对于15％的字向量进行如下处理，

(1)80％的概率用[MASK]符号进行替代。

(2)10％的概率用随机词替换。

(3)10％的概率保持该词不变。

通过上述方法，使得推荐模型无法得知哪些字向量被替换，使得推荐模型必须记住所有字向量的上下文表达，从而预测被掩盖的字向量，进而学习到字词级别的预测向量表示。

其中，上述对附加信息的处理中，已经引入句向量对多媒体数据进行分句，因此预测下一句训练任务是指将多媒体数据中的句子对(即有上下文关系的句子被称为句子对)进行如下处理：

(1)打乱50％的句子对的顺序。

(2)从另外50％未被打乱的句子对中学习到句子的上下文关系。

通过上述方法，使推荐模型去预测句向量的上下文关系，进而学习到句子级别的预测向量表示。

通过上述训练方法，使得推荐模型学习到多媒体数据中的深层次含义，并生成表示多媒体数据的预测第二向量表示，即表征可浏览对象的深层次含义。

步骤S104：基于预测第一向量和预测第二向量更新推荐模型。

具体地，可根据预测第一向量表示、预测第二向量表示及融合特征构造损失函数，进而计算损失行数的值以更新推荐模型的参数。

图4中示出了一种可选的推荐方法的系统架构示意图，如图4中所示，该系统包括用户的终端设备10、第一应用的服务器端即图4中所示的应用服务器20和推荐模型训练服务器30，终端设备10和第一应用服务器端通过网络进行通信。其中，终端设备10中可以安装有需要推荐功能的应用程序APP，通过打开该应用程序的客户端，可以进行内容浏览，比如该应用程序APP是视频观看软件，打开视频软件可以进行多媒体数据(如节目)观看。

其中，推荐模型训练服务器30可以通过网络获取到用户的浏览记录和多媒体数据对推荐模型进行训练，得到训练好的推荐模型。训练好的推荐模型可以部署于的应用服务器20中，图4中的应用服务器20可以用于执行本申请实施例所提供的推荐方法，基于目标用户的浏览记录和多媒体数据，利用图嵌入表示模型对浏览记录进行特征提取和利用表示学习模型对多媒体数据进行特征提取，分别得到第一向量表示和第二向量表示，从而将目标用户的浏览记录的第一向量表示和与该浏览记录对应的多媒体数据的第二向量表示进行特征融合，得到融合特征，进而可基于融合特征确定用于推荐的多媒体数据，后续向用户进行个性化推荐，使得推荐结果具有解释性。

下面结合图4所示的推荐系统，对节目(多媒体数据中的一种)推荐场景下的推荐方法流程进行详细说明，如图5中所示，该方法包括步骤S201至步骤S207。

步骤S201：获取业务场景数据，包括：用户浏览和多媒体数据。

具体地，用户通过终端设备10登录进视频观看软件的客户端中，在使用软件的过程中留下了浏览记录，应用服务器20获取客户端上用户的浏览记录和数据库中节目的多媒体数据。

步骤S202：使用图嵌入模型对用户浏览记录进行向量表示。

具体地，应用服务器20通过图嵌入模型对用户浏览记录进行特征提取，得到基于用户浏览记录的节目特征。

步骤S203：使用表示学习模型对多媒体数据进行向量表示。

具体地，应用服务器20通过表示学习模型对多媒体数据进行特征提取，得到节目的深层次信息，可以使得推荐模型可以发现用户真正的兴趣点。

步骤S204：融合特征。

具体地，应用服务器20通过将同一节目的两种不同的向量表示进行特征融合，得到的融合特征，可以使得节目的向量表示在特征空间中有更多表示方法，即获得更多的语义信息。

步骤S205：加入时间注意力机制或视觉注意力机制。

具体地，通过为融合特征加入时间注意力机制，使得模型可以模拟用户的兴趣随时间变化的时效性，或者，通过为融合特征加入视觉注意力机制，使得模型可以模拟用户的对节目内容的关注点，使得模型后续向用户推荐的内容更具解释性。

步骤S206：特征筛选。

具体地，在一种可能的情况中，将目标用户浏览记录中的节目对应的融合特征与其他未在目标用户浏览记录中的节目对应的第二向量表示进行相似度计算，筛选出较为相似的前几个未在目标用户浏览记录中的节目，用于向目标用户进行推荐(即基于节目的特征向用户进行推荐)。在另一种可能的情况中，在目标用户浏览记录中筛选出预设时间段的至少一个融合特征，将所有融合特征进行求和，得到基于用户的融合特征，并与其他用户相同条件下的融合特征进行相似度计算，筛选出至少一个相似用户，并在相似用户的浏览记录中筛选出目标用户尚未观看过的节目，为目标用户进行推荐(即基于用户特征进行推荐)。

步骤S207：确定待推荐对象。

可选地，将上述得到的节目，发送至终端设备10(即用户客户端)中，生成一个个性化的待推荐表向用户进行推荐。

本申请实施例中，分别对目标用户的至少一条浏览记录进行特征提取得到对应的第一向量表示，以通过目标用户的浏览记录发掘目标用户与多媒体数据之间相关的特征；同时，可以分别对至少一条多媒体数据进行特征提取得到对应的第二向量表示；继而，将浏览记录对应的第一向量表示和与该浏览记录对应的多媒体数据对应的第二向量表示进行特征融合，得到融合特征，以基于融合特征进行多媒体数据推荐，使得本申请的推荐方法不仅可以精确捕捉用户的兴趣爱好，还能深层次发掘用户与多媒体数据之间的相关性，如用户对多媒体数据的兴趣点等；另外，本申请是基于提取所得的第一向量表示和第二向量表示进行多媒体数据推荐，使得推荐结果有较好的解释性，且不再依赖于用户的惯用数据对多媒体数据或用户的特征进行刻画，有助于解决稀疏性和冷启动的问题。

对应于本申请所提供的推荐模型的训练方法，本申请实施例还提供一种推荐模型的训练装置，如图6所示，该推荐模型的训练装置60可以包括：

获取模块601，用于获取训练数据集；训练数据集包括至少一条多媒体数据，和与用户相关的至少一条浏览记录。

训练模块602，用于通过第一特征提取模块，基于浏览记录，得到预测第一向量表示；通过第二特征提取模块，基于多媒体数据，得到预测第二向量表示。基于预测第一向量和预测第二向量更新推荐模型。

对应于本申请所提供的推荐方法，本申请实施例还提供一种推荐装置，如图7所示，该推荐装置70可以包括：

数据获取模块701，用于获取至少一条多媒体数据，和与目标用户相关的至少一条浏览记录。

第一特征提取模块702，用于分别对各浏览记录进行特征提取，得到对应的第一向量表示；

第二特征提取模块703，用于分别对各多媒体数据进行特征提取，得到对应的第二向量表示；

融合模块704，用于针对每一浏览记录对应的第一向量表示执行融合步骤：将该第一向量表示和与该浏览记录对应的多媒体数据对应的第二向量表示进行特征融合，得到融合特征。

确定模块705，用于基于融合特征在至少一条多媒体数据中确定用于推荐的多媒体数据。

可选地，融合模块704还用于采用基于视觉注意力机制确定的特征权重，和/或，基于时间注意力机制确定的时间权重，调整融合特征。

可选地，第一特征提取模块702还用于针对每一浏览记录对应的节点生成节点序列；节点序列中各节点之间的距离信息和相似度信息分别具有对应的随机游走权重；基于节点序列，生成对应的第一向量表示。

可选地，第二特征提取模块703还用于针对每一多媒体数据生成向量矩阵；从向量矩阵中提取多媒体数据的隐式特征；基于隐式特征，生成对应的第二向量表示。

可选地，确定模块705还用于将融合特征与未在目标用户浏览记录中的多媒体数据对应的第二向量进行相似度计算，确定至少一个用于推荐的相似多媒体数据，和/或，将融合特征与其他用户的融合特征进行相似度计算，确定至少一个相似用户，基于该相似用户的浏览记录，确定至少一个未在目标用户浏览记录中的用于推荐的相似多媒体数据。

本申请实施例提供了一种多媒体数据的推荐方法，第一特征提取模块702分别对目标用户的各浏览记录进行特征提取，得到对应的第一向量表示，使得可以通过目标用户的浏览记录发掘基于目标用户特征的节目特征；第二特征提取模块703还可以分别对多媒体数据进行特征提取，得到对应的第二向量表示，使得可以本申请的推荐方法不再局限于节目的表面特征，而是进一步提取节目对应的多媒体数据的深层次特征；融合模块704还可以将浏览记录对应的第一向量表示和与该浏览记录对应的多媒体数据对应的第二向量表示进行特征融合，得到融合特征，使得本申请的推荐方法不仅可以精确捕捉用户的兴趣爱好，还能深层次发掘用户的兴趣点，使得推荐结果有较好的解释性，同时不再依赖于用户的惯用数据，有助于解决稀疏性和冷启动的问题。

另外，在本申请实施例中，确定模块705还可以基于上述方法提取到推荐内容的深层次特征进行推荐，使得推荐的结果更具个性化和解释性。

在一个可选实施例中提供了一种计算机设备，如图8所示，图8所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器4003用于存储执行本申请实施例的计算机程序，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序，以实现前述方法实施例所示的步骤。

其中，电子设备包括但不限于：手机、平板电脑、PDA(Personal DigitalAssistant，个人数字助理)、POS(Point of Sales，销售终端)、车载电脑、服务器等任意电子设备。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种多媒体数据的推荐方法，其特征在于，包括：

基于所述融合特征在所述至少一条多媒体数据中确定用于推荐的多媒体数据。

2.根据权利要求1所述的方法，其特征在于，所述融合步骤，还包括：

采用基于视觉注意力机制确定的特征权重，和/或，基于时间注意力机制确定的时间权重，调整所述融合特征。

3.根据权利要求1的方法，其特征在于，所述分别对各浏览记录进行特征提取，得到对应的第一向量表示，包括：

基于所述节点序列，生成对应的第一向量表示。

4.根据权利要求1的方法，其特征在于，所述分别对各多媒体数据进行特征提取，得到对应的第二向量表示，包括：

针对每一多媒体数据生成向量矩阵；

从所述向量矩阵中提取多媒体数据的隐式特征；

基于所述隐式特征，生成对应的第二向量表示。

5.根据权利要求1的方法，其特征在于，所述基于所述融合特征在所述至少一条多媒体数据中确定用于推荐的多媒体数据，包括：

将所述融合特征与未在所述目标用户浏览记录中的多媒体数据对应的第二向量进行相似度计算，确定至少一条用于推荐的相似多媒体数据；

和/或，将所述融合特征与其他用户的融合特征进行相似度计算，确定至少一个相似用户，基于所述相似用户的浏览记录，确定至少一条未在所述目标用户浏览记录中的相似多媒体数据。

6.一种推荐模型的训练方法，其特征在于，所述推荐模型包括用于提取用户浏览记录特征的第一特征提取模块和用于提取多媒体数据特征的第二特征提取模块；该训练方法包括：

获取训练数据集；所述训练数据集包括至少一条多媒体数据，和与用户相关的至少一条浏览记录；

通过所述第一特征提取模块，基于所述浏览记录，得到预测第一向量表示；

通过所述第二特征提取模块，基于所述多媒体数据，得到预测第二向量表示；

基于所述预测第一向量和所述预测第二向量更新所述推荐模型；

其中，训练后的推荐模型应用于权利要求1-5所述的多媒体数据的推荐方法。

7.一种多媒体数据推荐装置，其特征在于，包括：

确定模块，用于基于所述融合特征在所述至少一条多媒体数据中确定用于推荐的多媒体数据。

8.一种推荐模型的训练装置，其特征在于，所述推荐模型包括用于提取用户浏览记录中多媒体数据特征的第一特征提取模块和用于提取数据库中多媒体数据特征的第二特征提取模块；所述训练装置包括：

获取模块，用于获取训练数据集；所述训练数据集包括至少一条多媒体数据，和与用户相关的至少一条浏览记录；

训练模块，用于通过所述第一特征提取模块，基于所述浏览记录，得到预测第一向量表示；通过所述第二特征提取模块，基于所述多媒体数据，得到预测第二向量表示；基于所述预测第一向量表示和所述预测第二向量表示更新所述推荐模型；

9.一种计算机设备，其特征在于，包括：

一个或多个存储器；

处理器及存储在存储器上的计算机程序，

处理器执行计算机程序以实现权利要求1-6任一项方法的步骤。

10.一种计算机可读存储介质，其特征在于，包括：

其上存储有计算机程序，

计算机程序被处理器执行时实现权利要求1-6任一项方法的步骤。

11.一种计算机程序产品，包括计算机程序，其特征在于，计算机程序被处理器执行时实现权利要求1-6任一项方法的步骤。