CN105574132A

CN105574132A - 一种多媒体文件推荐方法和终端

Info

Publication number: CN105574132A
Application number: CN201510934265.3A
Authority: CN
Inventors: 王洁; 李海涛
Original assignee: Hisense Group Co Ltd
Current assignee: Hisense Group Co Ltd
Priority date: 2015-12-15
Filing date: 2015-12-15
Publication date: 2016-05-11

Abstract

本发明公开了一种多媒体文件推荐方法和终端，涉及计算机数据挖掘技术领域，用以降低所推荐的视频是用户不喜欢的视频的概率，从而提高用户的体验。方法包括：确定用户的特征信息和目标多媒体文件的相关多媒体文件集中的每个相关多媒体文件的特征信息；根据该用户的特征信息和每个相关多媒体文件的特征信息，获取该用户对每个相关多媒体文件的偏好值；根据该用户对每个相关多媒体文件的偏好值，从相关多媒体文件集中选择出目标多媒体文件的关于该用户的相关多媒体文件，并向该用户推荐目标多媒体文件的关于用户的相关多媒体文件。本发明实施例提供的技术方案应用于为用户推荐目标多媒体文件的相关多媒体文件的场景中。

Description

一种多媒体文件推荐方法和终端

技术领域

本发明涉及计算机数据挖掘技术领域，尤其涉及一种多媒体文件推荐方法和终端。

背景技术

随着互联网技术的迅猛发展，人们可以获得和接触的视频资源越来越多，但是，找到自己喜欢的视频需要花费的时间也越来越长。由此，视频推荐技术应运而生，并且已经成为用户发现相关视频的主要途径之一。

目前，常用的视频推荐方法是根据备选视频的标签与目标视频的标签之间的匹配程度，对备选视频进行排序，从而得到目标视频的相关推荐列表。其中，备选视频的标签与目标视频的标签之间的匹配程度一般是基于相匹配的标签的数目，或者基于带权重的标签匹配算法计算得到的。

上述视频推荐方法中，均是从视频与视频之间的相关性进行推荐的，因此，为所有用户推荐的目标视频的相关推荐列表是相同的；然而，不同用户对视频的关注焦点可能不同，例如，对于目标视频是电影《霸王别姬》而言，有些用户希望推荐与该电影的导演相关的视频，有些用户希望推荐与该电影的演员相关的视频等。因此，利用上述视频推荐方法所推荐的视频可能是某些用户不喜欢的视频，从而造成用户体验差。

发明内容

本发明的实施例提供一种多媒体文件推荐方法和终端，用以降低所推荐的视频是用户不喜欢的视频的概率，从而提高了用户的体验。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，提供一种多媒体文件推荐方法，包括：

确定用户的特征信息和目标多媒体文件的相关多媒体文件集中的每个相关多媒体文件的特征信息；

根据所述用户的特征信息和所述每个相关多媒体文件的特征信息，获取所述用户对所述每个相关多媒体文件的偏好值；

根据所述用户对所述每个相关多媒体文件的偏好值，从所述相关多媒体文件集中选择出所述目标多媒体文件的关于所述用户的相关多媒体文件；

向所述用户推荐所述目标多媒体文件的关于所述用户的相关多媒体文件。

第二方面，提供一种终端，包括：

确定单元，用于确定用户的特征信息和目标多媒体文件的相关多媒体文件集中的每个相关多媒体文件的特征信息；

获取单元，用于根据所述用户的特征信息和所述每个相关多媒体文件的特征信息，获取所述用户对所述每个相关多媒体文件的偏好值；

选择单元，用于根据所述用户对所述每个相关多媒体文件的偏好值，从所述相关多媒体文件集中选择出所述目标多媒体文件的关于所述用户的相关多媒体文件；

推荐单元，用于向所述用户推荐所述目标多媒体文件的关于所述用户的相关多媒体文件。

上述技术方案，通过获取用户的特征信息和目标多媒体文件的相关多媒体文件集中的每个相关多媒体文件的特征信息，然后根据这些信息，获取用户对目标多媒体文件的相关多媒体文件集中的每个相关多媒体文件的偏好，以根据该偏好值，从相关多媒体文件集中选择出目标多媒体文件的关于该用户的相关多媒体文件。该技术方案在确定目标多媒体文件的相关多媒体文件集的基础上，结合不同用户对该相关多媒体文件集中的每个相关多媒体文件的偏好值，从该相关多媒体文件集中选择出关于不同用户的相关多媒体文件，也就是说，本技术方案可以结合用户的偏好为不同的用户推荐不同的多媒体文件，与现有技术相比，能够降低所推荐的视频是用户不喜欢的视频的概率，从而提高了用户的体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频推荐方法的流程示意图；

图2为本发明实施例提供的一种获取用户的特征信息的方法的流程示意图；

图3为本发明实施例提供的一种获取用户与各特定标签之间的关联程度的过程的示意图；

图4为本发明实施例提供的一种获取视频信息库中的所有视频在各特定主题上的概率分布的过程的示意图；

图5为本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行示例性描述，显然所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先，本发明实施例中的技术方案的基本原理是：根据用户对目标多媒体文件的相关多媒体文件的偏好，得到目标多媒体文件的关于该用户的相关多媒体文件，从而实现为不同用户提供目标多媒体文件的不同的相关多媒体文件，以实现个性化多媒体文件推荐。

其次，对本文中所涉及的部分术语进行解释说明，以方便本领域技术人员的理解：

1)、多媒体文件

多媒体文件，具体可以是视频，语音，图片，文档等。

2)、标签，标签列表

标签，可以理解为关键字。例如，一部电影的标签可以是：导演的姓名、演员的姓名、电影的类型(例如，动作、情感、历史等)等。一个文档的标签可以是：作者的姓名，文档的类型等。

一个多媒体文件的所有标签构成的集合，具体可以以列表或表格或其结合或其他任意形式存储，本文中均以其以列表的形式存储为例进行说明。例如，将一个视频的所有标签所构成的集合称为该视频的标签列表；又如，将一个文档的所有标签所构成的集合称为该文档的标签列表。

2)、主题

主题，可以是一篇文章、一段话、一个句子所表达的中心思想。从统计模型的角度来讲，可以用一个特定的词频分布来刻画主题，并认为一篇文章、一段话、一个句子是从一个概率模型中生成的。

本发明实施例提供的技术方案中，通过训练多媒体文件的简介的LDA(LatentDirichletAllocation，潜在狄利克雷分配)主题模型得到该多媒体文件在各个主题上的概率分布；其中，LDA主题模型是一种文档主题生成模型，涉及贝叶斯理论、Dirichlet分布、多项分布、图模型、变分推断、EM算法、Gibbs抽样等知识，较为复杂，由于此模型已经是成熟的技术，因此本发明实施例对此不进行过多描述。另外，具体实现时，还可以通过训练其他主题模型，获得多媒体文件在各主题上的概率分布，本发明实施例对此不进行限定。

3)、相关多媒体文件、相关多媒体文件集

相关多媒体文件，是指与目标多媒体文件相关的多媒体文件，具体可以根据与目标多媒体文件的标签的匹配程度确定该目标多媒体文件的相关多媒体文件；其中，该匹配程度可以是基于相匹配的标签的数目，或者基于带权重的标签匹配算法计算得到的；当然也可以是根据其他方式得到，本发明实施例对此不进行限定。目标多媒体文件的部分或全部相关多媒体文件构成的集合称为“目标多媒体文件的相关多媒体文件集”。

4)、历史多媒体文件、历史多媒体文件集

历史多媒体文件，可以包括用户已经观看和/或用户收藏的多媒体文件。用户的部分或全部历史多媒体文件构成的集合称为历史多媒体文件集。

5)、和/或，多个

和/或，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。多个，是指两种或两种以上。

需要说明的是，本发明实施例提供的视频推荐方法的执行主体可以是终端，例如，智能电视、智能手机、平板电脑、笔记本电脑、台式电脑等。

另外需要说明的是，在多媒体文件推荐的过程中，一般为目标多媒体文件推荐同一类型的多媒体文件，例如，为目标视频推荐与目标视频相关的视频，为目标文档推荐与目标文档相关的文档等。下文中均以“多媒体文件是视频”，并且具体以“为目标视频推荐针对一用户的相关视频”为例进行说明。本领域技术人员应当清楚，下文中的“视频”可以替换为语音、图片、文档等其他任一种多媒体文件。

参见图1，为本发明实施例提供的一种视频推荐方法的流程示意图。图1所示的方法包括以下步骤S101-S104：

S101：终端确定用户的特征信息和目标视频的相关视频集中的每个相关视频的特征信息。

“用户的特征信息”是指能够表示用户对视频的偏好的信息。具体可以通过以下方式获取：首先获取用户的历史视频集中的每个历史视频的特征信息；然后根据该每个历史视频的特征信息，获取该用户的特征信息。可选的，由于历史视频集中的历史视频会不断更新，终端可以定期地或周期性地或触发性地，根据更新后的历史视频集，重新获取用户的特征信息。

“视频(包括相关视频和历史视频)的特征信息”可以包括：视频与各特定标签之间的关联程度和/或视频与各特定主题之间的关联程度，当然具体实现时还可以包含其他信息。其中，特定标签是指推荐过程中使用的视频标签，其可以是用户指定的标签，也可以是从用户的各历史视频的标签中提取出的标签。特定主题是指在推荐的过程中使用的视频主题，其是在训练主题模型的过程中获得的。

视频与各特定标签之间的关联程度，可以使用“0”或“1”表示，其中，“0”表示该视频与特定标签之间没有关联关系，即该视频的标签列表中不包含该特定标签，例如一部电影的标签中没有演员A；“1”表示该视频与特定标签之间有关联关系，即该视频的标签列表中包含该特定标签，例如一部电影的标签列表中包含演员A。当然，具体实现时，视频与各特定标签之间的关联程度还可以用其他方式表示。

视频与各特定主题之间的关联程度，可以使用视频在各特定主题上的概率分布表示。其具体可以通过训练视频的简介的LDA主题模型或其他主题模型得到。

可选的，当视频的特征信息包括视频与各特定标签之间的关联程度时，用户的特征信息可以包括用户与该各特定标签之间的关联程度。该情况下，终端为用户所推荐的目标视频的相关视频，能够满足对特定标签的偏好度较高的用户的需求，也就是说，针对这部分用户来说，能够降低所推荐的视频不是用户喜欢的视频的概率，从而提高用户的体验。

当视频的特征信息包括视频与各特定主题之间的关联程度时，用户的特征信息可以包括用户与该各特定主题之间的关联程度。该情况下，终端为用户所推荐的目标视频的相关视频，能够满足对特定主题的偏好度较高的用户的需求，也就是说，针对这部分用户来说，能够降低所推荐的视频不是用户喜欢的视频的概率，从而提高用户的体验。

当视频的特征信息包括视频与各特定标签之间的关联程度和视频的特征信息包括视频与各特定主题之间的关联程度时，用户的特征信息可以包括用户与该各特定标签之间的关联程度和用户与该各特定主题之间的关联程度。该情况下，终端为用户所推荐的目标视频的相关视频，能够满足对特定标签和特定主题的偏好度较高的用户的需求，也就是说，针对这部分用户来说，能够降低所推荐的视频不是用户喜欢的视频的概率，从而提高用户的体验。

可选的，视频的特征信息的集合可以使用向量的方式表示，并将该向量称为视频的特征向量；其中，视频的特征向量中的元素表示视频与一个特定标签之间的关联程度，或者表示视频与一个特定主题之间的关联程度等。相应地，用户的特征信息可以使用向量的方式表示，并将该向量称为用户的特征向量；其中，用户的特征向量中的元素表示用户与一个特定标签之间的关联程度，或者表示用户与一个特定主题之间的关联程度等。

需要说明的是，视频的特征向量中可以既包含表示视频与一个特定标签之间的关联程度的元素，又包含表示视频与一个特定主题之间的关联程度的元素；相应地，用户的特征向量中可以既包含表示用户与一个特定标签之间的关联程度的元素，又包含表示用户与一个特定主题之间的关联程度的元素。例如，可以将视频的特征向量表示为p＝(p1，p2)，其中，p1是向量p的一个子向量，该子向量中的每个元素表示视频与一个特定标签之间的关联程度；p2是向量p的另一个子向量，该子向量中的每个元素表示视频与一个特定主题之间的关联程度；相应地，可以将用户的特征向量表示为q＝(q1，q2)，其中，q1是向量q的一个子向量，该子向量中的每个元素表示用户与一个特定标签之间的关联程度；q2是向量q的另一个子向量，该子向量中的每个元素表示用户频与一个特定主题之间的关联程度。

一般地，用户的特征向量与视频的特征向量所包含的元素的数目相同，并且处于同一位置上的元素均表示与同一特定标签或同一特定主题之间的关联程度，例如，用户的特征向量的第2个元素与视频的特征向量的第2个元素均表示(用户或视频)与特定标签2之间的关联程度，或表示(用户或视频)与特定主题1之间的关联程度。

“目标视频的相关视频集”可以是终端从视频信息库中选择出的部分或全部相关视频构成的集合。其中，“视频信息库”可以是终端定时地或周期性地或触发性地向网络侧设备获取的，或者是网络侧设备定时地或周期性地或触发性地向终端推送的视频的信息(包括视频的标识、视频的简介、视频的标签等)。

在一种可选的实现方式中，为了提高推荐效率，终端可以在离线状态下获取用户的特征信息和每个相关视频的特征信息；然后存储这些信息。这样，步骤S101可以通过以下方式实现：直接读取终端中存储的用户的特征信息和该每个相关视频的特征信息。当然，具体实现时，终端也可以在线获取这些信息。下文中将详细描述如何获取这些信息。

当视频信息库更新后，终端可以重新获取目标视频的相关视频集，并重新执行步骤S102-S103，以重新得到目标视频的关于该用户的相关视频。

具体实现时，在步骤S101之前，该方法还可以包括：终端从相关的接口获取用户的ID(Identify，身份标识号码)和目标视频的ID；其中，用户ID可以是用户的登录名或登录账号等；目标视频的ID可以是目标视频的URL(UniformResourceLocator，统一资源定位符)等。

S102：终端根据该用户的特征信息和每个相关视频的特征信息，获取该用户对每个相关视频的偏好值。

具体的，终端可以将表示该用户的特征信息的向量(即用户的特征向量)，与表示该每个相关视频的特征信息的向量(即相关视频的特征向量)相乘，得到该用户对每个相关视频的偏好值。

S103：终端根据该用户对每个相关视频的偏好值，从相关视频集中选择出目标视频的关于该用户的相关视频。

终端设备可以按照从大到小的顺序，对所获取到的用户对每个相关视频的偏好值进行排序，并将排序靠前的预设数量个视频作为目标视频的关于该用户的相关视频。

S104：向该用户推荐目标视频的关于该用户的相关视频。

具体可以包括：在终端播放完目标视频，或者在播放的过程中，在用户界面的相应位置，显示目标视频的关于该用户的相关视频。

本发明实施例提供的视频推荐方法，通过获取用户的特征信息和目标视频的相关视频集中的每个相关视频的特征信息，然后根据这些信息，获取用户对目标视频的相关视频集中的每个相关视频的偏好，以根据该偏好值，从关视频集中选择出目标视频的关于该用户的相关视频。该技术方案在确定目标多媒体文件的相关多媒体文件集的基础上，结合不同用户对该相关多媒体文件集中的每个相关多媒体文件的偏好值，从该相关多媒体文件集中选择出关于不同用户的相关多媒体文件，也就是说，本技术方案可以结合用户的偏好为不同的用户推荐不同的多媒体文件，与现有技术相比，能够降低所推荐的视频是用户不喜欢的视频的概率，从而提高了用户的体验。

下面说明终端获取用户的特征信息的过程和获取相关视频的特征信息的过程。其中，具体以用户的特征信息包括用户与该各特定标签之间的关联程度，以及用户与各特定主题之间的关联程度为例进行说明。

终端获取用户的特征信息的过程

如图2所示，具体可以包括以下步骤1-4。其中，步骤1-2是终端获取用户与各特定标签之间的关联程度的过程，步骤3-4是终端获取用户与各特定主题之间的关联程度的过程。具体实现时，本发明实施例对步骤1-2，以及步骤3-4之间的执行顺序不进行限定。

步骤1、获取用户的历史视频集中的每个历史视频与每个特定标签之间的关联程度。

终端从用户已观看的历史(UserHistory)数据表和用户收藏(UserCollect)数据表中提取该用户的部分或全部历史视频，构成历史视频集。然后，从视频信息库中提取历史视频集中的每个历史视频的标签，得到每个历史视频的标签列表。接着，终端确定特定标签，以及匹配每个历史视频的标签列表与所确定的每个特定标签，即确定每个历史视频的标签列表中是否包含所确定的每个特定标签，从而确定用户的历史视频集中的每个历史视频与每个特定标签之间的关联程度。该过程的示意图可以参考图3。

假设历史视频集中有N个历史视频，特定标签包括n1个导演，n2个演员以及n3个视频类型，其中，N、n1、n2、n3均是大于或等于1的整数；若某个历史视频的标签列表中包含某个特定标签，则将表示该历史视频与该特定标签之间的关联程度的数值标记为1，反之则标记为0。那么，每个历史视频与每个特定标签之间的关联程度可以如表1所示。

表1

其中，表1中的列标题(历史视频1…历史视频N)表示用户的历史视频集中的历史视频的标识，行标题(导演1……演员1……视频类型n3)表示特定标签的标识。

步骤2、根据公式f₁＝[sum₁，sum₂,…,sum_i,…,sum_I]，得到表示该用户与该各特定标签之间的关联程度的向量f₁，其中，sum_i是表示每个历史视频与第i个特定标签之间的关联程度的数值之和，I是特定标签的总数目，1≤i≤I，i、I均为整数。

由于向量f₁中的元素的值可能大于1，而后续步骤4中得到的向量f₂中的元素的值在0～1之间，因此具体实现时，为了与f₂结合，可以对f₁进行归一化处理，从而得到标准化后的f₁，后续将标准化后的f₁标记为f₁′。其中，f₁′＝[a₁，a₂,…,a_i,…,a_I]，min(f₁)是向量f₁中的各元素的最小值，max(f₁)是向量f₁中的各元素的最大值。该过程的示意图可以参考图3。

基于表1的示例，sum_i即为表1中的第i个特定标签所在的列中表示关联程度的各数值之和，因此，基于表1的示例，所得到的表示该用户与该各特定标签之间的关联程度的向量为：f₁＝[sum₁，…,sum_n1,sum_n1+1,…,sum_n1+n2,sum_n1+n2+1…,sum_n1+n2+n3]。对f₁进行归一化处理，得到f₁′，其中，f₁′＝[a₁，a₂,…,a_n1+n2+n3]。

步骤3：终端获取用户的历史视频集中的每个历史视频在与每个特定主题之间的关联关系。

具体的：终端可以首先获取视频信息库中的所有视频在各特定主题上的概率分布，然后再从中提取出该用户的历史视频集中的每个历史视频在与每个特定主题之间的关联关系。其中，终端获取视频信息库中的所有视频在各特定主题上的概率分布的过程可以包括以下步骤31-33：

步骤31、从视频信息库提取所有视频(包含目标视频的每个相关视频和用户的每个历史视频)的简介。

步骤32：对该所有视频的简介进行分词，得到语料库。

其中，终端可以使用分词工具进行分词，本发明实施例对该分词工具的具体实现方式不进行限定，例如可以是现有技术中的任一种分词工具。

步骤33：基于该语料库以及指定的特定主题的数目，训练LDA主题模型，得到视频信息库中的每个视频分别在各特定主题上的概率分布。

步骤31-33的过程的示意图可参见图4。

具体实现时，该方法还可以包括：存储视频信息库中的每个视频分别在各特定主题上的概率分布。这样，当需要使用任一个视频在各特定主题上的概率分布时，可以直接从所存储的信息中读取。

假设视频信息库中有M个视频，M是大于1的整数，指定的特定主题的数目为20，那么每个视频在20个特定主题上的概率分布可以如表2所示。

表2

	主题1	…	主题20
				视频1	0.2756	…	0.4928
…	…	…	…
				视频M	0.5461	…	0.0247

其中，表2中的列标题(视频1……视频M)表示视频信息库中的视频的标识，行标题(主题1……主题20)表示特定主题的标识。

步骤4：根据公式f₂＝[mean₁，mean₂,…,mean_j,…,mean_J]，得到表示该用户与各特定主题之间的关联程度的向量f₂，其中，mean_j是各历史视频在第j个特定主题上的概率分布值的均值，J是特定主题的总数目，1≤j≤J，j、J均为整数。该过程的示意图可以参考图4。

从表2中提取用户的历史视频集中的各历史视频在各特定主题上的概率分布，如图3所示。其中假设历史视频集中的历史视频的数目为T。

表3

	主题1	…	主题20
				历史视频1	0.2731	…	0.3175
…	…	…	…
				历史视频T	0.0213	…	0.0123

这样，mean_j即为提取出的各历史视频中的第i个特定主题所在的列中表示关联程度的各数值的均值。因此，基于表3的示例，所得到的表示该用户在各特定主题上的概率分布的向量为：f₂＝[mean₁，mean₂,…,mean₂₀]。

综上，可以得到：用户的特征向量为f＝[f₁′，f₂]。基于表1、3的示例，f＝[f₁′，f₂]＝[a₁，a₂,…,a_n1+n2+n3,mean₁，mean₂,…,mean₂₀]。

终端获取相关视频的特征信息的过程

相关视频的特征信息包括相关视频与每个特定标签之间的关联程度，和相关视频在每个特定主题上的概率分布。其中，终端可以按照上述步骤1所示的方法，获取每个相关视频与每个特定标签之间的关联程度。另外，终端在执行上述步骤3的过程中，即可获取到每个相关视频在每个特定主题上的概率分布，具体的，可以从上述表2中提取到每个相关视频在每个特定主题上的概率分布。

下面说明终端获取相关视频集的过程，具体可包括以下步骤a-b：

步骤a：生成视频信息库中所有视频的标签列表，一个视频的标签列表包括该视频的演员、导演、视频类型。

步骤b：以获取视频A的相关视频集为例：分别将视频信息库中的每个视频的标签列表与视频A的标签列表进行匹配，将其标签包含在视频A的标签列表中的视频均作为视频A的相关视频。例如，如视频《智取威虎山》的标签列表为：["动作"、"战争"、"冒险"、"历史"、"徐克"、"梁家辉"，"林更新"、"张涵予"、"余男"、"佟丽娅"、"韩庚"、"陈晓"]，视频《集结号》的标签列表为：["动作"、"枪战"、"战争"、"冯小刚"、"廖凡"、"张涵予"、"邓超"、"王宝强"、"袁文康"]；“智取威虎山”和“集结号”分别匹配上了“动作”、“战争”和“张涵予”这三个标签，则将《集结号》加入到《智取威虎山》的相关视频集中。按照上述方法，遍历完视频信息库中所有视频，会生成视频信息库中的每个视频的相关视频集。

下面说明本发明实施例提供的对应于上述方法实施例的装置实施例。

参见图5，为本发明实施例提供的一种终端的结构示意图。图5所示的终端5用以执行上文提供的多媒体文件推荐方法，本实施例中相关内容的解释可以参考上文。终端5可以包括：确定单元51、获取单元52、选择单元53和推荐单元54。

确定单元51，用于确定用户的特征信息和目标多媒体文件的相关多媒体文件集中的每个相关多媒体文件的特征信息。

获取单元52，用于根据该用户的特征信息和该每个相关多媒体文件的特征信息，获取该用户对该每个相关多媒体文件的偏好值。

选择单元53，用于根据该用户对该每个相关多媒体文件的偏好值，从相关多媒体文件集中选择出目标多媒体文件的关于该用户的相关多媒体文件。

推荐单元54，用于向该用户推荐目标多媒体文件的关于该用户的相关多媒体文件。

可选的，获取单元52具体用于：获取用户的历史多媒体文件集中的每个历史多媒体文件的特征信息；其中，历史多媒体文件包括该用户已观看的多媒体文件，和/或该用户收藏的多媒体文件；根据每个历史多媒体文件的特征信息，获取用户的特征信息。

可选的，多媒体文件的特征信息包括多媒体文件与各特定标签之间的关联程度，该用户的特征信息包括该用户与各特定标签之间的关联程度；其中，特定标签是指推荐过程中使用的多媒体文件标签；和/或，多媒体文件的特征信息包括多媒体文件与各特定主题之间的关联程度，该用户的特征信息包括该用户与各特定主题之间的关联程度；其中，特定主题是指在推荐的过程中使用的多媒体文件主题。

可选的，获取单元52具体用于：

当多媒体文件的特征信息包括多媒体文件与各特定标签之间的关联程度时，根据公式f₁＝[sum₁，sum₂,…,sum_i,…,sum_I]，得到表示该用户与各特定标签之间的关联程度的向量f₁，sum_i是表示每个历史多媒体文件与第i个特定标签之间的关联程度的数值之和，I表示特定标签的总数目，1≤i≤I，i、I均为整数；和/或，

当多媒体文件的特征信息包括多媒体文件与各特定主题之间的关联程度时，根据公式f₂＝[mean₁，mean₂,…,mean_j,…,mean_J]，得到表示该用户与各特定主题之间的关联程度的向量f₂，其中，mean_j是各历史多媒体文件在第j个特定主题上的概率分布值的均值，J是特定主题的总数目，1≤j≤J，j、J均为整数。

可选的，多媒体文件与各特定主题之间的关联程度用多媒体文件在所述各特定主题上的概率分布表示；获取单元52还用于：对多媒体信息库中的所有多媒体文件的简介进行分词，得到语料库；其中，多媒体信息库中包括每个相关多媒体文件和每个历史多媒体文件；基于该语料库以及指定的特定主题的数目，训练LDA主题模型，得到多媒体信息库中的每个多媒体文件分别在各特定主题上的概率分布。

可选的，获取单元52具体用于：将表示该用户的特征信息的向量，分别与表示每个相关多媒体文件的特征信息的向量相乘，得到该用户对每个相关多媒体文件的偏好值。

本发明实施例提供的终端，通过获取用户的特征信息和目标多媒体文件的相关多媒体文件集中的每个相关多媒体文件的特征信息，然后根据这些信息，获取用户对目标多媒体文件的相关多媒体文件集中的每个相关多媒体文件的偏好，以根据该偏好值，从关多媒体文件集中选择出目标多媒体文件的关于该用户的相关多媒体文件。该技术方案在确定目标多媒体文件的相关多媒体文件集的基础上，结合不同用户对该相关多媒体文件集中的每个相关多媒体文件的偏好值，从该相关多媒体文件集中选择出关于不同用户的相关多媒体文件，也就是说，本技术方案可以结合用户的偏好为不同的用户推荐不同的多媒体文件，与现有技术相比，能够降低所推荐的视频是用户不喜欢的视频的概率，从而提高了用户的体验。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多媒体文件推荐方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取用户的特征信息，包括：

获取用户的历史多媒体文件集中的每个历史多媒体文件的特征信息；其中，所述历史多媒体文件包括所述用户已观看的多媒体文件，和/或所述用户收藏的多媒体文件；

根据所述每个历史多媒体文件的特征信息，获取所述用户的特征信息。

3.根据权利要求1或2所述的方法，其特征在于，

多媒体文件的特征信息包括多媒体文件与各特定标签之间的关联程度，所述用户的特征信息包括所述用户与所述各特定标签之间的关联程度；其中，所述特定标签是指推荐过程中使用的多媒体文件标签；和/或，

多媒体文件的特征信息包括多媒体文件与各特定主题之间的关联程度，所述用户的特征信息包括所述用户与所述各特定主题之间的关联程度；其中，所述特定主题是指在推荐的过程中使用的多媒体文件主题。

4.根据权利要求3所述的方法，其特征在于，所述根据所述每个历史多媒体文件的特征信息，获取所述用户的特征信息，包括：

当多媒体文件的特征信息包括多媒体文件与所述各特定标签之间的关联程度时，根据公式f₁＝[sum₁，sum₂,…,sum_i,…,sum_I]，得到表示所述用户与所述各特定标签之间的关联程度的向量f₁，其中，sum_i是表示所述用户的历史多媒体文件集中的每个历史多媒体文件与第i个所述特定标签之间的关联程度的数值之和，I表示所述特定标签的总数目，1≤i≤I，i、I均为整数；和/或，

当多媒体文件的特征信息包括多媒体文件与所述各特定主题之间的关联程度时，根据公式f₂＝[mean₁，mean₂,…,mean_j,…,mean_J]，得到表示所述用户与所述各特定主题之间的关联程度的向量f₂，其中，mean_j是所述用户的历史多媒体文件集中的各历史多媒体文件在第j个特定主题上的概率分布值的均值，J是所述特定主题的总数目，1≤j≤J，j、J均为整数。

5.根据权利要求3所述的方法，其特征在于，多媒体文件与所述各特定主题之间的关联程度用多媒体文件在所述各特定主题上的概率分布表示，所述方法还包括：

对多媒体信息库中的所有多媒体文件的简介进行分词，得到语料库；其中，所述多媒体信息库中包括所述每个相关多媒体文件；

基于所述语料库以及指定的所述特定主题的数目，训练潜在狄利克雷分配LDA主题模型，得到所述多媒体信息库中的每个多媒体文件分别在所述各特定主题上的概率分布。

6.根据权利要求1所述的方法，其特征在于，所述根据所述用户的特征信息和所述每个相关多媒体文件的特征信息，获取用户对所述相关多媒体文件集中的每个相关多媒体文件的偏好值，包括：

将表示所述用户的特征信息的向量，分别与表示所述每个相关多媒体文件的特征信息的向量相乘，得到所述用户对所述每个相关多媒体文件的偏好值。

7.一种终端，其特征在于，包括：

8.根据权利要求7所述的终端，其特征在于，

9.根据权利要求8所述的终端，其特征在于，

所述获取单元具体用于：

当多媒体文件的特征信息包括多媒体文件与所述各特定主题之间的关联程度时，根据公式f₂＝[mean₁，mean₂,…,mean_j,…,mean_J]，得到表示所述用户与所述各特定主题之间的关联程度的向量f₂，其中，所述特定主题是指在推荐的过程中使用的多媒体文件主题，mean_j是所述用户的历史多媒体文件集中的各历史多媒体文件在第j个特定主题上的概率分布值的均值，J是所述特定主题的总数目，1≤j≤J，j、J均为整数。

10.根据权利要求8所述的终端，其特征在于，一个多媒体文件与所述各特定主题之间的关联程度表示为该多媒体文件在所述各特定主题上的概率分布；所述获取单元，还用于：