CN105930423A

CN105930423A - 多媒体相似度确定方法、装置以及多媒体推荐方法

Info

Publication number: CN105930423A
Application number: CN201610243718.2A
Authority: CN
Inventors: 孙浩川
Original assignee: LeTV Holding Beijing Co Ltd; LeTV Information Technology Beijing Co Ltd
Current assignee: LeTV Holding Beijing Co Ltd; LeTV Information Technology Beijing Co Ltd
Priority date: 2016-04-18
Filing date: 2016-04-18
Publication date: 2016-09-07

Abstract

本发明公开了一种多媒体相似度确定方法、装置以及多媒体推荐方法，其中，该多媒体相似度确定方法，包括：根据用户对多媒体的操作行为日志，生成所述用户的一个或多个多媒体浏览行为集合，其中，所述多媒体浏览行为集合中记载有所述用户在一段连续时间内的多媒体浏览行为；从所述多媒体浏览行为集合中提取多媒体描述词；将提取的所述多媒体描述词两两组成词语对；按预设规则计算得到所述各词语对中的两个多媒体描述词的相似度。本发明实施例的多媒体相似度确定方法、装置以及多媒体推荐方法，能够解决现有技术中向用户推荐的多媒体类型和内容相对比较单一的问题。

Description

多媒体相似度确定方法、装置以及多媒体推荐方法

技术领域

本公开涉及多媒体推荐技术领域，尤其涉及一种多媒体相似度确定方法、装置以及多媒体推荐方法。

背景技术

随着多媒体技术的发展，各网站向用户推荐多媒体的应用越来越广泛和深入，例如各视频网站经常会向用户推荐一些视频。

目前，各视频网站为用户推荐视频的方式主要为：根据用户的视频搜索或观看记录，向用户推荐其之前观看或搜索过的视频，或者，向用户推荐与用户之前观看或搜索过的视频类似的视频。

当前，各视频网站所采用的向用户推荐视频的方法、向用户推荐的视频类型和内容相对比较单一，难以满足用户个性化的观看需求。

发明内容

本发明实施例的目的在于提供一种多媒体相似度确定方法、装置以及多媒体推荐方法，以解决现有技术中向用户推荐的多媒体类型和内容相对比较单一的问题。

为了解决上述技术问题，本发明实施例公开了如下技术方案：

第一方面，本发明实施例提供了一种多媒体相似度确定方法，包括：

根据用户对多媒体的操作行为日志，生成所述用户的一个或多个多媒体浏览行为集合，其中，所述多媒体浏览行为集合中记载有所述用户在一段连续时间内的多媒体浏览行为；

从所述多媒体浏览行为集合中提取多媒体描述词；

将提取的所述多媒体描述词两两组成词语对；

按预设规则计算得到所述各词语对中的两个多媒体描述词的相似度。

结合第一方面，在第一方面的第一种可能的实现方式中，所述根据用户对多媒体的操作行为日志，生成所述用户的一个或多个多媒体浏览行为集合，包括：

将所述用户的操作行为日志中记载的多媒体浏览行为按照发生时间的先后顺序进行排序；

根据所述排序的结果，分别将所述用户的操作行为日志中发生时间相邻且时间间隔小于预设时间间隔的至少两个多媒体浏览行为组成多媒体浏览行为子集合；

将所述用户的发生时间连续的一个或多个所述多媒体浏览行为子集合组成相应用户的多媒体浏览行为集合。

结合第一方面的第一种可能的实现方式实施方式，在本发明实施例第一方面的第二种可能的实现方式中，所述方法还包括：

确定组成的所述多媒体浏览行为集合中的多媒体浏览行为发生时间的时间跨度是否大于预设阈值；

若至少有一个所述多媒体浏览行为发生时间的时间跨度大于预设阈值，则将多媒体浏览行为发生时间的时间跨度大于预设阈值的多媒体浏览行为集合分割为时间跨度小于所述预设阈值的多媒体浏览行为集合。

结合第一方面、第一方面的第一种或第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述将提取的所述多媒体描述词两两组成词语对时，两个所述多媒体描述词的组合顺序不同得到不同的词语对。

结合第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，所述按预设规则计算得到的各词语对中的两个多媒体描述词的相似度，包括：

从各用户的多媒体浏览行为集合中确定出现目标词语对的多媒体浏览行为集合的个数；

从所述各用户的多媒体浏览行为集合中确定出现所述目标词语对中的第一个词语的多媒体浏览行为集合的个数；

将出现所述目标词语对的多媒体浏览行为集合的个数除以出现所述目标词语对中的第一个词语的多媒体浏览行为集合的个数，得到所述目标词语对中第一个词语相对于第二个词语的相似度。

第二方面，本发明实施例提供了一种多媒体相似度确定装置，包括：

集合生成模块，用于根据用户对多媒体的操作行为日志，生成所述用户的一个或多个多媒体浏览行为集合，其中，所述多媒体浏览行为集合中记载有所述用户在一段连续时间内的多媒体浏览行为；

描述词提取模块，用于从所述多媒体浏览行为集合中提取多媒体描述词；

词语对组成模块，用于将提取的所述多媒体描述词两两组成词语对；

相似度计算模块，用于按预设规则计算得到所述各词语对中的两个多媒体描述词的相似度。

结合第二方面，在第二方面的第一种可能的实现方式中，所述集合生成模块，包括：

排序单元，用于将所述用户的操作行为日志中记载的多媒体浏览行为按照发生时间的先后顺序进行排序；

第一组成单元，用于根据所述排序的结果，分别将所述用户的操作行为日志中发生时间相邻且时间间隔小于预设时间间隔的至少两个多媒体浏览行为组成多媒体浏览行为子集合；

第二组成单元，用于将所述用户的发生时间连续的一个或多个所述多媒体浏览行为子集合组成相应用户的多媒体浏览行为集合。

结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述装置还包括：集合分割模块，用于确定组成的所述多媒体浏览行为集合中的多媒体浏览行为发生时间的时间跨度是否大于预设阈值；若至少有一个所述多媒体浏览行为发生时间的时间跨度大于预设阈值，则将多媒体浏览行为发生时间的时间跨度大于预设阈值的多媒体浏览行为集合分割为时间跨度小于所述预设阈值的多媒体浏览行为集合。

结合第二方面、第二方面的第一种或第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述词语对组成模块在将提取的所述多媒体描述词两两组成词语对时，两个所述多媒体描述词的组合顺序不同得到不同的词语对。

结合第二方面的第三种可能的实现方式，在第二方面的第四种可能的实现方式中，所述相似度计算模块，包括：

第一确定单元，用于从各用户的多媒体浏览行为集合中确定出现目标词语对的多媒体浏览行为集合的个数；

第二确定单元，用于从所述各用户的多媒体浏览行为集合中确定出现所述目标词语对中的第一个词语的多媒体浏览行为集合的个数；

计算单元，用于将出现所述目标词语对的多媒体浏览行为集合的个数除以出现所述目标词语对中的第一个词语的多媒体浏览行为集合的个数，得到所述目标词语对中第一个词语相对于第二个词语的相似度。

第三方面，本发明实施例提供了一种多媒体推荐方法，包括：

获取多媒体描述词A；

按照多媒体相似度确定方法，确定与所述多媒体描述词A的相似度大于预设阈值的多媒体描述词B；

向多媒体浏览行为中包括描述词A的用户推荐所述多媒体描述词B所对应的多媒体。

本公开的实施例提供的技术方案可以包括以下有益效果：本发明实施例方法利用用户在一段连续时间内搜索或观看的多媒体具有较高相关性的特点，根据各用户对多媒体的操作行为日志，分别生成各用户的多媒体浏览行为集合，之后从得到的各用户的多媒体浏览行为集合中提取多媒体描述词，并通过两两计算多媒体描述词的相似度，确定得到的多媒体描述词之间的关联性，进而根据多媒体描述词之间的关联性向用户推荐多媒体，由此可以提高向用户推荐的多媒体的准确性以及向用户推荐的多媒体种类和内容的多样性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种多媒体相似度确定方法的流程示意图；

图2为本发明实施例提供的另一种多媒体相似度确定方法的流程示意图；

图3为本发明实施例提供的一种多媒体推荐方法的流程示意图；

图4为本发明实施例提供的一种多媒体相似度确定装置的结构示意图；

图5为本发明实施例提供的另一种多媒体相似度确定装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

目前的网站向用户推荐多媒体多是采用关键词匹配的方法，例如，根据用户的观看记录，确定用户观看过或搜索过第一多媒体，当用户再次登录该网站时，网站将第一多媒体推荐给用户，或者将与第一多媒体相同类型或相同演职人员的作品推荐给用户。当前的此种多媒体推荐方法，不仅推荐内容相对比较单一，而且难以与用户真实的观看需求匹配，无法满足用户个性化的多媒体观看需求。

需要说明的是上述多媒体包括但不限定于视频、音频、图片、网站等。

为了解决上述传统多媒体推荐方法所存在的问题，本发明实施例首先提供了一种多媒体相似度确定方法，该方法基于用户对多媒体的搜索或观看行为产生的描述词，确定不同多媒体描述词之间的相似度，进而确定不同描述词之间的关联性。基于确定出的不同多媒体描述词之间的关联性，可以为用户进行更深层次、内容更丰富多样的多媒体推荐。

参见图1，为本发明实施例提供的一种多媒体相似度确定方法的流程示意图，该方法的步骤包括：

步骤S11：根据用户对多媒体的操作行为日志，生成用户的一个或多个多媒体浏览行为集合。

本发明实施例中，从与多媒体对应的数据库中获取各用户对多媒体的操作行为日志，其中，每个用户的操作行为日志上均记录着该用户对多媒体的操作行为，如注册用户、登录、充值、搜索多媒体及观看多媒体等行为。

从各用户的行为日志中提取多媒体浏览行为，并组成分别与各用户对应的多媒体浏览行为集合，例如，从A用户对多媒体的操作行为日志中，提取出多个多媒体浏览行为，将该多个多媒体浏览行为组成一个或多个集合，组成的该一个或多个集合与A用户对应，获取其它用户的多媒体浏览行为集合的方式与A用户的方式相同，不再赘述。

由于用户在一段连续时间对多媒体的操作具有较强的相关性，因此，在利用多媒体浏览行为组合多媒体浏览行为集合时，可以将一段连续时间内的多媒体浏览行为组合为一个多媒体浏览行为集合。

步骤S12：从多媒体浏览行为集合中提取多媒体描述词。

本步骤中，从得到的所有多媒体浏览行为集合中提取多媒体浏览描述词，具体的，可以根据多媒体浏览行为集合中出现过的每个多媒体的多媒体标题、多媒体描述等文字内容中提取多媒体描述词。

步骤S13：将提取的各多媒体描述词两两之间组成词语对。

本发明实施例中，当提取的各个多媒体描述词两两之间组成词语对时，两个多媒体描述词的组合顺序不同得到不同的词语对，例如，提取的多媒体描述词包括A、B、C，则这三个多媒体描述词可以组成<AB><BA><AC><CA><BC><CB>总共6个词语对。

步骤S14：按预设规则计算得到的各词语对中的两个多媒体描述词的相似度。

当两个媒体描述词的组合顺序不同得到是不同的词语对时，确定词语对中的两个多媒体描述词之间的相似度是指：确定词语对中的第一个多媒体描述词相对于第二多媒体描述词的相似度。

例如，计算词语对<AB>中的两个多媒体描述词之间的相似度是指计算多媒体描述词A相对于多媒体描述词B的相似度；计算词语对<BA>中的两个多媒体描述词之间的相似度是指计算多媒体描述词B相对于多媒体描述词A的相似度。

本发明实施例中，计算得到各词语对中的两个多媒体描述词之间的相似度后，可以根据该相似度的计算结果，确定不同多媒体描述词之间的关联性，即确定了不同多媒体间的关联性，进而可以向用户推荐不同类型的多媒体。

如一个用户的多媒体搜索行为记录中出现了A词对应的多媒体，根据上述词语对相似度的计算结果，确定<AB><AC>的相似度值超过了设定阈值，即A与B、A与C具有较强相关性，则可以向出现A搜索行为记录的用户推荐B和C对应的多媒体。

可以看出，利用本发明实施例的多媒体相似度确定方法，可以深度挖掘不同多媒体描述词之间的关联性，从而可以更深层次为的为用户提供多媒体推荐，满足用户个性化观看需求。

参见图2，为本发明实施例提供的另一种多媒体相似度确定方法的流程示意图，该方法的步骤包括：

步骤S21：将用户的操作行为日志中记载的多媒体浏览行为按照发生时间的先后顺序进行排序。

步骤S22：根据排序的结果，分别将用户的操作行为日志中发生时间相邻且时间间隔小于预设时间间隔的至少两个多媒体浏览行为组成多媒体浏览行为子集合。

步骤S23：将用户的发生时间连续的一个或多个多媒体浏览行为子集合组成相应用户的多媒体浏览行为集合。

根据用户对多媒体网站的操作习惯，用户的连续搜索行为之间具有较强的关联性，因此多媒体浏览行为子集合中的多个多媒体浏览行为之间具有较强的相关性，由发生时间连续的一个或多个多媒体行为子集合组成的多媒体浏览行为集合中的多媒体浏览行为也具有较强的相关性。

例如，用户A的多媒体浏览行为按照时间顺序排列分别为第一多媒体浏览行为、第二多媒体浏览行为、第三多媒体浏览行为、第四多媒体浏览行为及第五多媒体浏览行为，且第一多媒体浏览行为与第二多媒体浏览行为之间的时间间隔为5分钟、第二多媒体浏览行为与第三多媒体浏览行为之间的时间间隔为10分钟、第三多媒体浏览行为与第四多媒体浏览行为之间的时间间隔为1小时，第四多媒体浏览行为与第五多媒体浏览行为之间的时间间隔为15分钟。

若将相邻且时间间隔小于15分钟的多媒体浏览行为组成多媒体浏览行为子集合，将发生时间连续的两个多媒体浏览行为子集合组成多媒体浏览行为集合，则上述第一、第二、第三多媒体浏览行为可以组成第一多媒体浏览行为子集合，第四、第五多媒体浏览行为可以组成第二多媒体浏览行为子集合，第一多媒体浏览行为子集合与第二多媒体浏览行为子集合组成用户A的一个多媒体浏览行为集合。

进一步，当得到的各个多媒体浏览行为集合中的多媒体浏览行为发生时间的时间跨度大于预设阈值时，将多媒体浏览行为发生时间的时间跨度大于预设阈值的多媒体浏览行为集合分割为时间跨度小于预设阈值的多媒体浏览行为集合。

例如，限定多媒体浏览行为集合中的多媒体浏览行为发生时间的最大时间跨度为两小时，在A多媒体浏览行为集合中按照发生时间的先后顺序包括：第一多媒体浏览行为、第二多媒体浏览行为、第三多媒体浏览行为……第N多媒体浏览行为，其中第一多媒体浏览行为发生的时间为10点钟，第N多媒体浏览行为发生的时间为14点钟，时间跨度为4个小时，大于设置的时间跨度两小时，则按照发生时间的先后顺序，将A多媒体浏览行为集合分为至少两个集合，其中，得到的每个集合中包括至少两个多媒体浏览行为，且包括的至少两个多媒体浏览行为的时间跨度小于或等于两小时。

本发明实施例中，将多媒体浏览行为发生时间的时间跨度大于预设阈值的多媒体浏览行为集合分割为时间跨度小于预设阈值的多媒体浏览行为集合，可以保证确保多媒体浏览行为集合中的多媒体浏览行为之间具有较强的关联性，确保基于多媒体浏览行为集合中的多媒体描述词计算得到的多媒体相似度的准确性。

步骤S24：分别从用户各用户的多媒体浏览行为集合中提取多媒体描述词。

用户的多媒体浏览行为集合中包括至少一个多媒体浏览行为，在从多媒体浏览行为中提取多媒体描述词时，可以针对同一多媒体提取不同的描述词，例如，对于多媒体A，可以从用户的浏览行为中提取多媒体A的名称、演员、主演及制片人等描述词。

步骤S25：将提取的各多媒体描述词两两之间组成词语对。

步骤S26：按预设规则计算得到的各词语对中的两个多媒体描述词的相似度。

本发明实施例中，从用户浏览行为中提取的多个描述词可能是对应同一个多媒体，也可能是对应具有较强相关性的多个多媒体，为了根据用户以往的浏览行为向用户推荐多媒体，本发明实施例采用的方法是确定多媒体描述词之间的关联性，之后根据多媒体描述之间的关联性向用户推荐多媒体。

本发明实施例中，确定多媒体描述词之间的关联性的原理是：根据同一个多媒体浏览行为集合中的多媒体浏览行为具有较强相关性的特点，确定包含目标词语对多媒体浏览行为集合在包含第一个多媒体描述词的多媒体浏览行为集合出现的概率，根据该概率的大小确定目标词语对中第一个多媒体描述词相对于第二个多媒体描述词的相似度，具体的计算方法包括步骤：

(1)从各用户的多媒体浏览行为集合中确定出现目标词语对的多媒体浏览行为集合的个数；

(2)从各用户的多媒体浏览行为集合中确定出现目标词语对中的第一个词语的多媒体浏览行为集合的个数；

(3)将出现目标词语对的多媒体浏览行为集合的个数除以出现目标词语对中的第一个词语的多媒体浏览行为集合的个数，得到目标词语对中第一个词语相对于第二个词语的相似度。

例如，确定多媒体描述词A相对于多媒体描述词B的相似度确定方法包括：

A对于B的相似度＝包含<AB>出现多媒体浏览行为集合数/包含A的多媒体浏览行为集合数。

基于图1和图2提供的多媒体相似度确定方法，本发明实施例还提供了一种多媒体推荐方法。

参见图3，为本发明实施例提供的一种多媒体推荐方法，该方法的步骤包括：

步骤S31：获取多媒体描述词A。

步骤S32：按照多媒体相似度确定方法，确定与多媒体描述词A的相似度大于预设阈值的多媒体描述词B。

本步骤中，多媒体相似度确定方法即可以为图1和图2中所示的多媒体描述词确定方法。

步骤S33：向多媒体浏览行为中包括描述词A的用户推荐多媒体描述词B所对应的多媒体。

本发明实施例的多媒体推荐方法，通过不同多媒体描述词之间的关联性，更深层次为用户提供多媒体推荐，满足用户个性化多媒体观看需求。

与本发明提供的相似度确定方法实施例相对应，本发明还提供了多媒体相似度确定装置。

参见图4，为本发明实施例提供的一种多媒体相似度确定装置，该装置包括：

集合生成模块41，用于根据用户对多媒体的操作行为日志，生成用户的一个或多个多媒体浏览行为集合，其中，多媒体浏览行为集合中记载有用户在一段连续时间内的多媒体浏览行为；

描述词提取模块42，用于从多媒体浏览行为集合中提取多媒体描述词；

词语对组成模块43，用于将提取的多媒体描述词两两组成词语对；

相似度计算模块44，用于按预设规则计算得到各词语对中的两个多媒体描述词的相似度。

参见图5，为本发明实施例提供的另一种多媒体相似度确定装置，该装置包括：集合生成模块41、描述词提取模块42、词语对组成模块43、相似度计算模块44以及集合分割模块45，其中：

集合生成模块41，包括：

排序单元411，用于将用户的操作行为日志中记载的多媒体浏览行为按照发生时间的先后顺序进行排序；

第一组成单元412，用于根据排序的结果，分别将用户的操作行为日志中发生时间相邻且时间间隔小于预设时间间隔的至少两个多媒体浏览行为组成多媒体浏览行为子集合；

第二组成单元413，用于将用户的发生时间连续的一个或多个多媒体浏览行为子集合组成相应用户的多媒体浏览行为集合。

在上述实施例中，词语对组成模块43在将提取的多媒体描述词两两组成词语对时，两个多媒体描述词的组合顺序不同得到不同的词语对。

在上述实施例中，集合分割模块45，用于确定组成的多媒体浏览行为集合中的多媒体浏览行为发生时间的时间跨度是否大于预设阈值；若至少有一个多媒体浏览行为发生时间的时间跨度大于预设阈值，则将多媒体浏览行为发生时间的时间跨度大于预设阈值的多媒体浏览行为集合分割为时间跨度小于预设阈值的多媒体浏览行为集合。

在上述实施例中，相似度计算模块44，包括：

第一确定单元441，用于从各用户的多媒体浏览行为集合中确定出现目标词语对的多媒体浏览行为集合的个数；

第二确定单元442，用于从各用户的多媒体浏览行为集合中确定出现目标词语对中的第一个词语的多媒体浏览行为集合的个数；

计算单元443，用于将出现目标词语对的多媒体浏览行为集合的个数除以出现目标词语对中的第一个词语的多媒体浏览行为集合的个数，得到目标词语对中第一个词语相对于第二个词语的相似度。

本发明实施例的多媒体相似度确定装置运行图1和图2中所示的多媒体相似度确定方法，本实施例的多媒体相似度确定装置通过运行上述多媒体相似度确定方法，可以深度挖掘不同多媒体描述词之间的关联性，从而可以更深层次为用户提供多媒体推荐，满足用户个性化的需求。

通过以上的方法实施例的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种多媒体相似度确定方法，其特征在于，包括：

从所述多媒体浏览行为集合中提取多媒体描述词；

将提取的所述多媒体描述词两两组成词语对；

2.根据权利要求1所述的方法，其特征在于，所述根据用户对多媒体的操作行为日志，生成所述用户的一个或多个多媒体浏览行为集合，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1～3中任一项所述的方法，其特征在于，所述将提取的所述多媒体描述词两两组成词语对时，两个所述多媒体描述词的组合顺序不同得到不同的词语对。

5.根据权利要求4所述的方法，其特征在于，所述按预设规则计算得到的各词语对中的两个多媒体描述词的相似度，包括：

6.一种多媒体相似度确定装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述集合生成模块，包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：集合分割模块，用于确定组成的所述多媒体浏览行为集合中的多媒体浏览行为发生时间的时间跨度是否大于预设阈值；若至少有一个所述多媒体浏览行为发生时间的时间跨度大于预设阈值，则将多媒体浏览行为发生时间的时间跨度大于预设阈值的多媒体浏览行为集合分割为时间跨度小于所述预设阈值的多媒体浏览行为集合。

9.根据权利要求6～8中任一项所述的装置，其特征在于，所述词语对组成模块在将提取的所述多媒体描述词两两组成词语对时，两个所述多媒体描述词的组合顺序不同得到不同的词语对。

10.根据权利要求9所述的装置，其特征在于，所述相似度计算模块，包括：

11.一种多媒体推荐方法，其特征在于，包括：

获取多媒体描述词A；