CN105022797A

CN105022797A - 一种资源的主题处理方法和装置

Info

Publication number: CN105022797A
Application number: CN201510373635.0A
Authority: CN
Inventors: 查强; 方非; 王敏
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2015-06-30
Filing date: 2015-06-30
Publication date: 2015-11-04
Anticipated expiration: 2035-06-30
Also published as: CN105022797B

Abstract

本发明实施例提供了一种资源的主题处理方法和装置，其中的方法包括：依据主题对应的标签的逆文本得分，确定主题得分；依据所述主题得分，对所述主题进行聚类，得到目标集合；在所述目标集合中确定目标主题。本发明实施例能够减少主题之间的重合度。

Description

一种资源的主题处理方法和装置

技术领域

本发明涉及互联网技术领域，特别是涉及一种资源的主题处理方法和装置。

背景技术

在视频网站中，为了便于用户浏览，以及使得用户能够快速搜索到想要观看的电影，可以对网站上发布的电影进行标签标注。由于标签具有简短且特征突出的特点，故通过对标签进行聚类可以得到多个主题，且每个主题中包含的电影可以具有相似或相关性，从而使得用户在浏览以及搜索的过程中能够快速地查找到想要观看的电影。

例如，“旺角卡门”这部电影的标签有：爱情、华语、文艺、伤感、王家卫、刘德华、张曼玉等等，通过聚类算法能够生成该电影的“华语爱情电影”、“王家卫导演的电影”、“刘德华主演的关于爱情的电影”、“伤感的文艺电影”等多个主题，使得用户在不知道电影名称的情况下，可以通过网站中的主题，快速查找到该电影。

然而，上述通过聚类算法生成的主题，往往存在不同主题的电影重合度较大、以及主题名称相似的问题。例如，通过对几部电影的标签进行聚类生成主题1和主题2，其中，主题1为“关于爱情的美国电影”，其中包括电影：“蜘蛛侠”、“人鬼情未了”，主题2为“关于爱情的美国大片”，其中包括电影：“蜘蛛侠”、“人鬼情未了”。可以看出，这两个主题的名称相似，并且包含相同的电影，这样，不仅会影响搜索效率，而且在数据库中需要存储重复的数据，还会造成资源的浪费。

发明内容

本发明实施例所要解决的技术问题是提供一种资源的主题处理方法和装置，能够减少主题之间的重合度。

为了解决上述问题，本发明公开了一种资源的主题处理方法，包括：

依据主题对应的标签的逆文本得分，确定主题得分；

依据所述主题得分，对所述主题进行聚类，得到目标集合；

在所述目标集合中确定目标主题。

优选地，通过如下步骤确定主题对应的标签的逆文本得分：

确定主题对应的标签集合；所述标签集合中包括所述主题对应的标签；

确定标签在标签集合中所占的比例；

依据标签在标签集合中所占的比例的倒数，得到标签的逆文本得分。

优选地，所述依据所述主题得分，对所述主题进行聚类，得到目标集合的步骤，包括：

步骤1、将所述主题得分作为数据点；

步骤2、随机选取预置数目的数据点作为中心点；

步骤3、计算其他数据点与各中心点的距离，并将所述数据点归并到距离其最近的中心点的集合；

步骤4、重新确定每个有变化的集合的中心点；

重复上述步骤3和4，直到所有集合不再发生变化为止，得到目标集合。

优选地，所述在所述目标集合中确定目标主题的步骤，包括：

依据用户对所述主题中资源的历史行为数据，确定所述主题的偏好得分；

确定所述目标集合中偏好得分最高的主题为目标主题。

优选地，所述方法还包括：

在依据所述标签在标签总数中所占的比例的倒数，得到标签的逆文本得分之后，对所述标签的逆文本得分进行归一化操作。

优选地，所述方法还包括：

在所述目标主题中，过滤包含预置关键词的标签对应的主题。

优选地，所述方法还包括：

在两个目标主题的标签重合度满足预置覆盖条件时，过滤其中一个目标主题。

优选地，所述方法还包括：

依据目标主题的支持度，在当前目标集合中确定备选目标主题。

依据本发明的另一个方面，提供了一种资源的主题处理装置，包括：

得分确定模块，用于依据主题对应的标签的逆文本得分，确定主题得分；

聚类模块，用于依据所述主题得分，对所述主题进行聚类，得到目标集合；及

主题确定模块，用于在所述目标集合中确定目标主题。

优选地，所述得分确定模块，包括：逆文本得分确定子模块，用于确定主题对应的标签的逆文本得分；

其中，逆文本得分确定子模块包括：

标签确定单元，用于确定主题对应的标签集合；所述标签集合中包括所述主题对应的标签；

比例确定单元，用于确定标签在标签集合中所占的比例；及

逆文本得分确定单元，用于依据标签在标签集合中所占的比例的倒数，得到标签的逆文本得分。

优选地，所述聚类模块，包括：

数据确定子模块，用于将所述主题得分作为数据点；

中心点选取子模块，用于随机选取预置数目的数据点作为中心点；

距离计算子模块，用于计算其他数据点与各中心点的距离，并将所述数据点归并到距离其最近的中心点的集合；

中心点更新子模块，用于重新确定每个有变化的集合的中心点。

优选地，所述主题确定模块，包括：

偏好得分确定子模块，用于依据用户对所述主题中资源的历史行为数据，确定所述主题的偏好得分；及

目标主题确定子模块，用于确定所述目标集合中偏好得分最高的主题为目标主题。

优选地，所述装置还包括：

归一化模块，用于在依据所述标签在标签总数中所占的比例的倒数，得到标签的逆文本得分之后，对所述标签的逆文本得分进行归一化操作。

优选地，所述装置还包括：

第一过滤模块，用于在所述目标主题中，过滤包含预置关键词的标签对应的主题。

优选地，所述装置还包括：

第二过滤模块，用于在两个目标主题的标签重合度满足预置覆盖条件时，过滤其中一个目标主题。

优选地，所述装置还包括：

备选模块，用于依据目标主题的支持度，在当前目标集合中确定备选目标主题。

与现有技术相比，本发明实施例包括以下优点：

在本发明实施例中，采用聚类的算法生成目标主题，由于聚类算法可以通过机器自动化生成，不需要人工干预，因此，可以提高生成目标主题的效率，并且可以降低人力资源；此外，通过计算标签的逆文本得分，可以使得聚类之后主题的重合度进一步减小。

附图说明

图1示出了本发明的一种资源的主题处理方法实施例的步骤流程图；及

图2示出了本发明的一种资源的主题处理装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

通常来说，如果一个词在越多的文档中出现过，那么这个词对某一个文档的贡献度就越小，也就是说通过这个词来区分文档的区分度越小，逆文本得分可以用来表示词对文档的贡献度。本发明实施例的核心构思之一在于，依据主题对应的标签的逆文本得分，确定主题得分，对主题依据所述主题得分进行聚类，能够将这些主题按照逆文本得分，即按照标签对主题的贡献度，将主题划分成不同的集合，集合内的主题之间拥有较高的相似性，而不同集合的主题间，相似性较低。因此，通过本发明实施例可以使得聚类之后主题重合度进一步减小。

本发明实施例中的资源可以包括视频、书籍、图片等各种可以在网络上供用户查询浏览的资源，本发明对于资源的具体内容不加以限制，本发明实施例主要以电影(视频)资源为例进行说明，对于其它资源的情况相互参照即可。

实施例一

参照图1，示出了本发明的一种资源的主题处理方法实施例的步骤流程图，具体可以包括：

步骤101、依据主题对应的标签的逆文本得分，确定主题得分；

在实际应用中，主题通常由标签组成，而标签和主题对应的电影具有关联关系。因此，依据标签和主题、以及标签和主题对应电影的上述关系，本发明实施例在采用聚类算法对主题进行聚类之前，首先，计算标签的逆文本得分，即通过统计不同的标签在电影中出现的次数，选择相应的IDF(InverseDocument Frequency，逆文档频率)函数，来计算标签的逆文本得分，然后，依据标签的逆文本得分确定主题得分，最后，根据主题得分对主题进行聚类，从而可以进一步减少聚类得到的主题之间的相似性。

其中，所述确定主题对应的标签的逆文本得分的步骤，具体可以包括：

步骤A1、确定主题对应的标签集合；所述标签集合中包括所述主题对应的标签；

在本发明的一种应用示例中，参照表1，示出了本发明的一种主题名称和各主题包含的电影名称的映射关系示例。

表1

主题名称	电影名称
		华语电影	《关云长》、《功夫》

美国电影	《蜘蛛侠》、《碟中谍》、《人鬼情未了》
		关于爱情的美国电影	《蜘蛛侠》、《人鬼情未了》
关于爱情的美国大片	《蜘蛛侠》、《人鬼情未了》
		关于超级英雄的美国大片	《蜘蛛侠》
周星驰主演的电影	《功夫》
		甄子丹主演的电影	《关云长》

通过对上述主题名称进行拆分，可以得到主题对应的标签集合。在本发明的一种应用示例中，对于已经生成的主题，可以在数据库中存储其主题标识与标签集合的映射关系，通过主题标识即可直接查找得到该主题对应的标签集合，以及该标签集合中可以包括该主题对应的多个标签。参照表2，示出了本发明的一种电影名称与对应标签集合的映射关系。

表2

电影名称	标签集合
		《关云长》	传记、动作、古装、华语、大片、甄子丹
《蜘蛛侠》	动作、科幻、爱情、美国、大片、超级英雄
		《碟中谍》	动作、美国、杀戮
《人鬼情未了》	剧情、爱情、美国、热恋、伤感、催泪、大片
		《功夫》	动作、搞笑、喜剧、华语、周星驰

步骤A2、确定标签在标签集合中所占的比例；

步骤A3、依据标签在标签集合中所占的比例的倒数，得到标签的逆文本得分。

在本发明实施例中，可以使用下面的公式，计算标签的逆文本得分：

Log(总标签个数/(当前标签的个数)+1)+1(1)

在上述公式(1)中，进行了两次加1的操作，第一个加1操作是为了在出现脏数据时，避免出现log(0)这种导致程序崩溃的情况；第二个加1操作用于拉普拉斯平滑，以避免出现0这种没有意义的数据。

在本发明的一种应用示例中，如上述表2，其中，总标签个数为：27，“动作”标签的个数为：4，则通过上述公式(1)计算可以得到“动作”标签的逆文本得分为：log(27/4+1)+1＝1.89。

在实际应用中，重合度较高的主题中包含的电影标签通常也是比较类似的，也就是说通过这些标签计算出来的逆文本得分应该是相近的。这样在聚类的时候，这些重合度较高的主题所构成的数据点的距离是较为接近的，很容易被聚合到同一个目标集合中。这样，使得同一个目标集合中的主题具有高度的相似性，不同目标集合中的主题相似性较低，最终可以从每个目标集合中确定一个目标主题。因此，通过计算标签的逆文本得分，可以使得目标主题之间重合度进一步减小。

在本发明的一种优选实施例中，所述方法还可以包括：

步骤A4、对所述标签的逆文本得分进行归一化操作。

具体地，出现次数越多的标签逆文本得分越低；出现次数越少的标签逆文本得分越高。对逆文本得分进行例如sigmoid的归一化操作，将逆文本得分转换到0～1的区间内，使得数据分布更加均衡。

假设通过平滑计算后，上述各个标签的逆文本得分分别为：传记：0.8、动作：0.2、古装：0.8、华语：0.6、大片：0.4、甄子丹：0.8、科幻：0.8、爱情：0.6、美国：0.4、超级英雄：0.8、杀戮：0.8、剧情：0.8、热恋：0.8、伤感：0.8、催泪：0.8、搞笑：0.8、喜剧：0.8、周星驰：0.8。

接下来，可以依据主题对应的标签的逆文本得分，确定主题得分；

例如，可以直接将组成主题的标签的逆文本得分相加得到主题得分。

在本发明的一种优选实施例中，可以通过用户对电影的观看行为、对电影的评分以及电影本身和电影与电影之间的一些属性，计算得到用户对每一个电影的得分，而主题得分则可以依据用户对于该主题中电影的得分计算得到。

当然，本领域技术人员应该知悉，上述确定主题得分的方法只是作为本发明的一种应用示例，在实际应用中，可以根据具体情况灵活选取确定主题得分的方法，本发明对此不加以限制。

假设通过计算后，上述各个主题的主题得分分别为：华语电影：0.6、美国电影：0.4、关于超级英雄的美国大片：1.2、关于爱情的美国电影：1.0、关于爱情的美国大片：1.4、周星驰主演的电影：0.8、甄子丹主演的电影：0.8。

步骤102、依据所述主题得分，对所述主题进行聚类，得到目标集合；

具体地，可以将主题得分作为数据点进行聚类，对于聚类算法，本发明实施例优选地采用K-means聚类算法；当然，对于聚类算法，本领域技术人员可以灵活选取，本发明对此不加以限制。

其中，K-means算法将n个数据对象划分为k个集合以便使得所获得的集合满足：同一集合中的对象相似度较高；而不同集合中的对象相似度较小。其中，k值可以预先设置，且k≤n。在本发明实施例中，使用K-means进行聚类的步骤，具体可以包括：

步骤B1、将所述主题得分作为数据点；

步骤B2、从所述数据点中随机选取k个作为中心点；

步骤B3、计算其他数据点与各中心点的距离，并将所述数据点归并到距离其最近的中心点的集合；

步骤B4、重新确定每个有变化的集合的中心点；

步骤B5、重复上述步骤B3和B4，直到所有集合不再发生变化为止，得到目标集合。

通过K-means聚类能够将这些主题按照主题得分，很好的划分成不同的目标集合，目标集合内的主题之间拥有较高的相似性，而不同目标集合内的主题间，相似性较低。最终展示给用户的，就是从每个目标集合中选择的一个目标主题。

步骤103、在所述目标集合中确定目标主题。

其中，所述在所述目标集合中确定目标主题的步骤，具体可以包括：

步骤C1、依据用户对所述主题中资源的历史行为数据，确定所述主题的偏好得分；

具体地，可以依据用户对上述电影的历史观看记录和历史评分数据，计算用户对主题的偏好得分；例如，在实际应用中，主题可以由电影组成，通过用户对电影的历史观看记录和对电影的评分等操作，可以计算出用户对每一部电影的得分；而用户对主题的偏好得分可以通过该主题包含的各个电影的电影得分加权计算得到。由于针对不同用户得到的对主题的偏好得分不同，因此，对于不同的用户，能够输出不一样的主题，更符合用户的兴趣。

例如，通过计算得到上述主题的偏好得分如下：华语电影：0.8、美国电影：0.4、关于超级英雄的美国大片：0.3、关于爱情的美国电影：0.5、关于爱情的美国大片：0.6、周星驰主演的电影：0.5、甄子丹主演的电影：0.6。

步骤C2、确定所述目标集合中偏好得分最高的主题为目标主题。

在实际应用中，在确定目标主题之后，可以将所述目标主题输出给用户。

具体地，当用户登录视频网站后，可以根据该用户的历史行为数据，为该用户推荐符合该用户兴趣爱好的电影主题，例如，通过上述步骤的计算，为该用户推荐的主题如下：

主题1：华语电影；

主题2：美国电影；

主题3：关于爱情的美国电影；

主题4：关于爱情的美国大片

主题5：关于超级英雄的美国大片。

在本发明的一种优选实施例中，所述方法还可以包括：

对所述目标主题可以采用如下过滤规则中的至少一种进行过滤，以保证过滤后主题的丰富性和独立性：

规则1、在所述目标主题中，过滤包含预置关键词的标签对应的主题；

例如，可以过滤包含“大片”标签的主题；在实际应用中，通常所有包含大片标签的主题，都对应存在一个不含“大片”的主题。例如，下面两个主题：“未来时空的关于爱情的美国大片”，“未来时空的关于爱情的美国电影”，这两个主题都包含：未来时空、爱情、美国这几个标签，但是第一个还多一个“大片”标签。

在上述应用示例中，从步骤5中输出的结果可以看出，主题3和主题4包含的电影重复，且主题名称仅有“大片”的差别，因此可以过滤掉主题4，即删除主题4。

规则2、在两个目标主题的标签重合度满足预置覆盖条件时，过滤其中一个目标主题；

具体地，所述预置覆盖条件可以设置为标签重合度大于等于2，例如，当主题包含的标签个数大于等于2个的时候，如果当前两个主题的标签重合度大于等于2，则可以过滤其中一个主题。

该规则可以进一步减小主题之间的相似度和给用户感官上带来多样性。例如：如果用户同时看到主题“关于爱情的伤感的美国电影”，和“关于爱情的美国电影”的时候，可能直觉上觉得他们是重复的，因此，过滤其中的一个，可以满足用户对于主题多样性的需求。

规则3、依据目标主题的支持度，在当前目标集合中确定备选目标主题。

考虑到在实际应用中，当主题里的未被观看的电影小于7的时候，会被引擎过滤掉，因此，为了保证目标集合中总有主题能够被展示出来，在吐给引擎的数据量里，如果当前主题的支持度(即主题包含电影的数目)小于第一阈值(例如10)的时候，从该目标集合里再选出一个支持度大于第二阈值(例如13)的主题备用。

其中，吐给引擎的数据量指的是，经过推荐算法计算后得到的主题数据，会提供给引擎端，以展示给用户。

在目标集合中确定目标主题时，如果该目标主题的支持度小于第一阈值，就在该目标集合中再挑选出另外一个支持度大于第二阈值的目标主题作为备选目标主题。这样做的好处是，如果目标主题由于某些原因在引擎端被过滤掉，还可以使用备用的备选目标主题，从而尽量保证该目标集合中有主题能够被展示出来。其中，对于其中的第一阈值10和第二阈值13是通过线上测试得出的最优值，在实际应用中，本发明对于第一阈值和第二阈值的取值不加以限制。

本发明实施例的上述规则可以通过线上不断的优化调整、根据用户的反馈、线上的效果以及其他各方面的需要，不断的进行调整和改进，不是一个固定的格式和数据。

通过上述规则的过滤，最终输出结果参照表3。

表3

主题名称	电影名称
		华语电影	《关云长》、《功夫》
美国电影	《蜘蛛侠》、《碟中谍》、《人鬼情未了》
		关于爱情的美国电影	《蜘蛛侠》、《人鬼情未了》
关于超级英雄的美国大片	《蜘蛛侠》

综上，在本发明实施例中，采用聚类的算法生成目标主题，由于聚类算法可以通过机器自动化生成，不需要人工干预，因此，可以提高生成目标主题的效率，并且可以降低人力资源；此外，通过计算标签的逆文本得分，可以使得聚类之后主题的重合度进一步减小；

进一步地，本发明实施例依据用户的历史行为数据，确定用户对主题的偏好得分，选择偏好得分最高的主题为目标主题，由于每个用户的兴趣爱好不同，历史行为数据也就不同，因此，本发明可以针对不同用户生成不同的个性化主题，以满足不同用户的需求。

装置实施例

参照图2，示出了本发明一种资源的主题处理装置实施例的结构框图，具体可以包括：

得分确定模块210，用于依据主题对应的标签的逆文本得分，确定主题得分；

聚类模块220，用于依据所述主题得分，对所述主题进行聚类，得到目标集合；及

主题确定模块230，用于在所述目标集合中确定目标主题。

在本发明的一种优选实施例中，所述得分确定模块，具体可以包括：逆文本得分确定子模块，用于确定主题对应的标签的逆文本得分；

其中，逆文本得分确定子模块具体可以包括：

比例确定单元，用于确定标签在标签集合中所占的比例；及

在本发明的另一种优选实施例中，所述聚类模块，具体可以包括：

数据确定子模块，用于将所述主题得分作为数据点；

在本发明的又一种优选实施例中，所述主题确定模块，具体可以包括：

在本发明的再一种优选实施例中，所述装置还可以包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种资源的主题处理方法和装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种资源的主题处理方法，其特征在于，所述方法包括：

依据主题对应的标签的逆文本得分，确定主题得分；

依据所述主题得分，对所述主题进行聚类，得到目标集合；

在所述目标集合中确定目标主题。

2.如权利要求1所述的方法，其特征在于，通过如下步骤确定主题对应的标签的逆文本得分：

确定标签在标签集合中所占的比例；

3.如权利要求1所述的方法，其特征在于，所述依据所述主题得分，对所述主题进行聚类，得到目标集合的步骤，包括：

步骤1、将所述主题得分作为数据点；

步骤2、随机选取预置数目的数据点作为中心点；

步骤4、重新确定每个有变化的集合的中心点；

4.如权利要求1所述的方法，其特征在于，所述在所述目标集合中确定目标主题的步骤，包括：

确定所述目标集合中偏好得分最高的主题为目标主题。

5.如权利要求2所述的方法，其特征在于，所述方法还包括：

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

8.如权利要求1所述的方法，其特征在于，所述方法还包括：

9.一种资源的主题处理装置，其特征在于，所述装置包括：

主题确定模块，用于在所述目标集合中确定目标主题。

10.如权利要求9所述的装置，其特征在于，所述得分确定模块，包括：逆文本得分确定子模块，用于确定主题对应的标签的逆文本得分；

其中，逆文本得分确定子模块包括：

比例确定单元，用于确定标签在标签集合中所占的比例；及

11.如权利要求9所述的装置，其特征在于，所述聚类模块，包括：

数据确定子模块，用于将所述主题得分作为数据点；

12.如权利要求9所述的装置，其特征在于，所述主题确定模块，包括：

13.如权利要求10所述的装置，其特征在于，所述装置还包括：

14.如权利要求9所述的装置，其特征在于，所述装置还包括：

15.如权利要求9所述的装置，其特征在于，所述装置还包括：

16.如权利要求9所述的装置，其特征在于，所述装置还包括：