CN109885674A

CN109885674A - 一种主题标签的确定、信息推荐方法及装置

Info

Publication number: CN109885674A
Application number: CN201910114211.0A
Authority: CN
Inventors: 杜颖; 张新宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-02-14
Filing date: 2019-02-14
Publication date: 2019-06-14
Anticipated expiration: 2039-02-14
Also published as: CN109885674B

Abstract

本发明公开了一种主题标签的确定、信息推荐方法及装置，所述主题标签的确定方法包括：对语料信息中的关键词信息进行频繁关联分析处理，得到第一数量的频繁关联词集；将具有第一预设数量的相同词的频繁关联词集进行合并处理，得到第二数量的关联词群；根据关联词群中词语在第二数量的关联词群中的词频提取第一层主题标签；对第一层主题标签进行聚类，得到第三数量的聚类词群；根据聚类词群中词语在所述聚类词群的词频提取第二层主题标签；将所述第一层主题标签和所述第二层主题标签作为语料信息的主题标签。利用本发明提供的技术方案可以快速准去的确定出不同粒度的主题标签，增加后续基于主题标签进行信息推荐时的推荐范围，改善推荐效果。

Description

一种主题标签的确定、信息推荐方法及装置

技术领域

本发明涉及互联网通信技术领域，尤其涉及一种主题标签的确定、信息推荐方法及装置。

背景技术

互联网和计算机技术随着社会发展越来越普及。人们通过互联网获取各种信息，以满足不同的需求。目前，一些新闻、学术文章等信息推荐系统中，往往需要提取信息中的主题标签以对信息进行有效描述，进而提高信息推荐的召回率。

现有技术中进行主题标签的提取常常采用pLSA(Probabilistic latentsemantic analysis，概率隐性语义分析)、LDA(Latent Dirichlet Allocation，隐狄利克雷分配)等算法构建主题模型，进而提取主题标签。具体的，现有的这些主题模型，将语料信息中的所有单词参与主题模型训练，在训练过程中设定主题标签以一定的概率包含多个词汇；相应的，基于大量语料信息进行学习，通过学习获得文章对应的主题标签概率和每个主题标签的词汇分布，进而实现提取主题标签。但现有的主题标签的提取过程中进行主题标签概率和词汇分布的学习，这就需要大量语料信息才能学习到主题标签概率和词汇分布，资源消耗大，数据处理、模型更新速度慢，且大量语料信息也会带来噪声样本的影响，出现主题偏差等问题。因此，需要提供更可靠或更有效的方案，以快速准确的提取主题标签。

发明内容

本发明提供了一种主题标签的确定、信息推荐方法及装置，可以快速准去的确定出不同粒度的主题标签，增加后续基于主题标签进行信息推荐时的推荐范围，改善推荐效果。

一方面，本发明提供了一种主题标签的确定方法，所述方法包括：

对语料信息中的关键词信息进行频繁关联分析处理，得到第一数量的频繁关联词集；

将具有第一预设数量的相同词的频繁关联词集进行合并处理，得到第二数量的关联词群；

根据所述关联词群中词语在所述第二数量的关联词群中的词频从所述第二数量的关联词群提取第一层主题标签；

对所述第一层主题标签进行聚类，得到第三数量的聚类词群；

根据所述聚类词群中词语在所述聚类词群的词频从所述第三数量的聚类词群中提取第二层主题标签；

将所述第一层主题标签和所述第二层主题标签作为所述语料信息的主题标签。

另一方面提供了一种主题标签的确定装置，所述装置包括：

频繁关联分析处理模块，用于对语料信息中的关键词信息进行频繁关联分析处理，得到第一数量的频繁关联词集；

合并处理模块，用于将具有第一预设数量的相同词的频繁关联词集进行合并处理，得到第二数量的关联词群；

第一层主题标签提取模块，用于根据所述关联词群中词语在所述第二数量的关联词群中的词频从所述第二数量的关联词群提取第一层主题标签；

第一聚类模块，用于对所述第一层主题标签进行聚类，得到第三数量的聚类词群；

第二层主题标签提取模块，用于根据所述聚类词群中词语在所述聚类词群的词频从所述第三数量的聚类词群中提取第二层主题标签；

第一主题标签确定模块，用于将所述第一层主题标签和所述第二层主题标签作为所述语料信息的主题标签。

另一方面提供了一种确定主题标签的服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述的主题标签的确定方法。

另一方面提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的主题标签的确定方法。

另一方面提供了一种信息推荐方法，所述方法包括：

接收用户的信息获取请求；

获取所述用户的历史点击信息；

将所述历史点击信息与上述主题标签的确定方法得到的主题标签中的第一层主题标签进行匹配；

当匹配成功，将匹配的第一层主题标签所对应的待推荐语料信息推荐给所述用户。

另一方面提供了一种信息推荐装置，所述装置包括：

信息获取请求接收模块，用于接收用户的信息获取请求；

历史点击信息获取模块，用于获取所述用户的历史点击信息；

第一匹配模块，用于将所述历史点击信息与上述主题标签的确定方法得到的主题标签中的第一层主题标签进行匹配；

第一信息推荐模块，用于当所述第一匹配模块匹配成功，将匹配的第一层主题标签所对应的待推荐语料信息推荐给所述用户。

另一方面提供了一种信息推荐客户端，所述客户端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述的信息推荐方法。

另一方面提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的信息推荐方法。

本发明提供的主题标签的确定、信息推荐方法及装置，具有如下技术效果：

本发明能够通过对语料信息中的关键词信息进行频繁关联分析处理，可以快速的挖掘出频繁出现且具有关联的频繁关联词集，不仅去除了偶尔出现的噪声词语，且可以大大减少后续的数据处理量，提高数据处理效率。然后，通过对频繁关联词集的合并、以及基于合并后关联词群中词语的词频选取了能够精细描述语料信息的第一层主题标签；接着，通过对第一层主题标签进行聚类，以及基于聚类后的聚类词群中词语的词频提取第二层主题标签，实现不同粒度的主题标签的提取，增加后续基于主题标签进行信息推荐时的推荐范围，改善推荐效果。解决现有的主题标签提取方案中存在的资源消耗大，主题标签提取和后续主题标签更新效率低，以及噪声样本的影响导致的主题偏差等问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明实施例提供的一种信息推荐系统的示意图；

图2是本发明实施例提供的一种主题标签的确定方法的流程示意图；

图3是本发明实施例提供的一种对语料信息中的关键词信息进行频繁关联分析处理得到第一数量的频繁关联词集的流程示意图；

图4是本发明实施例提供的另一种对语料信息中的关键词信息进行频繁关联分析处理得到第一数量的频繁关联词集的流程示意图；

图5是本发明实施例提供的一种频繁关联词集进行合并处理的示意图；

图6是本发明实施例提供的一种提取第一层主题标签的示意图；

图7是本发明实施例提供的一种对所述第一层主题标签进行聚类，得到第三数量的聚类词群的流程示意图；

图8是本发明实施例提供的另一种主题标签的确定方法的流程示意图；

图9是本发明实施例提供的一种信息推荐方法的流程示意图；

图10是本发明实施例提供的另一种信息推荐方法的流程示意图；

图11是本发明实施例提供的一种主题标签的确定装置的结构示意图；

图12是本发明实施例提供的一种信息推荐装置的结构示意图；

图13是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，图1是本发明实施例提供的一种信息推荐系统的示意图，如图1所示，该信息推荐系统可以至少包括服务器01和客户端02。

具体的，本说明书实施例中，所述服务器01可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群。服务器01可以包括有网络通信单元、处理器和存储器等等。具体的，所述服务器01可以用于进行语料信息的主题标签。

具体的，本说明书实施例中，所述客户端02可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备，也可以包括运行于实体设备中的软体，例如一些服务商提供给用户的网页页面，也可以为该些服务商提供给用户的应用。具体的，所述客户端02可以用于基于服务器01确定的主题标签进行信息推荐。

以下介绍本发明一种主题标签的确定方法，图2是本发明实施例提供的一种主题标签的确定方法的流程示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，所述方法可以包括：

S201：对语料信息中的关键词信息进行频繁关联分析处理，得到第一数量的频繁关联词集。

本说明书实施例中，所述语料信息可以包括信息推荐系统中的多篇文章信息；所述语料信息中的关键词信息可以包括能够表征语料信息的主要特征的信息。本说明书实施例中可以从语料信息的每篇文章信息中选取设定数量的关键词作为所述语料信息的关键词信息。所述频繁关联词集可以包括具有关联且频繁出现在所述语料信息中的关键词信息的集合。

在一个具体的实施例中，如图3所示，所述对语料信息中的关键词信息进行频繁关联分析处理，得到第一数量的频繁关联词集可以包括：

S301：获取语料信息。

S303：提取语料信息中的关键词信息。

本说明书实施例中，所述关键词信息可以包括但不限于基于TF-IDF(termfrequency–inverse document frequency，词频逆文本频率指数从语料信息中提取。

S305：基于FPGrowth算法从所述关键词信息中提取第一数量的频繁关联词集。

本说明书实施例中，可以采用FPGrowth(Frequent Pattern Growth，频繁模式增长)算法从所述关键词信息中提取第一数量的频繁关联词集，可以快速的挖掘出频繁出现且具有关联的频繁关联词集，不仅可以去除偶尔出现的噪声词语，且可以大大减少后续的数据处理量，提高数据处理效率。

在另一个具体的实施例中，如图4所示，所述对语料信息中的关键词信息进行频繁关联分析处理，得到第一数量的频繁关联词集可以包括：

S401：获取语料信息。

S403：提取所述语料信息中的关键词信息。

具体的，所述关键词信息可以包括但不限于基于TF-IDF(term frequency–inverse document frequency，词频逆文本频率指数从语料信息中提取。

S405：确定所述关键词信息的支持度。

本说明书实施例中，所述支持度表征关键词信息在所述语料信息中的出现频繁程度，具体的，所述支持度可以包括与关键词信息在所述语料信息中的出现频繁程度成正比的数值。

S407：选取支持度大于等于预设支持度阈值的关键词信息。

本说明书实施例中，所述预设支持度阈值可以根据实际应用对噪声影响和数据处理效率的需求进行设置。一般的，所述预设支持度阈值越大，偶尔出现的噪声词语的去除效果更好，且后续的数据处理量可以大大减少。

S409：对支持度大于等于预设支持度阈值的关键词信息进行关联分析处理，得到第一数量的频繁关联词集。

本说明书实施例中，可以将支持度大于等于预设支持度阈值且出现在同一语料信息中的关键词信息作为频繁关联词集，实现快速的挖掘出频繁出现且具有关联的频繁关联词集，不仅可以去除偶尔出现的噪声词语，且可以大大减少后续的数据处理量，提高数据处理效率。

此外，需要说明的是，本说明书实施例中，提取频繁关联词集的方法可以包括但不限于采用上述如图3中基于FPGrowth算法的方法或图4所对应的方法，在实际应用中，还可以采用其他挖掘关联规则的频繁项集方法。

S203：将具有第一预设数量的相同词的频繁关联词集进行合并处理，得到第二数量的关联词群。

本说明书实施例中，在得到第一数量的频繁关联词集后，可以将具有第一预设数量的相同词的频繁关联词集进行合并处理，得到第二数量的关联词群。所述第一预设数量可以结合实际应用进行设置，例如设置为2。所述关联词群可包括第一预设数量个所述相同词。

在一个具体的实施例中，假设第一预设数量为1，如图5所示，第一数量的频繁关联词集包括：(红楼梦、曹雪芹、林黛玉、贾宝玉)、(林黛玉、薛宝钗)、(红楼梦、曹雪芹)、(红楼梦、刘姥姥)。其中，具有一个相同词“红楼梦”的频繁关联词集包括：(红楼梦、曹雪芹、林黛玉、贾宝玉)、(红楼梦、曹雪芹)、(红楼梦、刘姥姥)，相应的，将这三个频繁词合并处理，得到关联词群为(红楼梦、曹雪芹、林黛玉、贾宝玉、红楼梦、曹雪芹、红楼梦、刘姥姥)。具有一个相同词“曹雪芹”的频繁关联词集包括：(红楼梦、曹雪芹、林黛玉、贾宝玉)、(红楼梦、曹雪芹)，相应的，将这两个频繁词合并处理，得到关联词群为(红楼梦、曹雪芹、林黛玉、贾宝玉、红楼梦、曹雪芹)。具有一个相同词“林黛玉”的频繁关联词集包括：(红楼梦、曹雪芹、林黛玉、贾宝玉)、(林黛玉、薛宝钗)，相应的，将这两个频繁词合并处理，得到关联词群为(红楼梦、曹雪芹、林黛玉、贾宝玉、林黛玉、薛宝钗)。相应的，由上述4个(第一数量)频繁关联词集可以得到3个(第二数量)关联词群。

在一些实施例中，当合并处理后得到关联词群相同时，可以进行去重处理后得到第二数量的关联词群，进而达到去除噪声，提高数据处理的效果。

此外，需要说明的是，所述第二数量并不限于上述示例中小于第一数量，在实际应用中，根据频繁词集中的词语和第一预设数量的不同设置，所述第二数量也可以大于等于所述第一数量。

S205：根据所述关联词群中词语在所述第二数量的关联词群中的词频从所述第二数量的关联词群提取第一层主题标签。

本说明书实施例中，所述关联词群中词语在所述第二数量的关联词群中的词频可以包括词语在第二数量的关联词群中出现的次数。在一些实施例中，可以获取所述关联词群中词语在第二数量关联词群中的词频；将词频在前第二预设数量的词语作为所述第一层主题标签。具体的，所述第二预设数量可以结合实际应用进行设置。

在另一些实施例中，可以获取所述关联词群中词语在第二数量关联词群中的词频；将词频大于等于预设阈值的词语作为第一层主题标签。具体的，所述预设阈值可以结合实际应用进行设置。

在一个具体的实施例中，如图6所示，假设第二数量的关联词群包括：(红楼梦、曹雪芹、林黛玉、贾宝玉、红楼梦、曹雪芹、红楼梦、刘姥姥)、(红楼梦、曹雪芹、林黛玉、贾宝玉、红楼梦、曹雪芹)、(红楼梦、曹雪芹、林黛玉、贾宝玉、林黛玉、薛宝钗)，相应的，依次统计每个关联词群中词语在该关联词群中出现的次数，得到词语“红楼梦”的词频为6，词语“曹雪芹”的词频为5，词语“林黛玉”的词频为4，词语“贾宝玉”的词频为3，词语“薛宝钗”的词频为1，词语“刘姥姥”的词频为1。

相应的，上述的示例中，假设将词频在前4(第二预设数量)的词语(红楼梦、曹雪芹、林黛玉和贾宝玉)作为所述第一层主题标签。

此外，需要说明的是，图6中选取的第二预设数量仅仅是一种示例，在实际应用中，当关联词群中的词语较多时，所述第二预设数量也可以设置成较大的数值。

本说明书实施例中，通过对频繁出现且具有关联的频繁关联词集的合并、以及基于合并后关联词群中词语的词频选取了第一层主题标签，保证了主题标签能够精细准确的描述语料信息。

S207：对所述第一层主题标签进行聚类，得到第三数量的聚类词群。

本说明书实施例中，如图7所示，所述对所述第一层主题标签进行聚类，得到第三数量的聚类词群可以包括：

S2071：基于第一层主题标签中词语的特征向量确定第一中心向量。

本说明书实施例中，可以确定出第一层主题标签中词语的特征向量，然后，对词语的特征向量进行加权平均处理，得到所述第一中心向量。

在一个具体的实施例中，所述第一层主题标签中词语的特征向量可以包括对语料信息中关键词信息配以相应的内容权重，利用MF(Matrix Factorization，矩阵分解)算法对语料信息中关键词信息的权重矩阵进行分解，从而得到关键词信息中每一个词语的特征向量；由于第一层主题标签中词语是关键词信息中筛选出来的，相应的，可以从关键词信息中每一个词语的特征向量中查找到第一层主题标签中词语的特征向量。

此外，需要说明的是，本说明书实施例中第一层主题标签中词语的特征向量的获取方法可以包括但不限于上述结合MF算法的方法，在实际应用中，还可以包括其他方法，例如结合Word2vector来获取第一层主题标签中词语的特征向量。

S2073：以所述第一中心向量为初始中心点，基于二分k均值聚类算法进行第一层主题标签的聚类，得到第三数量的聚类词群。

本说明书实施例中聚类的方法可以包括但不限于采用上述基于二分k均值聚类算法的方法，在实际应用中，还可以采用聚类方法。

S209：根据所述聚类词群中词语在所述聚类词群的词频从所述第三数量的聚类词群中提取第二层主题标签。

本说明书实施例中，聚类词群中词语在聚类词群的词频可以包括聚类词群中词语在该聚类词群中出现的次数。具体的，获取聚类词群中词语在所述聚类词群的词频；将每一聚类词群中词频最高的词语作为第二层主题标签。

本说明书实施例中，通过对第一层主题标签进行聚类，以及基于聚类后的聚类词群中词语的词频提取第二层主题标签，实现不同粒度的主题标签的提取，以增加后续基于主题标签进行信息推荐时的推荐范围。

S211：将所述第一层主题标签和所述第二层主题标签作为所述语料信息的主题标签。

本说明书实施例中通过对语料信息中的关键词信息进行频繁关联分析处理，可以快速的挖掘出频繁出现且具有关联的频繁关联词集，不仅去除了偶尔出现的噪声词语，且可以大大减少后续的数据处理量，提高数据处理效率。然后，通过对频繁关联词集的合并、以及基于合并后关联词群中词语的词频选取了能够精细描述语料信息的第一层主题标签；接着，通过对第一层主题标签进行聚类，以及基于聚类后的聚类词群中词语的词频提取第二层主题标签，实现不同粒度的主题标签的提取。利用本说明书实施例提供的技术方案可以快速准确的提取不同粒度的主题标签，解决现有的主题标签提取方案中存在的资源消耗大，主题标签提取和后续主题标签更新效率低，以及噪声样本的影响导致的主题偏差等问题。

在另一些实施例中，为了进一步增加语料信息的过渡粒度的表征描述，如图8所示，在步骤209之后，所述方法还可以包括：

S213：对所述第二层主题标签进行聚类，得到第四数量的聚类词群。

具体的，这里对第二层主题标签的聚类步骤可以参见上述对第一层主题标签进行聚类的相关步骤，在此不再赘述。

S215：根据所述第四数量的聚类词群中词语在相应的聚类词群中的词频从所述第四数量的聚类词群中提取第三层主题标签。

具体的，这里提取第三层主题标签的步骤可以参见上述第二层主题标签提取的相关步骤，在此不再赘述。

S217：将所述第一层主题标签、所述第二层主题标签和所述第三层主题标签作为所述语料信息的主题标签。

此外，需要说明的是，本说明书实施例中，可以结合实际应用需求，进行多次对主题标签的聚类，进而提取新的主题标签，并不仅限于上述的1次或2次主题标签的聚类和提取新的主题标签的方案。

以下介绍本发明一种基于上述实施例确定的主题标签进行信息推荐的方法，图9是本发明实施例提供的一种信息推荐方法的流程示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图9所示，所述方法可以包括：

S901：接收用户的信息获取请求。

在实际应用中，用户常常通过一些应用或网页来浏览信息。本说明书实施例中，所述信息获取请求可以包括但不限于用户打开应用或网页的操作所触发的请求。

S903：获取所述用户的历史点击信息。

本说明书实施例中，所述历史点击信息可以包括用户过去预设时间段内点击过的信息。所述历史点击信息可以反映用户的点击喜好。

S905：将所述历史点击信息与待推荐语料信息的主题标签中的第一层主题标签进行匹配。

具体的，所述待推荐语料信息可以包括推荐系统中的语料信息。本说明书实施例中，可以通过提取历史点击信息中的关键词信息与第一层主题标签中的词语进行匹配；相应的，当第一层主题标签中存在与关键词信息中的词语相同的词语时，可以确定历史点击信息与语料信息的主题标签中的第一层主题标签匹配，即匹配成功；反之，匹配失败。

S907：当匹配成功，将匹配的第一层主题标签所对应的待推荐语料信息推荐给所述用户。

在实际应用中，所述第一层主题标签中的词语从待推荐语料信息多篇文章信息中提取的，相应的，该匹配的第一层主题标签中的词语对应待推荐语料信息中的一篇或多篇文章信息，将该对应的待推荐语料信息中的一篇或多篇文章信息推荐给所述用户。

在另一些实施例中，如图10所示，当步骤S 905匹配失败时，所述方法还可以包括：

S909：将所述历史点击信息与所述待推荐语料信息的主题标签中的第二层主题标签进行匹配。

S911：当匹配成功，将匹配第二层主题标签所对应的待推荐语料信息推荐给所述用户。

在实际一种当步骤S909匹配失败时，可以将历史点击信息与所述待推荐语料信息的主题标签中的上一层主题标签进行匹配，这里的上一层主体标签可以为如上述实施例中的第三层主题标签。一般的，下一层的主题标签比上一层的主题标签更精细，但上一层的主题标签比下一层的主题标签的推荐范围更广。

本说明书实施例中在接收用户的信息获取请求后，通过将获取的用户历史点击信息与待推荐语料信息的主题标签中最精细粒度的主题标签进行匹配，在匹配成功时，可以直接精准的将符合用户点击喜好的信息推荐给用户；同时，在最精细粒度的主题标签匹配失败时，可以进一步基于上一层的过渡粒度的主题标签的匹配增加推荐范围，改善推荐效果。

本发明实施例还提供了一种主题标签的确定装置，如图11所示，所述装置包括：

频繁关联分析处理模块1110，可以用于对语料信息中的关键词信息进行频繁关联分析处理，得到第一数量的频繁关联词集；

合并处理模块1120，可以用于将具有第一预设数量的相同词的频繁关联词集进行合并处理，得到第二数量的关联词群；

第一层主题标签提取模块1130，可以用于根据所述关联词群中词语在所述第二数量的关联词群中的词频从所述第二数量的关联词群提取第一层主题标签；

第一聚类模块1140，可以用于对所述第一层主题标签进行聚类，得到第三数量的聚类词群；

第二层主题标签提取模块1150，可以用于根据所述聚类词群中词语在所述聚类词群的词频从所述第三数量的聚类词群中提取第二层主题标签；

第一主题标签确定模块1160，可以用于将所述第一层主题标签和所述第二层主题标签作为所述语料信息的主题标签。

在一些实施例中，所述装置还包括：

第二聚类模块，可以用于对所述第二层主题标签进行聚类，得到第四数量的聚类词群；

第三层主题标签提取模块，可以用于根据所述第四数量的聚类词群中词语在相应的聚类词群中的词频从所述第四数量的聚类词群中提取第三层主题标签；

第二主题标签确定模块，可以用于将所述第一层主题标签、所述第二层主题标签和所述第三层主题标签作为所述语料信息的主题标签。

在一些实施例中，所述频繁关联分析处理模块1110可以包括：

第一语料信息获取单元，用于获取语料信息；

第一关键词信息提取单元，用于提取所述语料信息中的关键词信息。

频繁关联词集提取单元，用于基于FPGrowth频繁模式增长算法从所述关键词信息中提取第一数量的频繁关联词集。

在一些实施例中，所述第一聚类模块1140可以包括：

中心向量确定单元，用于基于第一层主题标签中词语的特征向量确定第一中心向量；

聚类单元，用于以所述第一中心向量为初始中心点，基于二分k均值聚类算法进行第一层主题标签的聚类，得到第三数量的聚类词群。

在一些实施例中，所述中心向量确定单元包括：

特征向量确定单元，用于确定所述关联词群中词语的特征向量；

加权平均处理单元，用于对所述词语的特征向量进行加权平均处理，得到所述第一中心向量。

在一些实施例中，所述频繁关联分析处理模块1110可以包括：

第二语料信息获取单元，用于获取语料信息；

第二关键词信息提取单元，用于提取所述语料信息中的关键词信息。

支持度确定单元，用于确定所述关键词信息的支持度，所述支持度表征关键词信息在所述语料信息中的出现频繁程度；

关键词信息选取单元，用于选取支持度大于等于预设支持度阈值的关键词信息；

关联分析处理单元，用于对支持度大于等于预设支持度阈值的关键词信息进行关联分析处理，得到第一数量的频繁关联词集。

在一些实施例中，所述第一层主题标签提取模块1130可以包括：

第一词频获取单元，用于获取所述关联词群中词语在所述第二数量的关联词群中的词频；

第一主题标签确定单元，用于将词频在前第二预设数量的词语作为所述第一层主题标签；

和/或，

第二主题标签确定单元，用于将词频大于等于预设阈值的词语作为第一层主题标签。

在一些实施例中，所述第二层主题标签提取模块1150可以包括：

第二词频获取单元，用于获取聚类词群中词语在所述聚类词群的词频；

第三主题标签确定单元，用于将每一聚类词群中词频最高的词语作为第二层主题标签。

所述的装置实施例中的装置与方法实施例基于同样地发明构思。

本发明实施例提供了一种确定主题标签的服务器，该确定主题标签的服务器包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的主题标签的确定方法。

本发明的实施例还提供了一种存储介质，所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种主题标签的确定方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的主题标签的确定方法。

本发明实施例还提供了一种信息推荐装置，如图12所示，所述装置包括：

信息获取请求接收模块1210，可以用于接收用户的信息获取请求；

历史点击信息获取模块1220，可以用于获取所述用户的历史点击信息；

第一匹配模块1230，可以用于将所述历史点击信息与上述主题标签的确定方法得到的主题标签中的第一层主题标签进行匹配；

第一信息推荐模块1240，可以用于当所述第一匹配模块匹配成功，将匹配的第一层主题标签所对应的待推荐语料信息推荐给所述用户。

在一些实施例中，所述装置还可以包括：

第二匹配模块，可以用于当所述第一匹配模块1230匹配失败，将所述历史点击信息与上述主题标签的确定方法得到的主题标签中的第二层主题标签进行匹配；

第二信息推荐模块，可以用于当所述第二匹配模块匹配成功，将匹配第二层主题标签所对应的待推荐语料信息推荐给所述用户。

本发明实施例提供了一种信息推荐客户端，该信息推荐客户端服务器包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的信息推荐方法。

本说明书实施例中，存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本发明的实施例还提供了一种存储介质，所述存储介质可设置于客户端之中以保存用于实现方法实施例中一种信息推荐方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的信息推荐方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图13是本发明实施例提供的一种主题标签的确定方法的服务器的硬件结构框图。如图13所示，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)1310(处理器1310可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1330，一个或一个以上存储应用程序1323或数据1322的存储介质1320(例如一个或一个以上海量存储设备)。其中，存储器1330和存储介质1320可以是短暂存储或持久存储。存储在存储介质1320的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1310可以设置为与存储介质1320通信，在服务器1300上执行存储介质1320中的一系列指令操作。服务器1300还可以包括一个或一个以上电源1360，一个或一个以上有线或无线网络接口1350，一个或一个以上输入输出接口1340，和/或，一个或一个以上操作系统1321，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

输入输出接口1340可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1300的通信供应商提供的无线网络。在一个实例中，输入输出接口1340包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口1340可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图13所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器1300还可包括比图13中所示更多或者更少的组件，或者具有与图13所示不同的配置。

由上述本发明提供的主题标签的确定方法、装置、服务器、客户端或存储介质的实施例可见，本发明中通过对语料信息中的关键词信息进行频繁关联分析处理，可以快速的挖掘出频繁出现且具有关联的频繁关联词集，不仅去除了偶尔出现的噪声词语，且可以大大减少后续的数据处理量，提高数据处理效率。然后，通过对频繁关联词集的合并、以及基于合并后关联词群中词语的词频选取了能够精细描述语料信息的第一层主题标签；接着，通过对第一层主题标签进行聚类，以及基于聚类后的聚类词群中词语的词频提取第二层主题标签，实现不同粒度的主题标签的提取，增加后续基于主题标签进行信息推荐时的推荐范围，改善推荐效果。解决现有的主题标签提取方案中存在的资源消耗大，主题标签提取和后续主题标签更新效率低，以及噪声样本的影响导致的主题偏差等问题。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、服务器、客户端实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种主题标签的确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在根据所述聚类词集群中词语的词频从所述第三数量的聚类词群中提取第二层主题标签之后，所述方法还包括：

对所述第二层主题标签进行聚类，得到第四数量的聚类词群；

根据所述第四数量的聚类词群中词语在相应的聚类词群中的词频从所述第四数量的聚类词群中提取第三层主题标签；

相应的，所述将所述第一层主题标签和所述第二层主题标签作为所述语料信息的主题标签替换为将所述第一层主题标签、所述第二层主题标签和所述第三层主题标签作为所述语料信息的主题标签。

3.根据权利要求1或2所述的方法，其特征在于，所述对语料信息中的关键词信息进行频繁关联分析处理，得到第一数量的频繁关联词集包括：

获取语料信息，提取所述语料信息中的关键词信息；

基于FPGrowth频繁模式增长算法从所述关键词信息中提取第一数量的频繁关联词集。

4.根据权利要求1或2所述的方法，其特征在于，所述对所述第一层主题标签进行聚类，得到第三数量的聚类词群包括：

基于第一层主题标签中词语的特征向量确定第一中心向量；

以所述第一中心向量为初始中心点，基于二分k均值聚类算法进行第一层主题标签的聚类，得到第三数量的聚类词群。

5.根据权利要求4所述的方法，其特征在于，所述基于第一层主题标签中词语的特征向量确定第一中心向量包括：

确定所述关联词群中词语的特征向量；

对所述词语的特征向量进行加权平均处理，得到所述第一中心向量。

6.根据权利要求1或2所述的方法，其特征在于，所述对语料信息中的关键词信息进行频繁关联分析处理，得到第一数量的频繁关联词集包括：

获取语料信息，提取所述语料信息中的关键词信息；

确定所述关键词信息的支持度，所述支持度表征关键词信息在所述语料信息中的出现频繁程度；

选取支持度大于等于预设支持度阈值的关键词信息；

对支持度大于等于预设支持度阈值的关键词信息进行关联分析处理，得到第一数量的频繁关联词集。

7.根据权利要求1或2所述的方法，其特征在于，所述根据所述关联词群中词语在所述第二数量的关联词群中的词频从所述第二数量的关联词群提取第一层主题标签包括：

获取所述关联词群中词语在所述第二数量的关联词群中的词频；

将词频在前第二预设数量的词语作为所述第一层主题标签，和/或，将词频大于等于预设阈值的词语作为第一层主题标签。

8.根据权利要求1或2所述的方法，其特征在于，所述根据所述聚类词群中词语在所述聚类词群的词频从所述第三数量的聚类词群中提取第二层主题标签包括：

获取聚类词群中词语在所述聚类词群的词频；

将每一聚类词群中词频最高的词语作为第二层主题标签。

9.一种信息推荐方法，其特征在于，所述方法包括：

接收用户的信息获取请求；

获取所述用户的历史点击信息；

将所述历史点击信息与权利要求1至8任一主题标签的确定方法得到的主题标签中的第一层主题标签进行匹配；

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

当匹配失败，将所述历史点击信息与权利要求1至8任一主题标签的确定方法得到的主题标签中的第二层主题标签进行匹配；

当匹配成功，将匹配第二层主题标签所对应的待推荐语料信息推荐给所述用户。

11.一种主题标签的确定装置，其特征在于，所述装置包括：

12.一种信息推荐装置，其特征在于，所述装置包括：

信息获取请求接收模块，用于接收用户的信息获取请求；

第一匹配模块，用于将所述历史点击信息与权利要求1至8任一主题标签的确定方法得到的主题标签中的第一层主题标签进行匹配；