CN104008106A

CN104008106A - 一种获取热点话题的方法及装置

Info

Publication number: CN104008106A
Application number: CN201310058887.5A
Authority: CN
Inventors: 程刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2013-02-25
Filing date: 2013-02-25
Publication date: 2014-08-27
Anticipated expiration: 2033-02-25
Also published as: WO2014127673A1; US20140280242A1; US9477747B2; CN104008106B

Abstract

本发明公开了一种获取热点话题的方法及装置，属于互联网通信领域。所述方法包括：根据一个周期内的社区数据获取第一词汇集合，所述第一词汇集合包括所述社区数据中包含的词汇；根据所述第一词汇集合包括的词汇在离当前最近的预设第一数值天内的社区数据中出现的频次，从所述第一词汇集合中选取词汇，将所述选取的词汇确定为热点词汇并组成第二词汇集合；根据所述第二词汇集合从社区话题集合中选取社区话题，并将所述选取的社区话题确定为热点话题。本发明通过周期性的获取社区数据，在社区数据中获取热点词汇，并根据当前周期内的热点词汇来选取热点话题，避免了人工查询热点话题效率低，准确性差的缺陷，提高了获取热点话题的时效性。

Description

一种获取热点话题的方法及装置

技术领域

本发明涉及互联网通信领域，特别涉及一种获取热点话题的方法及装置。

背景技术

随着社区技术的发展，社区已得到用户广泛地应用，用户可以在社区中发表话题、查看话题或参与话题讨论等方式进行互动。一般情况下，为了方便用户获取信息，社区管理者会将一些突发的热点事件或用户参与度较高的话题作为热点话题放在社区首页的导航栏中，以便用户在进入社区首页时直接通过链接进行查看。

现有技术中，收集突发的热点事件或用户参与度较高的话题，是通过人工查询的方式得到的。管理员通过查询各网站中的新闻的访问量，或查询社区中话题的访问量来确定放入社区导航栏中的热点话题。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

通过人工查询的方式，耗费人力资源较大并且对于热点话题发掘的准确性和时效性较低。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种获取热点话题的方法及装置。所述技术方案如下：

一方面，提供了一种获取热点话题的方法，所述方法包括：

根据一个周期内的社区数据获取第一词汇集合，所述第一词汇集合包括所述社区数据中包含的词汇，其中所述社区数据包括微博博文、搜索引擎搜索关键词、新闻标题和/或社区话题；

根据所述第一词汇集合包括的词汇在离当前最近的预设第一数值天内的社区数据中出现的频次，从所述第一词汇集合中选取词汇，将所述选取的词汇确定为热点词汇并组成第二词汇集合；

根据所述第二词汇集合从社区话题集合中选取社区话题，并将所述选取的社区话题确定为热点话题。

另一方面，提供了一种获取热点话题的装置，所述装置包括：

第一获取模块，用于根据一个周期内的社区数据获取第一词汇集合，所述第一词汇集合包括所述社区数据中包含的词汇，其中所述社区数据包括微博博文、搜索引擎搜索关键词、新闻标题和/或社区话题；

第一选取模块，用于根据所述第一词汇集合包括的词汇在离当前最近的预设第一数值天内的社区数据中出现的频次，从所述第一词汇集合中选取词汇，将所述选取的词汇确定为热点词汇并组成第二词汇集合；

第二选取模块，用于根据所述第二词汇集合从社区话题集合中选取社区话题，并将所述选取的社区话题确定为热点话题。

本发明实施例提供的技术方案带来的有益效果是：

通过周期性的获取社区数据，在社区数据中获取热点词汇，并根据当前周期内的热点词汇来选取热点话题，避免了人工查询热点话题效率低，准确性差的缺陷，提高了获取热点话题的时效性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的获取热点话题的方法流程图；

图2是本发明实施例二提供的获取热点话题的方法流程图；

图3是本发明实施例三提供的获取热点话题的装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

本发明实施例提供了一种获取热点话题的方法，参见图1，方法流程包括：

101：根据一个周期内的社区数据获取第一词汇集合，所述第一词汇集合包括所述社区数据中包含的词汇，其中所述社区数据包括微博博文、搜索引擎搜索关键词、新闻标题和/或社区话题；

102：根据所述第一词汇集合包括的词汇在离当前最近的预设第一数值天内的社区数据中出现的频次，从所述第一词汇集合中选取词汇，将所述选取的词汇确定为热点词汇并组成第二词汇集合；

103：根据所述第二词汇集合从社区话题集合中选取社区话题，并将所述选取的社区话题确定为热点话题。

本发明实施例通过周期性的获取社区数据，在社区数据中获取热点词汇，并根据当前周期内的热点词汇来选取热点话题，避免了人工查询热点话题效率低，准确性差的缺陷，提高了获取热点话题的时效性。

实施例二

本发明实施例提供了一种获取热点话题的方法。

需要说明的是，在执行获取热点话题的方法步骤之前，首先需要通过数据挖掘的方式获取语义相同或者相近的词汇，组成一颗相关词汇树。相关词汇树的挖掘工作是通过将大量的文本进行包含但不限于相近词汇、同义词汇、关联词汇的挖掘，并把这些具备相关性的词汇通过聚类算法分类进行聚合，将组织成一个知识库。其中，相近词汇指具有近似意义的词，但又不完全相同。例如“固定”和“静止”，“聪明”和“灵巧”具有近似意义，但又含义不同。同义词汇指名称不同但表达的词条意思相同的词汇，例如“湖南省”和“湖南”是同义词。

关联词汇指具有父子关系、兄弟关系或者相关联的词汇。父子关系是指一个词汇对另一个词汇有包含关系，比如，“果树”和“苹果树”，“果树”包含了“苹果树”所以这两个词汇为具有父子关系的词汇。兄弟关系是指两个词汇同属于同一个具有父子关系的词汇，比如“苹果树”的父关系词汇“果树”，“梨树”的父关系词汇也为“果树”，所以“梨树”和“苹果树”为兄弟关系词汇。

语义树的挖掘方式可以为以下方式：

方式一：

高频共现的方式：高频贡献是挖掘知识图谱的一种常用的方法。通过计算在大规模文本库中具有相同概念的文本窗口中A1、A2两个词汇共同出现的次数。词汇A1和A2的高频共现概率为：

P（A1，A2）=（同时包含A1、A2的论文数）/（包含A1的论文数+包含A2的论文数）；

当P（A1，A2）>α时，则认为A1和A2是相关词汇，其中α为阈值，取值范围为（0，1]。

方式二：

采用相似度计算的方式：先抽取特征向量，然后计算两个词汇的特征向量的夹角余弦值。词汇A1和A2的夹角余弦值的计算方式为：

R（A1，A2）=cos（V1，V2），其中V1、V2分别为词A1、A2的特征向量。

当Ｒ（A1，A2）>β时，则认为A1和A2是相关词汇，β为阈值，取值范围为（0，1]。

词汇的特征向量抽取目前已有较多的研究方法，包含但不限于采用词的上下文包含的词汇作为特征向量，采用词汇所在的文档id、采用文档的属性、出处等等。

方式三：

采用LDA（Linear Discriminant Analysis，线性判别分析）主题模型的方式：目前已有开源的LDA算法代码，可以直接使用。基于LDA的语义树可以在离线计算好模型然后在线上使用，或者直接使用通过LDA计算出来的语义树。

通过上述三种方式单独或互相结合，挖掘得到词汇之间的相关性关系，汇集所有词汇之间的相关性关系构建出相关性词汇树。其中，在相关性词汇树中各个相关词汇是通过数值的方式，即相似度建立起的相关性关系，因此相关词汇之间的相似性关系可以通过相似度来表达。

构建成相关词汇树后，可以利用本发明实施例提供的方法来获取热点话题，参见图2，该方法流程包括：

201：根据一个周期内的社区数据获取第一词汇集合，所述第一词汇集合包括所述社区数据中包含的词汇，其中所述社区数据包括微博博文、搜索引擎搜索关键词、新闻标题和/或社区话题。

步骤201可以具体为：

2011：周期性的获取社区数据，得到一个周期内的社区数据。

2012：对所述一个周期内的社区数据进行分词得到所述一个周期内的社区数据中包括的词汇，并将分词得到的词汇组成第三词汇集合。

通过预设的分词包，对社区数据中的语句进行分词，得到社区数据中包括的词汇。

2013：从所述第三词汇集合中去除预设过滤词汇集合中包括的词汇得到第一词汇集合。

其中，预设过滤词汇集合是通过人工方式建立的包含了副词、助词词表，脏话、色情词、政治敏感词等词汇的集合。

202：对于所述第二词汇集合中的任意热点词汇，根据预先通过文本聚类算法建立的相关词汇树，获取与所述热点词汇具备相关性的词汇以及所述词汇的相关度。

在相关词汇树中，获取与热点词汇相关的词汇的相关度。

203：根据所述热点词汇对应的热度值和所述词汇的相关度，计算与所述词汇的热度值。

根据热点词汇的热度值与热点词汇相关的词汇的相关度的乘积，计算得到与热点词汇相关的词汇的热度值。

例如，词汇A的热度值为10，与词汇A相关的词汇B的相关度为0.8，那么词汇B的热度值为10*0.8=8。

204：将所述词汇作为热点词汇，添加入所述第二词汇集合中。

进一步的，将第二词汇集合中的其他热点词汇，执行步骤202至步骤203的过程。

205：根据文本聚类算法，对所述第二词汇集合中的热点词汇进行分类。

第二词汇集合中的热点词汇根据词汇之间的相关性，被分成多个词汇集合。

206：根据所述第一词汇集合包括的词汇在离当前最近的预设第一数值天内的社区数据中出现的频次，从所述第一词汇集合中选取词汇，将所述选取的词汇确定为热点词汇并组成第二词汇集合。

选取热点词汇，需要根据当前的词汇出现频次和历史数据中该词汇出现的频次共同来确定词汇的一个热度值，并根据该热度值来确定热点词汇。因此，步骤206可以具体为：

2061：根据所述第一词汇集合包括的词汇在当天的第一时段内社区数据出现的频次和预设第一数值天内除当天以外其他每天的第一时段内社区数据出现的频次，计算所述第一词汇集合包括的词汇对应的第一比值。

步骤2061可以具体为：

20611：在所述预设第一数值天内选取除当天以外的第二数值天，根据所述第一词汇集合包括的词汇在所述第二数值天中每天的第一时段内社区数据出现的频次和第二数值，计算所述第一词汇集合包括的词汇的第一平均频次。

第一平均频次为选取的历史数据第一数值天数中的第二数值天数的各时间段词汇在社区数据中出现的频次的平均值。

例如选取的第一数值天为离当前最近的两个月的时间，第二数值天选取的为离当前最近的两个月的时间内的某段连续日期，选取的第一时段可以为每天的10点至11点，选取第二数值天中每天10点至11点的社区数据作为历史数据。

20612：根据所述第一词汇集合包括的词汇在当天的第一时段内社区数据出现的频次和所述第一词汇集合包括的词汇的第一平均频次，计算所述第一词汇集合包括的词汇对应的第一比值。

第一比值的具体计算过程为：

H_recent = \frac{h_qv}{\frac{Σ_{i = 1}^{n} h_qv (i)}{n}}

h_qv(i)为词汇在所述第二数值天中每天的第一时段内社区数据出现的频次；h_qv为词汇在当天第一时间段内在社区数据中出现的频次；n为选取的天数，即第二数值。其中分母中的即为步骤20611中的第一平均频次。

2062：获取当天的星期日期，根据所述第一词汇集合包括的词汇在当天的社区数据中出现的频次和所述预设天数包括的所述星期日期除当天以外其他每天的社区数据中出现的频次，计算所述第一词汇集合包括的词汇对应的第二比值。

步骤2062可以具体为：

20621：根据所述第一词汇集合包括的词汇在所述预设第一数值天内包括的所述星期日期除当天以外其他每天的社区数据中出现的频次和第三数值，计算所述第一词汇集合包括的词汇的第二平均频次，所述第三数值为所述预设第一数值天内包括的所述星期日期的天数与1的差值。

例如选取的第一数值天为离当前最近的两个月的时间，并在第一数值天内根据当天的星期日期，选取最近两个月内同样的星期日期对应的天，并根据这些天内除当天以外其他日期对应的社区数据作为历史数据，计算第一词汇集合在这些日期中，社区数据出现的频次。

20622：根据所述第一词汇集合包括的词汇在当天的社区数据中出现的频次和所述第一词汇集合包括的词汇的第二平均频次，计算所述第一词汇集合包括的词汇对应的第二比值。

第二比值的具体计算过程为：

W_recent \frac{d_qv}{\frac{Σ_{i = 1}^{n / 7} qv (7 * i) * 7}{n}}

其中，qv(i)为词汇在所述预设第一数值天内包括的所述星期日期除当天以外其他每天的社区数据中的出现频次；d_qv为词汇在当前一天的社区数据中出现频次；n为选取的天数，即第三数值。其中分母中的即为步骤20621中的第二平均频次。

2063：从预设第一天数中除当天以外的天数中选择预设天数；根据所述第一词汇集合包括的词汇在当天内社区数据出现的频次和所述预设天数的社区数据中出现的频次，计算所述第一词汇集合包括的词汇对应的第三比值。

步骤2063可以具体为：

20631：在所述预设第一数值天内选取除当天以外的第四数值天，根据所述第一词汇集合包括的词汇在所述第四数值天内的社区数据中出现的频次和所述第四数值，计算所述第一词汇集合包括的词汇的第三平均频次。

例如选取的第一数值天为离当前最近的两个月的时间，第四数值天选取的为离当前最近的两个月的时间内的某段连续日期，并将选取的第四数值天内的社区数据作为历史数据。

20632：所述根据所述第一词汇集合包括的词汇在当天内社区数据出现的频次和所述第一词汇集合包括的词汇的第三平均频次，计算所述第一词汇集合包括的词汇对应的第三比值。

第三比值的具体计算过程为：

A_recent = \frac{d_qv}{\frac{Σ_{i = 1}^{n} qv (i)}{n}}

其中，qv(i)为词汇在所述第四数值天内的社区数据中出现的频次；d_qv为当前一天的该词汇在社区数据中出现的频次；n为选取的天数，即第四数值。其中分母中的即为步骤20631中的第三平均频次。

2064：根据所述第一词汇集合包括的词汇对应的第一比值，第二比值和第三比值，计算所述第一词汇集合中包括的词汇的热度值。

Recency(K)=α*H_recent+β*W_recent+γ*A_recent。公式中α、β、γ为系数，并且α+β+γ=1，根据该公示计算得到词汇的热度值。

2065：从所述第一词汇集合中选取热度值最大的第一预设个数个的词汇，或者从所述词汇集合中选取热度值超过第一预设热度值的词汇，将所述选取的词汇确定为热点词汇并组成第二词汇集合。

计算第一词汇集合中每一个词汇的热度值后，对所有热度值进行排序，选取热度值最大的预设个数个热点词汇组成第二词汇集合，或根据预设热度阈值选取热点词汇组成第二词汇集合。

207：根据所述第二词汇集合从社区话题集合中选取社区话题，并将所述选取的社区话题确定为热点话题。

根据第二词汇集合确定社区话题集合的社区话题中热点话题的方式为两种，一种是无需对第二词汇集合中的热点词汇进行聚类，另一种是对第二词汇集合中的热点词汇根据相关性进行聚类，聚类后分成多个词汇的小集合。

无需使用第二词汇集合中的热点词汇进行聚类的类别时，步骤207可以具体为：

2071：对于社区话题集合中任意一个社区话题，获取所述社区话题包括的所述第二词汇集合中的词汇，将获取的词汇对应的热度值进行累加，得到所述社区话题的热度值。

具体的，计算公式如下：

Match_score ({topic}_{k}) = Σ_{i = 1}^{n} match (Hot_score (i))

其中，topic_k表示第K个社区话题，match(Hot_score(i))表示在与社区话题匹配到的第二词汇集合中的热点词汇对应的热度值Hot_score(i)，将所有匹配到的热点词汇的热度值进行累加，即为该社区话题的热度值。

2072：从所述社区话题集合中选取热度值最大的第二预设个数个的社区话题，或者从所述社区话题集合中选取热度值超过第二预设热度值的社区话题，将所述选取的社区话题确定为热点话题。

对第二词汇集合中的热点词汇进行聚类后，步骤207可以具体为：

2073：根据所述第二词汇集合中包括的热点词汇的热度值，计算社区话题集合中包括的每一个社区话题的热度值。

步骤2073具体为：

20731：对于社区话题集合中任意一个社区话题，获取所述社区话题分别包括所述第二词汇集合中每一个分类中的热点词汇个数，选取热点词汇个数最多的一个分类。

将每一个社区话题与第二词汇集合中根据文本聚类算法分类后的每一个类别中的热点词汇进行匹配，并根据匹配到的词汇的数量选取匹配到的数量最多的分类。

例如：某社区话题中存在的词汇包括：{A,B,C,D,E，F,G，H,I}；在第二词汇集合中文本聚类后分别存在{ABC},{X,Y，Z,D,E},{M,N,F,G，H,I}这几个集合；将词汇集合{A,B,C,D,E,F,G，H,I}与第二词汇集合中分类后的集合分别进行匹配。与｛ABC｝匹配后，得到的共同的词汇为A,B,C；与{X,Y，Z,D,E}匹配后，得到的共同的词汇为D,E；与{M,N,F,G，H,I}匹配后，得到的共同的词汇为F,G，H,I。因此选取{M,N,F,G，H,I}集合为计算该社区话题的热度值的集合。

20732：根据所述社区话题包括的所述选择的分类的热点词汇的热度值，计算所述社区话题的第一热度值。

第一热度值Match_score(topick)的计算公式如下：

Match_score ({topic}_{k}) = Σ_{i = 1}^{n} match (Hot_score (i))

其中，topic_k表示第K个社区话题，match(Hot_score(i))表示在社区话题中匹配到的选取的分类中的热点词汇对应的热度值Hot_score(i)，将所有匹配到的热点词汇的热度值进行累加，即为第一热度值。

根据步骤20731中的例子，计算{M,N,F，G，H,I}中F，G，H，I的热度值之合。

20733：所述选择的分类的热点词汇中去除所述社区话题包括的所述选择的分类的热点词汇，根据所述选择的分类中剩下的热点词汇的热度值，计算所述社区话题的第二热度值。

第二热度值lost_score(topic_k)的计算公式如下：

lost_score ({topic}_{k}) = - Σ_{i = 1}^{n} lost (Hot_score (i))

其中，topic_k表示第K个社区话题，lost(Hot_score(i))表示在选择的分类中未与社区话题匹配到的词汇的热度值，将这些词汇的热度值进行累加，即为第二热度值。

根据步骤20731中的例子，计算{M,N,F,G，H,I}中M，N的热度值之合，并取负值。

20734：获取所述社区话题包括的所述第二词汇集合中的热点词汇并组成第四词汇集合，在所述第四词汇集合中去除所述社区话题包括的所述选择的分类的热点词汇并组成第五词汇集合，根据所述第五词汇集合中包括的每个热点词汇的热度值，计算所述社区话题的第三热度值。

第三热度值surplus_score(topic_k)的计算公式如下：

surplus_score ({topic}_{k}) = - Σ_{i = 1}^{n} lost (Hot_score (i))

其中，topic_k表示第K个社区话题，lost(Hot_score(i))表示在社区话题中未匹配到的词汇的热度值，将这些词汇的热度值进行累加，即为第三热度值。

根据步骤20731中的例子，计算{A,B,C,D,E,F,G，H,I}中A，B，C，D，E的热度值之合，并取负值。

20735：根据所述社区话题的第一热度值，第二热度值和第三热度值，计算所述社区话题的热度值。

计算方式为：

topic_score(k)=α*Match_score(topic_k)+β*lost_score(topic_k)+γ*surplus_score(topic_k)；公式中α、β、γ为系数，并且α+β+γ=1。

2074：从所述社区话题集合中选取热度值最大的第三预设个数个的社区话题，或者从所述社区话题集合中选取热度值超过第三预设热度值的社区话题，将所述选取的社区话题确定为热点话题。

实施例三

本发明实施例提供了一种获取热点话题的装置，参见图3，该装置包括：

第一获取模块301，用于根据一个周期内的社区数据获取第一词汇集合，所述第一词汇集合包括所述社区数据中包含的词汇，其中所述社区数据包括微博博文、搜索引擎搜索关键词、新闻标题和/或社区话题；

第一选取模块302，用于根据所述第一词汇集合包括的词汇在离当前最近的预设第一数值天内的社区数据中出现的频次，从所述第一词汇集合中选取词汇，将所述选取的词汇确定为热点词汇并组成第二词汇集合；

第二选取模块303，用于根据所述第二词汇集合从社区话题集合中选取社区话题，并将所述选取的社区话题确定为热点话题。

其中在具体实施方式中，所述第一获取模块301，包括：

第一获取单元3011，用于周期性的获取社区数据，得到一个周期内的社区数据；

分词单元3012，用于对所述一个周期内的社区数据进行分词得到所述一个周期内的社区数据中包括的词汇，并将分词得到的词汇组成第三词汇集合；

过滤单元3013，用于从所述第三词汇集合中去除预设过滤词汇集合中包括的词汇得到第一词汇集合。

其中，所述第一选取模块302，包括：

第一计算单元3021，用于根据所述第一词汇集合包括的词汇在当天的第一时段内社区数据出现的频次和预设第一数值天内除当天以外其他每天的第一时段内社区数据出现的频次，计算所述第一词汇集合包括的词汇对应的第一比值；

第二计算单元3022，用于获取当天的星期日期，根据所述第一词汇集合包括的词汇在当天的社区数据中出现的频次和所述预设天数包括的所述星期日期除当天以外其他每天的社区数据中出现的频次，计算所述第一词汇集合包括的词汇对应的第二比值；

第三计算单元3023，用于从预设第一天数中除当天以外的天数中选择预设天数；根据所述第一词汇集合包括的词汇在当天内社区数据出现的频次和所述预设天数的社区数据中出现的频次，计算所述第一词汇集合包括的词汇对应的第三比值；

第四计算单元3024，用于根据所述第一词汇集合包括的词汇对应的第一比值，第二比值和第三比值，计算所述第一词汇集合中包括的词汇的热度值；

第一选取单元3025，用于从所述第一词汇集合中选取热度值最大的第一预设个数个的词汇，或者从所述词汇集合中选取热度值超过第一预设热度值的词汇，将所述选取的词汇确定为热点词汇并组成第二词汇集合。

其中，所述第一计算单元3021，包括：

第一计算子单元30211，用于在所述预设第一数值天内选取除当天以外的第二数值天，根据所述第一词汇集合包括的词汇在所述第二数值天中每天的第一时段内社区数据出现的频次和第二数值，计算所述第一词汇集合包括的词汇的第一平均频次；

第二计算子单元30212，用于在所述预设第一数值天内选取除当天以外的第二数值天，根据所述第一词汇集合包括的词汇在所述第二数值天中每天的第一时段内社区数据出现的频次和第二数值，计算所述第一词汇集合包括的词汇的第一平均频次。

其中，所述第二计算单元3022，包括：

第三计算子单元30221，用于根据所述第一词汇集合包括的词汇在所述预设第一数值天内包括的所述星期日期除当天以外其他每天的社区数据中出现的频次和第三数值，计算所述第一词汇集合包括的词汇的第二平均频次，所述第三数值为所述预设第一数值天内包括的所述星期日期的天数与1的差值；

第四计算子单元30222，用于根据所述第一词汇集合包括的词汇在当天的社区数据中出现的频次和所述第一词汇集合包括的词汇的第二平均频次，计算所述第一词汇集合包括的词汇对应的第二比值。

其中，所述第三计算单元3023，包括：

第五计算子单元30231，用于在所述预设第一数值天内选取除当天以外的第四数值天，根据所述第一词汇集合包括的词汇在所述第四数值天内的社区数据中出现的频次和所述第四数值，计算所述第一词汇集合包括的词汇的第三平均频次；

第六计算子单元30232，用于所述根据所述第一词汇集合包括的词汇在当天内社区数据出现的频次和所述第一词汇集合包括的词汇的第三平均频次，计算所述第一词汇集合包括的词汇对应的第三比值。

其中，所述装置还包括：

第二获取模块304，用于对于所述第二词汇集合中的任意热点词汇，根据预先通过文本聚类算法建立的相关词汇树，获取与所述热点词汇具备相关性的词汇以及所述词汇的相关度；

计算模块305，用于根据所述热点词汇对应的热度值和所述词汇的相关度，计算与所述词汇的热度值；

添加模块306，用于将所述词汇作为热点词汇，添加入所述第二词汇集合中；

分类模块307，用于根据文本聚类算法，对所述第二词汇集合中的热点词汇进行分类。

其中，所述第二选取模块303，包括：

第二获取单元3031，用于对于社区话题集合中任意一个社区话题，获取所述社区话题包括的所述第二词汇集合中的词汇，将获取的词汇对应的热度值进行累加，得到所述社区话题的热度值；

第二选取单元3032，用于从所述社区话题集合中选取热度值最大的第二预设个数个的社区话题，或者从所述社区话题集合中选取热度值超过第二预设热度值的社区话题，将所述选取的社区话题确定为热点话题。

其中，所述第二选取模块303，包括：

第五计算单元3033，用于根据所述第二词汇集合中包括的热点词汇的热度值，计算社区话题集合中包括的每一个社区话题的热度值；

第三选取单元3034，用于从所述社区话题集合中选取热度值最大的第三预设个数个的社区话题，或者从所述社区话题集合中选取热度值超过第三预设热度值的社区话题，将所述选取的社区话题确定为热点话题。

其中，所述第五计算单元3033，包括：

获取子单元30331，用于对于社区话题集合中任意一个社区话题，获取所述社区话题分别包括所述第二词汇集合中每一个分类中的热点词汇个数，选取热点词汇个数最多的一个分类；

第七计算子单元30332，用于根据所述社区话题包括的所述选择的分类的热点词汇的热度值，计算所述社区话题的第一热度值；

第八计算子单元30333，用于所述选择的分类的热点词汇中去除所述社区话题包括的所述选择的分类的热点词汇，根据所述选择的分类中剩下的热点词汇的热度值，计算所述社区话题的第二热度值；

第九计算子单元30334，用于获取所述社区话题包括的所述第二词汇集合中的热点词汇并组成第四词汇集合，在所述第四词汇集合中去除所述社区话题包括的所述选择的分类的热点词汇并组成第五词汇集合，根据所述第五词汇集合中包括的每个热点词汇的热度值，计算所述社区话题的第三热度值；

第十计算子单元30335，用于根据所述社区话题的第一热度值，第二热度值和第三热度值，计算所述社区话题的热度值。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种获取热点话题的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据一个周期内的社区数据获取第一词汇集合，包括：

周期性的获取社区数据，得到一个周期内的社区数据；

对所述一个周期内的社区数据进行分词得到所述一个周期内的社区数据中包括的词汇，并将分词得到的词汇组成第三词汇集合；

从所述第三词汇集合中去除预设过滤词汇集合中包括的词汇得到第一词汇集合。

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一词汇集合包括的词汇在离当前最近的预设第一数值天内的社区数据中出现的频次，从所述第一词汇集合中选取词汇，将所述选取的词汇确定为热点词汇并组成第二词汇集合，包括：

根据所述第一词汇集合包括的词汇在当天的第一时段内社区数据出现的频次和预设第一数值天内除当天以外其他每天的第一时段内社区数据出现的频次，计算所述第一词汇集合包括的词汇对应的第一比值；

获取当天的星期日期，根据所述第一词汇集合包括的词汇在当天的社区数据中出现的频次和所述预设天数包括的所述星期日期除当天以外其他每天的社区数据中出现的频次，计算所述第一词汇集合包括的词汇对应的第二比值；

从预设第一天数中除当天以外的天数中选择预设天数；根据所述第一词汇集合包括的词汇在当天内社区数据出现的频次和所述预设天数的社区数据中出现的频次，计算所述第一词汇集合包括的词汇对应的第三比值；

根据所述第一词汇集合包括的词汇对应的第一比值，第二比值和第三比值，计算所述第一词汇集合中包括的词汇的热度值；

从所述第一词汇集合中选取热度值最大的第一预设个数个的词汇，或者从所述词汇集合中选取热度值超过第一预设热度值的词汇，将所述选取的词汇确定为热点词汇并组成第二词汇集合。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一词汇集合包括的词汇在当天的第一时段内社区数据出现的频次和预设天数内除当天以外其他每天的第一时段内社区数据出现的频次，计算所述第一词汇集合包括的词汇对应的第一比值，包括：

在所述预设第一数值天内选取除当天以外的第二数值天，根据所述第一词汇集合包括的词汇在所述第二数值天中每天的第一时段内社区数据出现的频次和第二数值，计算所述第一词汇集合包括的词汇的第一平均频次；

根据所述第一词汇集合包括的词汇在当天的第一时段内社区数据出现的频次和所述第一词汇集合包括的词汇的第一平均频次，计算所述第一词汇集合包括的词汇对应的第一比值。

5.根据权利要求3所述的方法，其特征在于，所述根据所述第一词汇集合包括的词汇在当天的社区数据中出现的频次和所述预设天数包括的所述星期日期除当天以外其他每天的社区数据中出现的频次，计算所述第一词汇集合包括的词汇对应的第二比值，包括：

根据所述第一词汇集合包括的词汇在所述预设第一数值天内包括的所述星期日期除当天以外其他每天的社区数据中出现的频次和第三数值，计算所述第一词汇集合包括的词汇的第二平均频次，所述第三数值为所述预设第一数值天内包括的所述星期日期的天数与1的差值；

根据所述第一词汇集合包括的词汇在当天的社区数据中出现的频次和所述第一词汇集合包括的词汇的第二平均频次，计算所述第一词汇集合包括的词汇对应的第二比值。

6.根据权利要求3所述的方法，其特征在于，所述根据所述第一词汇集合包括的词汇在当天内社区数据出现的频次和所述预设天数的社区数据中出现的频次，计算所述第一词汇集合包括的词汇对应的第三比值，包括：

在所述预设第一数值天内选取除当天以外的第四数值天，根据所述第一词汇集合包括的词汇在所述第四数值天内的社区数据中出现的频次和所述第四数值，计算所述第一词汇集合包括的词汇的第三平均频次；

所述根据所述第一词汇集合包括的词汇在当天内社区数据出现的频次和所述第一词汇集合包括的词汇的第三平均频次，计算所述第一词汇集合包括的词汇对应的第三比值。

7.根据权利要求2所述的方法，其特征在于，所述从所述第三词汇集合中去除预设过滤词汇集合中包括的词汇得到第一词汇集合之后，所述方法还包括：

对于所述第二词汇集合中的任意热点词汇，根据预先通过文本聚类算法建立的相关词汇树，获取与所述热点词汇具备相关性的词汇以及所述词汇的相关度；

根据所述热点词汇对应的热度值和所述词汇的相关度，计算所述词汇的热度值；

将所述词汇作为热点词汇，添加入所述第二词汇集合中；

根据文本聚类算法，对所述第二词汇集合中的热点词汇进行分类。

8.根据权利要求7所述的方法，其特征在于，所述根据所述第二词汇集合从社区话题集合中选取社区话题，并将所述选取的社区话题确定为热点话题，包括：

对于社区话题集合中任意一个社区话题，获取所述社区话题包括的所述第二词汇集合中的词汇，将获取的词汇对应的热度值进行累加，得到所述社区话题的热度值；

从所述社区话题集合中选取热度值最大的第二预设个数个的社区话题，或者从所述社区话题集合中选取热度值超过第二预设热度值的社区话题，将所述选取的社区话题确定为热点话题。

9.根据权利要求7所述的方法，其特征在于，所述根据所述第二词汇集合从社区话题集合中选取社区话题，包括：

根据所述第二词汇集合中包括的热点词汇的热度值，计算社区话题集合中包括的每一个社区话题的热度值；

从所述社区话题集合中选取热度值最大的第三预设个数个的社区话题，或者从所述社区话题集合中选取热度值超过第三预设热度值的社区话题，将所述选取的社区话题确定为热点话题。

10.根据权利要求9所述的方法，其特征在于，所述根据所述第二词汇集合中包括的热点词汇的热度值，计算社区话题集合中包括的每一个社区话题的热度值，包括：

对于社区话题集合中任意一个社区话题，获取所述社区话题分别包括所述第二词汇集合中每一个分类中的热点词汇个数，选取热点词汇个数最多的一个分类；

根据所述社区话题包括的所述选择的分类的热点词汇的热度值，计算所述社区话题的第一热度值；

所述选择的分类的热点词汇中去除所述社区话题包括的所述选择的分类的热点词汇，根据所述选择的分类中剩下的热点词汇的热度值，计算所述社区话题的第二热度值；

获取所述社区话题包括的所述第二词汇集合中的热点词汇并组成第四词汇集合，在所述第四词汇集合中去除所述社区话题包括的所述选择的分类的热点词汇并组成第五词汇集合，根据所述第五词汇集合中包括的每个热点词汇的热度值，计算所述社区话题的第三热度值；

根据所述社区话题的第一热度值，第二热度值和第三热度值，计算所述社区话题的热度值。

11.一种获取热点话题的装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述第一获取模块，包括：

第一获取单元，用于周期性的获取社区数据，得到一个周期内的社区数据；

分词单元，用于对所述一个周期内的社区数据进行分词得到所述一个周期内的社区数据中包括的词汇，并将分词得到的词汇组成第三词汇集合；

过滤单元，用于从所述第三词汇集合中去除预设过滤词汇集合中包括的词汇得到第一词汇集合。

13.根据权利要求11所述的装置，其特征在于，所述第一选取模块，包括：

第一计算单元，用于根据所述第一词汇集合包括的词汇在当天的第一时段内社区数据出现的频次和预设第一数值天内除当天以外其他每天的第一时段内社区数据出现的频次，计算所述第一词汇集合包括的词汇对应的第一比值；

第二计算单元，用于获取当天的星期日期，根据所述第一词汇集合包括的词汇在当天的社区数据中出现的频次和所述预设天数包括的所述星期日期除当天以外其他每天的社区数据中出现的频次，计算所述第一词汇集合包括的词汇对应的第二比值；

第三计算单元，用于从预设第一天数中除当天以外的天数中选择预设天数；根据所述第一词汇集合包括的词汇在当天内社区数据出现的频次和所述预设天数的社区数据中出现的频次，计算所述第一词汇集合包括的词汇对应的第三比值；

第四计算单元，用于根据所述第一词汇集合包括的词汇对应的第一比值，第二比值和第三比值，计算所述第一词汇集合中包括的词汇的热度值；

第一选取单元，用于从所述第一词汇集合中选取热度值最大的第一预设个数个的词汇，或者从所述词汇集合中选取热度值超过第一预设热度值的词汇，将所述选取的词汇确定为热点词汇并组成第二词汇集合。

14.根据权利要求13所述的装置，其特征在于，所述第一计算单元，包括：

第一计算子单元，用于在所述预设第一数值天内选取除当天以外的第二数值天，根据所述第一词汇集合包括的词汇在所述第二数值天中每天的第一时段内社区数据出现的频次和第二数值，计算所述第一词汇集合包括的词汇的第一平均频次；

第二计算子单元，用于根据所述第一词汇集合包括的词汇在当天的第一时段内社区数据出现的频次和所述第一词汇集合包括的词汇的第一平均频次，计算所述第一词汇集合包括的词汇对应的第一比值。

15.根据权利要求13所述的装置，其特征在于，所述第二计算单元，包括：

第三计算子单元，用于根据所述第一词汇集合包括的词汇在所述预设第一数值天内包括的所述星期日期除当天以外其他每天的社区数据中出现的频次和第三数值，计算所述第一词汇集合包括的词汇的第二平均频次，所述第三数值为所述预设第一数值天内包括的所述星期日期的天数与1的差值；

第四计算子单元，用于根据所述第一词汇集合包括的词汇在当天的社区数据中出现的频次和所述第一词汇集合包括的词汇的第二平均频次，计算所述第一词汇集合包括的词汇对应的第二比值。

16.根据权利要求13所述的装置，其特征在于，所述第三计算单元，包括：

第五计算子单元，用于在所述预设第一数值天内选取除当天以外的第四数值天，根据所述第一词汇集合包括的词汇在所述第四数值天内的社区数据中出现的频次和所述第四数值，计算所述第一词汇集合包括的词汇的第三平均频次；

第六计算子单元，用于所述根据所述第一词汇集合包括的词汇在当天内社区数据出现的频次和所述第一词汇集合包括的词汇的第三平均频次，计算所述第一词汇集合包括的词汇对应的第三比值。

17.根据权利要求12所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于对于所述第二词汇集合中的任意热点词汇，根据预先通过文本聚类算法建立的相关词汇树，获取与所述热点词汇具备相关性的词汇以及所述词汇的相关度；

计算模块，用于根据所述热点词汇对应的热度值和所述词汇的相关度，计算与所述词汇的热度值；

添加模块，用于将所述词汇作为热点词汇，添加入所述第二词汇集合中；

分类模块，用于根据文本聚类算法，对所述第二词汇集合中的热点词汇进行分类。

18.根据权利要求17所述的装置，其特征在于，所述第二选取模块，包括：

第二获取单元，用于对于社区话题集合中任意一个社区话题，获取所述社区话题包括的所述第二词汇集合中的词汇，将获取的词汇对应的热度值进行累加，得到所述社区话题的热度值；

第二选取单元，用于从所述社区话题集合中选取热度值最大的第二预设个数个的社区话题，或者从所述社区话题集合中选取热度值超过第二预设热度值的社区话题，将所述选取的社区话题确定为热点话题。

19.根据权利要求17所述的装置，其特征在于，所述第二选取模块，包括：

第五计算单元，用于根据所述第二词汇集合中包括的热点词汇的热度值，计算社区话题集合中包括的每一个社区话题的热度值；

第三选取单元，用于从所述社区话题集合中选取热度值最大的第三预设个数个的社区话题，或者从所述社区话题集合中选取热度值超过第三预设热度值的社区话题，将所述选取的社区话题确定为热点话题。

20.根据权利要求19所述的装置，其特征在于，所述第五计算单元，包括：

获取子单元，用于对于社区话题集合中任意一个社区话题，获取所述社区话题分别包括所述第二词汇集合中每一个分类中的热点词汇个数，选取热点词汇个数最多的一个分类；

第七计算子单元，用于根据所述社区话题包括的所述选择的分类的热点词汇的热度值，计算所述社区话题的第一热度值；

第八计算子单元，用于所述选择的分类的热点词汇中去除所述社区话题包括的所述选择的分类的热点词汇，根据所述选择的分类中剩下的热点词汇的热度值，计算所述社区话题的第二热度值；

第九计算子单元，用于获取所述社区话题包括的所述第二词汇集合中的热点词汇并组成第四词汇集合，在所述第四词汇集合中去除所述社区话题包括的所述选择的分类的热点词汇并组成第五词汇集合，根据所述第五词汇集合中包括的每个热点词汇的热度值，计算所述社区话题的第三热度值；

第十计算子单元，用于根据所述社区话题的第一热度值，第二热度值和第三热度值，计算所述社区话题的热度值。