CN106528755A

CN106528755A - 热点话题的生成方法及装置

Info

Publication number: CN106528755A
Application number: CN201610971661.8A
Authority: CN
Inventors: 齐勇; 王明强; 张明亮
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2016-10-28
Filing date: 2016-10-28
Publication date: 2017-03-22

Abstract

本发明公开了一种热点话题的生成方法及装置，涉及自然语言处理技术领域，本发明提高了热点话题挖掘的效率及准确率。本发明的技术方案为：获取新闻数据中的主题词，所述主题词是权重值超过预置阈值的词；根据所述主题词之间的词共现度生成主题词共现图；通过所述词共现度的阈值将所述主题词共现图分割成多个子图，每个子图代表一个候选热点话题聚簇；根据获取的子图中主题词数量大于预置数值的子图生成热点话题。本发明主要用于生成热点话题。

Description

热点话题的生成方法及装置

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种热点话题的生成方法及装置。

背景技术

网络上新闻来源非常广，但是人们不可能关注所有的新闻，所以在海量新闻数据中检测出当前热点话题，并对热点话题进行分析，及时把握人们普遍关心的问题以及人们对热点话题的看法对网络舆情监控、事件控制等都有重要作用。

目前，收集突发的热点话题或用户参与度较高的话题，是通过人工查询的方式得到的。管理员通过查询各网站中的新闻的访问量，或查询社区中话题的访问量来确定热点话题，而通过人工方式确定的热点话题耗费人力资源较大并且对于热点话题挖掘的效率及准确率较低。

发明内容

有鉴于此，本发明提供一种热点话题的生成方法及装置，主要目的在于提高热点话题挖掘的效率及准确率。

依据本发明一个方面，提供了一种热点话题的生成方法，包括：

获取新闻数据中的主题词，所述主题词是权重值超过预置阈值的词；

根据所述主题词之间的词共现度生成主题词共现图；

通过所述词共现度的阈值将所述主题词共现图分割成多个子图，每个子图代表一个候选热点话题聚簇；

根据获取的子图中主题词数量大于预置数值的子图生成热点话题。

具体的，所述根据获取的子图中主题词数量大于预置数值的子图生成热点话题包括：

从所述子图中获取主题词数量大于预置数值的子图；

根据所述获取的子图中重要度符合预置条件的主题词生成热点话题，所述主题词的重要度是在所述主题词共现图中从该主题词出发的所有的边的和。

进一步地，所述根据所述子图中权重值符合预置条件的主题词生成热点话题之前，所述方法还包括：

对所述获取的子图中的同义词进行合并处理；

对合并的同义词的重要度进行累加。

具体的，所述获取新闻数据中的主题词包括：

根据所述新闻数据中词的相对词频与词频增加率计算所述词的权重值；

将所述新闻数据中词权重值超过预置阈值的词确定为主题词。

进一步地，所述根据所述新闻数据中词的相对词频与词频增加率计算所述词权重值之前，所述方法还包括：

根据所述新闻数据中词i在j时间段内在新闻标题中出现的频率及词i在j时间段内在新闻正文中出现的频率确定词i在j时间段内出现的词频f_i,j；

通过所述词i在j时间段内出现的词频f_i,j与在j时间段内出现的最高词频f_max的比值确定所述词的相对词频；

根据词i在j时间段内的词频f_ij，及相对于上一个时间段该词的词频f_i,j-1确定所述词频增加率。

进一步地，所述根据所述主题词之间的词共现度生成主题词共现图之前，所述方法还包括：

根据f(w_xw_y)与f(w_y)的比值确定词w_x相对于词w_y的相对共现度；

根据f(w_xw_y)与f(w_x)的比值确定词w_y相对于词w_x的相对共现度；其中所述f(w_x)、所述f(w_x)和所述f(w_xw_y)分别为词w_x、词w_y以及词w_xw_y在j时间段内出现的词频；

通过词w_x相对于词w_y的相对共现度，及词w_y相对于词w_x的相对共现度确定主题词之间的词共现度。

依据本发明另一个方面，提供了一种热点话题的生成装置，包括：

获取单元，用于获取新闻数据中的主题词，所述主题词是权重值超过预置阈值的词；

生成单元，用于根据所述主题词之间的词共现度生成主题词共现图；

分割单元，用于通过所述词共现度的阈值将所述主题词共现图分割成多个子图，每个子图代表一个候选热点话题聚簇；

所述生成单元，还用于根据获取的子图中主题词数量大于预置数值的子图生成热点话题。

具体的，所述生成单元包括：

获取模块，用于从所述子图中获取主题词数量大于预置数值的子图；

生成模块，用于根据所述获取的子图中重要度符合预置条件的主题词生成热点话题，所述主题词的重要度是在所述主题词共现图中从该主题词出发的所有的边的和。

进一步地，所述生成单元还包括：

合并模块，用于对所述获取的子图中的同义词进行合并处理；

累加模块，用于对合并的同义词的重要度进行累加。

具体的，所述获取单元包括：

计算模块，用于根据所述新闻数据中词的相对词频与词频增加率计算所述词的权重值；

确定模块，用于将所述新闻数据中词权重值超过预置阈值的词确定为主题词。

所述确定模块，还用于根据所述新闻数据中词i在j时间段内在新闻标题中出现的频率及词i在j时间段内在新闻正文中出现的频率确定词i在j时间段内出现的词频f_i,j；

所述确定模块，还用于通过所述词i在j时间段内出现的词频f_i,j与在j时间段内出现的最高词频f_max的比值确定所述词的相对词频；

所述确定模块，还用于根据词i在j时间段内的词频f_ij，及相对于上一个时间段该词的词频f_i,j-1确定所述词频增加率。

进一步地，所述装置还包括：

确定单元，用于根据f(w_xw_y)与f(w_y)的比值确定词w_x相对于词w_y的相对共现度；根据f(w_xw_y)与f(w_x)的比值确定词w_y相对于词w_x的相对共现度；其中所述f(w_x)、所述f(w_x)和所述f(w_xw_y)分别为词w_x、词w_y以及词w_xw_y在j时间段内出现的词频；

所述确定单元，还用于通过词w_x相对于词w_y的相对共现度，及词w_y相对于词w_x的相对共现度确定主题词之间的词共现度。

借由上述技术方案，本发明实施例提供的技术方案至少具有下列优点：

本发明实施例提供的一种热点话题的生成方法及装置，首先获取新闻数据中的主题词，然后根据所述主题词之间的词共现度生成主题词共现图，接着通过所述词共现度的阈值将所述主题词共现图分割成多个子图，最后根据获取的子图中主题词数量大于预置数值的子图生成热点话题。与目前通过人工查询的方式获取热点话题相比，本发明实施例首先获取新闻数据中的主题词，然后基于主题词之间的词共现度生成主题词共现图，并根据词共现度的阈值将主题词共现图分割成多个子图，最后根据子图中主题词数量大于预置数值的子图生成热点话题，从而通过本发明实施例解决了人工方式确定的热点话题耗费人力资源较大的问题，以及热点话题挖掘的效率及准确率较低的问题。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种热点话题的生成方法流程图；

图2示出了本发明实施例提供的另一种热点话题的生成方法流程图；

图3示出了本发明实施例提供的一种热点话题的生成装置的结构框图；

图4示出了本发明实施例提供的另一种热点话题的生成装置的结构框图；

图5示出了本发明实施例提供的一种主题词共现图；

图6示出了本发明实施例提供的一种由主题词共现图分割的子图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种热点话题的生成方法，如图1所示，具体步骤包括：

101、获取新闻数据中的主题词。

其中，所述主题词是权重值超过预置阈值的词，权重值用于表示新闻数据中各个词的重要程度，预置阈值可以根据将要获取的主题词个数确定。如权重值超过10的词个数为100个，权重值超过5的词个数为200，若需要获取100个主题词，则可将权重值设置成10。对于本发明实施例，具体可以根据新闻数据中词出现的词频、词共现度等条件确定各个词的权重值，本发明实施例不做具体限定。

需要说明的是，在获取新闻数据中的主题词之前，需要对新闻数据进行预处理操作，即首先需要对新闻数据分词，然后对分词结果进行词性标注并过滤停用词，提取过滤结果中的名词及动词，最后基于提取的名词及计算词的权重值获取新闻数据中的主题词。

102、根据所述主题词之间的词共现度生成主题词共现图。

其中，主题词共现图中边的权重就是两个主题词的共现度，如图5所示的主题词共现图，主题词“仲裁”和主题词“菲律宾”之间的数值0.53就表示为“仲裁”和“菲律宾”在新闻数据中的共现度。

103、通过所述词共现度的阈值将所述主题词共现图分割成多个子图。

在本发明实施例中，词共现度的阈值可以根据将要分割的子图个数确定，当两个词的共现度小于词共现度的阈值时，就认为这两个词是不相连的，即去除共现度小于阈值两个词之间的连接边，这样就可以将主题词共现图根据词共现度的阈值分割成若干个子图，其中每一个子图就代表了一个候选热点话题词聚簇。

例如，在图5主题词共现图中，若词共现度的阈值为0.6，则去除图5中词共现度小于0.6的连接边得到如图6所示的子图。

104、根据获取的子图中主题词数量大于预置数值的子图生成热点话题。

对于本发明实施例，通过词共现度的阈值将所述主题词共现图分割成多个子图之后，即得到了多个候选热点话题词聚簇后，对于每一个候选热点话题词聚簇，聚簇中包含了若干个主题词。若预置数值为10，则认为子图中主题词数量大于10的子图就是一个热点话题词聚簇，否则，认为这个子图不是热点话题词聚簇，这样就过滤掉了子图内只包含少数主题词的子图，最后基于过滤后的子图内的关键词生成热点话题。

本发明实施例提供一种热点话题的生成方法，首先获取新闻数据中的主题词，然后基于主题词之间的词共现度生成主题词共现图，并根据词共现度的阈值将主题词共现图分割成多个子图，最后根据子图中主题词数量大于预置数值的子图生成热点话题，从而通过本发明实施例解决了人工方式确定的热点话题耗费人力资源较大的问题，以及热点话题挖掘的效率及准确率较低的问题。

本发明实施例提供了另一种热点话题的生成方法，如图2所示，具体步骤包括：

201、获取新闻数据中的主题词。

其中，所述主题词是权重值超过预置阈值的词，关于步骤201获取新闻数据中的主题词的详细描述，可参考图1中相应步骤的描述，本发明实施例在此不再赘述。

需要说明的是，通常热点话题的形成有一定的特点，它的时域性较强且影响力较大，也就是说热点话题讨论的内容在某个时间窗口之前出现的概率很小，而在一个时间窗口中突然大量出现，从而能够引起社会的高度关注。并且新闻标题一般能够更好的描述这篇新闻的主要内容，根据新闻数据的这些特点判断一个词语是否为新闻话题中的主题词，本发明实施例将相对词频和词频增加率以及新闻标题的影响作为抽取主题词的几个影响因素。具体的，获取新闻数据中的主题词的过程为：根据所述新闻数据中词的相对词频与词频增加率计算所述词的权重值；将所述新闻数据中词权重值超过预置阈值的词确定为主题词。其中，各个词的相对词频是根据各个词的词频分别与最高词频的比值确定的，词的词频增加率是根据当前时间段的词频与上一个时间段的词频的比值确定的。

在本发明实施例中，所述根据所述新闻数据中词的相对词频与词频增加率计算所述词权重值之前，所述方法还包括：根据所述新闻数据中词i在j时间段内在新闻标题中出现的频率及词i在j时间段内在新闻正文中出现的频率确定词i在j时间段内出现的词频f_i,j；通过所述词i在j时间段内出现的词频f_i,j与在j时间段内出现的最高词频f_max的比值确定所述词的相对词频；根据词i在j时间段内的词频f_i,j，及相对于上一个时间段该词的词频f_i,j-1确定所述词频增加率。

进一步地，在计算新闻数据中各个词的词频过程中，还可以设置的新闻标题和新闻正文的权重参数，并将设置的权重参数代入词频计算公式中求得各个词的词频。如通过公式计算各个词的词频，其中，f_ij为词i在j时间段内的频率，为词i在j时间段内在新闻标题中出现的频率，为词i在j时间段内在新闻正文中出现的频率，α，β分别为新闻标题和新闻正文的权重参数。

具体的，词i的相对词频可通过公式计算；

词i的词频增加率可通过公式计算。

其中，f_ij为词i在j时间段内的频率，f_max为j时间段内的最高词频，f_i,j-1相对于j时间段的上一个时间段该词的频率。

进一步地，综合相对词频与词频增加率得到词i在j时间段内的权重为：w_ij＝μf′_ij+θg′_ij，μ，θ为相对词频与词频增加率在词权重所占的比重。需要说明的是，α，β，μ，θ均为经验参数设置。

202、根据所述主题词之间的词共现度生成主题词共现图。

在本发明实施例中，步骤202之前还包括：根据f(w_xw_y)与f(w_y)的比值确定词w_x相对于词w_y的相对共现度；根据f(w_xw_y)与f(w_x)的比值确定词w_y相对于词w_x的相对共现度；其中所述f(w_x)、所述f(w_x)和所述f(w_xw_y)分别为词w_x、词w_y以及词w_xw_y在j时间段内出现的词频；通过词w_x相对于词w_y的相对共现度，及词w_y相对于词w_x的相对共现度确定主题词之间的词共现度。

例如，新闻数据中存在两个词w_x，w_y，对于j时间段内的两个词w_x，w_y：

w_x相对于w_y的相对共现度可通过公式计算；

w_y相对于w_x的相对共现度可通过公式计算。

其中，f(w_y)、f(w_x)和f(w_xw_y)的计算方法同步骤201中f_ij的计算方法，即同时考虑相对词频和词频增加率以及新闻标题的影响作为抽取主题词的几个影响因素。

最后根据公式计算w_x与w_y之间的共现度。

203、通过所述词共现度的阈值将所述主题词共现图分割成多个子图。

其中，每个子图代表一个候选热点话题聚簇，关于步骤203通过所述词共现度的阈值将所述主题词共现图分割成多个子图的详细步骤，可参照图1中相应的步骤描述，本发明实施例在此不再赘述。

进一步地，本发明实施例还可以根据主题词之间的词共现度生成共现矩阵，然后基于共现矩阵获取的矩阵中重要度符合预置条件的主题词生成热点话题。如表1所示为生成的共现矩阵示例，边的权重为步骤202中的C(w_y|w_x)值。其中0表示两个词之间不相连

表1

204、从所述子图中获取主题词数量大于预置数值的子图。

205、根据所述获取的子图中重要度符合预置条件的主题词生成热点话题。

对于本发明实施例，具体可以通过公式下述公式计算主题词的重要度：

其中，w_i为将要计算重要度的主题词，w_j为与主题词w_i具有连接边的主题词，即上述公式表示主题词的重要度是在所述主题词共现图中从该主题词出发的所有的边的和。预置条件可根据实际需求进行设置，如选取重要度前10名主题词，重要度前5名主题词等，本发明实施例不做具体限定。例如，图5中的“仲裁”的重要度为3，“主权”的重要度为2，“菲律宾”的重要度为4，“仲裁案”的重要度为8，“仲裁庭”的重要度为7，“争端”的重要度为6，“南海”的重要度为4，“国际法”的重要度为4，“国际法”的重要度为4。若预置条件设置为选取重要度前3名主题词，则获取的主题词为“仲裁案”，“仲裁庭”，“争端”，然后根据这些主题词生成热点话题。

对于本发明实施例，步骤205之前，所述方法还包括：对所述获取的子图中的同义词进行合并处理；对合并的同义词的重要度进行累加。在本发明实施例中，对同义词进行合并处理及同义词重要度的累加过程具体为：从前向后遍历子图中的主题词，如果在某个主题词后面出现了它的同义词，那么就将后面出现的同义词去除并将去除的该同义词的重要度加到前面的同义词上，确保一个子图内不会出现多个表达了同一个意思的主题词。

本发明实施例提供另一种热点话题的生成方法，首先获取新闻数据中的主题词，然后根据所述主题词之间的词共现度生成主题词共现图，并通过所述词共现度的阈值将所述主题词共现图分割成多个子图，从所述子图中获取主题词数量大于预置数值的子图，最后根据所述获取的子图中重要度符合预置条件的主题词生成热点话题，从而通过本发明实施例解决了人工方式确定的热点话题耗费人力资源较大的问题，以及热点话题挖掘的效率及准确率较低的问题。

进一步地，本发明实施例提供一种热点话题的生成装置，如图3所示，所述装置包括：获取单元31，生成单元32，分割单元33。

获取单元31，用于获取新闻数据中的主题词，所述主题词是权重值超过预置阈值的词；

其中，权重值用于表示新闻数据中各个词的重要程度，预置阈值可以根据将要获取的主题词个数确定。如权重值超过10的词个数为100个，权重值超过5的词个数为200，若需要获取100个主题词，则可将权重值设置成10。对于本发明实施例，具体可以根据新闻数据中词出现的词频、词共现度等条件确定各个词的权重值，本发明实施例不做具体限定。

生成单元32，用于根据所述主题词之间的词共现度生成主题词共现图；

分割单元33，用于通过所述词共现度的阈值将所述主题词共现图分割成多个子图，每个子图代表一个候选热点话题聚簇；

所述生成单元32，还用于根据获取的子图中主题词数量大于预置数值的子图生成热点话题。

需要说明的是，本发明实施例提供的一种热点话题的生成装置所涉及各功能单元的其他相应描述，可以参考图1所示方法的对应描述，在此不再赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。

本发明实施例提供一种热点话题的生成装置，首先获取新闻数据中的主题词，然后基于主题词之间的词共现度生成主题词共现图，并根据词共现度的阈值将主题词共现图分割成多个子图，最后根据子图中主题词数量大于预置数值的子图生成热点话题，从而通过本发明实施例解决了人工方式确定的热点话题耗费人力资源较大的问题，以及热点话题挖掘的效率及准确率较低的问题。

进一步地，本发明实施例提供另一种热点话题的生成装置，如图4所示，所述装置包括：获取单元41，生成单元42，分割单元43。

获取单元41，用于获取新闻数据中的主题词，所述主题词是权重值超过预置阈值的词；

生成单元42，用于根据所述主题词之间的词共现度生成主题词共现图；

分割单元43，用于通过所述词共现度的阈值将所述主题词共现图分割成多个子图，每个子图代表一个候选热点话题聚簇；

所述生成单元42，还用于根据获取的子图中主题词数量大于预置数值的子图生成热点话题。

具体的，所述生成单元42包括：

获取模块421，用于从所述子图中获取主题词数量大于预置数值的子图；

生成模块422，用于根据所述获取的子图中重要度符合预置条件的主题词生成热点话题，所述主题词的重要度是在所述主题词共现图中从该主题词出发的所有的边的和。

进一步地，所述生成单元42还包括：

合并模块423，用于对所述获取的子图中的同义词进行合并处理；

累加模块424，用于对合并的同义词的重要度进行累加。

在本发明实施例中，对同义词进行合并处理及同义词重要度的累加过程具体为：从前向后遍历子图中的主题词，如果在某个主题词后面出现了它的同义词，那么就将后面出现的同义词去除并将去除的该同义词的重要度加到前面的同义词上，确保一个子图内不会出现多个表达了同一个意思的主题词。

需要说明的是，通常热点话题的形成有一定的特点，它的时域性较强且影响力较大，也就是说热点话题讨论的内容在某个时间窗口之前出现的概率很小，而在一个时间窗口中突然大量出现，从而能够引起社会的高度关注。并且新闻标题一般能够更好的描述这篇新闻的主要内容，根据新闻数据的这些特点判断一个词语是否为新闻话题中的主题词，本发明实施例将相对词频和词频增加率以及新闻标题的影响作为抽取主题词的几个影响因素。

因此，所述获取单元41包括：

计算模块411，用于根据所述新闻数据中词的相对词频与词频增加率计算所述词的权重值；

确定模块412，用于将所述新闻数据中词权重值超过预置阈值的词确定为主题词。

所述确定模块412，还用于根据所述新闻数据中词i在j时间段内在新闻标题中出现的频率及词i在j时间段内在新闻正文中出现的频率确定词i在j时间段内出现的词频f_i,j；

所述确定模块412，还用于通过所述词i在j时间段内出现的词频f_i,j与在j时间段内出现的最高词频f_max的比值确定所述词的相对词频；

所述确定模块412，还用于根据词i在j时间段内的词频f_i,j，及相对于上一个时间段该词的词频f_i,j-1确定所述词频增加率。

具体的，词i的相对词频可通过公式计算；

词i的词频增加率可通过公式计算。

进一步地，所述装置还包括：

确定单元44，用于根据f(w_xw_y)与f(w_y)的比值确定词w_x相对于词w_y的相对共现度；根据f(w_xw_y)与f(w_x)的比值确定词w_y相对于词w_x的相对共现度；其中所述f(w_x)、所述f(w_x)和所述f(w_xw_y)分别为词w_x、词w_y以及词w_xw_y在j时间段内出现的词频；

所述确定单元44，还用于通过词w_x相对于词w_y的相对共现度，及词w_y相对于词w_x的相对共现度确定主题词之间的词共现度。

w_x相对于w_y的相对共现度可通过公式计算；

w_y相对于w_x的相对共现度可通过公式计算。

最后根据公式计算w_x与w_y之间的共现度。

需要说明的是，本发明实施例提供的一种热点话题的生成装置所涉及各功能单元的其他相应描述，可以参考图2所示方法的对应描述，在此不再赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。

本发明实施例提供另一种热点话题的生成装置，首先获取新闻数据中的主题词，然后根据所述主题词之间的词共现度生成主题词共现图，并通过所述词共现度的阈值将所述主题词共现图分割成多个子图，从所述子图中获取主题词数量大于预置数值的子图，最后根据所述获取的子图中重要度符合预置条件的主题词生成热点话题，从而通过本发明实施例解决了人工方式确定的热点话题耗费人力资源较大的问题，以及热点话题挖掘的效率及准确率较低的问题。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的热点话题的生成方法及装置(如确定网站内链接等级的装置)中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种热点话题的生成方法，其特征在于，包括：

根据所述主题词之间的词共现度生成主题词共现图；

2.根据权利要求1所述的方法，其特征在于，所述根据获取的子图中主题词数量大于预置数值的子图生成热点话题包括：

从所述子图中获取主题词数量大于预置数值的子图；

3.根据权利要求2所述的方法，其特征在于，所述根据所述子图中权重值符合预置条件的主题词生成热点话题之前，所述方法还包括：

对所述获取的子图中的同义词进行合并处理；

对合并的同义词的重要度进行累加。

4.根据权利要求1所述的方法，其特征在于，所述获取新闻数据中的主题词包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述新闻数据中词的相对词频与词频增加率计算所述词权重值之前，所述方法还包括：

6.根据权利要5所述的方法，其特征在于，所述根据所述主题词之间的词共现度生成主题词共现图之前，所述方法还包括：

7.一种热点话题的生成装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述生成单元包括：

9.根据权利要求8所述的装置，其特征在于，所述生成单元还包括：

累加模块，用于对合并的同义词的重要度进行累加。

10.根据权利要求7所述的装置，其特征在于，所述获取单元包括：

11.根据权利要求10所述的装置，其特征在于，

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：