CN107832418A

CN107832418A - 一种热点话题发现方法、系统及一种热点话题发现设备

Info

Publication number: CN107832418A
Application number: CN201711091479.4A
Authority: CN
Inventors: 毕银龙
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2017-11-08
Filing date: 2017-11-08
Publication date: 2018-03-23

Abstract

本发明公开了一种热点话题发现方法包括：获取网页数据，并将所述网页数据进行分词处理，得到处理结果；对所述处理结果进行特征提取，得到特征向量；将所述特征向量输入LDA模型中，得到所述网页数据中每个主题对应的概率；将所述概率大于预设值的主题作为热点话题。由此可见，本发明实施例提供的热点话题发现方法，通过对网页数据的处理特提取得到特征向量，并通过LDA模型提取网页数据中的主题和该主题对应的概率，将概率大于预设值的主题作为热点话题，提高了热点话题的发现效率。本发明还公开了一种热点话题发现系统及一种热点话题发现设备和一种计算机可读存储介质，同样能实现上述技术效果。

Description

一种热点话题发现方法、系统及一种热点话题发现设备

技术领域

本发明涉及文本处理技术领域，更具体地说，涉及一种热点话题发现方法、系统及一种热点话题发现设备和一种计算机可读存储介质。

背景技术

随着网络的快速发展及普及，各种网络社交平台已经变成广大网民获得和发布信息的重要渠道。通过互联网自由的发表对某个社会热点事件或某些政策的意见，表达自己的情感，已经成为当下非常流行的趋势。这使得大众舆情通过互联网这一传播渠道获实现了广泛传播。

现有技术中的热点话题发现方法主要采用聚类的方法进行，初始聚类中心的选择是否合理直接影响后续的聚类是否准确，聚类中心数目的选择对聚类结果也存在一定的影响。

因此，如何提高热点话题的发现效率是本领域技术人员需要解决的问题。

发明内容

本发明的目的在于提供一种热点话题发现方法、系统及一种热点话题发现设备和一种计算机可读存储介质，提高了热点话题的发现效率。

为实现上述目的，本发明实施例提供了一种热点话题发现方法，包括：

获取网页数据，并将所述网页数据进行分词处理，得到处理结果；

对所述处理结果进行特征提取，得到特征向量；

将所述特征向量输入LDA模型中，得到所述网页数据中每个主题对应的概率；

将所述概率大于预设值的主题作为热点话题。

其中，所述获取网页数据之后，还包括：

根据贪心策略和预定的启发式规则对所述网页数据进行去除噪音处理。

其中，所述对经过分词处理的网页数据进行特征提取，得到特征向量，包括：

将经过分词处理的网页数据中TF-IDF权重大于预设值的词语添加至文本特征项中；

将所述文本特征项输入VSM模型中，得到所述网页数据对应的特征向量。

其中，所述将经过分词处理的网页数据中TF-IDF权重大于预设值的词语添加至文本特征项中，包括：

计算经过分词处理的网页数据中每个词语的TF和IDF，所述TF为所述词语在当前文本中的词频，IDF为包含所述词语的文本数的倒数；

将所述TF与所述IDF的乘积作为所述词语的TF-IDF权重；

判断所述TF-IDF权重是否大于所述预设值，若是，则将所述词语添加至文本特征项中。

为实现上述目的，本发明实施例提供了一种热点话题发现系统，包括：

获取模块，用于获取网页数据，并将所述网页数据进行分词处理，得到处理结果；

特征提取模块，用于对所述处理结果进行特征提取，得到特征向量；

输入模块，用于将所述特征向量输入LDA模型中，得到所述网页数据中每个主题对应的概率；

确定模块，用于将所述概率大于预设值的主题作为热点话题。

其中，还包括：

去噪模块，用于根据贪心策略和预定的启发式规则对所述网页数据进行去除噪音处理。

其中，所述特征提取模块具体包括：

添加单元，用于将经过分词处理的网页数据中TF-IDF权重大于预设值的词语添加至文本特征项中；

向量化单元，用于将所述文本特征项输入VSM模型中，得到所述网页数据对应的特征向量。

其中，所述添加单元具体包括：

计算子单元，用于计算经过分词处理的网页数据中每个词语的TF和IDF，所述TF为所述词语在当前文本中的词频，IDF为包含所述词语的文本数的倒数；

确定子单元，用于将所述TF与所述IDF的乘积作为所述词语的TF-IDF权重；

判断子单元，用于判断所述TF-IDF权重是否大于所述预设值，若是，则将所述词语添加至文本特征项中。

为实现上述目的，本发明实施例提供了一种热点话题发现设备，包括：

存储器，用于存储热点话题发现程序；

处理器，用于执行所述热点话题发现程序时实现如上述热点话题发现方法的步骤。

为实现上述目的，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有热点话题发现程序，所述热点话题发现程序被处理器执行时实现如上述热点话题发现方法。

通过以上方案可知，本发明实施例提供的一种热点话题发现方法包括：获取网页数据，并将所述网页数据进行分词处理，得到处理结果；对所述处理结果进行特征提取，得到特征向量；将所述特征向量输入LDA模型中，得到所述网页数据中每个主题对应的概率；将所述概率大于预设值的主题作为热点话题。

由此可见，本发明实施例提供的热点话题发现方法，通过对网页数据的处理特提取得到特征向量，并通过LDA模型提取网页数据中的主题和该主题对应的概率，将概率大于预设值的主题作为热点话题，提高了热点话题的发现效率。本发明还公开了一种热点话题发现系统及一种热点话题发现设备和一种计算机可读存储介质，同样能实现上述技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种热点话题发现方法的流程图；

图2为本发明实施例公开的另一种热点话题发现方法的流程图；

图3为本发明实施例公开的一种热点话题发现系统的结构图；

图4为本发明实施例公开的一种热点话题发现设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种热点话题发现方法，提高了热点话题的发现效率。

参见图1，本发明实施例公开的一种热点话题发现方法的流程图，如图1所示，包括：

S101：获取网页数据，并将所述网页数据进行分词处理，得到处理结果；

在具体实施中，网页数据的获取可以采用多种方式，本发明不作具体的限定。例如，可以采用网络爬虫技术对指定门户网站的数据进行抓取。通常网络爬虫主要有深度优先遍历和广度优先遍历这两种爬虫爬行策略，本发明主要采取广度遍历策略进行数据的抓取，即网络爬虫在访问某个链接时，将这个链接网页中包含的链接放入到待访问的链接队列中，系统会先访问这些链接，然后再从这些链接中选一个，访问其包含的链接。

S102：对所述处理结果进行特征提取，得到特征向量；

S103：将所述特征向量输入LDA模型中，得到所述网页数据中每个主题对应的概率；

LDA模型将一篇文档视为词、主题和文档三层结构，即一篇文章的每个词都是通过“以特定的概率选定某个主题，并且从该主题中以特定概率选定某个词语”这样的一个过程而得到。文档到主题服从多项式分布，主题到词也服从多项式分布。

LDA作为一种非监督机器学习模型，能辨识出海量网络信息中隐藏的主题信息。该模型使用词袋法，把每篇文档看作是一个词频向量。每篇文档代表了许多主题组成的概率分布，而每个主题又代表了许多词语组成的概率分布。

S104：将所述概率大于预设值的主题作为热点话题。

本发明实施例提供的热点话题发现方法，通过对网页数据的处理特提取得到特征向量，并通过LDA模型提取网页数据中的主题和该主题对应的概率，将概率大于预设值的主题作为热点话题，提高了热点话题的发现效率。

本发明实施例公开了一种热点话题发现方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

参见图2，本发明实施例提供的另一种热点话题发现方法的流程图，如图2所示，包括：

S211：获取网页数据，根据贪心策略和预定的启发式规则对所述网页数据进行去除噪音处理；

在具体实施中，抓取到的页面数据中一般包含较多的噪声数据，例如：导航条、广告、版权、标志等。因此，需要对抓取后的网页数据进行去噪。本发明主要采用单模型网页去噪，使用网页中元素特征：位置、大小、字体、颜色等，根据贪心策略和已定义的启发式规则除去噪音等数据处理工作。

对于新闻数据，网页主要包括正文、源网站、作者、时间等，这些关键信息是热点话题发现和情感分析的主要数据来源。因此需要对网页中的该类关键信息进行抽取，本发明主要采用模板无关的全自动信息抽取技术。

S212：将所述网页数据进行分词处理，得到处理结果；

此步骤旨在使用分词工具对抓取后的网页数据进行分词，以便提取网页数据中的特征词。

S221：将经过分词处理的网页数据中TF-IDF权重大于预设值的词语添加至文本特征项中；

TF-IDF是一种统计方法，用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

S222：将所述文本特征项输入VSM模型中，得到所述网页数据对应的特征向量；

VSM模型(中文全称：向量空间模型，英文全称：Vector space model)是最常用的相似度计算模型，在自然语言处理中有着广泛的应用。可以将每个词对应一个维度，而词的频率作为其对应的特征向量，这样每篇文章的词及其频率就构成了一个n维空间图，两个文档的相似度就是两个空间图的接近度。

S104：将所述概率大于预设值的主题作为热点话题。

在上述实施例的基础上，作为优选实施方式，所述S221包括：

将所述TF与所述IDF的乘积作为所述词语的TF-IDF权重；

下面对本发明实施例提供的一种热点话题发现系统进行介绍，下文描述的一种热点话题发现系统与上文描述的一种热点话题发现方法可以相互参照。

参见图3，本发明实施例提供的一种热点话题发现系统的结构图，如图3所示，包括：

获取模块301，用于获取网页数据，并将所述网页数据进行分词处理，得到处理结果；

特征提取模块302，用于对所述处理结果进行特征提取，得到特征向量；

输入模块303，用于将所述特征向量输入LDA模型中，得到所述网页数据中每个主题对应的概率；

确定模块304，用于将所述概率大于预设值的主题作为热点话题。

本发明实施例提供的热点话题发现系统，通过对网页数据的处理特提取得到特征向量，并通过LDA模型提取网页数据中的主题和该主题对应的概率，将概率大于预设值的主题作为热点话题，提高了热点话题的发现效率。

在上述实施例的基础上，作为优选实施方式，还包括：

在上述实施例的基础上，作为优选实施方式，所述特征提取模块具体包括：

在上述实施例的基础上，作为优选实施方式，所述添加单元具体包括：

本申请还提供了一种点话题发现设备，参见图4，本发明实施例提供的一种热点话题发现设备的结构图，如图4所示，包括：

存储器401，用于存储热点话题发现程序；

处理器402，用于执行所述热点话题发现程序时可以实现上述实施例所提供的步骤。当然所述热点话题发现设备还可以包括各种网络接口，电源等组件。

本发明实施例提供的热点话题发现设备，通过对网页数据的处理特提取得到特征向量，并通过LDA模型提取网页数据中的主题和该主题对应的概率，将概率大于预设值的主题作为热点话题，提高了热点话题的发现效率。

本申请还提供了一种计算机可读存储介质，其上存储有热点话题发现程序，所述热点话题发现程序被处理器执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种热点话题发现方法，其特征在于，包括：

对所述处理结果进行特征提取，得到特征向量；

将所述概率大于预设值的主题作为热点话题。

2.根据权利要求1所述热点话题发现方法，其特征在于，所述获取网页数据之后，还包括：

3.根据权利要求1或2所述热点话题发现方法，其特征在于，所述对经过分词处理的网页数据进行特征提取，得到特征向量，包括：

4.根据权利要求3所述热点话题发现方法，其特征在于，所述将经过分词处理的网页数据中TF-IDF权重大于预设值的词语添加至文本特征项中，包括：

将所述TF与所述IDF的乘积作为所述词语的TF-IDF权重；

5.一种热点话题发现系统，其特征在于，包括：

6.根据权利要求5所述热点话题发现系统，其特征在于，还包括：

7.根据权利要求5或6所述热点话题发现系统，其特征在于，所述特征提取模块具体包括：

8.根据权利要求7所述热点话题发现系统，其特征在于，所述添加单元具体包括：

9.一种热点话题发现设备，其特征在于，包括：

存储器，用于存储热点话题发现程序；

处理器，用于执行所述热点话题发现程序时实现如权利要求1至4任一项所述热点话题发现方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有热点话题发现程序，所述热点话题发现程序被处理器执行时实现如权利要求1至4任一项所述热点话题发现方法。