CN108563667A

CN108563667A - 基于新词识别的热门话题采集系统及其方法

Info

Publication number: CN108563667A
Application number: CN201810010781.0A
Authority: CN
Inventors: 张陶; 戴长江
Original assignee: HONGXU INFORMATION TECHNOLOGY Co Ltd WUHAN
Current assignee: HONGXU INFORMATION TECHNOLOGY Co Ltd WUHAN
Priority date: 2018-01-05
Filing date: 2018-01-05
Publication date: 2018-09-21

Abstract

本发明公开了一种基于新词识别的热门话题采集系统及其方法，属于舆情分析领域。本系统包括数据采集模块（100）、预处理模块（200）、分词模块（300）、分析建模模块（400）和结果展示模块（500）；其交互关系是：数据采集模块（100）、预处理模块（200）、分词模块（300）、分析建模模块（400）、结果展示模块（500）依次连通。本发明①能够较好地识别网络新词；②结合大数据技术，处理速度快，且具有容错性；③通过增量聚类的方法实现了对文本数据的流式处理。通过新的分词技术以及主题词采集技术，弥补了传统话题采集系统对于新词不敏感的缺点，对舆情分析以及话题追踪技术提供了更好的支持。

Description

基于新词识别的热门话题采集系统及其方法

技术领域

本发明属于数据挖掘领域，具体涉及一种基于新词识别的热门话题采集系统及其方法。

背景技术

随着交互式网络技术的发展，近年来，网络舆情数据呈现爆炸式增长的趋势。自从2006年Twitter在美国上线以来，注册用户达到1.6亿，而国内与之相似的本地化微博服务几年来也大为兴盛，各大互联网厂商也推出各自的中文舆情平台，如新浪微博、腾讯微博、人人网等网站，受到广大网民的欢迎。由于微博的即时性很强，突发新闻在微博上的传播速度很快；而且对于影响力比较大的新闻事件，参与转发、评论的用户很多，往往能够先于传统媒体做出反应，这进一步证明了全民媒体在消息传播上不可忽视的作用。

针对微博的实时性，对微博内容进行分析和整合具有重大的意义，不仅可以帮助过滤无用信息、提高内容质量、改善用户体验，更能起到事件监测、观点挖掘、舆情控制等重大功能。然而，微博平台信息数据流量较大，内容与格式非常散乱，数据噪音较大。人工审视或传统的统计方法很难从这大量的数据中提取精确而有用的信息，因此引入文本挖掘的方法去对该类数据进行筛选、去重、聚类、分类就非常必要。热门话题的检测作为网络舆情数据分析的一大方向，也得到国内外学者越来越多的重视。

由于微博平台比较自由，各种各样的网络新词也是在微博平台上层出不穷。传统的热门话题检测系统对于这样的网络新词无法很好地识别，因此它们并不适合分析网络舆情、尤其是类似于微博平台这样自由、发散的全民媒体舆情数据。

发明内容

本发明的目的就在于克服现有技术存在的缺点和不足，提供一种基于新词识别的热门话题采集系统及其方法，用以解决当前技术无法实时、可靠地处理流式数据的问题。

实现本发明目的的技术方案是：

一、基于新词识别的热门话题采集系统（简称系统）

本系统包括数据采集模块、预处理模块、分词模块、分析建模模块和结果展示模块；

其交互关系是：

数据采集模块、预处理模块、分词模块、分析建模模块、结果展示模块依次连通。

二、基于新词识别的热门话题采集方法（简称方法）

本方法包括以下步骤：

①数据采集模块通过舆情数据采集设备将舆情数据进行捕获，将处理后的数据以ZIP压缩包的形式传输给后台Hadoop大数据系统进行存储，通过Hadoop大数据系统发送给预处理模块200进行数据清洗；

②预处理模块包括停用词去除以及特殊字符去除两部分，该模块主要负责对舆情数据进行简单清洗，由于停用词以及特殊字符所含信息量少且难以根据上下文进行进一步分析，预处理模块200便将这部分词语字符进行清洗，在保证数据信息量的基础上对数据量进行缩减；

③分词模块包括基于词典的分词模块、基于统计的分词模块以及去重合并三部分，该模块主要功能是对舆情数据进行分词，通过两种分词方法对于数据进行全方位准确切分；

④分析建模模块包括文本量化、主题词检测以及主题词聚类三部分，该模块主要功能是对切分后的舆情数据进行分析建模，检测热门话题，该模块是系统的核心模块；

⑤结果展示模块主要是对分析建模模块输出的结果通过图表的方式进行结果展示。

本发明具有下列优点和积极效果：

①能够较好地识别网络新词；

②结合大数据技术，处理速度快，且具有容错性；

③通过增量聚类的方法实现了对文本数据的流式处理。

总之，本发明通过新的分词技术以及主题词采集技术，弥补了传统话题采集系统对于新词不敏感的缺点，对舆情分析以及话题追踪技术提供了更好的支持。

附图说明

图1是本系统的结构方框图；

其中：

100—数据采集模块；

200—预处理模块，

201—停用词去除，

202—特殊字符去除；

300—分词模块，

301—基于词典的分词模块，

302—基于统计的分词模块，

303—去重合并；

400—分析建模模块,

401—文本量化，

402—主题词检测，

403—主题词检测；

500—结果展示模块。

英译汉

ZIP：一种文件压缩算法；

Hadoop：一个能够对大量数据进行分布式处理的软件框架；

Hbase：一个分布式的面向列的Hadoop数据库。

具体实施方式

以下结合附图和实施例详细说明：

一、系统

1、总体

如图1，本系统包括数据采集模块100、预处理模块200、分词模块300、分析建模模块400和结果展示模块500；

其交互关系是：

数据采集模块100、预处理模块200、分词模块300、分析建模模块400、结果展示模块500依次连通。

2、功能部件

1）数据采集模块100

数据采集模块100指前端采集设备、文件解析模块以及后台大数据存储模块的总称。

2）预处理模块200

预处理模块200包括停用词去除201以及特殊字符去除202两部分，该模块主要负责对舆情数据进行简单清洗；

（1）停用词去除201中，我们通过停用词表将停用词进行过滤；

（2）特殊字符去除202中，我们将表情符号、标点符号、’@’等字符进行过滤；

3）分词模块300

分词模块300包括基于词典的分词模块301、基于统计的分词模块302以及合并去重303，该模块主要功能是对舆情数据进行分词，通过两种分词方法对于数据进行全方位准确切分；

（1）基于词典的分词模块301，该方法的原理是将文档中的字符串与词典中的词条逐一匹配，如果词典中找到某个字符串，则匹配成功，可以切分，否则不予切分；该方法简单实用，实用性强，对于一些专有名词如人等、地名等非常实用，缺点则是词语的切分过渡依赖词典，对于一些网络新词无法识别；

（2）基于统计的分词模块302，该方法的原理是根据字符串在语料库中出现统计频率来决定其是否构成词语；词是字的组合，相邻的字同时出现的次数越多，就越有可能构成一个词；因此字与字相邻共现的频率或概率能够较好地反映它们成为词的可信度；该方法在本系统中的应用主要是为了识别网络新词的出现，是对于基于词典的分词方法一个很好的补充；

（3）去重合并303，由于两种分词方法对于舆情数据进行拆分后，会出现一定量的重复词语，因此我们需要去重合并的步骤将两套拆分结果整合为一套；

4）分析建模模块400

分析建模模块400包括文本量化401、主题词检测402以及主题词聚类403三部分，该模块主要功能是对切分后的舆情数据进行分析建模，检测热门话题，该模块是系统的核心模块；

（1）文本量化401，舆情数据分词后变成一个词向量，对词语频率进行统计，用词频代替词语，将词向量变成向量；

（2）主题词检测402，根据词语增长的速度以及词语在整个舆情数据中所占的比例构造复合权值，对主题词进行排序；

（3）主题词聚类403，通过增量聚类的方法，将主题词进行聚类，得出热门话题；

5）结果展示模块500

结果展示模块500通过表格以及词云的方式来展现模型分析结果。

3、工作机理

数据采集模块100将互联网舆情数据采集后，解析存储到Hadoop大数据后台存储模块中，并将解析后的数据传送给预处理模块200；在预处理模块200中，通过停用词去除201和特殊字符去除202对舆情数据进行简单的过滤，然后将数据传送给分词模块300；分词模块300通过基于词典的分词模块301和基于统计的分词模块302得到两套分词结果，然后通过去重合并303将两套分词结果合并为一套，并传送给分析建模模块400；在分析建模模块400中，首先通过文本量化401将舆情数据转换为数字向量，接着通过主题词检测402得出主题词，最后通过主题词聚类403得出热门话题，并传送给结果展示模块500；在结果展示模块500中，通过表格以及词云的方式来展示模型分析的结果。

二、方法

1、步骤①

a、所述的舆情数据采集设备所采集的舆情数据是指某段时间内某个社交平台所有的内容，包括ID以及发布内容；

b、所述的将数据传输给后台大数据系统进行存储指的是将数据以ZIP包的形式传送到后台，后台数据采集模块进行解析过滤，将所需数据存储到Hbase中。

2、步骤②

a、停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据时会自动过滤的某些字或词。因此我们在处理数据之前会通过停用词词表将停用词去除；

b、在热门话题采集过程中，有些特殊字符，如表情符号、标点符号、’@’等字符，对于话题内容的描述可能性小，因此对这些词语进行过滤，以增加主题词检测的精度。

3、步骤③

a、基于词典的分词方法。该方法的原理是将文档中的字符串与词典中的词条逐一匹配，如果词典中找到某个字符串，则匹配成功，可以切分，否则不予切分；该方法简单实用，实用性强，对于一些专有名词如人等、地名等非常实用，缺点则是词语的切分过渡依赖词典，对于一些网络新词无法识别；

b、基于统计的分词方法。该方法的原理是根据字符串在语料库中出现统计频率来决定其是否构成词语；词是字的组合，相邻的字同时出现的次数越多，就越有可能构成一个词；因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度；该方法在本系统中的应用主要是为了识别网络新词的出现，是对于基于词典的分词方法一个很好的补充；

c、由于两种分词方法对于舆情数据进行拆分后，会出现一定量的重复词语，因此我们需要去重合并的步骤将两套拆分结果整合为一套。

4、步骤④

a、文本量化的具体做法是：对一个文本数据进行分词后，得到一个词向量，其中每个词都带有词性标注，不同词性的词对于主题表达的贡献度不同，其中对主题表达和辨识作用最大的是名词和动词，所以在文本量化中我们只考虑这两种词性词语；文本量化时，我们先将文本数据按照时间窗口划入到相同的时间窗口中，然后统计相同时间窗口内的词频，按比例保留频率最高的词语；

b、主题词检测的具体做法是：通过引入变量S作为词语i在时间窗口j中的增长速度，同时引入变量T作为词语i在时间窗口j中的频率，同时考虑增长速度与频率，构造一个复合的权值来评价一个词是主题词的程度；这个主题词表现出的特点是词语在本段时间内出现次数较多且之前时段内出现次数较少；

c、主题词聚类，根据主题词检测中主题词的权重对主题词进行降序排列，然后对排序后的词进行增量聚类：

输入：带有权重值的主题词

输出：簇列表

（1）以第一个词作为初始簇

（2）输入下一个词，判断它与每个已有簇的距离

（3）如果离它最近的簇的距离大于阈值，那么把这个词作为一个新簇，否则放入该簇

（4）继续输入下一个词，重复（2）到（4），直到所有词都处理完毕

（5）输出结果。

5、步骤⑤：

该步骤主要通过表格以及词云的方式来展现模型分析结果。

Claims

1.一种基于新词识别的热门话题采集系统，其特征在于：

包括数据采集模块（100）、预处理模块（200）、分词模块（300）、分析建模模块（400）和结果展示模块（500）；

其交互关系是：

数据采集模块（100）、预处理模块（200）、分词模块（300）、分析建模模块（400）、结果展示模块（500）依次连通。

2.基于权利要求1所述系统的基于新词识别的热门话题采集方法，其特征在于包括下列步骤：

①数据采集模块（100）通过舆情数据采集设备将舆情数据进行捕获，将处理后的数据以ZIP压缩包的形式传输给后台Hadoop大数据系统进行存储，通过Hadoop大数据系统发送给预处理模块（200进）行数据清洗；

②预处理模块（200）包括停用词去除以及特殊字符去除两部分，该模块负责对舆情数据进行简单清洗，由于停用词以及特殊字符所含信息量少且难以根据上下文进行进一步分析，预处理模块200便将这部分词语字符进行清洗，在保证数据信息量的基础上对数据量进行缩减；

③分词模块（300）包括基于词典的分词模块、基于统计的分词模块以及去重合并三部分，该模块主要功能是对舆情数据进行分词，通过两种分词方法对于数据进行全方位准确切分；

④分析建模模块（400）包括文本量化、主题词检测以及主题词聚类三部分，该模块主要功能是对切分后的舆情数据进行分析建模，检测热门话题，该模块是系统的核心模块；

⑤结果展示模块（500）主要是对分析建模模块输出的结果通过图表的方式进行结果展示。

3.按权利要求2所述的基于新词识别的热门话题采集方法，其特征在于所述的步骤①：

4.按权利要求2所述的基于新词识别的热门话题采集方法，其特征在于所述的步骤②

a、停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据时会自动过滤的某些字或词；因此我们在处理数据之前会通过停用词词表将停用词去除；

5.按权利要求2所述的基于新词识别的热门话题采集方法，其特征在于所述的步骤③：

a、基于词典的分词方法：该方法的原理是将文档中的字符串与词典中的词条逐一匹配，如果词典中找到某个字符串，则匹配成功，可以切分，否则不予切分；该方法简单实用，实用性强，对于一些专有名词如人等、地名等非常实用，缺点则是词语的切分过渡依赖词典，对于一些网络新词无法识别；

b、基于统计的分词方法：该方法的原理是根据字符串在语料库中出现统计频率来决定其是否构成词语；词是字的组合，相邻的字同时出现的次数越多，就越有可能构成一个词；因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度；该方法在本系统中的应用主要是为了识别网络新词的出现，是对于基于词典的分词方法一个很好的补充；

6.按权利要求2所述的基于新词识别的热门话题采集方法，其特征在于所述的步骤④

输入：带有权重值的主题词

输出：簇列表

（1）以第一个词作为初始簇

（2）输入下一个词，判断它与每个已有簇的距离

（5）输出结果。

7.按权利要求2所述的基于新词识别的热门话题采集方法，其特征在于所述的步骤⑤：

该步骤主要通过表格以及词云的方式来展现模型分析结果。