CN107526819A

CN107526819A - 一种面向短文本主题模型的大数据舆情分析方法

Info

Publication number: CN107526819A
Application number: CN201710755509.0A
Authority: CN
Inventors: 张宏斌; 朱斌; 姚飞
Original assignee: Jiangsu Fablesoft Co Ltd
Current assignee: Jiangsu Fablesoft Co Ltd
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2017-12-29

Abstract

本发明公开了一种大数据舆情分析方法，包括：爬取数据步骤、预处理步骤、主题建模步骤、word2vec步骤、聚类步骤、统计分析步骤。本发明基于twitter、微博等网站数据爬取的包含关键词的短文本数据，针对爬取到的数据进行主题模型分析，分析出短文本主题，建立分布式的主题相似模型，基于此分析出一段时间的热点和新事，模型构建满足分布式需求、相似计算匹配采用哈希增量索引，能够适应海量数据分析需求，大大提升了舆情分析效率和分析结果精确度。

Description

一种面向短文本主题模型的大数据舆情分析方法

技术领域

本发明属于数据处理分析技术领域，涉及大数据舆情分析方法，更为具体的说，是涉及一种面向短文本主题模型的大数据舆情分析方法。

背景技术

伴随着网络数据的丰富、多元化和多样化，网络舆情的影响越发受到网安等相关部门的重视。获取网络舆情有助于政府及时了解事件动态，并对错误、失实的舆论进行正确的引导；同样还能够了解各阶层民众对该事件的态度、看法以及意见和行为倾向，适时采取相关措施。

由敏感行业部门所构建的传统舆情监控系统主要是针对一些特定的社会事件的发生、发展以及变化，民众对管理者意见和情绪等信息进行信息抓取，信息匹配和审判等工作。这其中人为需要参与的工作量很大。特别是在信息审判中，需要人为对热门事件进行过滤，可能存在疏漏的问题。而且传统的舆情分析数据来源自各新闻媒体、博客、twitter、sina、Facebook等等，难以适应海量数据分析的需要，就每一条数据条目或是匹配到关键词的条目进行人工的审判，这也是一个非常耗时的工作，达不到及时快速的引导效果。

微博、twitter等相关网站数据隶属于短文本，短文本因为短，在建模分析时，效果不很好；由于微博、twitter等具有海量数据，传统的类分析难以及时性的得到聚类结果，无法满足舆情分析要求。

发明内容

为解决上述问题，本发明公开了一种大数据舆情分析方法，基于twitter、微博等网站数据爬取的包含关键词的短文本数据，针对爬取到的数据进行主题模型分析，分析出短文本主题，建立分布式的主题相似模型，基于此分析出一段时间的热点和新事，模型构建满足分布式需求、相似计算匹配采用哈希增量索引，能够适应海量数据分析需求。

为了达到上述目的，本发明提供如下技术方案：

一种面向短文本主题模型的大数据舆情分析方法，包括如下步骤：

步骤1，筛选初始关键词，根据初始关键词爬取网站上的短文本数据，并将其存储入hdfs分布式文件系统；

步骤2，lda模型训练，包括如下步骤：

步骤2-1，获取训练样本，基于步骤1爬取到的数据进行NLP处理，并进行停用词过滤。

步骤2-2，基于步骤2-1处理后的过滤词进行lda模型训练；

步骤3，聚类分析，包括如下步骤：

步骤3-1，基于新的文本数据，首先通过lda模型基于如下公式计算出该短文本对应的主题词概率向量；

排序截取前10概率词作为该文档主题向量；

步骤3-2，采用word2vec训练步骤3-1得到的字词向量，将语义相近的词聚合在一起；

步骤3-3，根据步骤3-1中lda获取的主题概率词结合步骤3-2中word2vec训练的语义相近词生成多对多的文本主题向量矩阵；

步骤3-4，结合改进的singlepass话题聚类模型，进行分布式增量话题聚类，基于固定中心余弦相似计算，以第一条目作为聚类中心，比较原初始条目中心，进行合并聚类；

步骤4，基于统计分析热点话题事件和新事件，并获取领袖意见。

进一步的，所述步骤2-1中NLP处理包括分词、词性标注、实体识别。

进一步的，所述步骤3-2中是采用word2vec进行除时间、地点、人物、组织等实体之外的动名词近似匹配。

进一步的，方法采用mapreduce分布式架构实现。

与现有技术相比，本发明具有如下优点和有益效果：

本发明采用mapreduce分布式架构实现，采用Lda Model对短文本数据进行训练，并采用word2vec进行相似匹配，结合改进的聚类方法，大大提升了舆情分析效率，且分析结果精确度高。

附图说明

图1为本发明步骤流程简图。

图2为具体化的步骤流程图。

图3为lda主题模型示意图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本发明整体流程如图1、图2所示，首先是面向海量twitter和sina发表言论数据预处理(分词、词性标注、实体识别)，然后进行lda短文本主题模型分析，将文本主题通过主题词的提取出来。然后通过word2vec进行近义词最大概率匹配，提取出足够数量语义相近的概率词，进行多对多的文本向量矩阵相似计算，基于singlepass算法聚出属于同一事件的主题概率词。最后基于统计分析出热点事件和新事件。具体的说，本发明方法包括如下步骤：

步骤1，首先由人工筛选初始关键词，根据初始关键词爬取twitter和sina的相关言论数据进入hdfs分布式文件系统。本发明方法并不仅仅局限于爬取twitter和sina，其他数据属于短文本的网站也同样可适用本发明方法，如微博等。

步骤2，Lda Model训练，包括如下具体步骤：

步骤2-1，获取训练样本，基于步骤1爬取到的言论数据进行NLP(自然语言处理，包括分词、词性标注、实体识别)处理，以及停用词过滤。

步骤2-2，基于etl后的过滤词进行lda模型训练：lda是一种非监督的机器学习方法，能够用来识别海量的语料库中的主题信息，lda采用词袋(bag of words)模型，即每一篇文档被看作一个高纬词向量，转变文本信息为易于建模的向量。基于经验参数设置训练得到的主题模型，被用于分布式的聚类文本中。

步骤3，聚类分析：对于聚类分析，应用到常用话题聚类模型singlepass中，进行低时效性的聚类。具体包括：

步骤3-1，基于新的文本数据，首先通过lda model计算出该短文本对应的主题词概率向量，排序截取前10概率词作为该文档主题向量，图3即是lda主题模型。

步骤3-2，训练语义相近词，基于word2vec训练得到的字词向量依靠语义相近的聚合在一起。采用word2vec相似动名词多对多匹配进行除时间、地点、人物、组织等实体之外的动名词近似匹配(多对多)，计算文本相似概率时，择取最优值。

步骤3-3，根据步骤3-1中lda获取的主题概率词结合步骤3-2中word2vec训练的语义相近词生成多对多的文本主题向量矩阵。

步骤3-4，利用余弦相似计算，结合改进的singlepass话题聚类模型，进行分布式增量话题聚类。聚类过程为：基于固定中心余弦相似计算，以第一条目作为聚类中心。以固定中心聚类可以拓展到分布式中，“二次合并聚类”可以比较原初始条目中心，进行合并聚类。

话题聚类结果通过多次项目实践，同一事件相似程度很高，结果准确，能够满足本发明要求。

本发明全部实现采用mapreduce分布式架构实现，速度上能够满足舆情事件的时效性。基于热点事件的话题聚类舆情分析方便政府企业部门进行信息审核，对于错误、失实的舆论进行正确的引导。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种面向短文本主题模型的大数据舆情分析方法，其特征在于，包括如下步骤：

步骤2，lda模型训练，包括如下步骤：

步骤2-1，获取训练样本，基于步骤1爬取到的数据进行NLP处理，并进行停用词过滤；

步骤2-2，基于步骤2-1处理后的过滤词进行lda模型训练；

步骤3，聚类分析，包括如下步骤：

排序截取前10概率词作为该文档主题向量；

2.面向短文本主题模型的大数据舆情分析方法，其特征在于：所述步骤2-1中NLP处理包括分词、词性标注、实体识别。

3.面向短文本主题模型的大数据舆情分析方法，其特征在于：所述步骤3-2中是采用word2vec进行除时间、地点、人物、组织等实体之外的动名词近似匹配。

4.面向短文本主题模型的大数据舆情分析方法，其特征在于：方法采用mapreduce分布式架构实现。