CN107526819A - 一种面向短文本主题模型的大数据舆情分析方法 - Google Patents
一种面向短文本主题模型的大数据舆情分析方法 Download PDFInfo
- Publication number
- CN107526819A CN107526819A CN201710755509.0A CN201710755509A CN107526819A CN 107526819 A CN107526819 A CN 107526819A CN 201710755509 A CN201710755509 A CN 201710755509A CN 107526819 A CN107526819 A CN 107526819A
- Authority
- CN
- China
- Prior art keywords
- analysis
- short text
- data
- public opinion
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种大数据舆情分析方法,包括:爬取数据步骤、预处理步骤、主题建模步骤、word2vec步骤、聚类步骤、统计分析步骤。本发明基于twitter、微博等网站数据爬取的包含关键词的短文本数据,针对爬取到的数据进行主题模型分析,分析出短文本主题,建立分布式的主题相似模型,基于此分析出一段时间的热点和新事,模型构建满足分布式需求、相似计算匹配采用哈希增量索引,能够适应海量数据分析需求,大大提升了舆情分析效率和分析结果精确度。
Description
技术领域
本发明属于数据处理分析技术领域,涉及大数据舆情分析方法,更为具体的说,是涉及一种面向短文本主题模型的大数据舆情分析方法。
背景技术
伴随着网络数据的丰富、多元化和多样化,网络舆情的影响越发受到网安等相关部门的重视。获取网络舆情有助于政府及时了解事件动态,并对错误、失实的舆论进行正确的引导;同样还能够了解各阶层民众对该事件的态度、看法以及意见和行为倾向,适时采取相关措施。
由敏感行业部门所构建的传统舆情监控系统主要是针对一些特定的社会事件的发生、发展以及变化,民众对管理者意见和情绪等信息进行信息抓取,信息匹配和审判等工作。这其中人为需要参与的工作量很大。特别是在信息审判中,需要人为对热门事件进行过滤,可能存在疏漏的问题。而且传统的舆情分析数据来源自各新闻媒体、博客、twitter、sina、Facebook等等,难以适应海量数据分析的需要,就每一条数据条目或是匹配到关键词的条目进行人工的审判,这也是一个非常耗时的工作,达不到及时快速的引导效果。
微博、twitter等相关网站数据隶属于短文本,短文本因为短,在建模分析时,效果不很好;由于微博、twitter等具有海量数据,传统的类分析难以及时性的得到聚类结果,无法满足舆情分析要求。
发明内容
为解决上述问题,本发明公开了一种大数据舆情分析方法,基于twitter、微博等网站数据爬取的包含关键词的短文本数据,针对爬取到的数据进行主题模型分析,分析出短文本主题,建立分布式的主题相似模型,基于此分析出一段时间的热点和新事,模型构建满足分布式需求、相似计算匹配采用哈希增量索引,能够适应海量数据分析需求。
为了达到上述目的,本发明提供如下技术方案:
一种面向短文本主题模型的大数据舆情分析方法,包括如下步骤:
步骤1,筛选初始关键词,根据初始关键词爬取网站上的短文本数据,并将其存储入hdfs分布式文件系统;
步骤2,lda模型训练,包括如下步骤:
步骤2-1,获取训练样本,基于步骤1爬取到的数据进行NLP处理,并进行停用词过滤。
步骤2-2,基于步骤2-1处理后的过滤词进行lda模型训练;
步骤3,聚类分析,包括如下步骤:
步骤3-1,基于新的文本数据,首先通过lda模型基于如下公式计算出该短文本对应的主题词概率向量;
排序截取前10概率词作为该文档主题向量;
步骤3-2,采用word2vec训练步骤3-1得到的字词向量,将语义相近的词聚合在一起;
步骤3-3,根据步骤3-1中lda获取的主题概率词结合步骤3-2中word2vec训练的语义相近词生成多对多的文本主题向量矩阵;
步骤3-4,结合改进的singlepass话题聚类模型,进行分布式增量话题聚类,基于固定中心余弦相似计算,以第一条目作为聚类中心,比较原初始条目中心,进行合并聚类;
步骤4,基于统计分析热点话题事件和新事件,并获取领袖意见。
进一步的,所述步骤2-1中NLP处理包括分词、词性标注、实体识别。
进一步的,所述步骤3-2中是采用word2vec进行除时间、地点、人物、组织等实体之外的动名词近似匹配。
进一步的,方法采用mapreduce分布式架构实现。
与现有技术相比,本发明具有如下优点和有益效果:
本发明采用mapreduce分布式架构实现,采用Lda Model对短文本数据进行训练,并采用word2vec进行相似匹配,结合改进的聚类方法,大大提升了舆情分析效率,且分析结果精确度高。
附图说明
图1为本发明步骤流程简图。
图2为具体化的步骤流程图。
图3为lda主题模型示意图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明整体流程如图1、图2所示,首先是面向海量twitter和sina发表言论数据预处理(分词、词性标注、实体识别),然后进行lda短文本主题模型分析,将文本主题通过主题词的提取出来。然后通过word2vec进行近义词最大概率匹配,提取出足够数量语义相近的概率词,进行多对多的文本向量矩阵相似计算,基于singlepass算法聚出属于同一事件的主题概率词。最后基于统计分析出热点事件和新事件。具体的说,本发明方法包括如下步骤:
步骤1,首先由人工筛选初始关键词,根据初始关键词爬取twitter和sina的相关言论数据进入hdfs分布式文件系统。本发明方法并不仅仅局限于爬取twitter和sina,其他数据属于短文本的网站也同样可适用本发明方法,如微博等。
步骤2,Lda Model训练,包括如下具体步骤:
步骤2-1,获取训练样本,基于步骤1爬取到的言论数据进行NLP(自然语言处理,包括分词、词性标注、实体识别)处理,以及停用词过滤。
步骤2-2,基于etl后的过滤词进行lda模型训练:lda是一种非监督的机器学习方法,能够用来识别海量的语料库中的主题信息,lda采用词袋(bag of words)模型,即每一篇文档被看作一个高纬词向量,转变文本信息为易于建模的向量。基于经验参数设置训练得到的主题模型,被用于分布式的聚类文本中。
步骤3,聚类分析:对于聚类分析,应用到常用话题聚类模型singlepass中,进行低时效性的聚类。具体包括:
步骤3-1,基于新的文本数据,首先通过lda model计算出该短文本对应的主题词概率向量,排序截取前10概率词作为该文档主题向量,图3即是lda主题模型。
步骤3-2,训练语义相近词,基于word2vec训练得到的字词向量依靠语义相近的聚合在一起。采用word2vec相似动名词多对多匹配进行除时间、地点、人物、组织等实体之外的动名词近似匹配(多对多),计算文本相似概率时,择取最优值。
步骤3-3,根据步骤3-1中lda获取的主题概率词结合步骤3-2中word2vec训练的语义相近词生成多对多的文本主题向量矩阵。
步骤3-4,利用余弦相似计算,结合改进的singlepass话题聚类模型,进行分布式增量话题聚类。聚类过程为:基于固定中心余弦相似计算,以第一条目作为聚类中心。以固定中心聚类可以拓展到分布式中,“二次合并聚类”可以比较原初始条目中心,进行合并聚类。
话题聚类结果通过多次项目实践,同一事件相似程度很高,结果准确,能够满足本发明要求。
步骤4,基于统计分析热点话题事件和新事件,并获取领袖意见。
本发明全部实现采用mapreduce分布式架构实现,速度上能够满足舆情事件的时效性。基于热点事件的话题聚类舆情分析方便政府企业部门进行信息审核,对于错误、失实的舆论进行正确的引导。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (4)
1.一种面向短文本主题模型的大数据舆情分析方法,其特征在于,包括如下步骤:
步骤1,筛选初始关键词,根据初始关键词爬取网站上的短文本数据,并将其存储入hdfs分布式文件系统;
步骤2,lda模型训练,包括如下步骤:
步骤2-1,获取训练样本,基于步骤1爬取到的数据进行NLP处理,并进行停用词过滤;
步骤2-2,基于步骤2-1处理后的过滤词进行lda模型训练;
步骤3,聚类分析,包括如下步骤:
步骤3-1,基于新的文本数据,首先通过lda模型基于如下公式计算出该短文本对应的主题词概率向量;
排序截取前10概率词作为该文档主题向量;
步骤3-2,采用word2vec训练步骤3-1得到的字词向量,将语义相近的词聚合在一起;
步骤3-3,根据步骤3-1中lda获取的主题概率词结合步骤3-2中word2vec训练的语义相近词生成多对多的文本主题向量矩阵;
步骤3-4,结合改进的singlepass话题聚类模型,进行分布式增量话题聚类,基于固定中心余弦相似计算,以第一条目作为聚类中心,比较原初始条目中心,进行合并聚类;
步骤4,基于统计分析热点话题事件和新事件,并获取领袖意见。
2.面向短文本主题模型的大数据舆情分析方法,其特征在于:所述步骤2-1中NLP处理包括分词、词性标注、实体识别。
3.面向短文本主题模型的大数据舆情分析方法,其特征在于:所述步骤3-2中是采用word2vec进行除时间、地点、人物、组织等实体之外的动名词近似匹配。
4.面向短文本主题模型的大数据舆情分析方法,其特征在于:方法采用mapreduce分布式架构实现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710755509.0A CN107526819A (zh) | 2017-08-29 | 2017-08-29 | 一种面向短文本主题模型的大数据舆情分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710755509.0A CN107526819A (zh) | 2017-08-29 | 2017-08-29 | 一种面向短文本主题模型的大数据舆情分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107526819A true CN107526819A (zh) | 2017-12-29 |
Family
ID=60682510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710755509.0A Pending CN107526819A (zh) | 2017-08-29 | 2017-08-29 | 一种面向短文本主题模型的大数据舆情分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107526819A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189934A (zh) * | 2018-11-13 | 2019-01-11 | 平安科技(深圳)有限公司 | 舆情推荐方法、装置、计算机设备及存储介质 |
CN109271509A (zh) * | 2018-08-23 | 2019-01-25 | 武汉斗鱼网络科技有限公司 | 直播间话题的生成方法、装置、计算机设备和存储介质 |
CN109284384A (zh) * | 2018-10-10 | 2019-01-29 | 拉扎斯网络科技(上海)有限公司 | 文本分析方法、装置、电子设备及可读存储介质 |
CN109766715A (zh) * | 2018-12-24 | 2019-05-17 | 贵州航天计量测试技术研究所 | 一种面向大数据环境隐私信息防泄露自动识别方法及系统 |
CN110046228A (zh) * | 2019-04-18 | 2019-07-23 | 合肥工业大学 | 短文本主题识别方法和系统 |
CN110083833A (zh) * | 2019-04-18 | 2019-08-02 | 东华大学 | 中文字词向量和方面词向量联合嵌入情感分析方法 |
CN110297988A (zh) * | 2019-07-06 | 2019-10-01 | 四川大学 | 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法 |
CN110377744A (zh) * | 2019-07-26 | 2019-10-25 | 北京香侬慧语科技有限责任公司 | 一种舆情分类的方法、装置、存储介质及电子设备 |
CN112580355A (zh) * | 2020-12-30 | 2021-03-30 | 中科院计算技术研究所大数据研究院 | 一种新闻资讯话题检测及实时聚合方法 |
CN113487143A (zh) * | 2021-06-15 | 2021-10-08 | 中国农业大学 | 鱼群投喂决策方法、装置、电子设备和存储介质 |
CN113515593A (zh) * | 2021-04-23 | 2021-10-19 | 平安科技(深圳)有限公司 | 基于聚类模型的话题检测方法、装置和计算机设备 |
-
2017
- 2017-08-29 CN CN201710755509.0A patent/CN107526819A/zh active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271509A (zh) * | 2018-08-23 | 2019-01-25 | 武汉斗鱼网络科技有限公司 | 直播间话题的生成方法、装置、计算机设备和存储介质 |
CN109284384A (zh) * | 2018-10-10 | 2019-01-29 | 拉扎斯网络科技(上海)有限公司 | 文本分析方法、装置、电子设备及可读存储介质 |
CN109189934A (zh) * | 2018-11-13 | 2019-01-11 | 平安科技(深圳)有限公司 | 舆情推荐方法、装置、计算机设备及存储介质 |
CN109189934B (zh) * | 2018-11-13 | 2024-07-19 | 平安科技(深圳)有限公司 | 舆情推荐方法、装置、计算机设备及存储介质 |
CN109766715A (zh) * | 2018-12-24 | 2019-05-17 | 贵州航天计量测试技术研究所 | 一种面向大数据环境隐私信息防泄露自动识别方法及系统 |
CN110046228B (zh) * | 2019-04-18 | 2021-06-11 | 合肥工业大学 | 短文本主题识别方法和系统 |
CN110083833A (zh) * | 2019-04-18 | 2019-08-02 | 东华大学 | 中文字词向量和方面词向量联合嵌入情感分析方法 |
CN110083833B (zh) * | 2019-04-18 | 2022-12-06 | 东华大学 | 中文字词向量和方面词向量联合嵌入情感分析方法 |
CN110046228A (zh) * | 2019-04-18 | 2019-07-23 | 合肥工业大学 | 短文本主题识别方法和系统 |
CN110297988A (zh) * | 2019-07-06 | 2019-10-01 | 四川大学 | 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法 |
CN110377744A (zh) * | 2019-07-26 | 2019-10-25 | 北京香侬慧语科技有限责任公司 | 一种舆情分类的方法、装置、存储介质及电子设备 |
CN112580355A (zh) * | 2020-12-30 | 2021-03-30 | 中科院计算技术研究所大数据研究院 | 一种新闻资讯话题检测及实时聚合方法 |
CN112580355B (zh) * | 2020-12-30 | 2021-08-31 | 中科院计算技术研究所大数据研究院 | 一种新闻资讯话题检测及实时聚合方法 |
CN113515593A (zh) * | 2021-04-23 | 2021-10-19 | 平安科技(深圳)有限公司 | 基于聚类模型的话题检测方法、装置和计算机设备 |
CN113487143A (zh) * | 2021-06-15 | 2021-10-08 | 中国农业大学 | 鱼群投喂决策方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107526819A (zh) | 一种面向短文本主题模型的大数据舆情分析方法 | |
Liang et al. | Dynamic clustering of streaming short documents | |
Ferguson et al. | Semi-supervised event extraction with paraphrase clusters | |
EP3096246A1 (en) | Method, system and storage medium for realizing intelligent answering of questions | |
Orkphol et al. | Sentiment analysis on microblogging with K-means clustering and artificial bee colony | |
Collins et al. | Fake news types and detection models on social media a state-of-the-art survey | |
Das et al. | Sense GST: Text mining & sentiment analysis of GST tweets by Naive Bayes algorithm | |
Saksesi et al. | Analysis text of hate speech detection using recurrent neural network | |
Yang et al. | Research on building a Chinese sentiment lexicon based on SO-PMI | |
WO2018045101A1 (en) | Systems and methods for issue management | |
CN104965823A (zh) | 一种基于大数据的观点抽取方法 | |
CN109978020A (zh) | 一种基于多维特征的社交网络账号马甲身份辨识方法 | |
CN105183765A (zh) | 一种基于大数据的话题抽取方法 | |
CN110297986A (zh) | 一种微博热点话题的情感倾向分析方法 | |
Yan et al. | The perils of classifying political orientation from text | |
Leonhardt et al. | Extractive explanations for interpretable text ranking | |
Yan et al. | Sentiment Analysis of Short Texts Based on Parallel DenseNet. | |
Chen et al. | Research on micro-blog sentiment polarity classification based on SVM | |
Wang et al. | Integrating roberta fine-tuning and user writing styles for authorship attribution of short texts | |
Majdabadi et al. | Twitter trend extraction: a graph-based approach for tweet and hashtag ranking, utilizing no-hashtag tweets | |
Zobaed et al. | Saed: Edge-based intelligence for privacy-preserving enterprise search on the cloud | |
Sha et al. | Resolving entity morphs based on character-word embedding | |
Othman et al. | Customer opinion summarization based on twitter conversations | |
Luo et al. | Extracting threat intelligence relations using distant supervision and neural networks | |
Gemilang et al. | Indonesian president candidates 2014 sentiment analysis by using Twitter data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171229 |