CN105760499A - 一种基于lda主题模型来分析和预测网络舆情的方法 - Google Patents
一种基于lda主题模型来分析和预测网络舆情的方法 Download PDFInfo
- Publication number
- CN105760499A CN105760499A CN201610096775.2A CN201610096775A CN105760499A CN 105760499 A CN105760499 A CN 105760499A CN 201610096775 A CN201610096775 A CN 201610096775A CN 105760499 A CN105760499 A CN 105760499A
- Authority
- CN
- China
- Prior art keywords
- corpus
- lda
- time
- opinion
- lda topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于LDA主题模型来分析和预测网络舆情的方法,属于大数据分析技术领域,本发明来解决如何有效地组织这些大规模文档,并且按时间顺序来获取文本集合中话题的演化,从而帮助用户追踪感兴趣的主题的问题。技术方案为:先根据LDA主题模型的时间信息将语料库中的文档离散到时间序列上对应的时间窗口内;然后依次地处理每个时间窗口上的文档集合,得到不同时间片上的训练结果,把前面语料库的训练结果作为后面语料库训练过程中的先验参数;最后从训练结果中得到各LDA主题模型强度随时间的变化趋势,实现网络舆情的动态分析和预测功能。
Description
技术领域
本发明涉及一种自然语言处理技术领域,具体地说是一种基于LDA主题模型来分析和预测网络舆情的方法。
背景技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。
在信息爆炸时代,怎样从海量信息中挖掘出有效的主题信息,分析出内在的语义关联一直是自然语言处理方向的一个重要课题。
LDA(LatentDirichletAllocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。LDA主题模型通过训练语料库,得到“文档—主题”信息和“主题—词语”信息。传统的训练方法没有利用文档的生成时间这一信息,从而训练出的模型不能反应出文档、主题、词语随时间的变化趋势。
网络舆情是指在一定的社会空间内,通过网络围绕中介性社会事件的发生、发展和变化,民众对公共问题和社会管理者产生和持有的社会政治态度、信念和价值观。它是较多民众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。网络舆情形成迅速,对社会影响巨大。随着因特网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。
文档和时间是密切关系的,随着时间的发展,相关主题的内容会发生变化,主题的强度也会经历一个从高潮到低潮的过程。如何有效地组织这些大规模文档,并且按时间顺序来获取文本集合中话题的演化,从而帮助用户追踪感兴趣的主题,具有实际意义,也是目前需要解决的问题。
发明内容
本发明的技术任务是针对以上不足之处,提供一种基于LDA主题模型来分析和预测网络舆情的方法,来解决如何有效地组织这些大规模文档,并且按时间顺序来获取文本集合中话题的演化,从而帮助用户追踪感兴趣的主题的问题。
本发明解决其技术问题所采用的技术方案是:
一种基于LDA主题模型来分析和预测网络舆情的方法,基于时间信息的LDA主题模型,得到不同时间片上的训练结果,以实现网络舆情的动态分析和预测功能;步骤如下:
先根据LDA主题模型的时间信息将语料库中的文档离散到时间序列上对应的时间窗口内,采用基于分布式云计算架构进行矩阵的分块并行计算,处理语料库;
然后依次地处理每个时间窗口上的文档集合,得到不同时间片上的训练结果,把前面语料库的训练结果作为后面语料库训练过程中的先验参数;
最后从训练结果中得到各LDA主题模型强度随时间的变化趋势,实现网络舆情的动态分析和预测功能。
语料库中的不同时间段内的文档是先后顺序有影响的,根据马尔科夫原理,随机状态中的各个状态st,只与它的前一个状态st-1有直接关系,即:
P(st|s1,s2,s3,......,st-1)=P(st|st-1);
所述方法的具体步骤如下:
第一步:将获取的语料库按时间片分段D1,D2,D3,......,DT;
第二步:在语料库Dt上进行LDA建模,得到doc-topic矩阵θt,m与topic-word矩阵对θt,m的列取均值,得到向量αt;
第三步:根据语料库Dt的影响结果对语料库Dt+1进行LDA建模,取向量αt作为doc-topic矩阵θt+1,m生成过程中的先验参数;取中的每一个行向量βt,k作为topic-word矩阵生成过程中的先验参数;
重复第二步与第三步,直至对每个语料库Dt(1≤t≤T)都进行完LDA建模;
第四步:根据时间顺序,将根据语料库Dt建模得到的θt,m统计每种主题的出现频率,从而得到各个主题随时间的变化曲线。
对外提供可控的API服务。
本发明的一种基于LDA主题模型来分析和预测网络舆情的方法和现有技术相比,具有以下有益效果:
1、将时间信息结合到传统的LDA主题模型之上,得到不同时间片上的训练结果,从而可以实现预测功能;
2、采用基于web的分布式云计算架构进行矩阵的分块并行计算,可以处理海量语料库;
3、训练语料库过程中,考虑到先后时间顺序的相互影响,把前面语料库的训练结果作为后面语料库训练过程中的先验参数,使训练结果更准确,更能反映前后直接的联系;
4、从训练结果中得到各主题强度随时间的变化趋势,既便于分析之前的情况,可以预测未来走势;
5、提供的API接口进行二次开发,方便的进行应用领域细分化;
6、该专利所使用的技术能从互联网上海量、多样化、非结构化的自然语言描述的文本中抽取出结构化数据,实现网络舆情的动态分析和预测,既是一种技术领域的创新,又有很强的实用性;
7、LDA主题模型能够自动获取海量文本信息的主题,它是一种非监督的机器学习方法。将时间信息与主题模型想结合,分析和预测动态的网络舆情问题具有很强的实际应用的前景。随着研究的深入,问题的解决,一定会得到广泛的应用。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
实施例1:
本发明的一种基于LDA主题模型来分析和预测网络舆情的方法,基于时间信息的LDA主题模型,得到不同时间片上的训练结果,以实现网络舆情的动态分析和预测功能;步骤如下:
先根据LDA主题模型的时间信息将语料库中的文档离散到时间序列上对应的时间窗口内,采用基于分布式云计算架构进行矩阵的分块并行计算,处理语料库;
然后依次地处理每个时间窗口上的文档集合,得到不同时间片上的训练结果,把前面语料库的训练结果作为后面语料库训练过程中的先验参数;
最后从训练结果中得到各LDA主题模型强度随时间的变化趋势,实现网络舆情的动态分析和预测功能。
实施例2:
本发明的一种基于LDA主题模型来分析和预测网络舆情的方法,基于时间信息的LDA主题模型,得到不同时间片上的训练结果,以实现网络舆情的动态分析和预测功能;语料库中的不同时间段内的文档是先后顺序有影响的,根据马尔科夫原理,随机状态中的各个状态st,只与它的前一个状态st-1有直接关系,即:
P(st|s1,s2,s3,......,st-1)=P(st|st-1);
所述方法的具体步骤如下:
第一步:将获取的语料库按时间片分段D1,D2,D3,......,DT;
第二步:在语料库Dt上进行LDA建模,得到doc-topic矩阵θt,m与topic-word矩阵对θt,m的列取均值,得到向量αt;
第三步:根据语料库Dt的影响结果对语料库Dt+1进行LDA建模,取向量αt作为doc-topic矩阵θt+1,m生成过程中的先验参数;取中的每一个行向量βt,k作为topic-word矩阵生成过程中的先验参数;
重复第二步与第三步,直至对每个语料库Dt(1≤t≤T)都进行完LDA建模;
第四步:根据时间顺序,将根据语料库Dt建模得到的θt,m统计每种主题的出现频率,从而得到各个主题随时间的变化曲线。
对外提供可控的API服务。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (3)
1.一种基于LDA主题模型来分析和预测网络舆情的方法,其特征在于基于时间信息的LDA主题模型,得到不同时间片上的训练结果,以实现网络舆情的动态分析和预测功能;步骤如下:
先根据LDA主题模型的时间信息将语料库中的文档离散到时间序列上对应的时间窗口内,采用基于分布式云计算架构进行矩阵的分块并行计算,处理语料库;
然后依次地处理每个时间窗口上的文档集合,得到不同时间片上的训练结果,把前面语料库的训练结果作为后面语料库训练过程中的先验参数;
最后从训练结果中得到各LDA主题模型强度随时间的变化趋势,实现网络舆情的动态分析和预测功能。
2.根据权利要求1所述的一种基于LDA主题模型来分析和预测网络舆情的方法,其特征在于根据马尔科夫原理,随机状态中的各个状态st,与它的前一个状态st-1有直接关系,即:
P(st|s1,s2,s3,......,st-1)=P(st|st-1);
所述方法的具体步骤如下:
第一步:将获取的语料库按时间片分段D1,D2,D3,......,DT;
第二步:在语料库Dt上进行LDA建模,得到doc-topic矩阵θt,m与topic-word矩阵对θt,m的列取均值,得到向量αt;
第三步:根据语料库Dt的影响结果对语料库Dt+1进行LDA建模,取向量αt作为doc-topic矩阵θt+1,m生成过程中的先验参数;取中的每一个行向量βt,k作为topic-word矩阵生成过程中的先验参数;
重复第二步与第三步,直至对每个语料库Dt(1≤t≤T)都进行完LDA建模;
第四步:根据时间顺序,将根据语料库Dt建模得到的θt,m统计每种主题的出现频率,从而得到各个主题随时间的变化曲线。
3.根据权利要求1所述的一种基于LDA主题模型来分析和预测网络舆情的方法,其特征在于对外提供可控的API服务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610096775.2A CN105760499A (zh) | 2016-02-22 | 2016-02-22 | 一种基于lda主题模型来分析和预测网络舆情的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610096775.2A CN105760499A (zh) | 2016-02-22 | 2016-02-22 | 一种基于lda主题模型来分析和预测网络舆情的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105760499A true CN105760499A (zh) | 2016-07-13 |
Family
ID=56331006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610096775.2A Pending CN105760499A (zh) | 2016-02-22 | 2016-02-22 | 一种基于lda主题模型来分析和预测网络舆情的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105760499A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326495A (zh) * | 2016-09-27 | 2017-01-11 | 浪潮软件集团有限公司 | 一种基于话题模型的中文文本自动分类方法 |
CN107239529A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于深度学习的舆情热点类别划分方法 |
CN107291912A (zh) * | 2017-06-26 | 2017-10-24 | 三螺旋大数据科技(昆山)有限公司 | 投资人推荐方法和装置 |
CN107798027A (zh) * | 2016-09-06 | 2018-03-13 | 腾讯科技(深圳)有限公司 | 一种信息热度预测方法、信息推荐方法及装置 |
CN108304370A (zh) * | 2017-05-10 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 数据更新方法及装置 |
CN109558482A (zh) * | 2018-07-27 | 2019-04-02 | 中山大学 | 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法 |
CN109871434A (zh) * | 2019-02-25 | 2019-06-11 | 内蒙古工业大学 | 一种基于动态增量式的概率图模型的舆情演化跟踪方法 |
CN110555454A (zh) * | 2018-06-01 | 2019-12-10 | 国际商业机器公司 | 从上下文数据跟踪主题排名的演变 |
CN113220855A (zh) * | 2021-05-27 | 2021-08-06 | 浙江大学 | 基于it技术问答网站的计算机技术领域发展趋势分析方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902700A (zh) * | 2012-04-05 | 2013-01-30 | 中国人民解放军国防科学技术大学 | 基于在线增量演化主题模型的软件自动分类方法 |
CN103984681A (zh) * | 2014-03-31 | 2014-08-13 | 同济大学 | 基于时序分布信息和主题模型的新闻事件演化分析方法 |
-
2016
- 2016-02-22 CN CN201610096775.2A patent/CN105760499A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902700A (zh) * | 2012-04-05 | 2013-01-30 | 中国人民解放军国防科学技术大学 | 基于在线增量演化主题模型的软件自动分类方法 |
CN103984681A (zh) * | 2014-03-31 | 2014-08-13 | 同济大学 | 基于时序分布信息和主题模型的新闻事件演化分析方法 |
Non-Patent Citations (2)
Title |
---|
崔凯等: "一种基于LDA的在线主题演化挖掘模型", 《计算机科学》 * |
胡吉明等: "基于动态LDA主题模型的内容主题挖掘与演化", 《国书情报工作》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107798027A (zh) * | 2016-09-06 | 2018-03-13 | 腾讯科技(深圳)有限公司 | 一种信息热度预测方法、信息推荐方法及装置 |
CN106326495A (zh) * | 2016-09-27 | 2017-01-11 | 浪潮软件集团有限公司 | 一种基于话题模型的中文文本自动分类方法 |
CN108304370A (zh) * | 2017-05-10 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 数据更新方法及装置 |
CN108304370B (zh) * | 2017-05-10 | 2021-08-06 | 腾讯科技(深圳)有限公司 | 数据更新方法及装置 |
CN107239529B (zh) * | 2017-05-27 | 2020-06-09 | 中国矿业大学 | 一种基于深度学习的舆情热点类别划分方法 |
CN107239529A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于深度学习的舆情热点类别划分方法 |
CN107291912A (zh) * | 2017-06-26 | 2017-10-24 | 三螺旋大数据科技(昆山)有限公司 | 投资人推荐方法和装置 |
CN110555454A (zh) * | 2018-06-01 | 2019-12-10 | 国际商业机器公司 | 从上下文数据跟踪主题排名的演变 |
CN110555454B (zh) * | 2018-06-01 | 2023-07-25 | 国际商业机器公司 | 用于跟踪网络中的主题随时间的演变的方法、系统和介质 |
CN109558482A (zh) * | 2018-07-27 | 2019-04-02 | 中山大学 | 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法 |
CN109558482B (zh) * | 2018-07-27 | 2023-01-06 | 中山大学 | 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法 |
CN109871434A (zh) * | 2019-02-25 | 2019-06-11 | 内蒙古工业大学 | 一种基于动态增量式的概率图模型的舆情演化跟踪方法 |
CN109871434B (zh) * | 2019-02-25 | 2019-12-10 | 内蒙古工业大学 | 一种基于动态增量式的概率图模型的舆情演化跟踪方法 |
CN113220855A (zh) * | 2021-05-27 | 2021-08-06 | 浙江大学 | 基于it技术问答网站的计算机技术领域发展趋势分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105760499A (zh) | 一种基于lda主题模型来分析和预测网络舆情的方法 | |
Hammou et al. | Towards a real-time processing framework based on improved distributed recurrent neural network variants with fastText for social big data analytics | |
Cheng et al. | Text sentiment orientation analysis based on multi-channel CNN and bidirectional GRU with attention mechanism | |
Luo | Network text sentiment analysis method combining LDA text representation and GRU-CNN | |
Gan et al. | Sparse attention based separable dilated convolutional neural network for targeted sentiment analysis | |
Mei et al. | Coherent dialogue with attention-based language models | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
CN111339255A (zh) | 目标情感分析的方法、模型训练方法、介质和设备 | |
CN103984681A (zh) | 基于时序分布信息和主题模型的新闻事件演化分析方法 | |
CN102411611B (zh) | 一种面向即时交互文本的事件识别与跟踪方法 | |
CN107357899B (zh) | 基于和积网络深度自动编码器的短文本情感分析方法 | |
CN106682089A (zh) | 一种基于RNNs的短信自动安全审核的方法 | |
Chambua et al. | User preferences prediction approach based on embedded deep summaries | |
Bedi et al. | CitEnergy: A BERT based model to analyse Citizens’ Energy-Tweets | |
CN111563158A (zh) | 文本排序方法、排序装置、服务器和计算机可读存储介质 | |
Li et al. | Lifecycle research of social media rumor refutation effectiveness based on machine learning and visualization technology | |
CN113761190A (zh) | 文本识别方法、装置、计算机可读介质及电子设备 | |
CN114579833A (zh) | 一种基于主题挖掘和情感分析的微博舆情可视分析方法 | |
Wang et al. | Multimodal graph convolutional networks for high quality content recognition | |
Rasool et al. | WRS: a novel word-embedding method for real-time sentiment with integrated LSTM-CNN model | |
Said et al. | AI-based solar energy forecasting for smart grid integration | |
Feng et al. | Sentiment classification of reviews based on BiGRU neural network and fine-grained attention | |
Li et al. | Mutual match for semi-supervised online evolutive learning | |
Lin et al. | GIF video sentiment detection using semantic sequence | |
He et al. | Construction of Diachronic Ontologies from People's Daily of Fifty Years. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160713 |