CN105760499A

CN105760499A - 一种基于lda主题模型来分析和预测网络舆情的方法

Info

Publication number: CN105760499A
Application number: CN201610096775.2A
Authority: CN
Inventors: 高峰; 王茂帅; 于文才; 柳廷娜; 甄教明
Original assignee: Inspur Software Co Ltd
Current assignee: Inspur Software Co Ltd
Priority date: 2016-02-22
Filing date: 2016-02-22
Publication date: 2016-07-13

Abstract

本发明公开了一种基于LDA主题模型来分析和预测网络舆情的方法，属于大数据分析技术领域，本发明来解决如何有效地组织这些大规模文档，并且按时间顺序来获取文本集合中话题的演化，从而帮助用户追踪感兴趣的主题的问题。技术方案为：先根据LDA主题模型的时间信息将语料库中的文档离散到时间序列上对应的时间窗口内；然后依次地处理每个时间窗口上的文档集合，得到不同时间片上的训练结果，把前面语料库的训练结果作为后面语料库训练过程中的先验参数；最后从训练结果中得到各LDA主题模型强度随时间的变化趋势，实现网络舆情的动态分析和预测功能。

Description

一种基于LDA主题模型来分析和预测网络舆情的方法

技术领域

本发明涉及一种自然语言处理技术领域，具体地说是一种基于LDA主题模型来分析和预测网络舆情的方法。

背景技术

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。自然语言处理(NLP)是计算机科学，人工智能，语言学关注计算机和人类(自然)语言之间的相互作用的领域。

在信息爆炸时代，怎样从海量信息中挖掘出有效的主题信息，分析出内在的语义关联一直是自然语言处理方向的一个重要课题。

LDA(LatentDirichletAllocation)是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。LDA主题模型通过训练语料库，得到“文档—主题”信息和“主题—词语”信息。传统的训练方法没有利用文档的生成时间这一信息，从而训练出的模型不能反应出文档、主题、词语随时间的变化趋势。

网络舆情是指在一定的社会空间内，通过网络围绕中介性社会事件的发生、发展和变化，民众对公共问题和社会管理者产生和持有的社会政治态度、信念和价值观。它是较多民众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。网络舆情形成迅速，对社会影响巨大。随着因特网在全球范围内的飞速发展，网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”，网络成为反映社会舆情的主要载体之一。

文档和时间是密切关系的，随着时间的发展，相关主题的内容会发生变化，主题的强度也会经历一个从高潮到低潮的过程。如何有效地组织这些大规模文档，并且按时间顺序来获取文本集合中话题的演化，从而帮助用户追踪感兴趣的主题，具有实际意义，也是目前需要解决的问题。

发明内容

本发明的技术任务是针对以上不足之处，提供一种基于LDA主题模型来分析和预测网络舆情的方法，来解决如何有效地组织这些大规模文档，并且按时间顺序来获取文本集合中话题的演化，从而帮助用户追踪感兴趣的主题的问题。

本发明解决其技术问题所采用的技术方案是：

一种基于LDA主题模型来分析和预测网络舆情的方法，基于时间信息的LDA主题模型，得到不同时间片上的训练结果，以实现网络舆情的动态分析和预测功能；步骤如下：

先根据LDA主题模型的时间信息将语料库中的文档离散到时间序列上对应的时间窗口内，采用基于分布式云计算架构进行矩阵的分块并行计算，处理语料库；

然后依次地处理每个时间窗口上的文档集合，得到不同时间片上的训练结果，把前面语料库的训练结果作为后面语料库训练过程中的先验参数；

最后从训练结果中得到各LDA主题模型强度随时间的变化趋势，实现网络舆情的动态分析和预测功能。

语料库中的不同时间段内的文档是先后顺序有影响的，根据马尔科夫原理，随机状态中的各个状态s_t，只与它的前一个状态s_t-1有直接关系，即：

P(s_t|s₁,s₂,s₃,......,s_t-1)＝P(s_t|s_t-1)；

所述方法的具体步骤如下：

第一步：将获取的语料库按时间片分段D₁,D₂,D₃,......,D_T；

第二步：在语料库D_t上进行LDA建模，得到doc-topic矩阵θ_t,m与topic-word矩阵对θ_t，m的列取均值，得到向量α_t；

第三步：根据语料库D_t的影响结果对语料库D_t+1进行LDA建模，取向量α_t作为doc-topic矩阵θ_t+1,m生成过程中的先验参数；取中的每一个行向量β_t,k作为topic-word矩阵生成过程中的先验参数；

重复第二步与第三步，直至对每个语料库D_t(1≤t≤T)都进行完LDA建模；

第四步：根据时间顺序，将根据语料库D_t建模得到的θ_t,m统计每种主题的出现频率，从而得到各个主题随时间的变化曲线。

对外提供可控的API服务。

本发明的一种基于LDA主题模型来分析和预测网络舆情的方法和现有技术相比，具有以下有益效果：

1、将时间信息结合到传统的LDA主题模型之上，得到不同时间片上的训练结果，从而可以实现预测功能；

2、采用基于web的分布式云计算架构进行矩阵的分块并行计算，可以处理海量语料库；

3、训练语料库过程中，考虑到先后时间顺序的相互影响，把前面语料库的训练结果作为后面语料库训练过程中的先验参数，使训练结果更准确，更能反映前后直接的联系；

4、从训练结果中得到各主题强度随时间的变化趋势，既便于分析之前的情况，可以预测未来走势；

5、提供的API接口进行二次开发，方便的进行应用领域细分化；

6、该专利所使用的技术能从互联网上海量、多样化、非结构化的自然语言描述的文本中抽取出结构化数据，实现网络舆情的动态分析和预测，既是一种技术领域的创新，又有很强的实用性；

7、LDA主题模型能够自动获取海量文本信息的主题，它是一种非监督的机器学习方法。将时间信息与主题模型想结合，分析和预测动态的网络舆情问题具有很强的实际应用的前景。随着研究的深入，问题的解决，一定会得到广泛的应用。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

实施例1：

本发明的一种基于LDA主题模型来分析和预测网络舆情的方法，基于时间信息的LDA主题模型，得到不同时间片上的训练结果，以实现网络舆情的动态分析和预测功能；步骤如下：

实施例2：

本发明的一种基于LDA主题模型来分析和预测网络舆情的方法，基于时间信息的LDA主题模型，得到不同时间片上的训练结果，以实现网络舆情的动态分析和预测功能；语料库中的不同时间段内的文档是先后顺序有影响的，根据马尔科夫原理，随机状态中的各个状态s_t，只与它的前一个状态s_t-1有直接关系，即：

P(s_t|s₁,s₂,s₃,......,s_t-1)＝P(s_t|s_t-1)；

所述方法的具体步骤如下：

第一步：将获取的语料库按时间片分段D₁,D₂,D₃,......,D_T；

第二步：在语料库D_t上进行LDA建模，得到doc-topic矩阵θ_t,m与topic-word矩阵对θ_t,m的列取均值，得到向量α_t；

对外提供可控的API服务。

通过上面具体实施方式，所述技术领域的技术人员可容易的实现本发明。但是应当理解，本发明并不限于上述的具体实施方式。在公开的实施方式的基础上，所述技术领域的技术人员可任意组合不同的技术特征，从而实现不同的技术方案。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。

Claims

1.一种基于LDA主题模型来分析和预测网络舆情的方法，其特征在于基于时间信息的LDA主题模型，得到不同时间片上的训练结果，以实现网络舆情的动态分析和预测功能；步骤如下：

2.根据权利要求1所述的一种基于LDA主题模型来分析和预测网络舆情的方法，其特征在于根据马尔科夫原理，随机状态中的各个状态s_t，与它的前一个状态s_t-1有直接关系，即：

P(s_t|s₁,s₂,s₃,......,s_t-1)＝P(s_t|s_t-1)；

所述方法的具体步骤如下：

第一步：将获取的语料库按时间片分段D₁,D₂,D₃,......,D_T；

3.根据权利要求1所述的一种基于LDA主题模型来分析和预测网络舆情的方法，其特征在于对外提供可控的API服务。