CN105335349A

CN105335349A - 一种基于时间窗口的lda微博主题趋势检测方法及装置

Info

Publication number: CN105335349A
Application number: CN201510532828.6A
Authority: CN
Inventors: 侯德俊; 尚鸿运; 喻梅; 缑小路; 胡悦; 高玥
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2015-08-26
Filing date: 2015-08-26
Publication date: 2016-02-17

Abstract

本发明公开了一种基于时间窗口的LDA微博主题趋势检测方法及装置，方法包括：在各个时间窗口利用LDA模型从词集中抽取主题词，获取全局各主题；对全局各主题进行相似度计算，并进行K-means聚类，获取符合舆情分析的热点主题；通过LDA主题模型，结合热点主题，依次在各个时间窗口提取每个热点主题的特征词；结合特征词的结果，计算热点主题在各时间窗口的热度值，并绘制热点主题的趋势图。装置包括：第一获取模块、第二获取模块、提取模块和绘制模块。本发明提高了微博主题检测的精度，使得趋势指标更具有表现力，为分析热点主题趋势提供更精准的依据。

Description

一种基于时间窗口的LDA微博主题趋势检测方法及装置

技术领域

本发明属于数据挖掘、自然语言处理和信息检索领域，具体涉及短文本处理、主题检测与跟踪，以及网络舆情分析的相关领域，尤其涉及一种基于时间窗口的LDA微博主题趋势检测方法及装置。

背景技术

主题检测与跟踪(TopicDetectionandTracking，TDT)技术是由美国国防部高级研究规划署(DARPA)和国家标准技术局(NIST)发起的，旨在发展一系列基于时间的信息组织技术，帮助人们应对信息过载问题。国外对于TDT的研究和起步较早，CMU，Cambridge等一流大学以及IBM公司在TDT评测中已经取得了很好的成绩。陆续地，TDT主题检测的技术被应用到实践中；一种基于增量TF-IDF(TermFrequency-InverseDocumentFrequency，词频-逆向文件频率)的事件检测系统被成功开发；自然语言处理技术被引入到主题检测中，且有效提高了主题检测的质量。国内在TDT方面的研究相继起步：TDT系统评测会议从1999年开始引入汉语；中国台湾大学参加了1999年的TDT主题检测任务的评测；各大学相关专业人士相继关注主题检测与跟踪的评测及研究；中科院的骆卫华等人提出一种基于多策略优化的分治多层聚类算法比基准方法有了较大的该进；复旦大学的闵可锐等人采用一种基于知识库和网络流算法更好地实现了主题的聚合。

潜在狄利克雷(LatentDirichletAllocation，LDA)模型是一种主题检测模型，能够识别大规模文档集(documentcollection)或者语料库(corpus)中潜在的主题信息。LDA模型是Blei等人在2003年提出的一种无监督机器学习技术，是一种三层贝叶斯概率模型，包含：词语、主题和文档三层结构。模型的生成过程首先假设不同主题下词语按照不用的概率分布随机产生，一个主题下词语服从多项式分布；其次假设不同文档下主题依照不同的概率随机分布产生；最后对每一个文档从Dirichlet分布中抽样产生该文档的主题分布，结合主题词的概率分布随机生成文档中的每一个词。这种方法更针对微博文本的特点。实际上LDA模型的主题检测过程是上述生成过程的逆过程，在已知文档中每个词的前提下，采用Gibbs抽样算法估计相关参数，从而获得文档集的主题概率分布(BleiDM，NgAY，JordanMI.Latentdirichletallocation[J].JournalofMachineLearningResearrch，2003，(3)：2003—2003)。

目前已有LDA与时序信息结合进行主题检测的模型，相比传统LDA模型能产生更精准的主题检测结果。但此时获得的主题结果数量仍较多，信息相对分散，不利于对热点主题的建模与分析，而且缺乏一个有力的指标表达热点事件的发展趋势信息，无法供研究人员分析热点事件基于时间的演化规律。

发明内容

本发明提供了一种基于时间窗口的LDA微博主题趋势检测方法及装置，本发明提高了微博主题检测的精度，使得趋势指标更具有表现力，为分析热点主题趋势提供更精准的依据，详见下文描述：

一种基于时间窗口的LDA微博主题趋势检测方法，所述检测方法包括以下步骤：

在各个时间窗口利用LDA主题模型从词集中抽取主题词，获取全局各主题；

对所述全局各主题进行相似度计算，并进行K-means聚类，获取符合舆情分析的热点主题；

通过LDA主题模型，结合所述热点主题，依次在各个时间窗口提取每个热点主题的特征词；

结合所述特征词的结果，计算所述热点主题在各时间窗口的热度值，并绘制所述热点主题的趋势图。

其中，所述检测方法还包括：

通过网络爬虫获取微博数据集；

对所述微博数据集进行文本分词、去除停用词等预处理，获取所述词集。

其中，所述在各个时间窗口利用LDA主题模型从词集中抽取主题词，获取全局各主题的步骤具体为：

将全局时间划分为若干时间窗口；通过基于时间窗口的LDA主题模型，对各时间窗口内的所有文档建立文档-主题概率分布、以及主题-词语概率分布，获取每个文档对应到不同主题的概率、以及每个主题生成单词的概率。

其中，所述对所述全局各主题进行相似度计算，并进行K-means聚类，获取符合舆情分析的热点主题的步骤具体为：

利用概率分布的相对熵表示两个主题的差异性，所述差异性使用相对熵差分来计算，再纠正相对熵差分距离的不对称性，得到两个主题的相似度值；

结合相似度值对获取到的全局主题应用K-means聚类，聚类结果则代表符合舆情分析的热点主题。

一种基于时间窗口的LDA微博主题趋势检测装置，所述检测装置包括：

第一获取模块，用于在各个时间窗口利用LDA主题模型从词集中抽取主题词，获取全局各主题；

第二获取模块，对所述全局各主题进行相似度计算，并进行K-means聚类，获取符合舆情分析的热点主题；

提取模块，用于通过LDA主题模型，结合所述热点主题，依次在各个时间窗口提取每个热点主题的特征词；

绘制模块，用于结合所述特征词的结果，计算所述热点主题在各时间窗口的热度值，并绘制所述热点主题的趋势图。

其中，所述检测装置还包括：

第三获取模块，用于通过网络爬虫获取微博数据集；

第四获取模块，用于对所述微博数据集进行文本分词、去除停用词等预处理，获取所述词集。

其中，所述第一获取模块包括：

划分子模块，用于将全局时间划分为若干时间窗口；

建立子模块，用于通过基于时间窗口的LDA主题模型，对各时间窗口内的所有文档建立文档-主题概率分布、以及主题-词语概率分布；

第一获取子模块，用于获取每个文档对应到不同主题的概率、以及每个主题生成单词的概率。

其中，所述第二获取模块包括：

第二获取子模块，用于利用概率分布的相对熵表示两个主题的差异性，所述差异性使用相对熵差分来计算，再纠正相对熵差分距离的不对称性，得到两个主题的相似度值；

聚类分析子模块，用于结合相似度值对获取到的全局主题应用K-means聚类，聚类结果则代表符合舆情分析的热点主题。

本发明提供的技术方案的有益效果是：本发明为微博主题检测结果的利用与分析提供了一种新思路，通过相似度聚类缩小主题范围，并考虑将热度值作为表示热点主题趋势的指标，从而确定热点主题作为舆情分析对象，与未经处理的LDA主题检测结果相比，主题精度得到提升，趋势指标更具有表现力，为分析热点主题趋势提供更精准的依据，具有较大实用特点。

附图说明

图1为一种基于时间窗口的LDA微博主题趋势检测方法的流程图；

图2为K-means聚类结果的示意图；

图3为热点主题趋势图；

图4为一种基于时间窗口的LDA微博主题趋势检测装置的示意图；

图5为一种基于时间窗口的LDA微博主题趋势检测装置的另一示意图；

图6为第一获取模块的示意图；

图7为第二获取模块的示意图。

附图中，各部件的列表如下：

1：第一获取模块；2：第二获取模块；

3：提取模块；4：绘制模块；

5：第三获取模块；6：第四获取模块；

11：划分子模块；12：建立子模块；

13：第一获取子模块；21：第二获取子模块；

22：聚类分析子模块。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

本发明实施例针对现有主题检测结果数量较多且含义相对分散这一缺陷，在基于时间窗口的LDA主题模型检测的主题结果之上，应用相似度聚类缩小主题范围，确定热点主题，并提出热度值计算方法，从而建立微博的热点主题检测和主题时间演化体系，并进行趋势分析，详见下文描述：

实施例1

一种基于时间窗口的LDA微博主题趋势检测方法，参见图1，该检测方法包括以下步骤：

101：通过网络爬虫获取微博数据集；

例如：构建针对新浪微博的爬虫程序，爬取新浪微博上一定时长的微博内容，并保留发表时间、发表作者、标题、正文内容等信息。该步骤为本领域技术人员所公知，本发明实施例对此不作赘述。

102：对微博数据集进行文本分词、去除停用词等预处理，获取词集；

该步骤具体为：对获取到的微博数据集，使用现有的汉语词法分析系统进行分词；之后使用“哈工大停用词表”进行去除停用词筛选，只保留分词结果中的名词和动词。本发明实施例对预处理中使用到的处理软件、工具不做限制，只要能实现上述功能的软件即可。

103：将全局时间划分为若干时间窗口，在各个时间窗口利用LDA主题模型抽取主题词，获取全局各主题；

该步骤具体为：将全局时间划分为若干时间窗口；每条微博的词集视为一个文档，利用基于时间窗口的LDA主题模型，对各时间窗口内的所有文档建立文档-主题概率分布、以及主题-词语概率分布，从两个分布结果可得到每个文档对应到不同主题的概率、以及每个主题生成单词的概率。

104：对全局各主题进行相似度计算，之后进行K-means聚类，找出符合舆情分析的热点主题；

该步骤具体为：通过步骤103得到的主题-词语概率分布，利用概率分布的Kullback-Leibler散度(又称相对熵)表示两个主题的差异性，此差异性使用KL差分来计算，再纠正KL差分距离的不对称性，得到两个主题的相似度值。结合此相似度结果，对步骤103获取到的全局主题应用K-means聚类，聚类结果则代表符合舆情分析的热点主题。

105：在每个时间窗口内，分别应用LDA模型，抽取热点主题对应的特征词；

通过步骤103中的基于时间窗口的LDA主题模型算法，结合步骤104中得到的热点主题，依次在各个时间窗口提取每个热点主题的特征词。

106：结合特征词结果，计算热点主题在各时间窗口的热度值，并绘制热点主题趋势图。

即，根据各时间窗口热点主题特征词序列，计算热点主题在各时间窗口的热度值，并绘制热点主题趋势图，以进行热点趋势分析。

综上所述，本发明实施例通过上述步骤101-步骤106提高了微博主题检测的精度，使得趋势指标更具有表现力，为分析热点主题趋势提供更精准的依据。

实施例2

下面结合具体的计算公式、例子、附图1对实施例1中的方案进行详细描述，详见下文描述：

201：构建针对新浪微博的爬虫程序，爬取新浪微博上一定时长的微博内容，并保留发表时间、发表作者、标题、正文内容等信息；

202：使用中国科学院计算技术研究所研发出的汉语词法分析系统ICTCLAS(InstituteofComputingTechnology，ChineseLexicalAnalysisSystem)，采用提供的API接口ICTCLAS5.0进行分词处理，并将一些特殊词语，例如：情感词，网络用词等作为用户词典添加到分词器中，得到更好地分词效果。

203：对分词结果做停用词筛选；

即，去除没有实在意义使用频率又高的词，由于人工抽取的主题词通常是名词和动词，因此本发明实施例只保留了分词后的名词和动词的实词，得到最终词集。

204：根据微博数据的时间信息，并保证各窗口主题数目足以涵盖有效的主题信息，人工量定时间窗口单位，从而确定时间窗口的数量；

205：每条微博数据的词集视为一个文档，在各时间窗口利用LDA主题模型提取特征词，抽取主题词；

基于时间窗口的LDA主题模型用下面的公式，估计在t时间窗口的文档-主题概率分布θ(t)_hj和主题-词语概率分布φ(t)_wj，公式(1)和(2)如下：

θ {(t)}_{h j} = \frac{C_{h j}^{U T} + α^{t}}{Σ_{j^{'} = 1}^{T} C_{{hj}^{'}}^{U T} + {Tα}^{t}} - - - (1)

φ {(t)}_{w j} = \frac{C_{w j}^{W T} + β^{t}}{Σ_{w^{'} = 1}^{N_{w}^{u} (t)} C_{w^{'} j}^{W T} + N_{w}^{u} (t) β^{t}} - - - (2)

其中，w代表词语；j代表主题；T是主题总数；α^t是在时间窗口t内文档的狄利克雷先验；β^t是在时间窗口t内隐藏主题的狄利克雷先验；C^UT是文档-主题矩阵，规模大小为N_u×T，N_u是文档总数；表示文档h被分配给主题j的次数；表示对t时间窗口内的某一文档h分配给任一主题j′的次数并求和；类似地，C^WT是词语-主题矩阵，规模大小为N_w×T，N_w为词语总数；是词语w被分配给主题j的次数，为在t时间窗口内的文档u的特征词总数，表示对t时间窗口内每个词w′分配给某一主题j的次数并求和。

在基于时间窗口的LDA主题模型参数中，确定文档集合包含的主题总数T的取值，在每个时间窗口通过模型求解抽取特征词。LDA模型中参数θ(t)_hj、φ(t)_wj的估计方法使用Gibbs抽样法，用来对建模后的文本向量矩阵进行求解。设置主题模型中Gibbs采样参数为α^t＝50/T,β^t＝0.01，迭代I＝50次。

206：计算全局各主题的相似度；

在相邻时间间隔t_i和t_i+1上利用LDA主题模型抽取到主题和M是计算词语-主题概率分布过程中得到的主题词表，记q是在M上的概率分布，p是在M上的概率分布，则p和q之间的Kullback–Leibler散度就表示了上述两个主题在词表上分布的差异性。差异度越小，两个主题在语义上就更接近，关联度就越高。主题和的关联度使用p和q的KL差分来计算，即公式(3)。

D (p | | q) = Σ_{j}^{| M |} p_{j} \log \frac{p_{j}}{q_{j}} - - - (3)

其中，D(p||q)为分布p和分布q的KL差分，p_j和q_j分别为同一主题j在分布p和q上的概率取值。

两个主题的语义相关性，应该是相互关联的，即对称的。矫正Kullback-Leibler差分距离的不对称性，用著名的JS距离即公式(4)计算主题和主题的关联度。

S i m (j^{t_{i}}, j^{t_{i + 1}}) = J e n s e n - S h a n n o n (p, q) = \frac{1}{2} (D (p | | m) + D (q | | m)) - - - (4)

其中，是计算结果即关联度值；Jensen-Shannon(p,q)代表分布p和分布q的JS距离计算符号；D(p||m)为分布p和分布m的KL差分；D(q||m)为分布q和分布m的KL差分。当两个主题的相似度小于预先设定的阈值时，则两个主题之间具有演化关系。

207：应用K-means文本聚类方法，对全局所有主题进行聚类，得到全局适合舆情分析的热点主题；

K-means算法采用主流通用代码。K-means算法的优势在于聚类的中心是簇的中心，能够很好地代表类中的对象。其中，计算两个文档u、v距离采用欧氏距离，如公式(5)所示。

d i s t (u, v) = \sqrt{Σ_{j = 1}^{T} {(R_{u j} - R_{v j})}^{2}} - - - (5)

其中，dist(u,v)为u、v两个文档的距离；R_uj为文档u属于主题j的权值；R_vj为文档v属于主题j的权值；T为所有文档包含的主题总数。

208：根据热点主题的数量，重新确定基于时间窗口LDA主题模型的参数K的取值，在各时间窗口通过模型抽取特征词；

根据特征词和主题的关联度信息，同时权衡主题热点的差异度，确定抽取的特征词个数。

209：结合各热点主题在各窗口的特征词结果，根据公式(6)计算各热点主题在各时间窗口的热度值，最后根据热度值结果，绘制热点趋势图。

δ_{j}^{t} = \frac{1}{D^{t}} \underset{d &Element; D^{t}}{Σ} θ_{d, j} - - - (6)

其中，为热点主题j在时间窗口t的强度，代表该主题热度；θ_d,j表示时间窗口t内任一文档d是否归类于热点主题j；D^t为时间窗口t内文档的数量。

综上所述，本发明实施例通过上述步骤201-步骤209提高了微博主题检测的精度，使得趋势指标更具有表现力，为分析热点主题趋势提供更精准的依据。

实施例3

下面结合附图2和3、具体事例，对实施例1和2中的方案进行可行性验证，详见下文描述：

利用网络爬虫采集新浪微博上2011年9月-10月发布的微博内容，共计25495条，保留发表时间、发表作者、标题、正文内容等信息，进行中文分词、停用词等预处理；之后将全局时间划分为4个时间窗口，如表1所示，在各个时间窗口利用LDA主题模型抽取主题共计150个；对该主题结果进行相似度计算后，再进行K-means聚类，设定聚类个数为2，则聚类结果为2个热点主题，回归文档数据后，确定主题1是“贩卖儿童”事件，主题2是“天宫一号”事件，如图2所示，之后计算热点主题在各时间窗口的热度值，并绘制成热点主题趋势图，如图3所示。

表1主题数目

图3显示，主题1在4个时间窗口上热度的变化与民生舆论事件发生、高潮、持续、消退的发展规律相一致。容易分析，在出现“贩卖儿童”的微博内容后，之所以主题1的热度值快速升高，显示出极高的公众关注度，是因为“贩卖儿童”这一事实引起民众强烈共鸣，大量网友迅速关注并扩散该主题微博；在关注度达到峰值后的一段时间，主题1热度虽略有下降但仍持续走高，印证了“贩卖儿童”这一舆情的高度影响力，事实上，该事件的发生确实引起部分民众极大恐慌，也有爱心人士不断通过网络帮助寻找失踪的孩子；随后，在不停转发关注直至部分案件破获后，主题1热度才逐渐消退，但仍比该话题刚出现时关注度高，因为有许多类似“人贩量刑”的后续话题被人关注。图3中还显示，主题2在出现后热度值未升高，反而在第二阶段达到一个最低点，之后热度攀升达到最高值，最后热度逐渐消退。经过分析，“天宫一号”这类科技舆论事件在开始并不会受到很大关注，所以预备发射的消息热度值不高，甚至在新的里程碑事件发生前关注度会跌至最低点，直到29日天宫一号成功发射，热度才攀升至最高点，之后才逐渐消退。本方法得到的热点主题趋势图直观完整地展现出两个热点事件在出现期、发展期和衰退期的热度情况，较准确地呈现了每个事件独特的发展历程，为舆情监测部门研究各类舆情事件发展规律并及时采取应对措施提供了依据。

通过在基于时间窗口的LDA主题检测结果上实行聚类，增强了热点主题的代表性，变相提高了微博主题检测的精度，又提出将热度值作为衡量主题热度的指标，二者均使得对微博热点主题的趋势分析更精准且更具实际意义。

实施例4

一种基于时间窗口的LDA微博主题趋势检测装置，参见图4，该检测装置包括：

第一获取模块1，用于在各个时间窗口利用LDA模型从词集中抽取主题词，获取全局各主题；

第二获取模块2，对全局各主题进行相似度计算，并进行K-means聚类，获取符合舆情分析的热点主题；

提取模块3，用于通过LDA主题模型，结合热点主题，依次在各个时间窗口提取每个热点主题的特征词；

绘制模块4，用于结合特征词的结果，计算热点主题在各时间窗口的热度值，并绘制热点主题的趋势图。

其中，参见图5，该检测装置还包括：

第三获取模块5，用于通过网络爬虫获取微博数据集；

第四获取模块6，用于对微博数据集进行文本分词、去除停用词等预处理，获取词集。

其中，参见图6，第一获取模块1包括：

划分子模块11，用于将全局时间划分为若干时间窗口；

建立子模块12，用于通过基于时间窗口的LDA模型，对各时间窗口内的所有文档建立文档-主题概率分布、以及主题-词语概率分布；

第一获取子模块13，用于获取每个文档对应到不同主题的概率、以及每个主题生成单词的概率。

其中，参见图7，第二获取模块2包括：

第二获取子模块21，用于利用概率分布的相对熵表示两个主题的差异性，差异性使用KL差分来计算，再纠正KL差分距离的不对称性，得到两个主题的相似度值；

聚类分析子模块22，用于结合相似度值对获取到的全局主题应用K-means聚类，聚类结果则代表符合舆情分析的热点主题。

本发明实施例对上述模块、子模块的执行主体不做限制，只要能完成上述功能的器件均可，可以为单片机、PC机等具有计算功能的器件。

综上所述，本发明实施例通过上述模块、子模块提高了微博主题检测的精度，使得趋势指标更具有表现力，为分析热点主题趋势提供更精准的依据。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于时间窗口的LDA微博主题趋势检测方法，其特征在于，所述检测方法包括以下步骤：

2.根据权利要求1所述的一种基于时间窗口的LDA微博主题趋势检测方法，其特征在于，所述检测方法还包括：

通过网络爬虫获取微博数据集；

3.根据权利要求1所述的一种基于时间窗口的LDA微博主题趋势检测方法，其特征在于，所述在各个时间窗口利用LDA模型从词集中抽取主题词，获取全局各主题的步骤具体为：

4.根据权利要求1所述的一种基于时间窗口的LDA微博主题趋势检测方法，其特征在于，所述对所述全局各主题进行相似度计算，并进行K-means聚类，获取符合舆情分析的热点主题的步骤具体为：

5.一种基于时间窗口的LDA微博主题趋势检测装置，其特征在于，所述检测装置包括：

6.根据权利要求5所述的一种基于时间窗口的LDA微博主题趋势检测装置，其特征在于，所述检测装置还包括：

第三获取模块，用于通过网络爬虫获取微博数据集；

7.根据权利要求5所述的一种基于时间窗口的LDA微博主题趋势检测方法，其特征在于，所述第一获取模块包括：

划分子模块，用于将全局时间划分为若干时间窗口；

8.根据权利要求5所述的一种基于时间窗口的LDA微博主题趋势检测方法，其特征在于，所述第二获取模块包括：