CN107918611A

CN107918611A - 一种分析微博话题演化的模型

Info

Publication number: CN107918611A
Application number: CN201610878239.8A
Authority: CN
Inventors: 王振飞; 刘凯莉; 张利莹; 郑志蕴; 李钝
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2016-10-09
Filing date: 2016-10-09
Publication date: 2018-04-17

Abstract

本发明公开了一种分析微博话题演化的模型。话题演化研究有助于追踪用户的喜好和话题的发展趋势，对于舆情预警具有重要意义。目前话题演化方法注重运用话题生成模型实现话题演化分析，忽略了话题中时间因素。本发明以传统话题生成模型LDA为基础，将其扩展为微博话题生成模型MTLDA，MTLDA模型增加对背景词的考虑，提高话题生成的效率，同时将微博话题集进行时间片划分，利用KL距离计算相邻时间片话题距离，分析话题演化情况。以新浪微博数据为例，实验结果表明，MTLDA模型通过时间片划分，完成微博话题的生成，话题演化结果与实际情况吻合。

Description

一种分析微博话题演化的模型

技术领域

本发明涉及一种分析微博话题演化的模型，属于新闻传播与计算机技术的交叉领域。

背景技术

互联网、物联网的快速发展导致数据出现爆炸式增长，根据互联网数据中心的报告，2012年全球数据总量为2.7ZB，到2020年将达到35ZB，庞大的数据量宣告大数据时代的到来。医疗、交通、购物等各个领域都面临着大数据时代所带来的各种挑战。特别是社交网络的兴起，使得人们面临着更加庞大、复杂的数据，同时，社交网络大数据成为目前研究的重点。社交网络是指人与人之间，组织与组织之间进行的信息交流而形成的关系网。社交网络大数据具有较强的实时性和多样性，包含人们对于各种时事的看法，因此，社交网络大数据成为信息爆炸时代一个亟待研究的热点。

微博内容的实时性、多样性和庞大的用户数目使其成为热门的社交网络平台。微博通过点赞、评论、转发等丰富的参与方式吸引越来越多的使用者。微博话题的出现也将微博热度再度提升，微博用户通过微博话题实时参与各种社会现象的讨论。随着时间推移，人们对于话题的关注点也会发生变化，而及时掌握不同时刻的话题关注点，有助于追踪用户的喜好和掌握话题的发展趋势，同时对于某时刻演化出的敏感话题给予及时控制，对于社会舆情预警有很大的帮助。

发明内容

本发明的目的是提供一种分析微博话题演化的模型，以便更好的实现对微博话题发展趋势的掌握。

为实现上述目的，本发明实施例提供以下技术方案：

1微博话题数据抓取及预处理

1)去除停用词。将出现频率高，没有太大检索意义的词定义为停用词。将参与同一微博话题的用户所发表的微博评论抓取组合成一个文档，使用停用词表去除微博话题文档中的停用词。

2)对微博话题文档进行分词。采用中国科学院计算技术研究所研制的汉语词法分析系统(Institute of Computing Technology Chinese Lexical Analysis System，ICTCLAS)进行微博数据分词。

3)剔除垃圾用户发布的微博。结合用户的发布微博的周期频率、提及其他用户的比例、包含URL的比例、用户好友数目与其粉丝数目的比例这四个因素来判断是否为垃圾用户。

2微博话题主题获取模型

考虑到微博话题去除停用词之后仍旧存在一些背景词，对LDA模型进行改进，形成微博主题模型(MTLDA)，实现对微博话题演化的分析研究。微博主题模型过程是，首先按照微博话题将抓取到的微博组合成文档形式，对每一个文档d，以α为超参数，获得每个微博话题文档下子话题的多项式分布θ_i～Dir(α)；其次以β为超参数，将背景词考虑在内时，计算以γ为超参数的Dirichlet分布π～Dir(r)，获得对背景词的断定Y～Bernoulli(π)，若Y＝0，获得每个子话题下微博词的多项式分布通过多项式分布z_m，n～Mult(θ_m)，得到主题标签。最后根据主题标签，若Y≠1，利用多项分布得到该主题下的词分布；若Y＝1，则微博词的分布按照Ω～Dir(β₁)，根据得到的主题标签，利用多项分布w_m，n～Mult(Ω)得到该主题下的词分布。

进一步地，所述的微博话题发现方法为：

S1.超参数α，β，γ，β₁

S2.对于每一个微博话题z_i，θ_i～Dir(α)

S3.对于每一个微博话题文档d_i，z_m，n～Mult(θ_m)

S3.1.对于微博文档中的每一个词w_i，Y～Bernoulli(π)

S3.2.判断如果Y＝1，w_m，n～Mult(Ω)；否则，如果Y≠1，

S4.重复步骤S3，直到输出全部主题--词概率列表。

3KL距离

KL距离也叫相对熵，是衡量相同事件空间里的两个概率分布的相似情况。本文采用KL距离来对相邻时间片的微博话题进行衡量。设Z₁＝{w₁₁，w₁₂，…，w_1n}和Z₂＝{w₂₁，w₂₂，…，w_2n}是两个相邻时间片中的子话题，P(i)是子话题Z₁中第i个词的概率分布，Q(i)是Z₂子话题中第i个词的概率.两个话题的KL距离的计算方式如下：

由公式可推知，P(i)和Q(i)两个概率分布越接近，则两个话题的KL距离越小，说明两个话题越相近。两个相邻的时间片中，若上一个时间片t_i-1的话题与下一个时间片t_i的所有子话题之间KL距离都大于给定的阈值，则定义为新话题产生；若t_i-1的话题与t_i的所有子话题KL距离有大于给定的阈值，也有小于给定的阈值，则定义为子话题分裂。

附图说明

图1本发明基本流程图。

图2微博话题获取模型概率图

图3为某个时间片的5个话题的描述。

图4为传统模型LDA和本发明模型MTLDA模型的Perplexity值比较。

图5测试话题KL距离直方图。

图6某指定话题的演化分析。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

基本思想：本发明提供一种分析微博话题演化的模型，从新浪微博中抓取话题数据，将微博数据进行预处理并完成分词，接着讲背景词考虑到本发明是建模中，对传统的话题发现模型LDA进行改进，建立本发明的微博话题主题发现模型MTLDA，首先将数据按照划分为多个时间片，再将每个时间片中的微博数据输入到MTLDA模型中，得到每个时间片的主题，并利用KL距离计算相邻时间片的关系，最终根据相邻时间片的KL关系分析微博话题的演化情况。

本文采用八爪鱼抓取工具，以新浪微博热门话题板块的数据为原始数据集，抓取参与话题讨论的用户的用户名、发布微博内容、发布时间作为数据集元素。数据集是从2015年7月到2016年7月之间选择比较热门的30个话题，抓取的所有话题的内容以及微博用户参与讨论的内容。

按照去除停用词、分词、剔除垃圾用户的方法对微博话题数据集进行预处理。共抓取微博数据211393条，去除垃圾数据3358条，有效实验数据共208035条。包括30个微博热门话题，在这里只详细列出其中3个话题的数据信息，第一个话题“该不该赊借地铁票”共包含16012条参与讨论微博，除去500条垃圾用户发布的微博，剩余15512条为该话题内容。第二个话题“薛之谦搞笑背后的深情”共包含6645条，其中垃圾用户发布113条，该话题真实内容共6532条；第三个话题“生病未让座被骂快滚”共有13598条微博，垃圾用户发布的垃圾微博内容是378条，可用微博数据13220条。将这三个处理过的微博话题内容首先进行时间片划分，将时间片周期定为1天。然后循环将所有时间片中的微博话题内容输入MTLDA模型中进行微博话题提取；最后计算相邻时间片的微博话题内容的KL距离，判断微博话题的演化情况。

图1是本发明的基本流程图。首先本发明以新浪微博数据为研究数据，通过爬虫软件抓取数据，然后对数据进行预处理，完成数据的分析，垃圾数据的剔除等工作。根据传统的文本生成模型LDA，将其进行改进，加入对背景词的考虑，建立微博话题的主题发现模型MTLDA。将完成预处理的数据进行时间片划分，在每个时间片中按照MTLDA模型生成每个时间片的主题，计算相邻时间片主题的KL距离，通过KL距离的值来对话题演化情况进行分析。两个相邻的时间片中，若上一个时间片的话题与下一个时间片的所有子话题之间KL距离都大于给定的阈值，则定义为新话题产生；若上一个时间片的话题与下一个时间片的所有子话题KL距离有的大于给定的阈值，也有小于给定的阈值，则定义为子话题分裂。

图2是微博话题主题获取模型概率图。其中T为话题个数，N_d为第d个文档的单词个数，β是每个主题下词的多项分布的Dirichlet先验参数，α是每个文档下主题的多项分布的Dirichlet先验参数。z_m，n是第m个文档中第n个词的主题，w_m，n是m个文档中的第n个词。隐含变量和θ分别表示第m个文档下的Topic分布和第k个主题下词的分布。π是服从参数为r的Dirichlet分布，Y是服从π的伯努利分布。若Y＝0，从参数的多项分布抽取主题下的词；否则Y＝1，说明要判断的词是背景词，则从参数Ω的多项式分布抽取主题下的词。

由于LDA中的变量，θ_m和都是未知的隐含变量，需要根据观察到的文档集合中的词来学习估计的。为获取这些概率分布，本文采用Gibbs sampling间接求得θ_m和的值。

图3给出某个时间片的5个话题的描述。设置MTLDA模型参数为α＝1，β＝0.01，β₁＝0.01，T＝30。实验设定每个主题下的关键词取10个，将关键词按照MTLDA模型计算获得概率按照从大到小的顺序排序，提取排在前10位的关键词作为话题描述。将提取到包含30个主题的微博话题划分成10个时间片，在主题提取结果分析阶段，选择第一个时间片段的微博话题作为研究对象。根据各个主题对应的关键词可以看出，Topic1是关于“该不该赊借地铁票”，Topic2是描述“薛之谦搞笑背后的深情”的主题，Topic3是关于“生病未让座被骂快滚”的主题，Topic4是对于“地铁5号线小偷被暴揍”的展示，Topic5是主题“鹰爸开学堂，培养13岁上清华的神童”。将主题提取结果与人工标注的经过进行比较，MTLDA微博主题提取模型的效果与人工标注真实情况基本一致。

图4给出传统模型LDA和本发明模型MTLDA模型的Perplexity值比较。

对比MTLDA模型和传统的主题生成模型LDA，采用Perplexity指标对结果进行评估。perplexity是一种信息理论的测量方法，一个量b的perplexity值定义为基于该量熵的能量(b可以是一个概率分布，或者概率模型)，通常用于概率模型的比较。Perplexity指标的值越小则表示性能越好。Perplexity的定义如公式。

其中，表示文本集，表示文本集中第个词，表示文本集中词的数量。

实验设定在相同的迭代次数下，传统文本生成模型LDA和微博主题生成模型MTLDA的Perplexity指标进行比较，比较结果如表。

由图4可以看出，MTLDA模型在迭代次数逐渐增大的过程中，相比于传统的文本生成模型，Perplexity值一直处于较小的水平，说明相对于传统的主题生成模型，本文微博话题主题抽取模型有较好的性能。

图5是话题KL距离直方图。本发明针对话题“‘鹰爸’开学堂，培养13岁上清华的‘神童’”，给出其各时间片间的KL距离。通过计算相邻时间片间话题的KL距离来描述某话题随着时间变化的话题演化。根据研究，本文定义一个给定的KL距离阈值，当计算出的相邻时间片话题之间的KL距离的值大于给定的阈值，我们则称为新话题的产生。

图6是指定话题的演化分析。通过KL距离图和话题描述表可以看出该话题的演化情况。在话题刚出现的时候，话题的重心主要集中在对“鹰爸”的教育和孩子的意愿的讨论上，在话题发展到第3个时间片的时候，开始出现新的话题，即孩子将来是否会脱离社会，而在话题发展到第7个时间片的时候出现基于现代教育的讨论的新话题。

上述描述仅作为本发明可实施的技术方案提出，不作为对其技术方案本身的单一限制条件。

Claims

1.一种分析微博话题演化的模型，其特征在于，包括以下步骤：

1)微博话题数据的抓取及预处理；

2)建立微博话题主题获取模型MTLDA；

3)将数据划分时间片，在每个时间片利用MTLDA模型完成每个时间片微博话题的主题发现。

4)计算相邻时间片的KL距离，分析话题的演化情况。

2.根据权利1所述的分析微博话题演化模型，其特征在于，所述的数据抓取及预处理通过以下方法获得：

3.根据权利1所述的分析微博话题演化模型，其特征在于，所述的建立微博话题主题发现模型的方法通过以下方法获得：

S1.设定超参数α，β，γ，β₁

S2.对于每一个微博话题z_i，θ_i～Dir(α)

S3.对于每一个微博话题文档d_i，z_m，n～Mult(θ_m)

S3.1.对于微博文档中的每一个词w_i，Y～Bernoulli(π)

S3.2.判断如果Y＝1，w_m，n～Mult(Ω)；否则，如果Y≠1，

S4.重复步骤S3，直到输出全部主题--词概率列表。

4.根据权利1所述的分析微博话题演化模型，其特征在于，所述的计算相邻时间片的KL距离的方法通过以下方法获得：

KL距离也叫相对熵，是衡量相同事件空间里的两个概率分布的相似情况。本文采用KL距离来对相邻时间片的微博话题进行衡量。设Z₁＝{w₁₁，w₁₂，…，w_1n}和Z₂＝{w₂₁，w₂₂，…，w_2n}是两个相邻时间片中的子话题，P(i)是子话题Z₁中第i个词的概率分布，Q(i)是Z₂子话题中第i个词的概率，两个话题的KL距离公式为：

<mrow> <mi>D</mi> <mrow> <mo>(</mo> <mi>P</mi> <mo>|</mo> <mo>|</mo> <mi>Q</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <mi>l</mi> <mi>n</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>Q</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow>