CN104991956A

CN104991956A - 基于主题概率模型的微博传播群体划分与账户活跃度评估方法

Info

Publication number: CN104991956A
Application number: CN201510431015.8A
Authority: CN
Inventors: 刘琰; 陈静; 尹美娟; 罗军勇; 常斌; 王煦中; 丁文博; 温玉辉
Original assignee: PLA Information Engineering University
Current assignee: PLA Information Engineering University
Priority date: 2015-07-21
Filing date: 2015-07-21
Publication date: 2015-10-21
Anticipated expiration: 2035-07-21
Also published as: CN104991956B

Abstract

本发明涉及基于主题概率模型的微博传播群体划分与活跃度评估方法，有效解决按传播群体划分，将参与微博话题传播的账户划分为多个群组，量化每个群组中活跃的微博账户，方法是，以特定事件的关键词为基础，获取微博具体文本信息以及参与微博传播的账户集合，以单个微博的文本内容以及参与微博的账户集合输入，构造参与人员表，对样本库中的每一条微博基于主题概率生成模型，从构建的词汇表和参与人员表中根据模型中的群体-主题，主题-词以及群体-人抽样出词和参与人员，采用吉布斯抽样的方法进行计算，采用归并排序算法对每个主题下所包含的单词以及每个群体中所包含的人进行排序，本发明方法简单，及时掌握微博热点、情感倾向和舆论引导。

Description

基于主题概率模型的微博传播群体划分与账户活跃度评估方法

技术领域

本发明涉及微博舆情监控领域，特别是基于主题概率模型自动划分在微博传播过程中具有相似主题的群体的一种基于主题概率模型的微博传播群体划分与账户活跃度评估方法。

背景技术

近年来，微博凭借着快速便捷等特性成为了网民获取新闻时事、自我表达以及社会参与的重要媒介，同时也成为了社会公共舆论、企业品牌和产品推广的重要平台。微博中的话题更是成为了公众参与和获取社会焦点事件、综艺娱乐节目推广等的主要手段。

微博传播是一把双刃剑：一方面，微博为一些社会事件中的信息公开提供了一个快速响应的平台，它在一定程度上弥补了传统媒体和其他网络工具的不足。用户可以通过#话题名#创建或者参与到特定话题的讨论中去。例如，在两会期间，由人民日报创建起来的#2015两会#，由央视新闻创建的#微博看两会#和由用户为微博新鲜事创建的#两会#，这三个话题在两会期间成为了热门的话题，以微博看两会该话题为例，其中有2.9万微博账户关注了该话题，约有65万人参与到了该话题的讨论当中去；另一方面，微博不同于传统新闻媒体，其新闻的发布存在重复性，且真实性无法保证，可能会被利用成为谣言传播的载体、不满情绪的导火索，甚至给国家安全和社会稳定造成极坏的后果。

当新的热点事件出现后，政府部门需要及时掌握热点事件的主题、参与者以及舆论的情感倾向，以便对后期的舆论引导具备快速响应能力。另外为了防止团伙利用话题进行虚假信息扩散或者负面不良情绪煽动，政府部门需要掌握与特定事件相关的微博传播中具有不同主题情感倾向性的群体。

因此，面向新兴媒体，针对微博平台中的热门话题开展传播群体分析、主题挖掘、情感倾向分析以及活跃账户识别，对于发现、预测、引导网络舆论，提高政府舆论监管能力，维护社会和谐稳定具有重要的理论价值和现实意义。

为了解决上述问题，与本发明相关的技术主要涉及到社团发现领域，目前社团发现的方法有很多，最早Girav和Newman提出了一种基于中间度概念的社团发现算法。由于社会网络的发展，社区结构开始出现彼此包含的关系，一些重叠社团发现算法相应提了出来，除此之外，近几年也开始出现了关于动态社区发现算法的研究，这些社团发现方法研究的出发点是社会网络中节点关系属性。该类研究忽略了社会网络中存在的语义信息。2003年，Blei提出了LDA模型，认为文档是多个主题的概率分布。2004年，Syeyver等人认为主题是多个关键词的概率分布，用户也以某种概率分布对多个主题感兴趣，并提出AT模型，发现用户、文档、主题和关键词之间的关系。Zhou等人在AT模型中加入了user分布取样，提出了CUT模型。但是，上面的方法只考虑到了文本内容忽略了用户联系的重要性，为此，不少学者提出结合语义信息和社会联系的社团发现方法。而微博中含有大量的用户与微博文本的交互信息，参与用户具有不同的行为表现，直接应用现有的社团方法解决微博话题中传播人群的划分并不合适，需要对微博的特有性质进一步考虑并优化算法。

发明内容

针对上述情况，为克服现有技术之缺陷，本发明之目的就是提供一种基于主题概率模型的微博传播群体划分与活跃度评估方法，可有效解决按传播群体划分，将参与微博话题传播的账户划分为多个群组，同时量化每个群组中活跃的微博账户。

本发明解决的技术方案是，包括以下步骤：

(1)与特定事件相关的微博样本搜集：以特定事件的关键词为基础，基于爬虫技术或微博公共开放平台获取微博具体文本信息以及参与微博传播的账户集合，其中包括微博的原创账户集合，转发账户集合以及评论账户集合；

(2)微博样本库中词汇表和参与人员表的构建：以单个微博的文本内容以及参与微博的账户集合输入，首先利用中科院中文分词系统对微博文本进行分词，将微博文本表示成多个关键词的形式，近而形成微博样本库上的词汇表；其次采用分割的方法，原理与分词相同，构造参与人员表；

(3)主题概率模型生成：对样本库中的每一条微博d，d＝1,2,…,D，基于主题概率生成模型，为每一篇微博文本赋予一个群体编号，然后基于被赋予的群体编号，从构建的词汇表和参与人员表中根据模型中的群体-主题，主题-词以及群体-人抽样出词和参与人员；

(4)模型中的参数计算：采用吉布斯抽样的方法对模型中的群体-人员分布，群体-主题分布，群体-人员-行为分布，群体-情感分布以及主题-词分布进行计算，由于参与热门事件的微博传播的账户数目大都以万计，因此采用归并排序算法对每个主题下所包含的单词以及每个群体中所包含的人进行排序，以找到群体中活跃度高的参与者以及最能代表主题的单词。

本发明方法计算复杂性较低，能够在有限次迭代后划分社团，揭示主题，并同时量化社团中参与账户的活跃度，对于及时掌握微博热点、情感倾向和舆论引导，具有实际的应用价值。

附图说明

图1为本发明流程框示图。

图2为本发明的炒作微博事务数据库示意图。

图3为本发明中符号定义说明图。

图4为本发明实验中不同话题的perplexity的值示意图。

图5为本发明实验中两会话题数据集中的主要社团(K＝25,C＝10)示意图。

图6为本发明关于两会的社团的主题分布的实验结果图。

图7为本发明实验中社团2和社团10中相对活跃的用户行为比较图。

具体实施方式

以下结合附图对本发明的具体实施方式作详细说明。

由图1给出，本发明包括与特定事件相关的微博样本采集和预处理、主题概率模型生成以及模型的推导和参数设计部分，微博样本采集和预处理模块主要负责采集与特定事件相关的微博和参与账户，对微博内容进行分词和去停用词，判断微博文本的情感极性；主题概率模型生成模块改进传统单纯面向主题的LDA模型，将微博账户情感极性、微博转发关系因素加入模型，并增加社团层面的建模；模型的推导和参数设计模块通过多次迭代得到社团、每个社团中相对比较活跃的用户及其行为模式，具体步骤是：

1)、与事件相关的微博样本采集：

与特定事件的相关微博样本应当具有相关性，包括能够描述特定事件的关键词的微博或具有相同的HashTag的微博及其相关转发和评论微博，微博样本的采集基于宽度优先搜索获取与特定事件相关的微博及其转发和评论微博，采用爬虫技术，首先根据网页链接下载微博网页、解析页面结构并提取微博文本信息及其他能够描述微博的元数据信息，以获取的微博为起点，对其相关的转发微博及其评论微博和参与微博的传播的账户信息，同样利用爬虫技术，获取相关数据；或是调用新浪公共开放平台，调用微博官方对外提供的API函数获取微博文本信息及参与其传播的账户的信息，为有利于对事件传播中的群体划分，在选取微博样本时遵循的原则为：选取转发数和评论数不为0的微博；

样本搜集的内容应包括微博表示号、微博文本内容、微博账户标识号，参与微博传播的账户集合；

2)、微博样本库中词汇表和参与人员表的构建：

由于原始微博样本文字比较随意，在建模前要对微博样本数据进行预处理将微博文本转换成关键词集合的表述形式，同时构建基于样本库的词汇表和参与人员表，判断每个微博样本的情感极性，情感极性分为三种：积极的，消极的和中性的：

(1)文本分词，利用正则表达式去除文本中的无用的HTML标签，然后利用中科院中文分词系统ICTCLAS，对文本进行分词，将微博文本转化成词向量；

(2)基于(台湾大学整理发布的NTUSD)情感词典对微博文本进行情感极性判定,考虑到普适的情感词典缺少专门针对微博的情感词汇和表情符号，而微博文本中经常出现微博平台提供的表情符来表达博主的情感(例如：表示赞，是积极情感的表达，表示鄙视，是消极情感的表达)，在普适情感词典的基础之上添加微博表情符，将微博的表情符转化成对应的情感语义词；

(3)去除停用词，停用词主要指得是代词和表示时间的常用词，可以采用基于停用词字典的方法将停用词去除，当去除停用词后，微博内容为空，则舍去这样的微博；

(4)构建样本库中的词汇表，首先初始化一个词典，包括两个内容：词的编号和具体的词；以每条微博的词向量为起点，依次查询词向量中的关键词，是否存在于词典中；当存在，则将具体的词转化成词典对应的编号；当不存在，则将词添加到词典当中去，同时将词向量中具体的词转化成词典对应的编号；重复以上步骤，直到样本库中的每篇文本遍历完为止，并构建样本库中的参与人员表；

2)主题概率模型生成：

对样本库中的每一条微博d，d＝1,2,…,D，基于主题概率生成模型，为每一篇微博文本赋予一个群体编号，然后基于被赋予的群体编号，从构建的词汇表中抽样出词汇：

本发明构建基于主题概率的社团发现模型如图2所示；

(1)模型中的变量：

模型中有两种变量，即在样本库中实际可观察到的变量和隐含在样本库中的变量，其中隐含变量：社团C(1,2,…,M)和话题Z(1,2，…,K)，可观察到的变量：文档中出现的单词W；共享这篇文档的用户集合u；用户共享这篇文档的行为方式b；文档的情感极性l；

(2)模型中的超参数：

γ表示社团成员行为分布的狄利克雷分布的超参数；

δ表示社团成员活跃度的狄利克雷分布的超参数；

μ表示社团的活跃度狄利克雷分布的超参数；

β表示主题词分布的狄利克雷分布的超参数；

α表示社团主题分布的狄利克雷分布的超参数；

ε表示不同情感极性在社团中权重的狄利克雷分布的超参数；

(3)参数：

当有K个隐含主题时，Dir(·)表示狄利克雷分布，词汇表中分配给主题K的单词的概率，服从Dir(β),k＝1,2,...,K；

当有M个社团和S个情感极性，每个社团与四个参数有关：话题矩阵θ，用户的参与矩阵λ，社团情感矩阵π，用户在社团中行为矩阵η，在社团m中(m＝1,2，…,M)：

·θ_m表示社团m的主题分布，代表不同主题在社团m中的权重，

·λ_m表示不同用户在社团m中的活跃度矩阵，λ_m|δ～Dir(δ)；

·π_m表示不同情感极性在社团m中权重，π_m|ε～Dir(ε)；

·η_m,p表示社团m中成员p的行为分布，η_m,p|γ～Dir(γ)；

ψ表示的在整个语料库中社团的活跃度，ψ|μ～Dir(μ)；

对于语料库中的每一篇文档d，d＝1,2,…,D生成过程如下(Mult(·)表示多项式分布)：

1.为文档d分配一个社团c_d：c_d|ψ～Mult(ψ)

2.当有U_d用户共享文档d时，设p＝1,2,…,U_d。对于每一个与文档d相关的用户U_d,p，生成过程如下：

a.从社团cd的参与矩阵中抽取用户U_d,p：U_d,p|λ,c_d～Mult(λ_cd)

b.选择用户U_d,p的一个行为模式，

3.当一篇文档有N_d个词汇，对于在文档d中的每个词汇w_d,n(n＝1,2,…,N_d),生成过程如下：

a.从第c_d个社团的主题矩阵中抽样一个主题：

b.根据抽样出的主题z_d,n，从主题单词分布中抽样出一个单词：

4.从c_d社团的情感矩阵中抽取一个情感极性：l_d|π,c_d～Mult(π_cd)

由上可知，BP-STC的联合概率分布如式(1)所示：

p(u,c,z,l,w|δ,μ,β,ε,α)

＝p(u|c,λ)p(c|ψ)p(z|c,θ)p(l|c,π)p(w|z,φ)

p(λ|δ)p(ψ|μ)p(θ|α)p(π|γ)p(φ|β) 式(1)；

3)模型的推导和参数计算：

模型的训练与推导采用吉布斯抽样的方法，在模型中，一篇文本只能被分配给一个社团，为了方便模型的推导，模型的参数如图3所示：

对于一篇文档d，分配给它的社团的后验条件概率为：

\begin{matrix} P (c_{d} = m | c_{- d}, u, z, l, w) \\ &Proportional; \frac{D_{m}^{- d} + μ_{m}}{Σ_{j = 1}^{M} μ_{j} + D - 1} \times \frac{\underset{k &Element; z_{d}}{Π} Π_{i = 0}^{S_{d, k}} (α_{k} + n_{m, k}^{- d} + i)}{Π_{i = 0}^{S_{d} - 1} (Σ_{k = 1}^{K} α_{k} + n_{m, k}^{- d} + i)} \\ \times \frac{Π_{s &Element; l_{d}} (D_{m, s}^{- d} + ϵ_{s})}{Σ_{s = 1}^{S} ϵ_{s} + D_{m} - 1} \times \frac{Π_{p &Element; u_{d}} (δ_{p} + h_{m, p}^{- d})}{Π_{i = 0}^{e_{d} - 1} (Σ_{p = 1}^{P} δ_{p} + h_{m, p}^{- d} + i)} \end{matrix}

式(2)

其中，表示被分配给社团m的总的文档的数目，除文档d，D表示文档的总数目，表示出现在社团m的文档中并分配给主题k的单词的总数，除文档d，Z_d表示文档d的主题的集合，S_d,k表示文档d中分配给主题K的单词总数，社团m中属于情感极性s的总的文档的数目，l_d表示文档d的情感极性的集合，表示用户p参与社团m的次数除了在d篇文档中出现的次数，u_d表示参与文档d交互的用户的集合，e_d表示参与文档d交互的总的人数；

当文档d分配给社团c_d时，文档d中的第i个单词，它的隐含主题的z_d,i的条件后验概率如下：

\begin{matrix} P (z_{t} = j | w, z - t c_{d}) \\ &Proportional; \frac{n_{c_{d}, k}^{- t} + α_{k}}{Σ_{k = 1}^{K} n_{c_{d}, k}^{- t} + α_{k}} \times \frac{n_{k, v}^{- t} + β_{v}}{Σ_{v = 1}^{V} n_{k, v}^{- t} + β_{v}} \end{matrix}

式(3)

其中，t表示文档d中第i个单词，z_t表示文档d中第i个单词被分配的主题。

对上面的式(2)和式(3)反复的迭代，最终达到抽样结果稳定状态，每个参数从最后稳定状态进行计算：

ψ_{m} = \frac{D_{m} + μ_{m}}{Σ_{m = 1}^{M} μ_{m} + D}

λ_{m, p} = \frac{h_{m, p} + δ_{p}}{Σ_{p = 1}^{P} h_{m, p} + δ_{p}}

η_{m, p, b} = \frac{h_{m, p, b} + γ_{b}}{Σ_{p = 1}^{P} Σ_{b = 1}^{B} h_{m, p, b} + γ_{b}}

θ_{m, k} = \frac{n_{m, k} + α_{k}}{Σ_{k = 1}^{K} n_{m, k} + α_{k}}

π_{m, s} = \frac{D_{m, s} + ϵ_{s}}{Σ_{s = 1}^{S} ϵ_{s} + D_{m}}

Φ_{k, v} = \frac{n_{k, v} + β_{v}}{Σ_{v = 1}^{V} β_{v} + n_{k, v}}

至此，模型通过吉布斯求解出微博样本库中社团活跃度ψ，以及每个参与社团的用户活跃度λ，每个社团中感兴趣的话题分布θ，情感分布π和社团中每个用户的行为分布η。采用归并排序算法对每个主题下所包含的单词Φ_k,v以及每个群体中所包含的人λ_m,p进行排序，以找到群体中活跃度高的参与者以及最能代表主题的单词，同时可以根据η_m,p,b来描述社团中活跃度高的用户的行为表现，从而实现基于主题概率模型的微博传播群体划分与账户活跃度评估。

本发明方法通过少量迭代就可以对参与微博话题的人群进行社团划分，同时挖掘每个主题社团中的活跃账户，经实际试用，该方法稳定可靠，具有实际的应用价值，有关资料如下：

1)数据集：

数据集是关于新浪微博平台上与特定事件相关的微博。该数据集收集了2015年两会期间的与两会相关的微博。从2015年3月1日到2015年3月15日发布的与两会相关的所有微博。将那些没有任何与用户交互的微博以及经过预处理以后微博内容为空的微博从数据集中过滤掉，最后共有7728条微博作为实验数据(其中包含了69849个联系人)，对参与两会讨论的用户进行社团挖掘以及行为与情感上的分析。

2)参数C和参数K的取值分析：

在本发明构建的主题概率模型中，超参数值设置为：α＝50/kβ＝δ＝γ＝μ＝0.1。其中主题数目K和社团数目C的设置是采用计算perplexity的值来确定，，其中Perplexity值越小表明选取的K值越优。模型中perplexity的公式如下：

p e r l e x i t y (W) = \exp {\frac{\underset{m}{Σ} l n (w_{m} | w)}{\underset{m}{Σ} N_{m}}}

式(4)

其中，N_m表示分配给社团m中的单词的总的数目，w为测试集，w_m为观测到被分配给社团m的单词。图4展示了社团C＝10取不同的K值，perplexity的值的变化趋势，随着K的增加刚开始是下降，到K＝25时下降到最低点，随后出现平缓上升的趋势。

3)社团分布展示与分析：

基于本发明提出的模型进行划分出的社团，不仅具有主题倾向性，同时也能够挖掘出情感极性的分布以及计算出参与社团的人员的活跃度及其在社团上的行为分布，挖掘出的主要社团的信息展示包社团的活跃度，社团的主题分布，社团参与人员的活跃度以及社团情感极性分布。

由图5可知，在新浪平台上两会期间用户讨论比较热烈的是关于退休年龄延迟，反腐工作，医疗保险以及立法修改等方面的主题。同时可以观察到关于这些主题的讨论的情感倾向，积极的要高于消极的。由于央视新闻是微博看两会话题的主持人，央视新闻应当参与了每个具有不同主题倾向性的社团的讨论中，且在社团中是相对比较活跃的。由此验证了本发明提出的本发明所述模型的正确性。从图5和图6中都可以看到主题20包含在每个社团中，原因是主题20中所包含的词汇是两会话题讨论中经常出现的词汇。

模型除挖掘社团以及社团活跃人物之外，还能够挖掘出参与人员在社团中的行为分布。图7以社团2和社团10为例，展示的在社团中相对比较活跃的用户的行为分布。

图7中参与用户分为两种类型，媒体用户如央视新闻，正义网，人民日报，普通用户如要求祝，吴小杰，幸福快乐一生、好人穷追不舍。可以观察到媒体用户在社团中行为多为原创，而普通用户则多为转发与评论，同时媒体用户行为相对比较均匀，而普通用户则行为相对比较极端。在两会话题的讨论中，信息源头是媒体用户，普通用户对话题信息进行了传播。为了进一步验证模型的正确性，人工观察了社团2中要求祝(微博昵称)在两会期间的微博，发现其两会期间之所以在社团2中转发大量关于法律方面的微博是因为其妻子因意外死亡而肇事者没有赔偿，希望得到法律保护，利用两会话题讨论希望能引起社会关注，具有很强的实用价值，经济和社会效益巨大。

Claims

1.一种基于主题概率模型的微博传播群体划分与账户活跃度评估方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于主题概率模型的微博传播群体划分与账户活跃度评估方法，其特征在于，包括以下步骤：