CN104991956A - 基于主题概率模型的微博传播群体划分与账户活跃度评估方法 - Google Patents
基于主题概率模型的微博传播群体划分与账户活跃度评估方法 Download PDFInfo
- Publication number
- CN104991956A CN104991956A CN201510431015.8A CN201510431015A CN104991956A CN 104991956 A CN104991956 A CN 104991956A CN 201510431015 A CN201510431015 A CN 201510431015A CN 104991956 A CN104991956 A CN 104991956A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- microblog
- msubsup
- community
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 9
- 230000005540 biological transmission Effects 0.000 title abstract 5
- 238000000034 method Methods 0.000 claims abstract description 42
- 230000002996 emotional effect Effects 0.000 claims abstract description 24
- 238000005070 sampling Methods 0.000 claims abstract description 15
- 238000009826 distribution Methods 0.000 claims description 58
- 230000008451 emotion Effects 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000009795 derivation Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000003542 behavioural effect Effects 0.000 claims description 3
- 244000097202 Rathbunia alamosensis Species 0.000 claims description 2
- 235000009776 Rathbunia alamosensis Nutrition 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 claims description 2
- 230000007935 neutral effect Effects 0.000 claims description 2
- 230000007480 spreading Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims 1
- 230000006399 behavior Effects 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 230000037007 arousal Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- WABPQHHGFIMREM-UHFFFAOYSA-N lead(0) Chemical compound [Pb] WABPQHHGFIMREM-UHFFFAOYSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于主题概率模型的微博传播群体划分与活跃度评估方法,有效解决按传播群体划分,将参与微博话题传播的账户划分为多个群组,量化每个群组中活跃的微博账户,方法是,以特定事件的关键词为基础,获取微博具体文本信息以及参与微博传播的账户集合,以单个微博的文本内容以及参与微博的账户集合输入,构造参与人员表,对样本库中的每一条微博基于主题概率生成模型,从构建的词汇表和参与人员表中根据模型中的群体-主题,主题-词以及群体-人抽样出词和参与人员,采用吉布斯抽样的方法进行计算,采用归并排序算法对每个主题下所包含的单词以及每个群体中所包含的人进行排序,本发明方法简单,及时掌握微博热点、情感倾向和舆论引导。
Description
技术领域
本发明涉及微博舆情监控领域,特别是基于主题概率模型自动划分在微博传播过程中具有相似主题的群体的一种基于主题概率模型的微博传播群体划分与账户活跃度评估方法。
背景技术
近年来,微博凭借着快速便捷等特性成为了网民获取新闻时事、自我表达以及社会参与的重要媒介,同时也成为了社会公共舆论、企业品牌和产品推广的重要平台。微博中的话题更是成为了公众参与和获取社会焦点事件、综艺娱乐节目推广等的主要手段。
微博传播是一把双刃剑:一方面,微博为一些社会事件中的信息公开提供了一个快速响应的平台,它在一定程度上弥补了传统媒体和其他网络工具的不足。用户可以通过#话题名#创建或者参与到特定话题的讨论中去。例如,在两会期间,由人民日报创建起来的#2015两会#,由央视新闻创建的#微博看两会#和由用户为微博新鲜事创建的#两会#,这三个话题在两会期间成为了热门的话题,以微博看两会该话题为例,其中有2.9万微博账户关注了该话题,约有65万人参与到了该话题的讨论当中去;另一方面,微博不同于传统新闻媒体,其新闻的发布存在重复性,且真实性无法保证,可能会被利用成为谣言传播的载体、不满情绪的导火索,甚至给国家安全和社会稳定造成极坏的后果。
当新的热点事件出现后,政府部门需要及时掌握热点事件的主题、参与者以及舆论的情感倾向,以便对后期的舆论引导具备快速响应能力。另外为了防止团伙利用话题进行虚假信息扩散或者负面不良情绪煽动,政府部门需要掌握与特定事件相关的微博传播中具有不同主题情感倾向性的群体。
因此,面向新兴媒体,针对微博平台中的热门话题开展传播群体分析、主题挖掘、情感倾向分析以及活跃账户识别,对于发现、预测、引导网络舆论,提高政府舆论监管能力,维护社会和谐稳定具有重要的理论价值和现实意义。
为了解决上述问题,与本发明相关的技术主要涉及到社团发现领域,目前社团发现的方法有很多,最早Girav和Newman提出了一种基于中间度概念的社团发现算法。由于社会网络的发展,社区结构开始出现彼此包含的关系,一些重叠社团发现算法相应提了出来,除此之外,近几年也开始出现了关于动态社区发现算法的研究,这些社团发现方法研究的出发点是社会网络中节点关系属性。该类研究忽略了社会网络中存在的语义信息。2003年,Blei提出了LDA模型,认为文档是多个主题的概率分布。2004年,Syeyver等人认为主题是多个关键词的概率分布,用户也以某种概率分布对多个主题感兴趣,并提出AT模型,发现用户、文档、主题和关键词之间的关系。Zhou等人在AT模型中加入了user分布取样,提出了CUT模型。但是,上面的方法只考虑到了文本内容忽略了用户联系的重要性,为此,不少学者提出结合语义信息和社会联系的社团发现方法。而微博中含有大量的用户与微博文本的交互信息,参与用户具有不同的行为表现,直接应用现有的社团方法解决微博话题中传播人群的划分并不合适,需要对微博的特有性质进一步考虑并优化算法。
发明内容
针对上述情况,为克服现有技术之缺陷,本发明之目的就是提供一种基于主题概率模型的微博传播群体划分与活跃度评估方法,可有效解决按传播群体划分,将参与微博话题传播的账户划分为多个群组,同时量化每个群组中活跃的微博账户。
本发明解决的技术方案是,包括以下步骤:
(1)与特定事件相关的微博样本搜集:以特定事件的关键词为基础,基于爬虫技术或微博公共开放平台获取微博具体文本信息以及参与微博传播的账户集合,其中包括微博的原创账户集合,转发账户集合以及评论账户集合;
(2)微博样本库中词汇表和参与人员表的构建:以单个微博的文本内容以及参与微博的账户集合输入,首先利用中科院中文分词系统对微博文本进行分词,将微博文本表示成多个关键词的形式,近而形成微博样本库上的词汇表;其次采用分割的方法,原理与分词相同,构造参与人员表;
(3)主题概率模型生成:对样本库中的每一条微博d,d=1,2,…,D,基于主题概率生成模型,为每一篇微博文本赋予一个群体编号,然后基于被赋予的群体编号,从构建的词汇表和参与人员表中根据模型中的群体-主题,主题-词以及群体-人抽样出词和参与人员;
(4)模型中的参数计算:采用吉布斯抽样的方法对模型中的群体-人员分布,群体-主题分布,群体-人员-行为分布,群体-情感分布以及主题-词分布进行计算,由于参与热门事件的微博传播的账户数目大都以万计,因此采用归并排序算法对每个主题下所包含的单词以及每个群体中所包含的人进行排序,以找到群体中活跃度高的参与者以及最能代表主题的单词。
本发明方法计算复杂性较低,能够在有限次迭代后划分社团,揭示主题,并同时量化社团中参与账户的活跃度,对于及时掌握微博热点、情感倾向和舆论引导,具有实际的应用价值。
附图说明
图1为本发明流程框示图。
图2为本发明的炒作微博事务数据库示意图。
图3为本发明中符号定义说明图。
图4为本发明实验中不同话题的perplexity的值示意图。
图5为本发明实验中两会话题数据集中的主要社团(K=25,C=10)示意图。
图6为本发明关于两会的社团的主题分布的实验结果图。
图7为本发明实验中社团2和社团10中相对活跃的用户行为比较图。
具体实施方式
以下结合附图对本发明的具体实施方式作详细说明。
由图1给出,本发明包括与特定事件相关的微博样本采集和预处理、主题概率模型生成以及模型的推导和参数设计部分,微博样本采集和预处理模块主要负责采集与特定事件相关的微博和参与账户,对微博内容进行分词和去停用词,判断微博文本的情感极性;主题概率模型生成模块改进传统单纯面向主题的LDA模型,将微博账户情感极性、微博转发关系因素加入模型,并增加社团层面的建模;模型的推导和参数设计模块通过多次迭代得到社团、每个社团中相对比较活跃的用户及其行为模式,具体步骤是:
1)、与事件相关的微博样本采集:
与特定事件的相关微博样本应当具有相关性,包括能够描述特定事件的关键词的微博或具有相同的HashTag的微博及其相关转发和评论微博,微博样本的采集基于宽度优先搜索获取与特定事件相关的微博及其转发和评论微博,采用爬虫技术,首先根据网页链接下载微博网页、解析页面结构并提取微博文本信息及其他能够描述微博的元数据信息,以获取的微博为起点,对其相关的转发微博及其评论微博和参与微博的传播的账户信息,同样利用爬虫技术,获取相关数据;或是调用新浪公共开放平台,调用微博官方对外提供的API函数获取微博文本信息及参与其传播的账户的信息,为有利于对事件传播中的群体划分,在选取微博样本时遵循的原则为:选取转发数和评论数不为0的微博;
样本搜集的内容应包括微博表示号、微博文本内容、微博账户标识号,参与微博传播的账户集合;
2)、微博样本库中词汇表和参与人员表的构建:
由于原始微博样本文字比较随意,在建模前要对微博样本数据进行预处理将微博文本转换成关键词集合的表述形式,同时构建基于样本库的词汇表和参与人员表,判断每个微博样本的情感极性,情感极性分为三种:积极的,消极的和中性的:
(1)文本分词,利用正则表达式去除文本中的无用的HTML标签,然后利用中科院中文分词系统ICTCLAS,对文本进行分词,将微博文本转化成词向量;
(2)基于(台湾大学整理发布的NTUSD)情感词典对微博文本进行情感极性判定,考虑到普适的情感词典缺少专门针对微博的情感词汇和表情符号,而微博文本中经常出现微博平台提供的表情符来表达博主的情感(例如:表示赞,是积极情感的表达,表示鄙视,是消极情感的表达),在普适情感词典的基础之上添加微博表情符,将微博的表情符转化成对应的情感语义词;
(3)去除停用词,停用词主要指得是代词和表示时间的常用词,可以采用基于停用词字典的方法将停用词去除,当去除停用词后,微博内容为空,则舍去这样的微博;
(4)构建样本库中的词汇表,首先初始化一个词典,包括两个内容:词的编号和具体的词;以每条微博的词向量为起点,依次查询词向量中的关键词,是否存在于词典中;当存在,则将具体的词转化成词典对应的编号;当不存在,则将词添加到词典当中去,同时将词向量中具体的词转化成词典对应的编号;重复以上步骤,直到样本库中的每篇文本遍历完为止,并构建样本库中的参与人员表;
2)主题概率模型生成:
对样本库中的每一条微博d,d=1,2,…,D,基于主题概率生成模型,为每一篇微博文本赋予一个群体编号,然后基于被赋予的群体编号,从构建的词汇表中抽样出词汇:
本发明构建基于主题概率的社团发现模型如图2所示;
(1)模型中的变量:
模型中有两种变量,即在样本库中实际可观察到的变量和隐含在样本库中的变量,其中隐含变量:社团C(1,2,…,M)和话题Z(1,2,…,K),可观察到的变量:文档中出现的单词W;共享这篇文档的用户集合u;用户共享这篇文档的行为方式b;文档的情感极性l;
(2)模型中的超参数:
γ表示社团成员行为分布的狄利克雷分布的超参数;
δ表示社团成员活跃度的狄利克雷分布的超参数;
μ表示社团的活跃度狄利克雷分布的超参数;
β表示主题词分布的狄利克雷分布的超参数;
α表示社团主题分布的狄利克雷分布的超参数;
ε表示不同情感极性在社团中权重的狄利克雷分布的超参数;
(3)参数:
当有K个隐含主题时,Dir(·)表示狄利克雷分布,词汇表中分配给主题K的单词的概率,服从Dir(β),k=1,2,...,K;
当有M个社团和S个情感极性,每个社团与四个参数有关:话题矩阵θ,用户的参与矩阵λ,社团情感矩阵π,用户在社团中行为矩阵η,在社团m中(m=1,2,…,M):
·θm表示社团m的主题分布,代表不同主题在社团m中的权重,
·λm表示不同用户在社团m中的活跃度矩阵,λm|δ~Dir(δ);
·πm表示不同情感极性在社团m中权重,πm|ε~Dir(ε);
·ηm,p表示社团m中成员p的行为分布,ηm,p|γ~Dir(γ);
ψ表示的在整个语料库中社团的活跃度,ψ|μ~Dir(μ);
对于语料库中的每一篇文档d,d=1,2,…,D生成过程如下(Mult(·)表示多项式分布):
1.为文档d分配一个社团cd:cd|ψ~Mult(ψ)
2.当有Ud用户共享文档d时,设p=1,2,…,Ud。对于每一个与文档d相关的用户Ud,p,生成过程如下:
a.从社团cd的参与矩阵中抽取用户Ud,p:Ud,p|λ,cd~Mult(λcd)
b.选择用户Ud,p的一个行为模式,
3.当一篇文档有Nd个词汇,对于在文档d中的每个词汇wd,n(n=1,2,…,Nd),生成过程如下:
a.从第cd个社团的主题矩阵中抽样一个主题:
b.根据抽样出的主题zd,n,从主题单词分布中抽样出一个单词:
4.从cd社团的情感矩阵中抽取一个情感极性:ld|π,cd~Mult(πcd)
由上可知,BP-STC的联合概率分布如式(1)所示:
p(u,c,z,l,w|δ,μ,β,ε,α)
=p(u|c,λ)p(c|ψ)p(z|c,θ)p(l|c,π)p(w|z,φ)
p(λ|δ)p(ψ|μ)p(θ|α)p(π|γ)p(φ|β) 式(1);
3)模型的推导和参数计算:
模型的训练与推导采用吉布斯抽样的方法,在模型中,一篇文本只能被分配给一个社团,为了方便模型的推导,模型的参数如图3所示:
对于一篇文档d,分配给它的社团的后验条件概率为:
其中,表示被分配给社团m的总的文档的数目,除文档d,D表示文档的总数目,表示出现在社团m的文档中并分配给主题k的单词的总数,除文档d,Zd表示文档d的主题的集合,Sd,k表示文档d中分配给主题K的单词总数,社团m中属于情感极性s的总的文档的数目,ld表示文档d的情感极性的集合,表示用户p参与社团m的次数除了在d篇文档中出现的次数,ud表示参与文档d交互的用户的集合,ed表示参与文档d交互的总的人数;
当文档d分配给社团cd时,文档d中的第i个单词,它的隐含主题的zd,i的条件后验概率如下:
其中,t表示文档d中第i个单词,zt表示文档d中第i个单词被分配的主题。
对上面的式(2)和式(3)反复的迭代,最终达到抽样结果稳定状态,每个参数从最后稳定状态进行计算:
至此,模型通过吉布斯求解出微博样本库中社团活跃度ψ,以及每个参与社团的用户活跃度λ,每个社团中感兴趣的话题分布θ,情感分布π和社团中每个用户的行为分布η。采用归并排序算法对每个主题下所包含的单词Φk,v以及每个群体中所包含的人λm,p进行排序,以找到群体中活跃度高的参与者以及最能代表主题的单词,同时可以根据ηm,p,b来描述社团中活跃度高的用户的行为表现,从而实现基于主题概率模型的微博传播群体划分与账户活跃度评估。
本发明方法通过少量迭代就可以对参与微博话题的人群进行社团划分,同时挖掘每个主题社团中的活跃账户,经实际试用,该方法稳定可靠,具有实际的应用价值,有关资料如下:
1)数据集:
数据集是关于新浪微博平台上与特定事件相关的微博。该数据集收集了2015年两会期间的与两会相关的微博。从2015年3月1日到2015年3月15日发布的与两会相关的所有微博。将那些没有任何与用户交互的微博以及经过预处理以后微博内容为空的微博从数据集中过滤掉,最后共有7728条微博作为实验数据(其中包含了69849个联系人),对参与两会讨论的用户进行社团挖掘以及行为与情感上的分析。
2)参数C和参数K的取值分析:
在本发明构建的主题概率模型中,超参数值设置为:α=50/kβ=δ=γ=μ=0.1。其中主题数目K和社团数目C的设置是采用计算perplexity的值来确定,,其中Perplexity值越小表明选取的K值越优。模型中perplexity的公式如下:
其中,Nm表示分配给社团m中的单词的总的数目,w为测试集,wm为观测到被分配给社团m的单词。图4展示了社团C=10取不同的K值,perplexity的值的变化趋势,随着K的增加刚开始是下降,到K=25时下降到最低点,随后出现平缓上升的趋势。
3)社团分布展示与分析:
基于本发明提出的模型进行划分出的社团,不仅具有主题倾向性,同时也能够挖掘出情感极性的分布以及计算出参与社团的人员的活跃度及其在社团上的行为分布,挖掘出的主要社团的信息展示包社团的活跃度,社团的主题分布,社团参与人员的活跃度以及社团情感极性分布。
由图5可知,在新浪平台上两会期间用户讨论比较热烈的是关于退休年龄延迟,反腐工作,医疗保险以及立法修改等方面的主题。同时可以观察到关于这些主题的讨论的情感倾向,积极的要高于消极的。由于央视新闻是微博看两会话题的主持人,央视新闻应当参与了每个具有不同主题倾向性的社团的讨论中,且在社团中是相对比较活跃的。由此验证了本发明提出的本发明所述模型的正确性。从图5和图6中都可以看到主题20包含在每个社团中,原因是主题20中所包含的词汇是两会话题讨论中经常出现的词汇。
模型除挖掘社团以及社团活跃人物之外,还能够挖掘出参与人员在社团中的行为分布。图7以社团2和社团10为例,展示的在社团中相对比较活跃的用户的行为分布。
图7中参与用户分为两种类型,媒体用户如央视新闻,正义网,人民日报,普通用户如要求祝,吴小杰,幸福快乐一生、好人穷追不舍。可以观察到媒体用户在社团中行为多为原创,而普通用户则多为转发与评论,同时媒体用户行为相对比较均匀,而普通用户则行为相对比较极端。在两会话题的讨论中,信息源头是媒体用户,普通用户对话题信息进行了传播。为了进一步验证模型的正确性,人工观察了社团2中要求祝(微博昵称)在两会期间的微博,发现其两会期间之所以在社团2中转发大量关于法律方面的微博是因为其妻子因意外死亡而肇事者没有赔偿,希望得到法律保护,利用两会话题讨论希望能引起社会关注,具有很强的实用价值,经济和社会效益巨大。
Claims (2)
1.一种基于主题概率模型的微博传播群体划分与账户活跃度评估方法,其特征在于,包括以下步骤:
(1)与特定事件相关的微博样本搜集:以特定事件的关键词为基础,基于爬虫技术或微博公共开放平台获取微博具体文本信息以及参与微博传播的账户集合,其中包括微博的原创账户集合,转发账户集合以及评论账户集合;
(2)微博样本库中词汇表和参与人员表的构建:以单个微博的文本内容以及参与微博的账户集合输入,首先利用中科院中文分词系统对微博文本进行分词,将微博文本表示成多个关键词的形式,近而形成微博样本库上的词汇表;其次采用分割的方法,原理与分词相同,构造参与人员表;
(3)主题概率模型生成:对样本库中的每一条微博d,d=1,2,…,D,基于主题概率生成模型,为每一篇微博文本赋予一个群体编号,然后基于被赋予的群体编号,从构建的词汇表和参与人员表中根据模型中的群体-主题,主题-词以及群体-人抽样出词和参与人员;
(4)模型中的参数计算:采用吉布斯抽样的方法对模型中的群体-人员分布,群体-主题分布,群体-人员-行为分布,群体-情感分布以及主题-词分布进行计算,由于参与热门事件的微博传播的账户数目大都以万计,因此采用归并排序算法对每个主题下所包含的单词以及每个群体中所包含的人进行排序,以找到群体中活跃度高的参与者以及最能代表主题的单词。
2.根据权利要求1所述的基于主题概率模型的微博传播群体划分与账户活跃度评估方法,其特征在于,包括以下步骤:
1)、与事件相关的微博样本采集:
与特定事件的相关微博样本应当具有相关性,包括能够描述特定事件的关键词的微博或具有相同的HashTag的微博及其相关转发和评论微博,微博样本的采集基于宽度优先搜索获取与特定事件相关的微博及其转发和评论微博,采用爬虫技术,首先根据网页链接下载微博网页、解析页面结构并提取微博文本信息及其他能够描述微博的元数据信息,以获取的微博为起点,对其相关的转发微博及其评论微博和参与微博的传播的账户信息,同样利用爬虫技术,获取相关数据;或是调用新浪公共开放平台,调用微博官方对外提供的API函数获取微博文本信息及参与其传播的账户的信息,为有利于对事件传播中的群体划分,在选取微博样本时遵循的原则为:选取转发数和评论数不为0的微博;
样本搜集的内容应包括微博表示号、微博文本内容、微博账户标识号,参与微博传播的账户集合;
2)、微博样本库中词汇表和参与人员表的构建:
由于原始微博样本文字比较随意,在建模前要对微博样本数据进行预处理将微博文本转换成关键词集合的表述形式,同时构建基于样本库的词汇表和参与人员表,判断每个微博样本的情感极性,情感极性分为三种:积极的,消极的和中性的:
(1)文本分词,利用正则表达式去除文本中的无用的HTML标签,然后利用中科院中文分词系统ICTCLAS,对文本进行分词,将微博文本转化成词向量;
(2)基于(台湾大学整理发布的NTUSD)情感词典对微博文本进行情感极性判定,考虑到普适的情感词典缺少专门针对微博的情感词汇和表情符号,而微博文本中经常出现微博平台提供的表情符来表达博主的情感(例如:表示赞,是积极情感的表达,表示鄙视,是消极情感的表达),在普适情感词典的基础之上添加微博表情符,将微博的表情符转化成对应的情感语义词;
(3)去除停用词,停用词主要指得是代词和表示时间的常用词,可以采用基于停用词字典的方法将停用词去除,当去除停用词后,微博内容为空,则舍去这样的微博;
(4)构建样本库中的词汇表,首先初始化一个词典,包括两个内容:词的编号和具体的词;以每条微博的词向量为起点,依次查询词向量中的关键词,是否存在于词典中;当存在,则将具体的词转化成词典对应的编号;当不存在,则将词添加到词典当中去,同时将词向量中具体的词转化成词典对应的编号;重复以上步骤,直到样本库中的每篇文本遍历完为止,并构建样本库中的参与人员表;
2)主题概率模型生成:
对样本库中的每一条微博d,d=1,2,…,D,基于主题概率生成模型,为每一篇微博文本赋予一个群体编号,然后基于被赋予的群体编号,从构建的词汇表中抽样出词汇:
本发明构建基于主题概率的社团发现模型如图2所示;
(1)模型中的变量:
模型中有两种变量,即在样本库中实际可观察到的变量和隐含在样本库中的变量,其中隐含变量:社团C(1,2,…,M)和话题Z(1,2,…,K),可观察到的变量:文档中出现的单词W;共享这篇文档的用户集合u;用户共享这篇文档的行为方式b;文档的情感极性l;
(2)模型中的超参数:
γ表示社团成员行为分布的狄利克雷分布的超参数;
δ表示社团成员活跃度的狄利克雷分布的超参数;
μ表示社团的活跃度狄利克雷分布的超参数;
β表示主题词分布的狄利克雷分布的超参数;
α表示社团主题分布的狄利克雷分布的超参数;
ε表示不同情感极性在社团中权重的狄利克雷分布的超参数;
(3)参数:
当有K个隐含主题时,Dir(·)表示狄利克雷分布,词汇表中分配给主题K的单词的概率,服从Dir(β),k=1,2,...,K;
当有M个社团和S个情感极性,每个社团与四个参数有关:话题矩阵θ,用户的参与矩阵λ,社团情感矩阵π,用户在社团中行为矩阵η,在社团m中(m=1,2,…,M):
·θm表示社团m的主题分布,代表不同主题在社团m中的权重,
·λm表示不同用户在社团m中的活跃度矩阵,λm|δ~Dir(δ);
·πm表示不同情感极性在社团m中权重,πm|ε~Dir(ε);
·ηm,p表示社团m中成员p的行为分布,ηm,p|γ~Dir(γ);
ψ表示的在整个语料库中社团的活跃度,ψ|μ~Dir(μ);
对于语料库中的每一篇文档d,d=1,2,…,D生成过程如下(Mult(·)表示多项式分布):
1.为文档d分配一个社团cd:cd|ψ~Mult(ψ)
2.当有Ud用户共享文档d时,设p=1,2,…,Ud,对于每一个与文档d相关的用户Ud,p,生成过程如下:
a.从社团cd的参与矩阵中抽取用户
b.选择用户Ud,p的一个行为模式,
3.当一篇文档有Nd个词汇,对于在文档d中的每个词汇wd,n(n=1,2,…,Nd),生成过程如下:
a.从第cd个社团的主题矩阵中抽样一个主题:
b.根据抽样出的主题zd,n,从主题单词分布中抽样出一个单词:
4.从cd社团的情感矩阵中抽取一个情感极性:
由上可知,BP-STC的联合概率分布如式(1)所示:
p(u,c,z,l,w|δ,μ,β,ε,α)
=p(u|c,λ)p(c|ψ)p(z|c,θ)p(l|c,π)p(w|z,φ)
p(λ|δ)p(ψ|μ)p(θ|α)p(π|γ)p(φ|β) 式(1);
3)模型的推导和参数计算:
模型的训练与推导采用吉布斯抽样的方法,在模型中,一篇文本只能被分配给一个社团,为了方便模型的推导,模型的参数如图3所示:
对于一篇文档d,分配给它的社团的后验条件概率为:
其中,表示被分配给社团m的总的文档的数目,除文档d,D表示文档的总数目,表示出现在社团m的文档中并分配给主题k的单词的总数,除文档d,Zd表示文档d的主题的集合,Sd,k表示文档d中分配给主题K的单词总数,社团m中属于情感极性s的总的文档的数目,ld表示文档d的情感极性的集合,表示用户p参与社团m的次数除了在d篇文档中出现的次数,ud表示参与文档d交互的用户的集合,ed表示参与文档d交互的总的人数;
当文档d分配给社团cd时,文档d中的第i个单词,它的隐含主题的zd,i的条件后验概率如下:
其中,t表示文档d中第i个单词,zt表示文档d中第i个单词被分配的主题;
对上面的式(2)和式(3)反复的迭代,最终达到抽样结果稳定状态,每个参数从最后稳定状态进行计算:
至此,模型通过吉布斯求解出微博样本库中社团活跃度ψ,以及每个参与社团的用户活跃度λ,每个社团中感兴趣的话题分布θ,情感分布π和社团中每个用户的行为分布η,采用归并排序算法对每个主题下所包含的单词Φk,v以及每个群体中所包含的人λm,p进行排序,以找到群体中活跃度高的参与者以及最能代表主题的单词,同时可以根据ηm,p,b来描述社团中活跃度高的用户的行为表现,从而实现基于主题概率模型的微博传播群体划分与账户活跃度评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510431015.8A CN104991956B (zh) | 2015-07-21 | 2015-07-21 | 基于主题概率模型的微博传播群体划分与账户活跃度评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510431015.8A CN104991956B (zh) | 2015-07-21 | 2015-07-21 | 基于主题概率模型的微博传播群体划分与账户活跃度评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104991956A true CN104991956A (zh) | 2015-10-21 |
CN104991956B CN104991956B (zh) | 2018-07-31 |
Family
ID=54303771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510431015.8A Active CN104991956B (zh) | 2015-07-21 | 2015-07-21 | 基于主题概率模型的微博传播群体划分与账户活跃度评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104991956B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653518A (zh) * | 2015-12-25 | 2016-06-08 | 北京理工大学 | 一种基于微博数据的特定群体发现及扩充方法 |
CN105701210A (zh) * | 2016-01-13 | 2016-06-22 | 福建师范大学 | 一种基于混杂特征计算的微博主题情感分析方法 |
CN105869058A (zh) * | 2016-04-21 | 2016-08-17 | 北京工业大学 | 一种多层潜变量模型用户画像提取的方法 |
CN106066875A (zh) * | 2016-05-30 | 2016-11-02 | 深圳市华傲数据技术有限公司 | 一种基于深网爬虫的高效数据采集方法及系统 |
CN106095839A (zh) * | 2016-06-03 | 2016-11-09 | 北京网智天元科技股份有限公司 | 特定观影群体数据的提取及其处理方法 |
CN106899433A (zh) * | 2017-01-18 | 2017-06-27 | 北京航空航天大学 | 网络链接预测方法及装置 |
CN106933949A (zh) * | 2017-01-20 | 2017-07-07 | 浙江大学 | 一种控制社交网络中影响力爆发的规划方法 |
CN107705213A (zh) * | 2017-07-17 | 2018-02-16 | 西安电子科技大学 | 一种静态社交网络的重叠社团发现方法 |
CN107798623A (zh) * | 2017-10-26 | 2018-03-13 | 江南大学 | 媒体干预下三分意见群体网络舆情传播模型 |
CN108052568A (zh) * | 2017-12-07 | 2018-05-18 | 百度在线网络技术(北京)有限公司 | 一种特征筛选方法、装置、终端和介质 |
CN108513176A (zh) * | 2017-12-06 | 2018-09-07 | 北京邮电大学 | 一种基于话题模型的社会化视频主题提取系统及方法 |
CN109446320A (zh) * | 2018-09-29 | 2019-03-08 | 昆明理工大学 | 一种基于lda的生物医药技术主题挖掘方法 |
CN110263329A (zh) * | 2019-05-22 | 2019-09-20 | 深圳壹账通智能科技有限公司 | 软件产品测评处理方法、装置、计算机设备及存储介质 |
CN110400080A (zh) * | 2019-07-26 | 2019-11-01 | 浙江大搜车软件技术有限公司 | 考核数据监控方法、装置、计算机设备和存储介质 |
CN110851733A (zh) * | 2019-10-31 | 2020-02-28 | 天津大学 | 基于网络拓扑和文档内容的社团发现和情感解释方法 |
CN111026976A (zh) * | 2019-12-13 | 2020-04-17 | 北京信息科技大学 | 微博特定事件关注群体识别方法 |
CN112162745A (zh) * | 2020-10-29 | 2021-01-01 | 中国人民解放军国防科技大学 | 一种基于api使用概率模型的程序合成方法 |
CN112632998A (zh) * | 2020-12-17 | 2021-04-09 | 中国科学院计算技术研究所数字经济产业研究院 | 基于微博平台的事件关键人物提取方法 |
CN113076489A (zh) * | 2021-04-14 | 2021-07-06 | 合肥工业大学 | 一种舆情事件中社交媒体用户角色分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102289487A (zh) * | 2011-08-09 | 2011-12-21 | 浙江大学 | 基于主题模型的网络突发热点事件检测方法 |
CN103927398A (zh) * | 2014-05-07 | 2014-07-16 | 中国人民解放军信息工程大学 | 基于最大频繁项集挖掘的微博炒作群体发现方法 |
CN103970863A (zh) * | 2014-05-08 | 2014-08-06 | 清华大学 | 基于lda主题模型的微博用户兴趣的挖掘方法及系统 |
CN104462286A (zh) * | 2014-11-27 | 2015-03-25 | 重庆邮电大学 | 一种基于改进的lda的微博话题发现方法 |
-
2015
- 2015-07-21 CN CN201510431015.8A patent/CN104991956B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102289487A (zh) * | 2011-08-09 | 2011-12-21 | 浙江大学 | 基于主题模型的网络突发热点事件检测方法 |
CN103927398A (zh) * | 2014-05-07 | 2014-07-16 | 中国人民解放军信息工程大学 | 基于最大频繁项集挖掘的微博炒作群体发现方法 |
CN103970863A (zh) * | 2014-05-08 | 2014-08-06 | 清华大学 | 基于lda主题模型的微博用户兴趣的挖掘方法及系统 |
CN104462286A (zh) * | 2014-11-27 | 2015-03-25 | 重庆邮电大学 | 一种基于改进的lda的微博话题发现方法 |
Non-Patent Citations (2)
Title |
---|
DAVID M.BLEI等: "Latent Dirichlet Allocation", 《JOURNAL OF MACHINE LEARNING RESEARCH》 * |
毕凌燕等: "基于概率模型的微博热点主题识别实证研究", 《情报理论与实践》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653518A (zh) * | 2015-12-25 | 2016-06-08 | 北京理工大学 | 一种基于微博数据的特定群体发现及扩充方法 |
CN105701210A (zh) * | 2016-01-13 | 2016-06-22 | 福建师范大学 | 一种基于混杂特征计算的微博主题情感分析方法 |
CN105869058A (zh) * | 2016-04-21 | 2016-08-17 | 北京工业大学 | 一种多层潜变量模型用户画像提取的方法 |
CN105869058B (zh) * | 2016-04-21 | 2019-10-29 | 北京工业大学 | 一种多层潜变量模型用户画像提取的方法 |
CN106066875B (zh) * | 2016-05-30 | 2019-08-16 | 深圳市华傲数据技术有限公司 | 一种基于深网爬虫的高效数据采集方法及系统 |
CN106066875A (zh) * | 2016-05-30 | 2016-11-02 | 深圳市华傲数据技术有限公司 | 一种基于深网爬虫的高效数据采集方法及系统 |
CN106095839A (zh) * | 2016-06-03 | 2016-11-09 | 北京网智天元科技股份有限公司 | 特定观影群体数据的提取及其处理方法 |
CN106899433A (zh) * | 2017-01-18 | 2017-06-27 | 北京航空航天大学 | 网络链接预测方法及装置 |
CN106933949A (zh) * | 2017-01-20 | 2017-07-07 | 浙江大学 | 一种控制社交网络中影响力爆发的规划方法 |
CN107705213B (zh) * | 2017-07-17 | 2022-01-28 | 西安电子科技大学 | 一种静态社交网络的重叠社团发现方法 |
CN107705213A (zh) * | 2017-07-17 | 2018-02-16 | 西安电子科技大学 | 一种静态社交网络的重叠社团发现方法 |
CN107798623A (zh) * | 2017-10-26 | 2018-03-13 | 江南大学 | 媒体干预下三分意见群体网络舆情传播模型 |
CN108513176A (zh) * | 2017-12-06 | 2018-09-07 | 北京邮电大学 | 一种基于话题模型的社会化视频主题提取系统及方法 |
CN108052568A (zh) * | 2017-12-07 | 2018-05-18 | 百度在线网络技术(北京)有限公司 | 一种特征筛选方法、装置、终端和介质 |
CN108052568B (zh) * | 2017-12-07 | 2020-11-10 | 百度在线网络技术(北京)有限公司 | 一种特征筛选方法、装置、终端和介质 |
CN109446320A (zh) * | 2018-09-29 | 2019-03-08 | 昆明理工大学 | 一种基于lda的生物医药技术主题挖掘方法 |
CN110263329A (zh) * | 2019-05-22 | 2019-09-20 | 深圳壹账通智能科技有限公司 | 软件产品测评处理方法、装置、计算机设备及存储介质 |
CN110263329B (zh) * | 2019-05-22 | 2022-09-09 | 深圳壹账通智能科技有限公司 | 软件产品测评处理方法、装置、计算机设备及存储介质 |
CN110400080A (zh) * | 2019-07-26 | 2019-11-01 | 浙江大搜车软件技术有限公司 | 考核数据监控方法、装置、计算机设备和存储介质 |
CN110851733A (zh) * | 2019-10-31 | 2020-02-28 | 天津大学 | 基于网络拓扑和文档内容的社团发现和情感解释方法 |
CN111026976A (zh) * | 2019-12-13 | 2020-04-17 | 北京信息科技大学 | 微博特定事件关注群体识别方法 |
CN111026976B (zh) * | 2019-12-13 | 2024-01-09 | 北京信息科技大学 | 微博特定事件关注群体识别方法 |
CN112162745B (zh) * | 2020-10-29 | 2022-06-21 | 中国人民解放军国防科技大学 | 一种基于api使用概率模型的程序合成方法 |
CN112162745A (zh) * | 2020-10-29 | 2021-01-01 | 中国人民解放军国防科技大学 | 一种基于api使用概率模型的程序合成方法 |
CN112632998A (zh) * | 2020-12-17 | 2021-04-09 | 中国科学院计算技术研究所数字经济产业研究院 | 基于微博平台的事件关键人物提取方法 |
CN113076489A (zh) * | 2021-04-14 | 2021-07-06 | 合肥工业大学 | 一种舆情事件中社交媒体用户角色分类方法 |
CN113076489B (zh) * | 2021-04-14 | 2022-09-13 | 合肥工业大学 | 一种舆情事件中社交媒体用户角色分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104991956B (zh) | 2018-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104991956A (zh) | 基于主题概率模型的微博传播群体划分与账户活跃度评估方法 | |
Stamatatos et al. | Overview of the PAN/CLEF 2015 evaluation lab | |
Rashid et al. | Feature level opinion mining of educational student feedback data using sequential pattern mining and association rule mining | |
Saad et al. | Evaluation of support vector machine and decision tree for emotion recognition of malay folklores | |
Balli et al. | Sentimental analysis of Twitter users from Turkish content with natural language processing | |
El Abdouli et al. | Sentiment analysis of moroccan tweets using naive bayes algorithm | |
Bouchlaghem et al. | A machine learning approach for classifying sentiments in Arabic tweets | |
Jamal et al. | A deep learning–based approach for emotions classification in big corpus of imbalanced tweets | |
Javed et al. | Normalization of unstructured and informal text in sentiment analysis | |
Samonte | Polarity analysis of editorial articles towards fake news detection | |
Ramiandrisoa et al. | Early detection of depression and anorexia from social media: A machine learning approach | |
Tyagi et al. | Literature review of sentiment analysis techniques for microblogging site | |
Jawad et al. | Combination of convolution neural networks and deep neural networks for fake news detection | |
Albesta et al. | The impact of sentiment analysis from user on Facebook to enhanced the service quality. | |
Tiwari et al. | Comparative Analysis of Different Machine Learning Methods for Hate Speech Recognition in Twitter Text Data | |
Dragos et al. | Angry or sad? emotion annotation for extremist content characterisation | |
KR20200065348A (ko) | 신뢰도 분포 기반 논지 및 뒷받침 증거자료의 군집화를 통한 신뢰 가능성 판단 가속화 방법 및 시스템 | |
Rattrout et al. | Sentiment analysis on Arabic content in social media: Hybrid model of dictionary based and fuzzy logic | |
Al-Buraihy et al. | An Ml-based classification scheme for analyzing the social network reviews of yemeni people. | |
Bhamare et al. | Convolution Neural Network Regression Model to Predict Personality Scores. | |
Jafar et al. | Decision-making via visual analysis using the natural language toolkit and r | |
Nandan et al. | Sentiment Analysis of Twitter Classification by Applying Hybrid-Based Techniques | |
Zafar et al. | Analyzing adverbs impact for sentiment analysis using hadoop | |
Kaushal et al. | A Survey of Various Sentiment Analysis Techniques of Whatsapp | |
Bognár | Applying big data technologies in the financial sector-using sentiment analysis to identify correlations in the stock market |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |