CN106202053B - 一种社交关系驱动的微博主题情感分析方法 - Google Patents
一种社交关系驱动的微博主题情感分析方法 Download PDFInfo
- Publication number
- CN106202053B CN106202053B CN201610580948.8A CN201610580948A CN106202053B CN 106202053 B CN106202053 B CN 106202053B CN 201610580948 A CN201610580948 A CN 201610580948A CN 106202053 B CN106202053 B CN 106202053B
- Authority
- CN
- China
- Prior art keywords
- emotion
- microblog
- topic
- polarity
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 39
- 230000008451 emotion Effects 0.000 claims abstract description 192
- 238000009826 distribution Methods 0.000 claims abstract description 77
- 230000002996 emotional effect Effects 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 4
- 238000005070 sampling Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 210000001015 abdomen Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 206010013954 Dysphoria Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 206010029897 Obsessive thoughts Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000009429 distress Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种社交关系驱动的微博主题情感分析方法,包括以下步骤:步骤1、对微博消息集进行微博文本分词、去停用词预处理,提取微博用户关系分布G,并设置情感词典;步骤2、利用情感词典对微博消息进行情感极性与主题归属先验处理;步骤3、初始化社交关系主题情感模型SRTSM的分布参数并将循环控制计数器C1与C2置0;步骤4:利用社交关系主题情感模型SRTSM不断对变量VarSet=(nm,t,l,nm,t,nm,nt,l,w,nt,l)、和进行迭代更新;步骤5、判断微博m的情感极性并输出。该方法能够有效发现隐藏于微博消息中的主题情感模式,提高微博情感分类的正确率。
Description
技术领域
本发明涉及网络舆情分析技术领域,特别涉及一种应用于Web2.0环境下的社交关系驱动的微博主题情感分析方法。
背景技术
微博是Web2.0时代兴起的一种集成化、开放化的互联网社交服务,它让用户能够向公众发布简短的文本消息。由于其简便的特点,日益受到互联网用户的青睐。目前新浪微博用户规模已经超过3亿,每天都有大量的微博消息发布。在这些海量的微博消息中,有许多饱含个人情感的资源,如何从这些微博消息中高效自动地提取主题与情感是一个很具有研究价值的热点。
作为一个社交平台,微博用户与用户之间有关注、粉丝、互相关注等社交关系,其中互相关注的用户常常是熟识的朋友、拥有相似兴趣爱好或性格相近的用户。若某一用户关注了另一用户或两个用户间互相关注,我们通常可以看到一个用户的粉丝经常转载其所关注用户的微博并且表示赞同,并且用户们也会加入其所关注用户发表的话题中进行讨论,由此可知,微博用户所写微博的主题、情感极性与用户所关注的用户或用户的粉丝存在着联系。若两个用户互相关注,两个用户所写微博的总体情感极性(积极、消极)应该相似,若用户U1关注用户U2,则U1所写微博的总体情感极性应与U2所写微博的总体情感极性相似。
现有的LDA主题情感模型如JST、S-LDA、DPLDA等可以对微博进行分析得到微博的情感极性,但这些模型都假设文本间是相互独立、没有联系的,这与微博用户关系不符。例如用户U1与用户U2性格相近、拥有共同兴趣,并且在微博上相互关注,用户U1发了一个微博:
微博1:“库里的三分球真是太准了,库里太厉害了,很崇拜他!”
可以看出,微博1的情感极性是积极的,而且现有的LDA主题情感模型也可以正确地分析出微博1的情感极性。然后,用户U2也发了一个微博:
微博2:“库里太变态了,简直不是人,太厉害了!”
我们可以看出,微博2的情感极性也是积极的,但是现有LDA主题情感模型也许会把微博2的情感极性分类为消极情感极性,这是由于没有考虑用户U1与用户U2之间的关系,因为U1与U2互相关注,一定程度上可以表明他们的性格相似、兴趣相投,用户U1的微博总体情感极性为积极,那在判断用户U2所发微博的时候,应该认为用户U2的微博为积极情感极性的概率更大,积极情感极性参数就应该比消极情感极性参数大,但是现有LDA主题情感模型假设文本间互相独立,所以无法达到这个效果。
从上述分析可知,现有具有代表性的LDA主题情感模型没有很好地考虑微博用户关系,这可能导致微博情感分析准确率降低。
发明内容
本发明的目的在于提供一种社交关系驱动的微博主题情感分析方法,该方法能够有效发现隐藏于微博消息中的主题情感模式,提高微博情感分类的正确率。
为实现上述目的,本发明的技术方案是:一种社交关系驱动的微博主题情感分析方法,包括以下步骤:
步骤1、对微博消息集进行微博文本分词、去停用词预处理,提取微博用户关系分布G,并设置情感词典;
步骤2、利用情感词典对微博消息进行情感极性与主题归属先验处理:针对词语w,首先按以下方法为w分配主题:生成一个随机数rt,则w所对应的主题t即是第(rt+1)个主题,其中rt∈[0,T],T为微博消息集的主题数;然后按以下方法为w分配情感标签:从情感词典中查找词语w,若情感词典中有w,则将情感词典中w所对应的情感标签l分配给w,否则产生一个随机数rl,则w的情感标签l即是第(rl+1)个情感标签,其中rl∈[0,L],L为情感极性类别数;
步骤3、初始化社交关系主题情感模型SRTSM的分布参数并将循环控制计数器C1与C2置0;
步骤4:利用社交关系主题情感模型SRTSM不断对变量VarSet=(nm,t,l,nm,t,nm,nt,l,w,nt,l)、 和进行如下迭代更新直到循环控制计数器C1达到最大迭代次数:
步骤41:判断C1是否大于设定值X,是则转步骤5,否则转下一步骤;
步骤42:对每条微博d中的每个词语w,首先从VarSet中除去当前词语w所属的情感标签与主题,再通过用户关系分布G查找与当前微博作者相互关注的用户并利用这些用户微博的情感极性确定用户关系参数λ的值,然后利用吉布斯采样的联合概率p(ti=t,li=l|t-i,l-i,w)重新给w赋一个基于用户关系参数λ的情感标签和主题,同时更新变量VarSet;
步骤43:令C2=C2+1,以更新C2;
步骤44:判断C2是否大于设定值Y,是则转下一步骤,否则返回步骤42;
步骤45:更新和并置C2=0,然后转步骤41;
其中nm,t,l表示微博dm中情感极性为l的词语属于主题t的频数,nm,t表示微博dm中属于主题t的词语总频数,nm表示微博dm总词语数,nt,l,w表示词语w同时属于主题t、情感极性l的频数,nt,l表示所有同时属于主题t、情感极性l的词语总频数,表示微博dm中主题t出现的概率,表示所有微博中词语w同时属于主题t和情感标签l的概率,表示微博dm中情感标签l属于主题t的概率;
步骤5、判断微博m的情感极性并输出:若其中l1为积极情感,l2为消极情感,则判定微博dm的情感极性为积极情感,反之为消极情感。
进一步的,所述社交关系主题情感模型SRTSM的建立方法为:
(1)初始化社交关系主题情感模型SRTSM的分布参数Π={A,B,H},其中,A为微博-主题分布,表示微博dm的主题为t的概率,B为(主题,情感)-词语分布,表示词语w同时属于情感极性l与主题t的概率,H为(微博,主题)-情感分布,表示微博dm中情感极性l属于主题t的概率,A、B与H分别服从狄利克雷分布Dir(α)、Dir(β)与Dir(η),其中α是指主题t在微博dm中出现的先验次数,β是指词语在微博集C中出现的先验次数,η是指情感极性l在微博dm中出现的先验次数;
(2)重复如下操作直到生成一条微博消息中的所有词语:首先从微博-主题分布A中选出一个主题t,t服从Mul(A)分布,其中Mul(*)表示多项分布;接着根据产生的主题t,从(微博,主题)-情感分布H中选出一个情感标签l,l服从Mul(H)分布并且受λ的影响,λ受用户关系分布G影响,G为已知的微博用户关系矩阵,假设当前微博作者为用户k,若用户k与j互相关注,则G(k,j)=1,否则G(k,j)=0;当G(k,j)为1时,计算用户j的情感极性值,通过所有与用户k互相关注的用户的情感极性值确定用户关系参数λ;最后根据选出的主题t和情感并且l,从(主题,情感)-词语分布B中选择一个词语w,w服从Mul(B)分布;
(3)重复步骤(2)直到微博集C中的所有微博消息生成完毕。
本发明的有益效果是提供了一种社交关系驱动的微博主题情感分析方法,相较于传统的微博主题情感分析方法,本发明方法将相互关联的微博用户所发微博的情感视为相互关联的,能更好地反映微博社交行为习惯,避免了现有LDA主题情感模型的不同用户的微博间上相互独立的假设,能有效提高微博情感分类正确率,可广泛应用于新浪、腾讯等各种微博平台,提升信息主动服务质量,增强网络文化安全。
附图说明
图1是本发明实施例的实现流程图。
图2是本发明实施例中用户关系主题情感模型SRTSM的图模型。
图3是本发明实施例中微博用户关系比例对SRTSM情感分类准确率的影响示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。为了更好地描述本发明的技术方案,现将本发明技术方案的相关符号进行列表说明,参见表1。
表1符号说明
符号 | 说明 |
α | 微博-主题分布的Dir参数 |
β | (主题,情感)-词语分布的Dir参数 |
λ | 用户关系参数 |
η | (微博,主题)-情感分布的Dir参数 |
Α | 微博-主题分布 |
Β | (主题,情感)-词语分布 |
H | (微博,主题)-情感分布 |
G | 用户关系分布 |
t | 主题 |
l | 情感 |
w | 词语 |
M | 微博数 |
W | 微博中词语数 |
T | 主题数 |
L | 情感数 |
V | 微博词库的词语数 |
为了方便详细阐述本发明,首先对LDA主题模型进行简介。
LDA是一种非监督机器学习技术,可以用来识别大规模文档集中潜藏的主题信息。它采用了词袋(bag of words)表示方法,将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数学对象,每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。LDA通过概率推导方法来寻找文档集的语义结构,具体可描述为文档单词生成过程:对每一篇文档都从主题分布中抽取一个主题,然后从与该主题所对应的单词分布中抽取一个单词,重复上述过程直至遍历文档中的每一个单词。
本发明社交关系驱动的微博主题情感分析方法,综合主题模型LDA与微博用户相关关注 行为对微博主题情感进行分析,如图1所示,包括以下步骤:
步骤1、对微博消息集进行微博文本分词、去停用词等预处理,提取微博用户关系分布G,并设置情感词典。
步骤2、利用情感词典对微博消息进行情感极性与主题归属先验处理:针对词语w,首先按以下方法为w分配主题:生成一个随机数rt,则w所对应的主题t即是第(rt+1)个主题,其中rt∈[0,T],T为微博消息集的主题数;然后按以下方法为w分配情感标签:从情感词典中查找词语w,若情感词典中有w,则将情感词典中w所对应的情感标签l分配给w,否则产生一个随机数rl,则w的情感标签l即是第(rl+1)个情感标签,其中rl∈[0,L],L为情感极性类别数。在本领域公知技术中,情感极性和情感标签具有相同含义,但在不同环境中一般相应使用上述不同名称,因此,在本发明中,保留本领域的惯用表达而未做名称上之统一。
步骤3、初始化社交关系主题情感模型SRTSM的分布参数并将循环控制计数器C1与C2置0。
步骤4:利用社交关系主题情感模型SRTSM不断对变量VarSet=(nm,t,l,nm,t,nm,nt,l,w,nt,l)、 和进行如下迭代更新直到循环控制计数器C1达到最大迭代次数:
步骤41:判断C1是否大于设定值X,是则转步骤5,否则转下一步骤;
步骤42:对每条微博d中的每个词语w,首先从VarSet中除去当前词语w所属的情感标签与主题,再通过用户关系分布G查找与当前微博作者相互关注的用户并利用这些用户微博的情感极性确定用户关系参数λ的值,然后利用吉布斯采样的联合概率p(ti=t,li=l|t-i,l-i,w)重新给w赋一个基于用户关系参数λ的情感标签和主题,同时更新变量VarSet;
步骤43:令C2=C2+1,以更新C2;
步骤44:判断C2是否大于设定值Y,是则转下一步骤,否则返回步骤42;
步骤45:更新和并置C2=0,然后转步骤41。
其中nm,t,l表示微博dm中情感极性为l的词语属于主题t的频数,nm,t表示微博dm中属于主题t的词语总频数,nm表示微博dm总词语数,nt,l,w表示词语w同时属于主题t、情感极性l的频数,nt,l表示所有同时属于主题t、情感极性l的词语总频数,表示微博dm中主题t出现的概率,表示所有微博中词语w同时属于主题t和情感标签l的概率,表示微博dm中情感标签l属于主题t的概率。
步骤5、判断微博m的情感极性并输出:若其中l1为积极情感,l2为消极情感, 则判定微博dm的情感极性为积极情感,反之为消极情感。
上述社交关系主题情感模型SRTSM的建立方法为:
(1)初始化社交关系主题情感模型SRTSM的分布参数Π={A,B,H},Π表示分布参数A、B、H的集合,其中,A为微博-主题分布,表示微博dm的主题为t的概率,B为(主题,情感)-词语分布,表示词语w同时属于情感极性l与主题t的概率,H为(微博,主题)-情感分布,表示微博dm中情感极性l属于主题t的概率,A、B与H分别服从狄利克雷分布Dir(α)、Dir(β)与Dir(η),其中α是指主题t在微博dm中出现的先验次数,β是指词语在微博集C中出现的先验次数,η是指情感极性l在微博dm中出现的先验次数;
(2)重复如下操作直到生成一条微博消息中的所有词语:首先从微博-主题分布A中选出一个主题t,t服从Mul(A)分布,其中Mul(*)表示多项分布;接着根据产生的主题t,从(微博,主题)-情感分布H中选出一个情感标签l,l服从Mul(H)分布并且受λ的影响,λ受用户关系分布G影响,G为已知的微博用户关系矩阵,假设当前微博作者为用户k,若用户k与j互相关注,则G(k,j)=1,否则G(k,j)=0;当G(k,j)为1时,计算用户j的情感极性值,通过所有与用户k互相关注的用户的情感极性值确定用户关系参数λ;最后根据选出的主题t和情感并且l,从(主题,情感)-词语分布B中选择一个词语w,w服从Mul(B)分布;
(3)重复步骤(2)直到微博集C中的所有微博消息生成完毕。
下面参考图2来说明本发明方法中的社交关系主题情感模型SRTSM。
尽管主题模型LDA有着牢固的数学基础与良好的扩展性,但情感层的缺失使其无法完成文档情感的分析。基于此,我们对LDA主题情感模型进行改造,在情感层中加入了用户关系分布G和用户关系参数λ,构造一个用以分析微博主题情感模式的概率图模型SRTSM(图2)。在SRTSM中,在判断一个微博的情感极性时,根据用户关系分布G找出与微博作者相互关注的微博用户,根据这些微博用户的平均情感极性值来确定用户关系参数λ,用户的情感极性为用户积极情感极性微博与消极情感极性微博的比值,用户平均情感极性值是用户情感极性值的和与用户数的比值。
对于微博集C={d1,d2,…,dM},其中M为微博集的微博数,与微博集C对应的词典的大小为V,微博dm由Wm个单词组成,即dm={w1,w2,…,wWm}。SRTSM产生微博集C的过程可简单归结为如下两个步骤:1)初始化SRTSM模型的分布Θ={A,B,H},具体地,A、B与H分别服从狄利克雷分布Dir(α)、Dir(β)与Dir(η),其中β是指单词在微博集C中出现的先验次数,η是指情感标签l在微博dm中出现的先验次数,α是指主题t在微博dm中出现的先验次数。 2)生成微博集C中的单词,此生成过程可简单描述如下:首先从微博-主题分布A中选出一个主题t,t服从Mul(A)分布(Mul(*)表示多项分布);接着根据产生的主题t,从(微博,主题)-情感分布H中选出一个情感标签l,l服从Mul(H)分布并且受λ的影响,λ受用户关系分布G影响,G为已知的微博用户关系矩阵,假设当前微博作者为用户X,若用户X与Y互相关注,则GX,Y=1,否则GX,Y=0。当GX,Y为1时,计算用户Y的情感极性值,通过所有与用户X互相关注的用户的情感极性值确定用户关系参数λ;最后根据选出的主题t和情感并且l,从(主题,情感)-词语分布B中选择一个单词w,w服从Mul(B)分布。SRTSM模型重复以上过程M*Wm次。
SRTSM模型推导
SRTSM采用吉布斯采样进行推导,为了得到本发明所需要的分布A、B与H,需要计算联合分布:
P(ti=t,li=l|t-i,l-i,w) (1)
其中t-i与l-i分别是指除微博dm中第i个词以外的其他词的主题与情感标签。联合分布可以拆分为如下项:
P(w,t,l)=P(w|t,l)P(l|t)P(t) (2)
通过对式子(4.2)进行展开可得:
其中nt,l,w表示单词w同时属于主题t、情感标签l的频数,nt,l,表示所有同时属于主题t、情感标签l的单词总频数,Γ(*)表示伽马函数。
其中nm,t,l表示微博dm的中情感标签为l的词语属于主题t的频数,nm,t表示微博dm中属于的主题t的词语总频数。λ为用户关系参数,λ由与当前微博作者相互关注用户的情感极性决定,每个微博用户的λ取值不同。
其中nm,t表示微博dm中主题t出现的频数,nm表示微博dm总单词数。
有了公式(3)、(4)、(5)后,就可以计算吉布斯采样的联合概率:
其中,表示除了当前单词,所有微博中单词w同时属于主题t和情感标签l的频数,{nt,l}-i表示除了当前单词,所有微博中属于主题t和情感标签l的单词总频数。表示微博dm中,除了当前单词,情感标签l属于主题t的频数,{nm,t}-i表示微博dm中,除了当前单词,属于主题t的情感标签总频数。表示除了当前单词,微博dm中主题t的频数,{nm}-i表示除了当前单词,微博dm的单词总数。
进一步利用最大似然估计方法对参数Π={A,B,H}进行估计,其可形式化为公式(7)、(8)与(9)。
其中,表示所有微博中词语w同时属于主题t和情感标签l的概率。表示微博dm中,主题t出现的概率。表示微博dm中情感标签l属于主题t的概率。
对于一个需要进行情感分析的微博,可以根据计算微博的情感极性,若微博属于积极情感的概率大于微博属于消极情感的概率(即其中0为积极情感,1为消极情感),则判定该微博的情感极性为积极,反之,则判定该微博的情感极性为消极。
性能评测
为了定量地分析SRTSM模型的性能,我们选择短文本主题情感分析的代表性算法JST、S-LDA、DPLDA模型与我们的SRTSM模型在新浪微博数据集上进行情感分析准确率、用户关系对准确率的影响和主题提取三个方面的定量分析。实验环境为:CPU为Intel Core i5-2450M CPU,内存4G,OS为Windows 7。本实验采用从新浪微博采集的三个数据集进行实验,数据集的情感极性已经由人工分类,数据集的结构如表2与表3所示。
表2实验数据集
数据集 | 用户数 | 文档数 | 正向情感 | 负向情感 |
Data1 | 121 | 10000 | 5000 | 5000 |
Data2 | 98 | 10000 | 5000 | 5000 |
Data3 | 128 | 10000 | 5000 | 5000 |
表3数据集预处理前后对比
情感分析准确率
我们从Data1、Data2、Data3中分别抽取8个微博数据集,每个微博数据集分别包含1000篇微博,其中积极情感微博与消极情感微博分别为500篇,然后用SRTSM模型分别对每个微博集进行情感分析,结果如表4、5与6所示。
表4 Data1情感分析准确率
JST | SLDA | DPLDA | SRTSM | |
1 | 62.62 | 59.92 | 60.71 | 66.26 |
2 | 63.34 | 60.99 | 61.83 | 67.73 |
3 | 61.41 | 58.28 | 55.24 | 64.95 |
4 | 62.27 | 59.83 | 57.78 | 69.33 |
5 | 60.67 | 58.70 | 55.45 | 64.76 |
6 | 63.41 | 62.11 | 58.73 | 65.49 |
7 | 64.43 | 61.39 | 56.53 | 66.30 |
8 | 65.34 | 60.35 | 59.73 | 68.90 |
Avg | 62.94 | 60.20 | 58.25 | 66.72 |
表5 Data2情感分析准确率
JST | SLDA | DPLDA | SRTSM | |
1 | 63.15 | 61.49 | 61.55 | 66.09 |
2 | 62.03 | 61.83 | 59.74 | 65.13 |
3 | 65.07 | 62.31 | 61.03 | 66.41 |
4 | 69.61 | 64.62 | 61.91 | 71.73 |
5 | 66.67 | 65.42 | 59.13 | 69.54 |
6 | 68.08 | 63.4 | 61.78 | 70.73 |
7 | 64.1 | 68.23 | 63.44 | 69.5 |
8 | 67.18 | 64.96 | 59.58 | 68.12 |
Avg | 65.74 | 64.03 | 61.02 | 68.41 |
表6 Data3情感分析准确率
JST | SLDA | DPLDA | SRTSM | |
1 | 60.52 | 63.7 | 57.72 | 67.51 |
2 | 58.29 | 62.86 | 59.29 | 63.67 |
3 | 62.08 | 58.84 | 61.47 | 65.64 |
4 | 61.72 | 53.45 | 55.71 | 64.6 |
5 | 56.78 | 63.94 | 58.65 | 66.32 |
6 | 63.4 | 56.68 | 61.74 | 65.19 |
7 | 58.75 | 55.99 | 60.75 | 63.39 |
8 | 58.35 | 57.5 | 61.81 | 64.91 |
Avg | 59.99 | 59.12 | 59.64 | 65.15 |
从表4、表5、表6可以看出,总的平均准确率SRTSM要高于JST、SLDA、DPLDA,这说明我们提出的SRTSM模型对于微博情感分析具有更好的性能。对于Data1和Data2,JST的准确率要高于SLDA与DPLDA,SLDA略高于DPLDA,对于Data3,JST的准确率高于SLDA和DPLDA,与Data1和Data2不同,对于Data3,DPLDA的情感分析准确率略高于SLDA。从表中还可以看出,SRTSM对Data2的情感分析性能最强,其次是Data1,最后是Data3。从各个微博集来看,SRTSM的准确率也都要高于其他三种模型。
从上述分析可知,对于现有的LDA主题情感模型,SRTSM模型可以较好地提高微博情感分析的准确率。
用户关系对准确率的影响
我们分别将三个数据集中互相关注的用户比例数定为10%-90%,以此进行用户关系对准确率的影响实验,互相关注的用户比例数的计算方法如公式(10)所示,其中Ratio表示互相关注的用户比例数,UR为互相关注的用户数,U为总用户数。实验结果如图3所示。
Ratio=UR/(U*(U-1)/2 (10)
从图3可以看出,虽然随着互相关注用户比例的上升,微博情感分析准确率有提升也有降低,但是总体趋势是提升的。从Data1的曲线可以看出,相对于用户比例为50%与70%时,准确率在用户比例为60%与80%时有所降低。除此之外,随着比例的提高,微博情感分析准确率呈上升趋势,在50%处达到准确率最大值。对于Data2来说,用户比例为20%时的准确率比用户比例为10%时低,其余都是呈上升趋势,在90%处达到最大值。从Data3的曲线可以看出,当用户比例为30%、60%与90%时,准确率分别比20%、50%与80%时要低,其余准确率都呈上升趋势,在80%处达到最大值。SRTSM对Data2的情感分析性能最好,其次是Data1,SRTSM对Data3的情感分析性能相对较差。
从上述分析可以得出,微博用户关系对准确率的影响较大,当互相关注的用户比例较大时,微博情感分析准确率也较高,所以微博用户关系有助于提高微博情感分析的准确率。从上述分析可以得出,微博用户关系对准确率的影响较大,当互相关注的用户比例较大时,微博情感分析准确率也较高,所以微博用户关系有助于提高微博情感分析的准确率。
主题提取
本实验用SRTSM分别对Data1、Data2与Data3进行主题提取并且列出积极情感与消极情感出现概率最高的15个主题词,结果如表7所示。
表7数据集主题词
Data1的积极情感主题词中包含“喜欢”、“好看”、“可爱”、“好玩”等积极情感极性较强的词语,从“泡面”、“抽奖”、“手机”等可以看出,这可能是一个讨论抽奖的主题,用户应该是抽中了手机、泡面等奖品,因此表示自己喜悦的心情。Data1的消极情感主题词中出现的“苦恼”、“烦躁”等词较明显地展示了用户消极的情感,“天气”,“孩子”等词表达了用户对天气不好而造成孩子生病的抱怨。
从Data2的积极情感主题词可以看出,“谢谢”、“有趣”、“支持”等词具有较强的积极情感色彩,“湖南卫视”、“节目”、“游戏”等词可能说明用户们正在谈论湖南卫视的一档节目,对该节目某个环节的游戏或其他表示了支持,“电视剧”、“搞笑”等词表示用户可能正在讨论一部搞笑的电视剧。而Data2消极情感主题词中的“难过”、“麻烦”、“不爽”具有较强的消极情感色彩,其中“付费”、“音乐”、“流行”等词也许是在谈论某些流行歌曲需要付费,用户对此表达了自己的不满。
Data3积极情感主题词中出现了“恭喜”、“谢谢”、“快乐”、“喜欢”、“漂亮”,这些词具有较强的积极情感极性,“生日”、“礼物”、“聚会”、“唱歌”等向我们展示了一幅庆祝生日的场景,表示用户们可能在谈论一场生日会或者是帮某人过生日。Data3消极情感主题词中“害怕”、“难受”具有较强消极情感极性,从“好像”、“燃烧”、“肚子”中可以看出,该主题应该是对于肚子疼或其他类似主题的探讨,而这样的主题通常是消极情感的。
从上述分析可以得出,SRTSM模型可以较好地提取出微博的主题词,能为微博主题分析提供很好的帮助。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (1)
1.一种社交关系驱动的微博主题情感分析方法,其特征在于,包括以下步骤:
步骤1、对微博消息集进行微博文本分词、去停用词预处理,提取微博用户关系分布G,并设置情感词典;
步骤2、利用情感词典对微博消息进行情感极性与主题归属先验处理:针对词语w,首先按以下方法为w分配主题:生成一个随机数ra,则w所对应的主题t即是第(ra+1)个主题,其中ra∈[0,T],T为微博消息集的主题数;然后按以下方法为w分配情感极性:从情感词典中查找词语w,若情感词典中有w,则将情感词典中w所对应的情感极性l分配给w,否则产生一个随机数rb,则w的情感极性l即是第(rb+1)个情感极性,其中rb∈[0,L],L为情感极性类别数;
步骤3、初始化社交关系主题情感模型SRTSM的分布参数并将循环控制计数器C1与C2置0;
步骤4:利用社交关系主题情感模型SRTSM不断对变量VarSet=(nm,t,l,nm,t,nm,nt,l,w,nt,l)、和进行如下迭代更新直到循环控制计数器C1达到最大迭代次数:
步骤41:判断C1是否大于设定值X,是则转步骤5,否则转下一步骤;
步骤42:对每条微博dm中的每个词语w,首先从VarSet中除去当前词语w所属的情感极性与主题,再通过用户关系分布G查找与当前微博作者相互关注的用户并利用这些用户微博的情感极性确定用户关系参数λ的值,然后利用吉布斯采样的联合概率p(ti=t,li=l|t-i,l-i,w)重新给w赋一个基于用户关系参数λ的情感极性和主题,同时更新变量VarSet,其中t-i和l-i分别是指除微博dm中第i个词以外的其他词的主题与情感极性;
步骤43:令C2=C2+1,以更新C2;
步骤44:判断C2是否大于设定值Y,是则转下一步骤,否则返回步骤42;
步骤45:更新和并置C2=0,然后转步骤41;
其中nm,t,l表示微博dm中情感极性为l的词语属于主题t的频数,nm,t表示微博dm中属于主题t的词语总频数,nm表示微博dm总词语数,nt,l,w表示词语w同时属于主题t、情感极性l的频数,nt,l表示所有同时属于主题t、情感极性l的词语总频数,表示微博dm中主题t出现的概率,表示所有微博中词语w同时属于主题t和情感极性l的概率,表示微博dm中情感极性l属于主题t的概率;
步骤5、判断微博dm的情感极性并输出:若其中l1为积极情感,l2为消极情感,则判定微博dm的情感极性为积极情感,反之为消极情感;
所述社交关系主题情感模型SRTSM的建立方法为:
(1)初始化社交关系主题情感模型SRTSM的分布参数Π={A,B,H},其中,A为微博-主题分布,表示微博dm的主题为t的概率,B为(主题,情感)-词语分布,表示词语w同时属于情感极性l与主题t的概率,H为(微博,主题)-情感分布,表示微博dm中情感极性l属于主题t的概率,A、B与H分别服从狄利克雷分布Dir(α)、Dir(β)与Dir(η),其中α是指主题t在微博dm中出现的先验次数,β是指词语在微博集C中出现的先验次数,η是指情感极性l在微博dm中出现的先验次数;
(2)重复如下操作直到生成一条微博消息中的所有词语:首先从微博-主题分布A中选出一个主题t,t服从Mul(A)分布,其中Mul(*)表示多项分布;接着根据产生的主题t,从(微博,主题)-情感分布H中选出一个情感极性l,l服从Mul(H)分布并且受λ的影响,λ受用户关系分布G影响,G为已知的微博用户关系分布,假设当前微博作者为用户k,若用户k与j互相关注,则G(k,j)=1,否则G(k,j)=0;当G(k,j)为1时,计算用户j的情感极性值,通过所有与用户k互相关注的用户的情感极性值确定用户关系参数λ;最后根据选出的主题t和情感极性l,从(主题,情感)-词语分布B中选择一个词语w,w服从Mul(B)分布;
(3)重复步骤(2)直到微博集C中的所有微博消息生成完毕。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610580948.8A CN106202053B (zh) | 2016-07-22 | 2016-07-22 | 一种社交关系驱动的微博主题情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610580948.8A CN106202053B (zh) | 2016-07-22 | 2016-07-22 | 一种社交关系驱动的微博主题情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106202053A CN106202053A (zh) | 2016-12-07 |
CN106202053B true CN106202053B (zh) | 2018-11-27 |
Family
ID=57491321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610580948.8A Expired - Fee Related CN106202053B (zh) | 2016-07-22 | 2016-07-22 | 一种社交关系驱动的微博主题情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106202053B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107798141B (zh) * | 2017-11-24 | 2021-07-20 | 广州数说故事信息科技有限公司 | 一种基于统计指标的迭代运算的确定用户标签方法 |
CN110084710B (zh) * | 2018-01-26 | 2022-12-09 | 深圳市腾讯计算机系统有限公司 | 确定消息主题的方法及装置 |
CN110299206A (zh) * | 2018-03-21 | 2019-10-01 | 华东师范大学 | 一种多内容隐含狄利克雷分布模型及中医医案隐含病机挖掘方法 |
CN109508380B (zh) * | 2018-03-25 | 2021-07-16 | 哈尔滨工程大学 | 一种结合用户结构相似度进行微博情感分析的方法 |
CN109710917B (zh) * | 2018-11-19 | 2020-05-12 | 南京财经大学 | 一种基于印象矩阵的朋友圈隐藏情感分析方法 |
CN109918556B (zh) * | 2019-03-08 | 2021-06-25 | 北京工业大学 | 一种综合微博用户社交关系和文本特征抑郁情绪识别方法 |
CN110705304B (zh) * | 2019-08-09 | 2020-11-06 | 华南师范大学 | 一种属性词提取方法 |
CN110659365A (zh) * | 2019-09-23 | 2020-01-07 | 中国农业大学 | 一种基于多层次结构词典的畜产品安全事件文本分类方法 |
CN114238627B (zh) * | 2021-11-22 | 2024-04-12 | 西北工业大学 | 一种基于albert和lda的跨域情感分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104484437A (zh) * | 2014-12-24 | 2015-04-01 | 福建师范大学 | 一种网络短评情感挖掘方法 |
CN104978308A (zh) * | 2015-05-22 | 2015-10-14 | 福建师范大学 | 一种微博主题情感演化分析方法 |
-
2016
- 2016-07-22 CN CN201610580948.8A patent/CN106202053B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104484437A (zh) * | 2014-12-24 | 2015-04-01 | 福建师范大学 | 一种网络短评情感挖掘方法 |
CN104978308A (zh) * | 2015-05-22 | 2015-10-14 | 福建师范大学 | 一种微博主题情感演化分析方法 |
Non-Patent Citations (4)
Title |
---|
Topic sentiment trend model: Modeling facets and sentiment dynamics;M Zheng,et al.;《IEEE International Conference on Computer Science and Automation Engineering》;20120531;第3卷;第651-657页 * |
User-Level Sentiment Analysis Incorporating Social Networks;Chenhao Tan,et al.;《Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining》;20110821;第1397-1405页 * |
基于LDA的多粒度主题情感混合模型;欧阳继红等;《电子学报》;20150930;第43卷(第9期);第1875-1880页 * |
基于动态主题情感混合模型的微博主题情感演化分析方法;李超雄等;《计算机应用》;20151010;第35卷(第10期);第2905-2910页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106202053A (zh) | 2016-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106202053B (zh) | 一种社交关系驱动的微博主题情感分析方法 | |
CN109933664B (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
CN108255805B (zh) | 舆情分析方法及装置、存储介质、电子设备 | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN109684646A (zh) | 一种基于话题影响力的微博话题情感分析方法 | |
CN105183717B (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 | |
CN107943800A (zh) | 一种微博话题舆情计算与分析的方法 | |
CN106354818B (zh) | 基于社交媒体的动态用户属性提取方法 | |
CN103678670A (zh) | 一种微博热词与热点话题挖掘系统及方法 | |
CN107273348B (zh) | 一种文本的话题和情感联合检测方法及装置 | |
CN107577782B (zh) | 一种基于异质数据的人物相似度刻画方法 | |
CN111309864B (zh) | 一种微博热点话题的用户群体情感倾向迁移动态分析方法 | |
CN110532378B (zh) | 一种基于主题模型的短文本方面提取方法 | |
CN110597979A (zh) | 一种基于自注意力的生成式文本摘要方法 | |
CN110134788B (zh) | 一种基于文本挖掘的微博发布优化方法及系统 | |
CN110728144B (zh) | 一种基于上下文语义感知的抽取式文档自动摘要方法 | |
CN109815485A (zh) | 一种微博短文本情感极性识别的方法、装置及存储介质 | |
CN106569996B (zh) | 一种面向中文微博的情感倾向分析方法 | |
CN107688630A (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
CN113032557A (zh) | 一种基于频繁词集与bert语义的微博热点话题发现方法 | |
CN109145090B (zh) | 一种基于深度学习的微博用户情感影响力分析方法 | |
CN115577316A (zh) | 一种基于多模态数据融合的用户人格预测方法与应用 | |
Liu et al. | Correlation identification in multimodal weibo via back propagation neural network with genetic algorithm | |
CN104484437B (zh) | 一种网络短评情感挖掘方法 | |
CN110909167B (zh) | 一种微博文本分类系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20181127 |