CN108549632B - 一种基于情感分析的社交网络影响力传播模型构建方法 - Google Patents

一种基于情感分析的社交网络影响力传播模型构建方法 Download PDF

Info

Publication number
CN108549632B
CN108549632B CN201810289067.XA CN201810289067A CN108549632B CN 108549632 B CN108549632 B CN 108549632B CN 201810289067 A CN201810289067 A CN 201810289067A CN 108549632 B CN108549632 B CN 108549632B
Authority
CN
China
Prior art keywords
emotion
microblog
influence propagation
user
propagation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810289067.XA
Other languages
English (en)
Other versions
CN108549632A (zh
Inventor
刘洪涛
熊健涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201810289067.XA priority Critical patent/CN108549632B/zh
Publication of CN108549632A publication Critical patent/CN108549632A/zh
Application granted granted Critical
Publication of CN108549632B publication Critical patent/CN108549632B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

本发明涉及一种基于情感分析的社交网络影响力传播模型构建方法,属于社交网络影响力传播领域。包括以下步骤:步骤一,通过微博API抓取微博数据,清洗数据用以分析。步骤二,对每条微博的情感倾向进行分析,用来改进影响力传播模型。步骤三,选取种子集作为影响力的传播者。步骤四,加入情感因子到激活概率的计算公式中,通过改进后的激活概率计算方法来判断节点是否被激活。步骤五,将被激活节点加入到种子集中,同时进行影响力的传播,最后得到所有激活节点即为影响力传播的结果。

Description

一种基于情感分析的社交网络影响力传播模型构建方法
技术领域
本发明属于社交网络影响力传播领域,特别是基于情感分析的社交网络影响力传播模型。
背景技术
如今用户可以通过社交网络平台发表自己的各种观点,如对某一事件或者产品的看法。在用户发表的观点中包含主题和情感等因素,而这些因素会对影响用户观点的传播情况。不同的情感在传播过程中可能会产生不同的传播效果,比如:带有极性情感的观点的传播的范围要大于带有中性情感的观点。
独立级联模型(Independent cascade model)是影响力传播的一个基础模型。IC模型的基本过程如下,一个活跃(active)用户会在网络中扩散信息,它会试图去影响它的邻居用户并通过边的权重来判断邻居用户是否被影响。最早提出的独立级联模型中,种子节点激活其邻居节点的激活概率是一个随机值,但是在社交网络中影响节点激活的因素有很多,而随机值并不能反映这点。作为影响力传播的关键因素,节点的激活概率对影响力传播模型的有效与否起着决定性的作用。节点的激活概率在社交网络中的意义是指用户被一条信息或微博影响的概率。那么要研究节点的激活概率首先要了解社交网络中的用户容易被哪些因素影响,从而使得信息成功传播出去。通过对社交网络中会对影响力传播造成影响的因素进行分析,发现情感是一个比较重要的影响因素,所以针对原有模型的不足结合情感分析对独立级联模型的激活概率计算方法做了改进。
本发明通过加入情感系数到独立级联模型的激活概率计算公式中来对独立级联模型进行改进,分析每条微博的情感倾向,然后利用情感倾向来计算情感系数,之后将情感系数加入到激活概率的计算公式中,之后将改进后的激活概率计算公式加入到影响力传播模型中,最后使用模型来对社交网络中的影响力传播情况进行分析。本专利文中提出的模型较原模型而言在影响力传播传播预测效果上有一定的改进。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种提高预测精确度的基于情感分析的社交网络影响力传播模型构建方法。本发明的技术方案如下:
一种基于情感分析的社交网络影响力传播模型构建方法,其包括以下步骤:
通过加入情感系数到独立级联模型的激活概率计算公式中来对独立级联模型进行改进,具体包括:分析每条微博的情感倾向,然后利用情感倾向来计算情感系数,之后将情感系数加入到激活概率的计算公式中,再将改进后的激活概率计算公式加入到独立级联模型中,最后使用影响力传播模型来对社交网络中的影响力传播情况进行分析。
进一步的,所述分析每条微博的情感倾向,然后利用情感倾向来计算情感系数,具体包括:
1)、抓取微博数据,对每条微博进行情感分析,分析得到每条微博的情感倾向,情感倾向包括七类:1.客观,2.高兴,3.愤怒,4.悲伤,5.恐惧,6.反感,7.惊讶;
2)、利用步骤1)的情感分析结果计算情感系数sn。
进一步的,所述步骤1)对每条微博进行情感分析,采用的是细粒度情感分析,如果在一条微博中没有情感词的出现则此条微博的情感倾向为‘客观’,如果微博中包含有情感词则此条微博的情感强度的计算公式如下:
Figure GDA0003386193250000021
其中scorej表示j类情感词的情感强度;m表示一条微博中属于i类情感的情感词数量,scorej的值是通过互信息来进行计算的,使用语料库来统计词语出现的概率,计算公式如下:
Figure GDA0003386193250000022
其中,df(word)表示在语料中含有词语word的文档数目,N代表为语料数据集中文档总的数目,PMI(word1,word2)值越大表示两个词语的相关程度就越强,所以,一个未知情感倾向词语word的情感倾向强度值计算为:
scorej=∑pword∈PwordsPMI(word,pword)-∑nword∈NwordsPMI(word,nword)
其中Pwords是褒义情感种子词语的集合,Nwords是贬义情感种子的词语集合,通过以上计算公式会得到一个情感强度的矩阵{p1,p2,p3,p4,p5,p6,},此条微博的情感倾向类别为Sj’=argmax(j’)。
进一步的,所述步骤2)中,情感系数sn表示用户情感在总体情感中所占的比重,计算情感系数的方法如下:
Figure GDA0003386193250000031
其中,Si表示用户i的情感倾向类型,转发后的情感与原创微博情感不同需要重新计算用户当前情感在传播过程中所占的比重。
进一步的,所述将情感系数加入到激活概率的计算公式中具体包括:
3)、将步骤2)计算得到的情感系数sn加入到影响力传播模型激活概率p的计算公式如下:
Figure GDA0003386193250000032
其中:Rij表示用户j转发用户i微博的数量,Ri表示用户i发表微博数量,Rj表示用户j所有转发数量,sn为情感系数。
进一步的,所述将改进后的激活概率计算公式加入到独立级联模型中,最后使用影响力传播模型来对社交网络中的影响力传播情况进行分析具体包括:
4)、将步骤3)加入情感系数的激活概率公式p应用到影响力传播模型中,当激活概率p大于一个随机值r∈(0,1)时,节点被激活并加入到集合S中;
5)、重复步骤4)直到没有节点可以被激活,集合S则为影响力最终的传播结果。
进一步的,在所述步骤4)中,判断用户是否有转发行为,用户是否转发、评论,代表用户是否有转发和评论微博或者帖子的行为:
Figure GDA0003386193250000041
其中p是激活概率,r∈(0,1)是一个随机值,如果用户有转发行为则视为被激活,并将其加入到种子集S中。
本发明的优点及有益效果如下:
本发明对影响力传播过程中的情感倾向进行了计算,并加入到独立级联模型激活概率的计算公式中。目前对于独立级联模型的改进,大多是考虑节点之间的距离,也就是节点之间的相互关系,对于节点自身的属性没有进行进一步的分析。而在社交网络中,用户的情感在传播过程中是一个重要的因素,不同类型的情感对于影响力的传播有不同程度的影响,社交网络中包含主流情感的微博传播范围会更广。与现有技术相比,本发明将社交网络中用户的情感因素对影响力传播的影响反映到了激活概率的计算公式中,使改进后的影响力传播模型能更好的预测社交网络中影响力的传播情况。
附图说明
图1是本发明提供优选实施例基于情感分析的社交网络影响力传播模型的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
基于情感分析的社交网络影响力传播模型,包括:
步骤1:通过新浪微博提供的API抓取某一热点事件的微博数据,通过基于词典的情感分析方法对微博进行情感倾向的分析,采用细粒度的情感分析方法,将所有情感分为七类:1.客观,2.高兴,3.愤怒,4.悲伤,5.恐惧,6.反感,7.惊讶。
步骤2:使用分析得到的微博情感倾向进行情感系数的计算,其中如果微博的情感倾向没有发生改变则情感系数为1,否则情感系数为当前情感在总的微博情感中所占的比重。
步骤3:将情感系数加入到影响力传播模型激活概率的计算公式中,得到新的激活概率计算公式。
步骤4:将新的激活概率公式应用到影响力传播模型中,来判断用户是否转发微博,若转发则用户的状态为激活状态,反之则未激活,将成功激活的节点加入到集合S中。
步骤5:重复以上步骤直到没有节点可以被激活,所得到的集合S则为影响力传播的结果
所述的基于情感分析的社交网络影响力传播模型,其中步骤一,包括:
通过新浪微博API抓取微博数据,抓取的数据进行清洗,删除重复数据,将原创微博和转发微博分别记录,得到微博的转发关系。对每条微博进行情感分析,采用的是细粒度情感分析,将所有情感倾向分为七类:1.客观,2.高兴,3.愤怒,4.悲伤,5.恐惧,6.反感,7.惊讶。如果在一条微博中没有情感词的出现则此条微博的情感倾向为‘客观’,如果微博中包含有情感词则此条微博的情感强度的计算公式如下:
Figure GDA0003386193250000051
其中scorej表示j类情感词的情感强度;m表示一条微博中属于i类情感的情感词数量。scorej的值是通过互信息来进行计算的,使用语料库来统计词语出现的概率。计算公式如下:
Figure GDA0003386193250000052
其中,df(word)表示在语料中含有词语word的文档数目,N代表为语料数据集中文档总的数目。该值越大表示两个词语的相关程度就越强。所以,一个未知情感倾向词语word的情感倾向强度值计算为:
scorej=∑pword∈PwordsPMI(word,pword)-∑nword∈NwordsPMI(word,nword)
其中Pwords是褒义情感种子词语的集合,Nwords是贬义情感种子的词语集合。通过以上计算公式会得到一个情感强度的矩阵{p1,p2,p3,p4,p5,p6,}此条微博的情感倾向类别为Sj’=argmax(j’)。
得到微博的情感倾向并分别记录原创微博和转发微博的情感倾向,用来之后计算情感系数。
所述的基于情感分析的社交网络影响力传播模型,其中步骤二,包括:
计算情感系数sn,即用户情感在总体情感中所占的比重,计算情感系数的方法如下:
Figure GDA0003386193250000061
其中,Si用户i的情感倾向类型,转发后的情感与原创微博情感不同需要重新计算用户当前情感在传播过程中所占的比重。
所述的基于情感分析的社交网络影响力传播模型,其中步骤三,包括:
将情感系数sn加入到激活概率的计算公式中,得到激活概率计算公式如下:
Figure GDA0003386193250000062
其中:Rij表示用户j转发用户i微博的数量,Ri表示用户i发表微博数量,Rj表示用户j所有转发数量,sn为情感系数。
所述的基于情感分析的社交网络影响力传播模型,其中步骤四,包括:
通过新的激活概率计算公式来判断用户是否对微博进行了转发,即用户是否被激活,公式如下:
Figure GDA0003386193250000063
其中p是激活概率,r∈(0,1)是一个随机值,如果用户有转发行为则视为被激活,并将其加入到种子集S中。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (6)

1.一种基于情感分析的社交网络影响力传播模型构建方法,其特征在于,包括以下步骤:
通过加入情感系数到独立级联模型的激活概率计算公式中来对独立级联模型进行改进,具体包括:分析每条微博的情感倾向,然后利用情感倾向来计算情感系数,之后将情感系数加入到激活概率的计算公式中,再将改进后的激活概率计算公式加入到影响力传播模型中,最后使用影响力传播模型来对社交网络中的影响力传播情况进行分析;将新的激活概率公式应用到影响力传播模型中,来判断用户是否转发微博,若转发则用户的状态为激活状态,反之则未激活,将成功激活的节点加入到集合S中,重复以上步骤直到没有节点可以被激活,所得到的集合S则为影响力传播的结果;
所述的基于情感分析的社交网络影响力传播模型,包括:
计算情感系数sn,即用户情感在总体情感中所占的比重,计算情感系数的方法如下:
Figure FDA0003386193240000011
其中,Si表示用户i的情感倾向类型,转发后的情感与原创微博情感不同需要重新计算用户当前情感在传播过程中所占的比重。
2.根据权利要求1所述的基于情感分析的社交网络影响力传播模型构建方法,其特征在于,所述分析每条微博的情感倾向,然后利用情感倾向来计算情感系数,具体包括:
1)、抓取微博数据,对每条微博进行情感分析,分析得到每条微博的情感倾向,情感倾向包括七类:1.客观,2.高兴,3.愤怒,4.悲伤,5.恐惧,6.反感,7.惊讶;
2)、利用步骤1)的情感分析结果计算情感系数sn。
3.根据权利要求2所述的基于情感分析的社交网络影响力传播模型构建方法,其特征在于,所述步骤1)对每条微博进行情感分析,采用的是细粒度情感分析,如果在一条微博中没有情感词的出现则此条微博的情感倾向为‘客观’,如果微博中包含有情感词则此条微博的情感强度的计算公式如下:
Figure FDA0003386193240000021
其中scorej表示j类情感词的情感强度;m表示一条微博中属于j’类情感的情感词数量,scorej的值是通过互信息来进行计算的,使用语料库来统计词语出现的概率,计算公式如下:
Figure FDA0003386193240000022
其中,df(word)表示在语料中含有词语word的文档数目,N代表为语料数据集中文档总的数目,PMI(word1,word2)值越大表示两个词语的相关程度就越强,所以,一个未知情感倾向词语word的情感倾向强度值计算为:
scorej=∑pword∈pwordsPMI(word,pword)-∑nword∈NwordsPMI(word,nword)
其中Pwords是褒义情感种子词语的集合,Nwords是贬义情感种子的词语集合,通过以上计算公式会得到一个情感强度的矩阵{p1,p2,p3,p4,p5,p6},此条微博的情感倾向类别为Sj’=argmax(j’)。
4.根据权利要求3所述的基于情感分析的社交网络影响力传播模型构建方法,其特征在于,所述将情感系数加入到激活概率的计算公式中具体包括:
3)、将步骤2)计算得到的情感系数sn加入到影响力传播模型激活概率p的计算公式如下:
Figure FDA0003386193240000023
其中:Rij表示用户j转发用户i微博的数量,Ri表示用户i发表微博数量,Rj表示用户j所有转发数量,sn为情感系数。
5.根据权利要求4所述的基于情感分析的社交网络影响力传播模型构建方法,其特征在于,所述将改进后的激活概率计算公式加入到影响力传播模型中,最后使用影响力传播模型来对社交网络中的影响力传播情况进行分析具体包括:
4)、将步骤3)加入情感系数的激活概率公式p应用到影响力传播模型中,当激活概率p大于等于一个随机值r∈(0,1)时,节点被激活并加入到集合S中;
5)、重复步骤4)直到没有节点可以被激活,集合S则为影响力最终的传播结果。
6.根据权利要求5所述的基于情感分析的社交网络影响力传播模型构建方法,其特征在于,在所述步骤4)中,判断用户是否有转发行为,用户是否转发、评论,代表用户是否有转发和评论微博或者帖子的行为:
Figure FDA0003386193240000031
其中p是激活概率,r∈(0,1)是一个随机值,如果用户有转发行为则视为被激活,并将其加入到种子集S中。
CN201810289067.XA 2018-04-03 2018-04-03 一种基于情感分析的社交网络影响力传播模型构建方法 Active CN108549632B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810289067.XA CN108549632B (zh) 2018-04-03 2018-04-03 一种基于情感分析的社交网络影响力传播模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810289067.XA CN108549632B (zh) 2018-04-03 2018-04-03 一种基于情感分析的社交网络影响力传播模型构建方法

Publications (2)

Publication Number Publication Date
CN108549632A CN108549632A (zh) 2018-09-18
CN108549632B true CN108549632B (zh) 2022-02-11

Family

ID=63513929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810289067.XA Active CN108549632B (zh) 2018-04-03 2018-04-03 一种基于情感分析的社交网络影响力传播模型构建方法

Country Status (1)

Country Link
CN (1) CN108549632B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918556B (zh) * 2019-03-08 2021-06-25 北京工业大学 一种综合微博用户社交关系和文本特征抑郁情绪识别方法
CN110942192A (zh) * 2019-11-25 2020-03-31 中国联合网络通信集团有限公司 犯罪概率的确定方法及装置
CN112052995B (zh) * 2020-08-31 2023-08-01 杭州电子科技大学 基于融合情感倾向主题的社交网络用户影响力预测方法
CN112487304B (zh) * 2020-11-26 2022-05-03 杭州电子科技大学 基于观点向量化的影响力传播模型的建立方法
CN112988973A (zh) * 2021-03-25 2021-06-18 上海柏观数据科技有限公司 一种基于情感词匹配的人才情感倾向检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412872A (zh) * 2013-07-08 2013-11-27 西安交通大学 一种基于有限节点驱动的微博社会网络信息推荐方法
CN103530360A (zh) * 2013-10-12 2014-01-22 广西师范学院 基于微博文本情感计算的网络社会影响最大化算法
CN107392365A (zh) * 2017-07-11 2017-11-24 扬州大学 基于传播路径分析的独立级联模型的影响力最大化方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10115167B2 (en) * 2013-12-17 2018-10-30 Palo Alto Research Center Incorporated System and method for identifying key targets in a social network by heuristically approximating influence
CN106780073B (zh) * 2017-01-11 2021-05-25 中南大学 一种考虑用户行为和情感的社会网络影响力最大化初始节点选取方法
CN107341270B (zh) * 2017-07-28 2020-07-03 东北大学 面向社交平台的用户情感影响力分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412872A (zh) * 2013-07-08 2013-11-27 西安交通大学 一种基于有限节点驱动的微博社会网络信息推荐方法
CN103530360A (zh) * 2013-10-12 2014-01-22 广西师范学院 基于微博文本情感计算的网络社会影响最大化算法
CN107392365A (zh) * 2017-07-11 2017-11-24 扬州大学 基于传播路径分析的独立级联模型的影响力最大化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
An emotion-based independent cascade model for sentiment;Qiyao Wang;《Knowledge-Based Systems》;20161109;第116卷(第C期);第86-93页 *
Information diffusion in structured online social networks;Pei Li;《Modern Physics Letters B》;20150531;第29卷(第13期);第1550063-1-13页 *
微博影响力传播模型的改进与验证;贺幸;《中国优秀硕士学位论文全文数据库信息科技辑》;20141215(第12期);第I139-63页 *

Also Published As

Publication number Publication date
CN108549632A (zh) 2018-09-18

Similar Documents

Publication Publication Date Title
CN108549632B (zh) 一种基于情感分析的社交网络影响力传播模型构建方法
US11659050B2 (en) Discovering signature of electronic social networks
WO2017133492A1 (zh) 一种风险评估方法和系统
TWI784941B (zh) 一種多重抽樣模型訓練方法及裝置
CN106780073B (zh) 一种考虑用户行为和情感的社会网络影响力最大化初始节点选取方法
WO2015135321A1 (zh) 基于金融数据的社会关系挖掘的方法及装置
US8738361B2 (en) Systems and methods for extracting patterns from graph and unstructered data
CN109766557B (zh) 一种情感分析方法、装置、存储介质及终端设备
CN110390017B (zh) 基于注意力门控卷积网络的目标情感分析方法及系统
TW201443811A (zh) 社群媒體影響性評估(一)
CN107402859B (zh) 软件功能验证系统及其验证方法
CN112507248A (zh) 一种基于用户评论数据和信任关系的旅游景点推荐方法
US20180232665A1 (en) User score model training and calculation
CN113434628B (zh) 一种基于特征级与传播关系网络的评论文本置信检测方法
CN112364242B (zh) 针对上下文感知型的图卷积推荐系统
US20180336482A1 (en) Social prediction
CN108122168A (zh) 社交活动网络中种子节点筛选方法和装置
Wang et al. A genealogy of information spreading on microblogs: A Galton-Watson-based explicative model
Chang et al. Link prediction in a bipartite network using Wikipedia revision information
CN112052995B (zh) 基于融合情感倾向主题的社交网络用户影响力预测方法
CN109492924B (zh) 一种基于微博用户自身和行为价值二阶的影响力评估方法
Vasconcelos et al. What makes your opinion popular? Predicting the popularity of micro-reviews in Foursquare
CN111342991A (zh) 基于跨社交网络的信息传播方法
US10990883B2 (en) Systems and methods for estimating and/or improving user engagement in social media content
CN115470991A (zh) 基于用户短时情感和演化博弈的网络谣言传播预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant