CN109145090B - 一种基于深度学习的微博用户情感影响力分析方法 - Google Patents
一种基于深度学习的微博用户情感影响力分析方法 Download PDFInfo
- Publication number
- CN109145090B CN109145090B CN201811009372.5A CN201811009372A CN109145090B CN 109145090 B CN109145090 B CN 109145090B CN 201811009372 A CN201811009372 A CN 201811009372A CN 109145090 B CN109145090 B CN 109145090B
- Authority
- CN
- China
- Prior art keywords
- user
- microblog
- influence
- emotional
- emo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 56
- 238000004458 analytical method Methods 0.000 title claims abstract description 36
- 238000013135 deep learning Methods 0.000 title claims abstract description 16
- 230000002996 emotional effect Effects 0.000 claims abstract description 77
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 abstract description 8
- 230000009323 psychological health Effects 0.000 abstract description 4
- 238000003745 diagnosis Methods 0.000 abstract description 2
- 238000011156 evaluation Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 235000008694 Humulus lupulus Nutrition 0.000 description 2
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 2
- 244000046052 Phaseolus vulgaris Species 0.000 description 2
- 229920002472 Starch Polymers 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 235000019698 starch Nutrition 0.000 description 2
- 239000008107 starch Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000518 effect on emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000002368 isothermal capactiance transient spectroscopy Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于深度学习的微博用户情感影响力分析方法,涉及自然语言处理领域。包括:获取某一话题下的用户三元组和微博五元组,并计算用户Ui的自身情感影响力;计算用户Ui与用户Uj交互得到的交互情感影响力;计算用户Ui的情感影响力;计算用户Ui的整体情感强度;计算用户Uj的整体情感强度;计算用户Ui和Uj整体情感强度的相似度;计算用户Ui对其粉丝施加的影响力;计算用户Ui的全局情感影响力;得到用户的全局情感影响力排名。本方法可用于目前备受关注的心理健康问题,通过数据获取平台分析某一个心理健康话题,找到话题影响者,从而帮助心理研究人员对这些用户进行后续的评估与诊断,也可以用于帮助商品推广、引领舆论导向、帮助有关部门决策。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于深度学习的微博用户情感影响力分析方法。
背景技术
随着互联网技术的不断进步,由用户主导而生成的内容互联网模式更加符合当代人们对自我表达的需求,人类社会已经全面进入Web2.0时代,其中,微博的诞生是中国网络用户交互模式的一次重大变革。由于微博亲民、便捷、自主等特点,各种行业的微博账号覆盖面积逐渐扩大,越来越多的用户在微博上发表自己的所见所闻所想,而且一般都带有主观情感,这些情感类微博包含了许多可用信息,所以本文使用新浪微博作为数据来源。
微博情感影响力分析是目前的研究热门,情感影响力分析的基础是微博文本的情感倾向性分析。针对微博文本的情感倾向性分析,目前主流的情感分析分为粗粒度的和细粒度的。其中,粗粒度的有2分类、3分类等,细粒度的有6分类、23分类等。目前的中文文本极性二分类算法主要包括基于机器学习和基于词典的方法,但是这些方法由于无法综合考虑文本的上下文语境,准确率并不高。卷积神经网络(CNN)能够高效地提取句子特征,其卷积层能够保证一次性扫描多个单词,这在考虑文本上下文语境任务中具有一定的优势。极限学习机(ELM)是一种单隐层前馈神经网络,能够保证在不损失学习精度的情况下比传统分类器训练时间更短。
传统的社交网络影响力定义是具有一定导向能力的用户,也被称为“意见领袖”。但目前的相关研究主要考虑社交网络的拓扑结构和交互信息,这种分析方式是不全面的,因为在类似微博的社交网络中,用户会发表具有某些情感的博文来获取他人的兴趣,从而与之产生互动,这说明微博文本信息也是衡量微博用户影响力的关键因素,然而目前的研究工作却忽略了这一因素。
本申请研究微博用户情感影响力,并将其定义为微博用户通过发布带有情感倾向的微博,对其他用户产生情感变化或使其他用户与自己情感趋于一致的能力。这种能力可以通过微博的网络结构、微博用户的交互行为以及用户发表的微博内容来综合衡量。基于网络结构的方法包括度中心性、中介中心性、紧密中心性以及特征向量中心性等。基于微博用户的交互行为方法考虑用户间的点赞、评论、转发以及提及(“@”)等。基于文本内容的分析方法目前的研究较少,但是它是用户表达情感的载体,因此对于情感影响力分析有着重要作用。
现有的情感排名方法EmotionRank是由北京邮电大学的朱江等人提出的一种用于寻找微博用户中情感影响者的模型,该算法的缺点是,在局部情感影响力分析中,衡量因素不全面的缺点,在全局情感影响力分析中,时间复杂度过高。
发明内容
针对现有技术存在的问题,本发明提供一种基于深度学习的微博用户情感影响力分析方法,侧重研究情感分析中粗粒度的2分类方式,根据卷积神经网络(CNN)和单隐层前馈神经网络极限学习机(ELM)的优势,提出CNN+ELM模型来解决文本情感极性二分类问题,将微博用户的情感影响力划分为局部影响力和全局影响力,提出了能够计算上述两种影响力的情感影响力排名方法EmoIntRank,在局部情感影响力分析中,该方法结合拓扑结构、交互行为和文本内容三个因素,在某一个话题下进行影响力计算,找到该话题下的影响者,在全局情感影响力分析中,该方法综合拓扑结构和文本内容分析两个因素,找到全局情感影响者。
为了实现上述目的,一种基于深度学习的微博用户情感影响力分析方法,包括以下步骤:
步骤1:获取某一话题下的用户三元组Su和微博五元组SD,并计算用户三元组Su中每个近15天发表过不少于10篇微博用户Ui的自身情感影响力EItopic-zs(Ui);
所述情感影响力包括用户Ui的受欢迎度DoUP(Ui)和用户Ui所发微博的受欢迎度DoWP(Ui);所述用户Ui的受欢迎度DoUP(Ui)由用户Ui的粉丝数决定,粉丝数越多,用户Ui的受欢迎度越高;所述用户Ui所发微博的受欢迎度DoWP(Ui)由该微博的转发数和评论数决定,转发数和评论数越高,用户Ui所发微博的受欢迎度越高;
步骤2:计算用户Ui与每一个与用户Ui互动过的近15天发表过不少于10篇微博的用户Uj交互得到的交互情感影响力EItopic-jh(Ui);
步骤3:根据用户Ui的自身情感影响力和交互情感影响力计算用户Ui的情感影响力EItopic(Ui);
步骤4:计算用户Ui的整体情感强度EmoDi-Int;
所述情感强度为用户发布的带有情感倾向的微博或评论D所具有的强烈程度,由用户发布的带有情感倾向的微博或评论D的情感得分ScoreD-emo决定;所述情感得分ScoreD-emo是根据boson工具对用户发布的带有情感倾向的微博或评论D进行情感分析后得到的,其值在0到1之间;所述整体情感强度EmoDi-Int为用户Ui在时间Tg内发表微博的情感强度均值;
步骤5:计算用户Uj的整体情感强度EmoDj-Int;
步骤6:计算用户Ui和用户Uj整体情感强度的相似度distance(Uj,Ui);
步骤7:根据用户Ui和用户Uj整体情感强度的相似度计算用户Ui对其粉丝施加的影响力FEI(Ui);
步骤8:根据用户Ui的情感影响力EItopic(Ui)和用户Ui对其粉丝施加的影响力计算用户Ui的全局情感影响力EIglobal(Ui);
所述用户Ui的全局情感影响力EIglobal(Ui)为用户Ui在跨话题状态下通过其自身的受欢迎度DoUP(Ui)以及与其互动用户Uj的整体情感强度的相似度distance(Uj,Ui)共同决定的影响力;
步骤9:将每个用户Ui的全局情感影响力EIglobal进行降序排列,即得到用户的全局情感影响力排名。
进一步地,所述步骤1中计算用户Ui的自身情感影响力的公式如下:
EItopic-zs(Ui)=(1-d)+DoUP(Ui)+∑DoWP(Ui);
其中,d为区间[0,1]内的常数,用户Ui受欢迎度DoUP(Ui)和用户Ui所发微博的受欢迎度DoWP(Ui)的计算公式如下:
DoUP=lg Nfans;
DoWP=lg|Ncm+Nre|;
其中,Nfans为用户信息三元组Su中的粉丝数,Ncm为微博的评论数,Nre为微博的转发数。
进一步地,所述步骤2中计算用户Ui与用户Uj交互得到的交互情感影响力EItopic-jh(Ui)的公式如下:
EItopic-jh(Ui)=∑(Emowj-Int+EIR(Uj));
其中,Emowj-Int为微博中词语的情感强度,EIR(Ui)为用户Ui的EmoIntRank算法值。
进一步地,所述步骤4和步骤5中计算用户Ui和Uj的整体情感强度EmoUi-Int和EmoUj-Int的公式如下:
其中,和分别为用户Ui和Uj在时间Tg内发表的所有微博数,eDi和eDi分别为用户Ui所发微博Di和Uj所发微博Dj的情感极性,EmoDi-Int和EmoDj-Int分别为用户Ui所发微博Di和Uj所发微博Dj的情感强度。
进一步地,所述步骤6中计算用户Ui和用户Uj整体情感强度的相似度的公式如下:
distance(Uj,Ui)=1+|EmoUi-Int-EmoUj-Int|;
其中,|EmoUi-Int-EmoUj-Int|为用户Ui和Uj之间的整体情感影响强度的差值。
进一步地,所述步骤7中计算用户Ui对其粉丝施加的影响力FEI(Ui)的公式如下:
进一步地,所述步骤8中计算用户Ui的全局情感影响力EIglobal(Ui)的公式如下:
EIglobal(Ui)=DoUP(Ui)+FEI(Ui);
本发明的有益效果:
本发明提出一种基于深度学习的微博用户情感影响力分析方法,根据微博用户情感影响力分析找到情感影响者,利用这些影响者具有的改变其他用户情感的能力,可以用于目前受到越来越多社会关注公共的心理健康问题,通过数据获取平台分析某一个心理健康话题的方式,找到话题影响者,从而帮助心理研究人员对这些用户进行后续的评估与诊断,也可以用于帮助商品推广、引领舆论导向、帮助有关部门决策等问题上。
附图说明
图1为本发明实施例中基于深度学习的微博用户情感影响力分析方法的流程图;
图2为本发明实施例中使用word2vec将单词转换为200词向量并计算两个词的距离;
图3为本发明实施例中ELM训练数据格式;
图4为本发明实施例中采用EmoIntRank算法与EmotionRank算法进行全局影响力分析的时间对比图。
具体实施方式
为了使本发明的目的、技术方案及优势更加清晰,下面结合附图和具体实施例对本发明做进一步详细说明。此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
一种基于深度学习的微博用户情感影响力分析方法,流程如图1所示,具体方法如下所述:
步骤1:获取某一话题下的用户三元组Su和微博五元组SD,并计算用户三元组Su中每个近15天发表过不少于10篇微博用户Ui的自身情感影响力EItopic-zs(Ui);
所述情感影响力包括用户Ui的受欢迎度DoUP(Ui)和用户Ui所发微博的受欢迎度DoWP(Ui);所述用户Ui的受欢迎度DoUP(Ui)由用户Ui的粉丝数决定,粉丝数越多,用户Ui的受欢迎度越高;所述用户Ui所发微博的受欢迎度DoWP(Ui)由该微博的转发数和评论数决定,转发数和评论数越高,用户Ui所发微博的受欢迎度越高;
所述计算用户Ui的自身情感影响力的公式如下:
EItopic-zs(Ui)=(1-d)+DoUP(Ui)+∑DoWP(Ui);
其中,d为区间[0,1]内的常数,用户Ui受欢迎度DoUP(Ui)和用户Ui所发微博的受欢迎度DoWP(Ui)的计算公式如下:
DoUP=lg Nfans;
DoWP=lg|Ncm+Nre|;
其中,Nfans为用户信息三元组Su中的粉丝数,Ncm为微博的评论数,Nre为微博的转发数。
步骤2:计算用户Ui与每一个与用户Ui互动过的近15天发表过不少于10篇微博的用户Uj交互得到的交互情感影响力EItopic-jh(Ui);
所述计算用户Ui与用户Uj交互得到的交互情感影响力EItopic-jh(Ui)的公式如下:
EItopic-jh(Ui)=∑(Emowj-Int+EIR(Uj));
其中,Emowj-Int为微博中词语的情感强度,EIR(Ui)为用户Ui的EmoIntRank算法值。
步骤3:根据用户Ui的自身情感影响力和交互情感影响力计算用户Ui的情感影响力EItopic(Ui);
步骤4:计算用户Ui的整体情感强度EmoDi-Int;
所述情感强度为用户发布的带有情感倾向的微博或评论D所具有的强烈程度,由用户发布的带有情感倾向的微博或评论D的情感得分ScoreD-emo决定;所述情感得分ScoreD-emo是根据boson工具对用户发布的带有情感倾向的微博或评论D进行情感分析后得到的,其值在0到1之间;所述整体情感强度EmoDi-Int为用户Ui在时间Tg内发表微博的情感强度均值;
所述计算用户Ui和Ui的整体情感强度EmoUi-Int和EmoUj-Int的公式如下:
其中,和分别为用户Ui和Uj在时间Tg内发表的所有微博数,eDi和eDi分别为用户Ui所发微博Di和Uj所发微博Dj的情感极性,EmoDi-Int和EmoDj-4nt分别为用户Ui所发微博Di和Uj所发微博Dj的情感强度。
本实施例中,将微博文本的情感强度分为正向(EmoDi-Int-pos)4级与负向(EmoDi-Int-neg)4级,划分规则如表1所示。
表1情感强度划分规则
步骤5:计算用户Ui的整体情感强度EmoDj-Int;
步骤6:计算用户Ui和用户Uj整体情感强度的相似度distance(Uj,Ui);
所述计算用户Ui和用户Uj整体情感强度的相似度的公式如下:
distance(Uj,Ui)=1+|EmoUi-Int-EmoUj-Int|;
其中,|EmoUi-Int-EmoUj-Int|为用户Ui和Uj之间的整体情感影响强度的差值。
步骤7:根据用户Ui和用户Uj整体情感强度的相似度计算用户Ui对其粉丝施加的影响力FEI(Ui);
所述计算用户Ui对其粉丝施加的影响力FEI(Ui)的公式如下:
步骤8:根据用户Ui的情感影响力EItopic(Ui)和用户Ui对其粉丝施加的影响力计算用户Ui的全局情感影响力EIglobal(Ui);
所述用户Ui的全局情感影响力EIglobal(Ui)为用户Ui在跨话题状态下通过其自身的受欢迎度DoUP(Ui)以及与其互动用户Uj的整体情感强度的相似度distance(Uj,Ui)共同决定的影响力;
所述计算用户Ui的全局情感影响力EIglobal(Ui)的公式如下:
EIglobal(Ui)=DoUP(Ui)+FEI(Ui);
步骤9:将每个用户Ui的全局情感影响力EIglobal进行降序排列,即得到用户的全局情感影响力排名。
本实施例中,使用网络爬虫抓取微博数据如表2所示,用户信息数据如表3所示。
表2抓取的微博数据(表名为‘weibo’)格式说明
表3抓取的用户数据(表名为‘UserInfo’)格式说明
使用ICTCLAS对抓取微博数据中重复文本和垃圾文本进行清洗,得到微博进行中文分词后的部分。
使用word2vec的skip-gram模型进行汉语词向量的转换,输入某个单词即可得到相应的200维的词向量,而且可以计算两个单词之间的距离。
本实施例中,分别输入汉语词“中国”与“美国”,word2vec工具即可计算出两个单词对应的200维连续型实值向量,并且在最后计算出两个单词的距离,如图2所示。
使用CNN进行特征提取并整合训练CNN+ELM模型,获得ELM分类器。
使用CNN进行文本的特征提取,并在使用抽取的特征值之前,使用人工标注训练集训练CNN。
本实施例中,使用人工标注的微博数据作为训练集,用STrainCNN表示,STrainCNN={(M1,e1),...,(Mi,ei),...},其中,(Mi,ei)表示第i篇微博的词向量矩阵和人工标注的情感极性。ELM训练数据格式如图3所示。
使用EmoIntRank算法计算得出的“A”话题下的用户影响力排名,如表2所示。
表2“A”话题下的用户影响力排名
uid | 昵称 | 粉丝数 | 转发总数 | 评论总数 | 交互总数 | 总情感强度 |
1665256992 | 主演aV | 23937654 | 42899 | 21846 | 64745 | 118646 |
1197191492 | 主演bV | 35995879 | 20125 | 45535 | 65660 | 160373 |
1378010100 | 主演cV | 11585682 | 11655 | 7744 | 19399 | 29249 |
1567875513 | 主演dV | 4700351 | 3683 | 13182 | 16865 | 43093 |
1227368500 | 主演eV | 23837724 | 2658 | 11657 | 14315 | 35745 |
2111083372 | 主演fV | 4159658 | 2064 | 10709 | 12773 | 10496 |
1615743184 | 公众人物aV | 7716122 | 3135 | 569 | 3704 | 6552 |
1617902267 | 公众人物bV | 4351962 | 1687 | 1536 | 3223 | 8319 |
由表2可以看出,“A”话题下,获得高影响力的大多为加“V”认证的用户,可以将此解释为加V认证的用户由于其自身的吸引力,能够让更多的粉丝参与到他们的微博交互(转发和评论)当中。前6位都是电视剧“A”的主演,是该话题的“引导者”。然而主要演员并非只有这6名用户,而其他几位之所以并不在排名当中,是因为在抓取期间,其他主演没有发表关于“A”的微博。第7和8位不是电视剧的演员或者参与者,但是他们也是经过加V认证的公众人物,而且在5月2日到16日期间发表了若干篇与该剧有关的微博,且与其粉丝的总交互量在3000条以上,产生的情感强度总和在4000以上,这说明他们在“A”话题下成功地引起了其他用户的兴趣,并通过他们发布的微博对其他用户的情感强度产生了影响。
使用EmoIntRank算法计算得出的“B”话题下的用户影响力排名,如表3所示。
表3“B”话题下的用户影响力排名
uid | 昵称 | 粉丝数 | 转发总数 | 评论总数 | 交互总数 | 总情感强度 |
1618051664 | 传统媒体aV | 52375089 | 21290 | 20922 | 42212 | -52427 |
1642088277 | 传统媒体bV | 23325964 | 8886 | 7900 | 16786 | -13351 |
2803301701 | 传统媒体cV | 54609769 | 4174 | 4490 | 8664 | -8977 |
1642634100 | 互联网公司aV | 2213935 | 10044 | 9266 | 19310 | -24995 |
5044281310 | 传统媒体dV | 5290212 | 6522 | 4296 | 10818 | -25073 |
1653689003 | 传统媒体eV | 15317444 | 3305 | 1755 | 5060 | -6250 |
1807715644 | 自媒体用户aV | 1172458 | 2465 | 1901 | 4366 | -5196 |
1217330363 | 自媒体用户bV | 690358 | 1905 | 709 | 2614 | -2867 |
由表3可以看出,“B”话题下,最具有影响力的前8名用户都是加V认证的,这说明对于“B”这样的社会热点新闻,公众人物或团体往往具有引领普通用户情感变化的能力,人们更愿意浏览公众人物或团体的微博来了解事件,更加倾向于对这些用户发表的微博进行转发或评论。在这8名用户中,“传统媒体a”、“传统媒体b、“传统媒体c”、“传统媒体d”和“传统媒体e”都是传统媒体行业,之所以他们的排名如此靠前是因为这些媒体在抓取期间,都发表了3篇以上有关“B”的新闻,且每一篇微博都能获得上千条的评论和转发。“互联网公司a”的排名在第4位。本实施例中认为,“B”不仅仅是一个社会话题,也是一个搜索引擎行业的技术问题,该事件暴露出了恶意“竞价排名”机制。“互联网公司a”在此期间发布了16篇与“B”有关的微博,其中7篇是涉及“互联网公司b”,4篇涉及其他互联网公司,如“互联网公司c”、“互联网公司d”等,这些微博都吸引了众多科技爱好者参与讨论,且转发和评论的内容都有比较强的情感倾向。第7和8位都是认证的自媒体用户,他们在抓取期间都发表了至少3篇与“B”有关的微博。
通过以上实验结果可得,本申请提出的基于深度学习的微博用户情感影响力分析方法是综合考虑用户自身的受欢迎度、发表微博的受欢迎度以及获得的交互用户的总情感强度,本方法考虑因素全面,从而最终得到的具有高影响力的用户列表是合理的。
本实施例中,分别就本申请提出的EmoIntRank算法和现有技术中的EmotionRank算法对全局影响力分析结果进行实验结果对比,如图4所示。
从如4可以看出,在节点数相同的情况下,本申请提出的EmoIntRank算法相较于现有技术中的EmotionRank算法具有运行时间更快的优势。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;因而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (7)
1.一种基于深度学习的微博用户情感影响力分析方法,其特征在于,包括以下步骤:
步骤1:获取某一话题下的用户三元组Su和微博五元组SD,并计算用户三元组Su中每个近15天发表过不少于10篇微博用户Ui的自身情感影响力EItopic-zs(Ui);
所述情感影响力包括用户Ui的受欢迎度DoUP(Ui)和用户Ui所发微博的受欢迎度DoWP(Ui);所述用户Ui的受欢迎度DoUP(Ui)由用户Ui的粉丝数决定,粉丝数越多,用户Ui的受欢迎度越高;所述用户Ui所发微博的受欢迎度DoWP(Ui)由该微博的转发数和评论数决定,转发数和评论数越高,用户Ui所发微博的受欢迎度越高;
步骤2:计算用户Ui与每一个与用户Ui互动过的近15天发表过不少于10篇微博的用户Uj交互得到的交互情感影响力EItopic-jh(Ui);
步骤3:根据用户Ui的自身情感影响力和交互情感影响力计算用户Ui的情感影响力EItopic(Ui);
步骤4:计算用户Ui的整体情感强度EmoDi-Int;
所述情感强度为用户发布的带有情感倾向的微博或评论D所具有的强烈程度,由用户发布的带有情感倾向的微博或评论D的情感得分ScoreD-emo决定;所述情感得分ScoreD-emo是根据boson工具对用户发布的带有情感倾向的微博或评论D进行情感分析后得到的,其值在0到1之间;所述整体情感强度EmoDi-Int为用户Ui在时间Tg内发表微博的情感强度均值;
步骤5:计算用户Uj的整体情感强度EmoDj-Int;
步骤6:计算用户Ui和用户Uj整体情感强度的相似度distance(Uj,Ui);
步骤7:根据用户Ui和用户Uj整体情感强度的相似度计算用户Ui对其粉丝施加的影响力FEI(Ui);
步骤8:根据用户Ui的情感影响力EItopic(Ui)和用户Ui对其粉丝施加的影响力计算用户Ui的全局情感影响力EIglobal(Ui);
所述用户Ui的全局情感影响力EIglobal(Ui)为用户Ui在跨话题状态下通过其自身的受欢迎度DoUP(Ui)以及与其互动用户Uj的整体情感强度的相似度distance(Uj,Ui)共同决定的影响力;
步骤9:将每个用户Ui的全局情感影响力EIglobal进行降序排列,即得到用户的全局情感影响力排名。
2.根据权利要求1所述的基于深度学习的微博用户情感影响力分析方法,其特征在于,所述步骤1中计算用户Ui的自身情感影响力的公式如下:
EItopic-zs(Ui)=(1-d)+DoUP(Ui)+∑DoWP(Ui);
其中,d为区间[0,1]内的常数,用户Ui受欢迎度DoUP(Ui)和用户Ui所发微博的受欢迎度DoWP(Ui)的计算公式如下:
DoUP=lg Nfans;
DoWP=lg|Ncm+Nre|;
其中,Nfans为用户信息三元组Su中的粉丝数,Ncm为微博的评论数,Nre为微博的转发数。
3.根据权利要求1所述的基于深度学习的微博用户情感影响力分析方法,其特征在于,所述步骤2中计算用户Ui与用户Uj交互得到的交互情感影响力EItopic-jh(Ui)的公式如下:
EItopic-jh(Ui)=∑(Emowj-Int+EIR(Uj));
其中,Emowj-Int为微博词语的情感强度,EIR(Ui)为用户Ui的EmoIntRank算法值。
5.根据权利要求1所述的基于深度学习的微博用户情感影响力分析方法,其特征在于,所述步骤6中计算用户Ui和用户Uj整体情感强度的相似度的公式如下:
distance(Uj,Ui)=1+|EmoUi-Int-EmoUj-Int|;
其中,|EmoUi-Int-EmoUj-Int|为用户Ui和Uj之间的整体情感影响强度的差值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811009372.5A CN109145090B (zh) | 2018-08-31 | 2018-08-31 | 一种基于深度学习的微博用户情感影响力分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811009372.5A CN109145090B (zh) | 2018-08-31 | 2018-08-31 | 一种基于深度学习的微博用户情感影响力分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109145090A CN109145090A (zh) | 2019-01-04 |
CN109145090B true CN109145090B (zh) | 2021-04-30 |
Family
ID=64825848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811009372.5A Expired - Fee Related CN109145090B (zh) | 2018-08-31 | 2018-08-31 | 一种基于深度学习的微博用户情感影响力分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145090B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114418651A (zh) * | 2022-01-26 | 2022-04-29 | 北京数智新天信息技术咨询有限公司 | 一种智能推广决策方法、装置及电子设备 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929168A (zh) * | 2019-11-12 | 2020-03-27 | 北京百分点信息科技有限公司 | 关键受众确定方法、装置及电子设备 |
CN111552882B (zh) * | 2020-05-09 | 2022-07-01 | 重庆邮电大学 | 一种新闻影响力计算方法、装置、计算机设备及存储介质 |
CN113704630B (zh) * | 2021-10-27 | 2022-04-22 | 武汉卓尔数字传媒科技有限公司 | 一种信息推送方法、装置、可读存储介质和电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770487A (zh) * | 2008-12-26 | 2010-07-07 | 聚友空间网络技术有限公司 | 社交网络中用户影响力的计算方法和系统 |
KR20170004497A (ko) * | 2015-07-02 | 2017-01-11 | 주식회사 스마트올웨이즈온 | 리모컨 신호 및 음성 명령의 딥-러닝을 통해 클라우드 데이터베이스를 사용함으로써 다양한 전자 장치를 제어하거나 제어하도록 지원하기 위한 방법 |
CN108363752A (zh) * | 2018-01-30 | 2018-08-03 | 中国人民解放军战略支援部队信息工程大学 | 基于微博传播规模预测的用户社会影响力分析方法 |
-
2018
- 2018-08-31 CN CN201811009372.5A patent/CN109145090B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770487A (zh) * | 2008-12-26 | 2010-07-07 | 聚友空间网络技术有限公司 | 社交网络中用户影响力的计算方法和系统 |
KR20170004497A (ko) * | 2015-07-02 | 2017-01-11 | 주식회사 스마트올웨이즈온 | 리모컨 신호 및 음성 명령의 딥-러닝을 통해 클라우드 데이터베이스를 사용함으로써 다양한 전자 장치를 제어하거나 제어하도록 지원하기 위한 방법 |
CN108363752A (zh) * | 2018-01-30 | 2018-08-03 | 中国人民解放军战略支援部队信息工程大学 | 基于微博传播规模预测的用户社会影响力分析方法 |
Non-Patent Citations (2)
Title |
---|
基于情感分析的社会网络用户影响力模型研究;郭宇等;《情报学报》;20171130;全文 * |
社交网络群体情感行为关键问题研究;朱江;《中国博士学位论文全文数据库 信息科技辑》;20180215;全文 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114418651A (zh) * | 2022-01-26 | 2022-04-29 | 北京数智新天信息技术咨询有限公司 | 一种智能推广决策方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109145090A (zh) | 2019-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nair et al. | Comparative study of twitter sentiment on covid-19 tweets | |
Tripto et al. | Detecting multilabel sentiment and emotions from bangla youtube comments | |
CN109145090B (zh) | 一种基于深度学习的微博用户情感影响力分析方法 | |
Guellil et al. | Social big data mining: A survey focused on opinion mining and sentiments analysis | |
Jiang et al. | Microblog sentiment analysis with emoticon space model | |
CN105183717B (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 | |
CN107273348B (zh) | 一种文本的话题和情感联合检测方法及装置 | |
Nair et al. | Sentiment Analysis of Malayalam film review using machine learning techniques | |
Se et al. | AMRITA-CEN@ SAIL2015: sentiment analysis in Indian languages | |
CN112580337A (zh) | 基于数据增强的情感分类模型及情感分类方法 | |
Liao et al. | Coronavirus pandemic analysis through tripartite graph clustering in online social networks | |
Liu et al. | Correlation identification in multimodal weibo via back propagation neural network with genetic algorithm | |
CN111626050A (zh) | 基于表情词典与情感常识的微博情感分析方法 | |
Kuo et al. | Integrated microblog sentiment analysis from users’ social interaction patterns and textual opinions | |
Kukkar et al. | Improving sentiment analysis in social media by handling lengthened words | |
Pai et al. | Real-time twitter sentiment analytics and visualization using vader | |
Khadija et al. | Enhancing Indonesian customer complaint analysis: LDA topic modelling with BERT embeddings | |
Baboo et al. | Sentiment analysis and automatic emotion detection analysis of twitter using machine learning classifiers | |
Zhang et al. | Predicting and visualizing consumer sentiments in online social media | |
Salmony et al. | An enhanced twitter sentiment analysis model using negation scope identification methods | |
CN112487303B (zh) | 一种基于社交网络用户属性的主题推荐方法 | |
Prakash et al. | Hybrid approaches based emotion detection in memes sentiment analysis | |
Li et al. | Short text sentiment analysis based on convolutional neural network | |
Fuji et al. | Emotion analysis on social big data | |
Ling | Coronavirus public sentiment analysis with BERT deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210430 |
|
CF01 | Termination of patent right due to non-payment of annual fee |