CN114154076A - 基于多角度分析的社交用户影响力度量方法 - Google Patents
基于多角度分析的社交用户影响力度量方法 Download PDFInfo
- Publication number
- CN114154076A CN114154076A CN202011274679.5A CN202011274679A CN114154076A CN 114154076 A CN114154076 A CN 114154076A CN 202011274679 A CN202011274679 A CN 202011274679A CN 114154076 A CN114154076 A CN 114154076A
- Authority
- CN
- China
- Prior art keywords
- user
- influence
- users
- network
- subnet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000003993 interaction Effects 0.000 claims abstract description 62
- 230000000694 effects Effects 0.000 claims abstract description 57
- 230000007704 transition Effects 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 12
- 238000005295 random walk Methods 0.000 claims description 8
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000012552 review Methods 0.000 claims description 2
- 230000001902 propagating effect Effects 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 35
- 230000006399 behavior Effects 0.000 description 18
- 230000002452 interceptive effect Effects 0.000 description 12
- 238000011156 evaluation Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 10
- 238000002790 cross-validation Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 238000003646 Spearman's rank correlation coefficient Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000008846 dynamic interplay Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于衡量社交影响力技术领域,特别涉及一种基于多角度分析的社交用户影响力度量方法,首先,为充分考虑不同关系对用户影响力的贡献,从关注关系、转发关系、评论关系和提及关系多个角度分别构建用户的关系网络;其次,在不同的关系网络中,利用用户活跃度、交互强度以及兴趣相似度来量化用户影响力;最后,综合用户在不同角度下的影响力,得到用户在全局范围内的综合影响力。本发明在准确度、相关性、覆盖率等方面比现有方法具有更好的性能,准确性更高、与实际的真实值更为一致以及用户影响力的传播覆盖范围更广。
Description
技术领域
本发明属于衡量社交影响力技术领域,特别涉及一种基于多角度分析的社交用户影响力度量方法。
背景技术
随着互联网的发展,社交网络已经成为人类社会关系维护和信息传播的重要工具,其已不再局限于信息交换,而是发展成集交流、资讯、娱乐、搜索、电子商务、办公协作和企业客户服务等为一体的综合化信息平台。随着社交网络用户规模的迅速扩大,社交内容数据也急剧增长,这些海量的社交数据具有巨大的价值。基于丰富的社交数据,社交网络中的影响力研究吸引了学者的广泛关注,社交影响力体现在能够改变其他用户情感、观点或行为的现象,分析网络中用户影响力的形成和传播过程,进而识别有影响力的传播者,对了解网络中用户的行为、信息在网络中的扩散以及社交网络的演化规律具有重要意义。同时,对于更好的进行舆情管控提供技术上的支持,具有广泛的应用前景。
目前衡量社交影响的方法从不同的维度刻画了用户影响力,在某些方面能够较有效地发现社交网络中有影响力的用户,但是仍存在不足。首先,社交网络中用户间的关系往往具有多种不同语义的链接,例如,在微博中,用户间不仅存在关注这种直接链接关系,还包括转发、评论、提及和点赞等多种交互关系。若只在一种链接关系的维度下来分析用户影响力,会忽略其他关系在社交网络信息传播中的影响。其次,用户间的关注关系一种相对静态的社交关系,只考虑关注关系构建的网络拓扑结构,未将用户间的动态交互行为作为用户影响力的评估指标,难以反映“僵尸用户”和正常用户之间的区别。最后,在分析用户间的紧密程度时,现有的方法大多数只考虑了用户间链接强度这种显性特征,没有考虑到用户间存在的兴趣偏好这一隐性特征,而具相似兴趣偏好的用户之间可能具有更强的影响力。
发明内容
为了解决现有技术中存在的问题,本发明提出了一种基于多角度分析的社交用户影响力度量方法,利用用户活跃度、用户间交互强度和兴趣偏好等因素量化用户影响力,准确性更高、与实际的真实值更为一致以及用户影响力的传播覆盖范围更广。
为解决上述技术问题,本发明采用以下的技术方案:
本发明的一种基于多角度分析的社交用户影响力度量方法,包含以下步骤:
从多个角度分别构建用户的关系网络;
在不同的关系网络中,利用用户活跃度、交互强度以及兴趣相似度来量化用户影响力;
综合用户在不同角度下的影响力,得到用户在全局范围内的综合影响力。
进一步地,所述从多个角度分别构建用户的关系网络包括:
从关注关系、转发关系、评论关系和提及关系多个角度分别构建用户的关系网络,该关系网络定义为Gi={Vi,Ei},其中Vi为用户的集合,Ei为链接关系,i∈{f,r,c,m}分别对应关注、转发、评论和提及关系。
进一步地,所述用户活跃度表示用户在网络中发生多种活动的频率,定义用户活跃度如公式(1):
Acti(v)=Post(v)+Interacti(v),i∈{f,r,c,m} (1)
其中,Acti(v)表示不同网络中用户v的活跃度,Post(v)表示用户v发布微博的数量,Interacti(v)表示用户v关注/转发/评论/提及其他用户的次数。
进一步地,所述交互强度用来描述并量化用户间的交互行为,定义交互强度如公式(2):
其中,RSi(v,u)表示不同网络中用户v与用户u的交互强度,Interacti(v,u)表示用户u转发/评论/提及用户v的次数,Interacti(u)表示用户u转发/评论/提及其他用户的次数,Interactedi(v)表示其他用户转发/评论/提及用户v的次数。
进一步地,所述兴趣相似度被看作信息从一个用户传播到另一个用户可能性的指示器,用户间的兴趣相似度通过比较用户间属性关键字向量的相似性来度量;
对于任意用户v,抽取用户属性的关键字,表示为KW(v)=(Keyword1:Weight1;Keyword2:Weight2;......),其中Keywordi表示用户v属性中的关键字,Weighti表示Keywordi在用户v的属性中所占的权重;
对于两个用户v和u,通过计算两个关键字向量中相同子向量的内积和来得到用户间的兴趣相似度值,即通过计算KW(v)和KW(u)中关键字的交集,分别得到v和u的两个子向量,表示为SK(v)=(ckw1:wv1;ckw2:wv2;......),SK(u)=(ckw1:wu1;ckw2:wu2;......),其中ckw*表示KW(v)和KW(u)相同的关键字,w*表示权重,则定义用户v和u的兴趣相似度如公式(3):
其中,IS(v,u)表示用户v与用户u的兴趣相似度,wvk和wuk分别表示用户v和用户u对应的权重,s表示相同关键词的数量。
进一步地,在转发、评论和提及子网中,通过交互强度和兴趣相似度量化用户间交互影响,定义用户间交互影响如公式(4):
其中,Infi(v,u)表示不同网络中用户v与用户u间的交互影响,RSi(v,u)表示表示不同网络中用户v与用户u的交互强度,IS(v,u)表示用户v与用户u的兴趣相似度。
进一步地,计算用户在转发子网中的影响力:
定义在转发子网中用户v到用户u随机游走的转移概率如公式(5):
其中,Ree(u)表示转发用户u的用户集合,Infr(v,u)表示转发子网中用户v与用户u间的交互影响;
定义单个用户与转发子网中所有用户的活跃度之和的比值作为跳转概率,如公式(6):
其中,Actr(v)表示转发子网中用户v的活跃度,θ值取不为0的小数;
计算用户v在转发子网中的影响力如公式(7):
其中,α取0.85,Ret(v)表示用户v转发的用户集合。
进一步地,计算用户在评论子网中的影响力:
定义在评论子网中用户v到用户u随机游走的转移概率如公式(8):
其中,Coe(u)表示评论用户u的用户集合,Infc(v,u)表示评论子网中用户v与用户u间的交互影响;
定义单个用户与评论子网中所有用户的活跃度之和的比值作为跳转概率,如公式(9):
其中,Actc(v)表示评论子网中用户v的活跃度,θ值取不为0的小数;
计算用户v在评论子网中的影响力如公式(10):
其中,α取0.85,Com(v)表示用户v评论的用户集合;
同理,计算用户在提及子网中的影响力:
在提及子网中,转移概率如公式(11):
其中,Mee(u)表示提及用户u的用户集合,Infm(v,u)表示提及子网中用户v与用户u间的交互影响;
跳转概率如公式(12):
其中,Actm(v)表示提及子网中用户v的活跃度,θ值取不为0的小数;
计算用户v在提及子网中的影响力如公式(13):
其中,α取0.85,Men(v)表示用户v提及的用户集合。
进一步地,计算用户在关注子网中的影响力:
定义在关注子网中用户v到用户u的转移概率如公式(14):
其中,Foe(u)表示用户u的关注用户集合,Post(v)表示用户v发布微博的数量;
跳转概率如公式(15):
其中,Actf(v)表示关注子网中用户v的活跃度,θ值取不为0的小数;
计算用户v在关注子网中的影响力如公式(16):
其中,α取0.85,Fow(v)表示用户v的粉丝集合。
进一步地,通过线性融合,计算用户在全局范围内的综合影响力如公式(17):
ASInf(v)=β1ASInff(v)+β2ASInfr(v)+β3ASInfc(v)+β4ASInfm(v) (17)
其中,β1、β2、β3、β4分别为用户在关注网络、转发网络、评论网络和提及网络中的影响力权重,且β1+β2+β3+β4=1。
与现有技术相比,本发明具有以下优点:
本发明在PageRank算法的基础上进行改进,在不同关系网络维度下,提出了一种结合用户活跃度、用户间交互强度和兴趣偏好等因素的用户影响力度量方法—ASIRank(Actively Strengthand Interest based Rank)来衡量用户在社交网络中的影响力;首先,为充分考虑不同关系对用户影响力的贡献,分别从关注关系、转发关系、评论关系和提及关系等多个角度分别构建用户的关系网络;其次,为剔除“僵尸用户”的影响,在不同的关系网络中,通过分析用户的活跃度评价用户节点的质量,作为PageRank的跳转概率;再次,基于用户间的交互强度和兴趣相似度等因素刻画用户间的紧密程度,作为PageRank权值分配的依据,以体现用户间的影响大小;最后,通过对不同关系网络中用户影响力进行加权求和从而得到用户的影响力排名。本发明在准确度、相关性、覆盖率等方面比现有方法具有更好的性能,准确性更高、与实际的真实值更为一致以及用户影响力的传播覆盖范围更广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的基于多角度分析的社交用户影响力度量方法的流程图;
图2是本发明实施例的异构信息微博网络链接图;
图3是本发明实施例的对于N=2,采用交叉验证法的准确度对比结果;
图4是本发明实施例的对于N=3,采用交叉验证法的准确度对比结果;
图5是本发明实施例的对于N=4,采用交叉验证法的准确度对比结果;
图6是本发明实施例的采用新浪微博官方影响力评价方法的准确度对比结果;
图7是本发明实施例的五种算法的覆盖率对比结果。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先简要介绍下社交网络中PageRank算法,具体内容如下:
PageRank是一种用于分析网页重要程度的算法,它的基本思想是通过分析网络中的拓扑特性来计算网页的重要性。借鉴了学术论文评判的方法,一个节点的重要性不仅要看被链接的数量,还要关注链接节点本身的质量,类似“通过看一个人的朋友来分析这个人”,PageRank算法计算公式定义为:
其中PR(v)为网页v的PageRank值,N是网络中的网页总数,Bv是链接到页面v的网页集合,L(u)是链接到页面u的网页数量,d是阻尼因子,表示一个网页被随机访问的概率,通常设置为0.85。
在社交网络中,用户之间的关系也是点对点的有向边,类似于网页之间的链接,可将PageRank算法用来分析社交网络中节点的重要性,将PageRank与社会影响模型联系起来,认为节点的权威性等同于用户的影响力,因此,PageRank算法有助于识别网络中有影响力的节点或意见领袖。
在社交网络中,如果某个用户发表的观点总能被其他用户所认同,或者某个用户总能对当前热点事件给出自己独特的评价,并引起其他用户直接讨论和关注,则此类用户具有一定的影响力。在微博中,用户间的影响力不仅可以通过一个用户阅读其他用户微博的可能性来度量,用户间的转发、评论和提及等交互行为同样也是影响力传播的重要方式,因为它们更为准确地代表了用户的反应。对于微博网络中用户的影响力定义基于以下假设:如果一个用户被更多的用户关注、转发、评论或提及,那么认为该用户是具有更高的影响力,受PageRank算法启发,若一个用户被另一影响力高的用户关注、转发、评论或提及,则该用户的影响力也会相应增加。为此,本发明在关注、转发、评论和提及等多种链接关系网络下,通过分析用户影响力的生成和传递过程,综合评价用户的影响力;基于此,如图1所示,本实施例提出了一种基于多角度分析的社交用户影响力度量方法(简称ASIRank),该方法包含以下步骤:
步骤S11,为充分考虑不同关系对用户影响力的贡献,从关注关系、转发关系、评论关系和提及关系多个角度分别构建用户的关系网络;
步骤S12,在不同的关系网络中,利用用户活跃度、交互强度以及兴趣相似度来量化用户影响力;
步骤S13,综合用户在不同角度下的影响力,得到用户在全局范围内的综合影响力。
步骤S11中从多个角度分别构建用户的关系网络具体包括:
社交用户之间的联系往往是通过好友关系形成的,利用好友关系网络建立信息传播和交互机制,用户可以方便地获取和发布信息,并对其他用户产生影响,传统对用户影响力的评价都是通过分析好友关系网络的拓扑特征实现的。但大多数社交网络是有向的异构网络,例如在微博中,用户间的链接关系不单单只有关注关系,还存在转发、评论和提及等多种交互关系,网络中的用户可以随意评论其他用户,可以转发自己感兴趣的内容,而不用互相关注。信息传播的途径复杂且多样,造就了由用户间不同行为构成的异构信息网络链接图,如图2所示。
将原有的异构社交网络按照链接关系进行拆分,拆分出基于不同链接关系的同构子网,这样不仅没有损失原有的网络结构,反而可以挖掘出更多的用户关系。子网定义为Gi={Vi,Ei},其中Vi为用户的集合,Ei为链接关系,i∈{f,r,c,m}分别对应关注、转发、评论和提及关系。对于特定的边(v,u),表示为用户u关注/转发/评论/提及用户v。每个用户都附加了个人信息,如关键字,用户发布的微博数等。同时,记录了每对用户之间的交互次数。
对步骤S12中用户活跃度、交互强度以及兴趣相似度这三个影响因素进行如下详细分析。
a.用户活跃度
社交网络是一个体现社交活动的网络结构,其中每个用户的活跃程度是不同,也就决定了其节点质量的差异,即一个用户发布、阅读、转发、点赞和评论微博的频率越高,用户的状态就越活跃,表明用户参与到更多的网络活动中,所发挥的作用就更大。
活跃度直接表示用户在网络中发生多种活动的频率,是用户的行为属性,也是衡量用户影响力的重要指标。在微博中,提高用户活跃程度是十分重要的,用户必须持续参与热点、创造话题,才能吸引粉丝注意,提高知名度。由于现实的社交网络中存在大量的“僵尸用户”,其特点是关注了大量用户但却很少发布原创内容或是产生交互行为,所以通过分析每个用户活动的频数,可以找出网络中活跃的节点,有效削弱“僵尸用户”对于影响力分析的干扰,提高计算结果的准确性。定义用户活跃度如公式(1):
Acti(v)=Post(v)+Interacti(v),i∈{f,r,c,m} (1)
其中,Acti(v)表示不同网络中用户v的活跃度,Post(v)表示用户v发布微博的数量,Interacti(v)表示用户v关注/转发/评论/提及其他用户的次数。用户在不同的关系网络中活跃度的体现也是不同的,例如在关注子网中是不考虑转发、评论等交互行为的,所以只计算发布微博的数量,而在转发、评论和提及子网中,就要同时考虑发布微博和交互行为的次数。
b.交互强度
社交网络用户之间的发生的转发、评论和提及等交互行为可以表示为有向加权边,通过定义交互强度来描述并量化用户间的交互行为。用户之间发生的交互行为越多,证明用户间产生影响就越深。例如在转发网络中,转发强度由两部分组成。第一部分是用户u转发用户v的次数除以用户u转发其他用户的总次数。第二部分可以表示为用户u转发用户v的次数除以其他用户转发用户v的总次数。这两部分都符合这样一个事实,即值越大,用户v对用户u的影响越大。同理,评论和提及两种交互关系也有此现象,所以在转发、评论和提及关系网络中,定义交互强度如公式(2):
其中,RSi(v,u)表示不同网络中用户v与用户u的交互强度,Interacti(v,u)表示用户u转发/评论/提及用户v的次数,Interacti(u)表示用户u转发/评论/提及其他用户的次数,Interactedi(v)表示其他用户转发/评论/提及用户v的次数。
c.兴趣相似度
在社交网络中,用户间的兴趣相似度可以被看作是信息从一个用户传播到另一个用户可能性的指示器,即潜在的交互。通常,兴趣相似度越大的用户,越有可能对相同的对象感兴趣,从而导致用户之间更容易被相互影响。同时,用户间的转发、评论和提及等行为很大程度也是基于相同兴趣爱好而产生的,因此,在转发、评论和提及关系网络中,考虑兴趣相似度可更好地刻画一个用户的影响力。
用户间的兴趣相似度可以通过比较用户间属性关键字向量的相似性来度量;对于任意用户v,可抽取用户属性的关键字,表示为KW(v)=(Keyword1:Weight1;Keyword2:Weight2;......),其中Keywordi表示用户v属性中的关键字,Weighti表示Keywordi在用户v的属性中所占的权重。对于两个用户v和u,可通过计算两个关键字向量中相同子向量的内积和来得到用户间的兴趣相似度值,即通过计算KW(v)和KW(u)中关键字的交集,分别得到v和u的两个子向量,表示为SK(v)=(ckw1:wv1;ckw2:wv2;......),SK(u)=(ckw1:wu1;ckw2:wu2;......),其中ckw*表示KW(v)和KW(u)相同的关键字,w*表示权重。则定义用户v和u的兴趣相似度如公式(3):
其中,IS(v,u)表示用户v与用户u的兴趣相似度,wvk和wuk分别表示用户v和用户u对应的权重,s表示相同关键词的数量。
综上所述,用户间交互影响代表用户v对用户u的影响程度,值越大,用户v对用户u的影响越大,信息将越有可能从用户v扩散到用户u。前面提出的两个不同的交互度量指标都可以用来衡量用户之间的影响程度。因此,为了简单起见,在转发、评论和提及子网中,通过交互强度和兴趣相似度量化用户间交互影响,定义用户间交互影响如公式(4):
其中,Infi(v,u)表示不同网络中用户v与用户u间的交互影响,RSi(v,u)表示表示不同网络中用户v与用户u的交互强度,IS(v,u)表示用户v与用户u的兴趣相似度。在这里,认为上述两个指标起着相同的作用,并在计算交互影响之前,将每个指标进行归一化,设置最大值为1.0,其他值按比例进行相应的更改。
步骤S13中用户在不同角度下的影响力包括用户在转发子网、评论子网、提及子网和关注子网的影响力。
a.计算用户在转发子网中的影响力
利用用户活跃度和用户间交互影响,评估一个用户在网络中的影响。本发明采用PageRank算法的思想,通过随机游走的方式,进一步考虑用户活跃度和用户间交互特性来对用户影响力进行分析。在PageRank算法中有两个关键的概率需要处理,一是用户与其链接用户之间的转移概率;另一个是用户读取非链接信息的跳转概率,这是随机游走重启的重要因素。这两个关键点也是本发明将用户活跃度和用户间交互影响应用到PageRank算法的地方。
定义在转发子网中用户v到用户u随机游走的转移概率如公式(5):
其中,Ree(u)表示转发用户u的用户集合,Infr(v,u)表示转发子网中用户v与用户u间的交互影响。
对于跳转概率,传统的PageRank算法将其设置为1/n,表示每个用户被其他用户访问的概率相同。但是在社交网络中,可以认为如果一个用户在网络中越活跃,其他用户越有可能被这个用户吸引,进而访问这个用户,因此,本发明通过用户活跃度来计算跳转概率,定义如公式(6):
即用单个用户与转发子网中所有用户的活跃度之和的比值作为跳转概率,Actr(v)表示转发子网中用户v的活跃度,θ值取不为0的小数,例如:0.01或者0.1,这里θ值是为了避免为零,从而保证网络中每个用户都能被访问到。
这样就可以计算用户v在转发子网中的影响力如公式(7):
其中,α取0.85,Ret(v)表示用户v转发的用户集合。
b.计算用户在评论子网中的影响力
在评论子网中,与转发子网中计算用户影响力一样,通过用户活跃度可以计算出跳转概率,利用用户间交互影响得到转移概率,最后可得到网络中每个用户的影响力,计算过程如下:
定义在评论子网中用户v到用户u随机游走的转移概率如公式(8):
其中,Coe(u)表示评论用户u的用户集合,Infc(v,u)表示评论子网中用户v与用户u间的交互影响。
定义单个用户与评论子网中所有用户的活跃度之和的比值作为跳转概率,如公式(9):
其中,Actc(v)表示评论子网中用户v的活跃度,θ值取不为0的小数。
计算用户v在评论子网中的影响力如公式(10):
其中,α取0.85,Com(v)表示用户v评论的用户集合。
c.计算用户在提及子网中的影响力
同理,在提及子网中,转移概率如公式(11):
其中,Mee(u)表示提及用户u的用户集合,Infm(v,u)表示提及子网中用户v与用户u间的交互影响。
跳转概率如公式(12):
其中,Actm(v)表示提及子网中用户v的活跃度,θ值取不为0的小数。
计算用户v在提及子网中的影响力如公式(13):
其中,α取0.85,Men(v)表示用户v提及的用户集合。
d.计算用户在关注子网中的影响力
在关注子网中,由于用户之间的关注关系是无权有向边,无法通过交互强度去量化用户之间的交互影响,在这里通过分析用户间的推送微博这一行为来定义用户间的转移概率。假设用户u关注了很多用户,这些用户发布了不同数量的微博,所有这些微博都将直接推送到用户u。这样,如果被关注的用户集中用户v发布微博的数量越多,用户u收到的信息中来自用户v的部分就越多,从而导致用户v对用户u的影响更大,对应用户v到用户u的转移概率就更高。
定义在关注子网中用户v到用户u的转移概率如公式(14):
其中,Foe(u)表示用户u的关注用户集合,Post(v)表示用户v发布微博的数量。
跳转概率如公式(15):
其中,Actf(v)表示关注子网中用户v的活跃度,θ值取不为0的小数。
计算用户v在关注子网中的影响力如公式(16):
其中,α取0.85,Fow(v)表示用户v的粉丝集合。
步骤S13中计算用户在全局范围内的综合影响力
基于上述对用户在关注、转发、评论和提及等不同网络维度下的影响力考量,通过线性融合计算用户的综合影响力,如公式(17):
ASInf(v)=β1ASInff(v)+β2ASInfr(v)+β3ASInfc(v)+β4ASInfm(v) (17)
其中,β1、β2、β3、β4分别为用户在关注网络、转发网络、评论网络和提及网络中的影响力权重,显示了四种链接关系的重要性权重,且β1+β2+β3+β4=1。
下面在腾讯微博真实数据集上进行试验,分别从准确度、相关度、覆盖率方面与MPPRank、TunkRank、PageRank和DegreeRank等算法进行比较。
A、实验设置
腾讯微博是一种典型的社交网络,该网站中包含用户的个人属性信息和用户的微博内容信息以及用户之间的关注、转发、评论等交互关系信息。本发明使用了KDD Cup 2012发布的腾讯微博数据集,它包含了本发明需要的所有数据。为了保证准确性,首先对数据集进行预处理,提取出包含100000个节点和1136750条边的子数据集,并设置相关实验参数,其中β1=0.15、β2=0.35、β3=0.3、β4=0.2、α=0.85。本实验在python3.5环境中进行,并在一台服务器上进行了测试。服务器的配置是Intel Core E5-2620 CPU,64GB RAM,Windows10professional x64。
B、对比的方法
为了验证本发明提出的ASIRank方法的有效性,与以下几种测量微博数据集中用户影响力的方法进行比较。
MPPRank:该方法同时考虑了用户的关注关系和基于内容的交互关系来分析用户影响力。
DegreeRank:由于微博的关系网络可以表示为一个有向图,该方法使用用户的入度(粉丝数)来对影响力进行排名。
C、准确度验证
由于微博用户影响力的衡量标准众多,难以给定一个统一的标准,本发明分别采用交叉验证法和新浪微博官方影响力评价方法来得出参考排名,同时考察准确度和相关性等指标。交叉验证法是将多种算法认为的正确结果作为最终的正确结果。例如,给定5种算法,每种算法得到的排序集合分别为fA,fB,fC,fD,fE,当设置N=2时,即将2种算法认为的正确结果作为最终的参考结果,称其为参考排名RefRank2,定义如公式(18):
RefRank2=(fA∩fB)∪(fA∩fC)∪(fA∩fD)∪(fA∩fE)∪(fB∩fC)∪(fB∩fD)
∪(fB∩fE)∪(fC∩fD)∪(fC∩fE)∪(fD∩fE) (18)
则算法A的准确度计算如公式(19),其他算法的准确度计算同理。
accuracyA=|fA∩RefRank2|/fA (19)
新浪微博官方影响力计算公式为:影响力=a×活跃度+b×互动力+c×覆盖度,满分为100分,由活跃度,互动力,覆盖度三部分组成,所占比例分别为:a=25%,b=55%,c=20%。其中,活跃度的计算指标为微博发布的数量;互动力的计算指标为用户被转发、评论和提及的次数;覆盖度的计算指标为用户的粉丝数量。按照上述评测标准计算每一个用户的分值并进行排序,从而也可得到一个参考排名RefRankw。同样,使用公式(19)来评价不同影响力排序方法的准确度。本文验证了top10、top20、top30、top50、top80、top100下五种算法的准确度,对于N=2,3,4,采用交叉验证法的结果如图3、图4和图5所示,采用新浪微博官方影响力评价方法的结果如图6所示。
结果表明,ASIRank方法在4个参考集中准确度最高,MPPRank和TunkRank次之。PageRank和DegreeRank的准确度最低。对于交叉验证法,所有方法的准确度下降的趋势随着N的增加而增加,这是因为随着N值的增加,参考集合中的节点数减少,导致每种方法top-k与参考集合相交的节点数也同样随之减少。同时,随着top-k的增加,所有方法的精度都呈现出增加的趋势。当N=2时,ASIRank的性能最好,其准确度几乎达到90%。DegreeRank的低精度表明大量的粉丝并没有带来更大的影响,仅凭拓扑测量(如粉丝数量),很难揭示用户的影响力。PageRank的较差准确度也可以看出仅仅考虑一种关系,并不能准确的量化用户的影响力,需要综合考虑多种链接关系以及活跃度、交互强度、兴趣偏好等因素。
在图6中,相较于新浪微博官方影响力评价方法,可以很明显观察到DegreeRank方法的准确度要比其他几种方法低的多,无论是前多少的排名中,ASIRank方法表现的最好,当对top100的用户进行比较时,本发明提出的方法相比于MPPRank、TunkRank、PageRank和DegreeRank等算法,在计算准确度上分别提高了4%、7%、10%和20%。综上所述,从两个方面都能证明本发明提出的方法在分析用户影响力方面准确性更高。
D、相关性比较
为了进一步比较这五种算法,进而突出哪一种算法与实际的真实值更为一致,本发明使用Spearman等级相关系数来计算整体排名的性能,用Spearman等级相关系数ρ分析不同排名之间的相关性:
其中,和分别为相同用户在参考排名和待评价排名中的位置,其中上标t表示每一个用户变量,表示两个变量分别排序后成对的变量位置差,因子ρ的取值范围为[-1,1],如果两个等级完全相同,则ρ=1,反之,则ρ=-1。Spearman等级相关性值越高,参考排名与待评价排名的相关性就越强,待评价方法的效果越好。
表1相关性对比结果
在表1中显示了在不同评价标准下每种排序方法的Spearman等级相关系数,使用RefRank作为参考排名,可以看到在两种评价标准下ASIRank方法都具有更高的ρ值,即具有较高的秩相关性。这一结果表明,与其他四种排序算法相比,ASIRank方法得到的排名在总体上是可信的。
D、覆盖率比较
本发明采用独立级联模型(IndependentCascadeModel)来检验用户影响力的传播覆盖范围。当一个用户的微博信息被其他用户游览并做出相应的互动行为,意味着影响在用户间进行了传递,这种传播行为符合独立级联模型中的激活行为,因此选用IC级联模型做覆盖率实验。选取影响力排名前k%的用户作为种子节点,网络中剩余用户作为待激活用户。比较上述五种算法的覆盖率,实验结果如图7。
图7中,横坐标代表种子节点在整体用户中的比例,纵坐标表示被影响的用户在整体用户中所占的比值,比值越大,被影响的用户就越多,即影响所覆盖的范围就越广,从图中的结果可以看出,ASIRank算法的覆盖率均要优于MPPRank、TunkRank、PageRank和DegreeRank算法。当用户比例为0.6时,用户被激活的数量已经占整体的90%,且比MPPRank算法多出5%(大约5000多用户),这表明本发明提出的算法得出的影响力大的用户影响范围更广。
本发明通过改进传统PageRank算法度量社交网络中的用户影响力,在不同关系网络维度下,选取用户活跃度、交互强度和兴趣相似度等多种有针对性的特征,提出了ASIRank算法,并与四种现有的方法进行比较,分别用准确率、覆盖率和相关性等指标验证了算法的有效性。实验结果表明,ASIRank方法的性能优于其他排序方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种基于多角度分析的社交用户影响力度量方法,其特征在于,包含以下步骤:
从多个角度分别构建用户的关系网络;
在不同的关系网络中,利用用户活跃度、交互强度以及兴趣相似度来量化用户影响力;
综合用户在不同角度下的影响力,得到用户在全局范围内的综合影响力。
2.根据权利要求1所述的基于多角度分析的社交用户影响力度量方法,其特征在于,所述从多个角度分别构建用户的关系网络包括:
从关注关系、转发关系、评论关系和提及关系多个角度分别构建用户的关系网络,该关系网络定义为Gi={Vi,Ei},其中Vi为用户的集合,Ei为链接关系,i∈{f,r,c,m}分别对应关注、转发、评论和提及关系。
3.根据权利要求2所述的基于多角度分析的社交用户影响力度量方法,其特征在于,所述用户活跃度表示用户在网络中发生多种活动的频率,定义用户活跃度如公式(1):
Acti(v)=Post(v)+Interacti(v),i∈{f,r,c,m} (1)
其中,Acti(v)表示不同网络中用户v的活跃度,Post(v)表示用户v发布微博的数量,Interacti(v)表示用户v关注/转发/评论/提及其他用户的次数。
5.根据权利要求4所述的基于多角度分析的社交用户影响力度量方法,其特征在于,所述兴趣相似度被看作信息从一个用户传播到另一个用户可能性的指示器,用户间的兴趣相似度通过比较用户间属性关键字向量的相似性来度量;
对于任意用户v,抽取用户属性的关键字,表示为KW(v)=(Keyword1:Weight1;Keyword2:Weight2;......),其中Keywordi表示用户v属性中的关键字,Weighti表示Keywordi在用户v的属性中所占的权重;
对于两个用户v和u,通过计算两个关键字向量中相同子向量的内积和来得到用户间的兴趣相似度值,即通过计算KW(v)和KW(u)中关键字的交集,分别得到v和u的两个子向量,表示为SK(v)=(ckw1:wv1;ckw2:wv2;......),SK(u)=(ckw1:wu1;ckw2:wu2;......),其中ckw*表示KW(v)和KW(u)相同的关键字,w*表示权重,则定义用户v和u的兴趣相似度如公式(3):
其中,IS(v,u)表示用户v与用户u的兴趣相似度,wvk和wuk分别表示用户v和用户u对应的权重,s表示相同关键词的数量。
8.根据权利要求7所述的基于多角度分析的社交用户影响力度量方法,其特征在于,计算用户在评论子网中的影响力:
定义在评论子网中用户v到用户u随机游走的转移概率如公式(8):
其中,Coe(u)表示评论用户u的用户集合,Infc(v,u)表示评论子网中用户v与用户u间的交互影响;
定义单个用户与评论子网中所有用户的活跃度之和的比值作为跳转概率,如公式(9):
其中,Actc(v)表示评论子网中用户v的活跃度,θ值取不为0的小数;
计算用户v在评论子网中的影响力如公式(10):
其中,α取0.85,Com(v)表示用户v评论的用户集合;
同理,计算用户在提及子网中的影响力:
在提及子网中,转移概率如公式(11):
其中,Mee(u)表示提及用户u的用户集合,Infm(v,u)表示提及子网中用户v与用户u间的交互影响;
跳转概率如公式(12):
其中,Actm(v)表示提及子网中用户v的活跃度,θ值取不为0的小数;
计算用户v在提及子网中的影响力如公式(13):
其中,α取0.85,Men(v)表示用户v提及的用户集合。
10.根据权利要求9所述的基于多角度分析的社交用户影响力度量方法,其特征在于,通过线性融合,计算用户在全局范围内的综合影响力如公式(17):
ASInf(v)=β1ASInff(v)+β2ASInfr(v)+β3ASInfc(v)+β4ASInfm(v) (17)
其中,β1、β2、β3、β4分别为用户在关注网络、转发网络、评论网络和提及网络中的影响力权重,且β1+β2+β3+β4=1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011274679.5A CN114154076A (zh) | 2020-11-16 | 2020-11-16 | 基于多角度分析的社交用户影响力度量方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011274679.5A CN114154076A (zh) | 2020-11-16 | 2020-11-16 | 基于多角度分析的社交用户影响力度量方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114154076A true CN114154076A (zh) | 2022-03-08 |
Family
ID=80462216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011274679.5A Pending CN114154076A (zh) | 2020-11-16 | 2020-11-16 | 基于多角度分析的社交用户影响力度量方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114154076A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114612109A (zh) * | 2022-05-10 | 2022-06-10 | 武汉龙津科技有限公司 | 一种基于区块链的数字藏品生成方法、系统及电子设备 |
-
2020
- 2020-11-16 CN CN202011274679.5A patent/CN114154076A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114612109A (zh) * | 2022-05-10 | 2022-06-10 | 武汉龙津科技有限公司 | 一种基于区块链的数字藏品生成方法、系统及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | A diffusion mechanism for social advertising over microblogs | |
US9684868B2 (en) | Predicting influence in social networks | |
Nettleton | Data mining of social networks represented as graphs | |
Bhagat et al. | Maximizing product adoption in social networks | |
Vasconcelos et al. | Tips, dones and todos: uncovering user profiles in foursquare | |
Saez-Trumper et al. | Finding trendsetters in information networks | |
US8768759B2 (en) | Advertising based on influence | |
US9654593B2 (en) | Discovering signature of electronic social networks | |
US8682723B2 (en) | Social analytics system and method for analyzing conversations in social media | |
Liu et al. | Stereotrust: a group based personalized trust model | |
Hogg | Inferring preference correlations from social networks | |
Wang et al. | Public opinion information dissemination in mobile social networks–taking Sina Weibo as an example | |
Kar et al. | How to differentiate propagators of information and misinformation–Insights from social media analytics based on bio-inspired computing | |
Centeno et al. | On the inaccuracy of numerical ratings: dealing with biased opinions in social networks | |
Lin et al. | Blog popularity mining using social interconnection analysis | |
Rogers et al. | Measuring the diffusion of marketing messages across a social network | |
Saleem et al. | Personalized decision-strategy based web service selection using a learning-to-rank algorithm | |
Zhang et al. | Integrating ego, homophily, and structural factors to measure user influence in online community | |
Esslimani et al. | Detecting leaders in behavioral networks | |
Kim et al. | Topic-Driven SocialRank: Personalized search result ranking by identifying similar, credible users in a social network | |
MohamadiBaghmolaei et al. | Continuous states latency aware influence maximization in social networks | |
CN114154076A (zh) | 基于多角度分析的社交用户影响力度量方法 | |
Lu et al. | Topic influence analysis based on user intimacy and social circle difference | |
Zygmunt | Role identification of social networkers | |
Li et al. | Identifying bloggers with marketing influence in the blogosphere |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |