CN105260474B - 一种基于信息交互网络的微博用户影响力计算方法 - Google Patents
一种基于信息交互网络的微博用户影响力计算方法 Download PDFInfo
- Publication number
- CN105260474B CN105260474B CN201510725236.6A CN201510725236A CN105260474B CN 105260474 B CN105260474 B CN 105260474B CN 201510725236 A CN201510725236 A CN 201510725236A CN 105260474 B CN105260474 B CN 105260474B
- Authority
- CN
- China
- Prior art keywords
- user
- microblogging
- influence
- microblog
- influence power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000205 computational method Methods 0.000 title claims abstract description 26
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims abstract description 32
- 244000046052 Phaseolus vulgaris Species 0.000 claims abstract description 32
- 238000005516 engineering process Methods 0.000 claims abstract description 6
- 210000003813 thumb Anatomy 0.000 claims description 12
- 230000014509 gene expression Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000000034 method Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 239000000843 powder Substances 0.000 claims 1
- 238000005259 measurement Methods 0.000 description 3
- 238000012804 iterative process Methods 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于信息交互网络的微博用户影响力计算方法,步骤为:第一,在微博平台上用网络爬虫技术采集用户的属性信息、微博信息和粉丝列表;第二,根据采集用户属性信息计算用户属性决定的影响力,根据用户微博信息构建微博信息交互网络模型,用微博信息交互网络模型来计算用户微博内容决定的影响力,通过用户属性决定的影响力和用户微博内容决定的影响力来计算用户的直接影响力;第三,用采集的用户粉丝列表来计算每个粉丝的影响力,通过每个粉丝的影响力综合计算用户的间接影响力;第四,通过用户的直接影响力和用户的间接影响力来计算用户的综合影响力。本发明提高了微博影响力计算的准确性,还突出了用户影响力的时效性和动态性。
Description
技术领域
本发明涉及互联网社交媒体数据的挖掘与分析技术领域,尤其涉及一种基于信息交互网络的微博用户影响力计算方法。
背景技术
随着互联网的快速发展,近些年来以微博为代表的社交媒体发展迅猛,微博已成为重大信息发布、分享的首要平台,微博也是热点事件产生和扩散的重要场所。在微博平台上用户数量巨大,用户之间的关系结构纷繁复杂,其信息量相当庞大,用户的各种行为都对信息的传播起着影响,如何在这样一个复杂的平台之上对用户的影响力进行有力度量和对微博系统中的用户进行合理排序,从而为微博的拓展应用提供理论基础,如微博的舆情监控与预警和微博营销推广等等。目前,针对微博用户影响力的计算方法主要有两类:第一类是对微博用户的粉丝数和微博数等数据进行统计,对于基于微博用户的粉丝数和微博数等数据的统计方法只能度量用户的潜在影响力,若用户不进行活动,其实际影响力则难以得到体现,因此微博用户影响力统计不够准确;第二类是对微博系统中用户关系网的网络拓扑结构度量,由于抽取的网络拓扑结构是静态的,一方面无法表征连接关系的时效性,另一方面也无法描述连接之间的亲密性,从而导致此类方法的度量结果和实际情况有偏差,也得不到足够准确的微博用户影响力。
总之有必要对现有微博用户影响力计算方法提出改进。
发明内容
针对现有技术中的不足,本发明提供了一种基于信息交互网络的微博用户影响力计算方法。
为了实现上述目的,本发明所采取的技术方案是:
一种基于信息交互网络的微博用户影响力计算方法,包括以下步骤:
(1)在微博平台上通过网络爬虫技术采集用户的属性信息、用户的微博信息和用户的粉丝列表,所述用户的属性信息包括实名认证标志、关注数、粉丝数、总微博数、总转发数和总评论数,所述用户的微博信息包括其所发布的每篇微博的内容和发布时间、微博的转发数、评论数、点赞数以及对微博进行转发和评论的用户名单;
(2)根据步骤(1)采集的用户属性信息计算用户属性决定的影响力;
(3)根据步骤(1)采集的用户微博信息来构建微博信息交互网络模型,通过构建的微博信息交互网络模型来计算用户微博内容决定的影响力,所述定义微博信息交互网络模型步骤为:a、在微博系统中将用户看作节点,用户之间的关注关系看作边,边的方向为从用户到被关注对象,边不但有方向,也有权重,定义微博系统的用户关系网络为一带权有向图:UR=(V,E,P,W),有向图中的节点代表微博系统中的用户,有向边代表微博系统中用户之间的关系,所述该式中的V表示节点的集合,E表示有向边的集合,P表示节点权重的集合,W表示边权重的集合,该式表示在节点集合V中任取两个节点vi和vj,若该式表示在有向边集合E中存在一条连接节点vi和节点vj的有向边eij,边的方向为vi指向vj,即在微博系统中用户vi和用户vj之间存在关系,用户vi关注用户vj,即用户vi是用户vj的粉丝,pi∈P表示节点vi的权重为pi,wij∈W表示有向边eij的权重为wij;b、微博系统中的微博元素定义为一个8元组:
m=(ID,Content,Author,Type,Time,FN,CN,PN),其中ID为微博编号,Content为微博内容,Author为微博作者,Type为微博的类型(原创博文、转发博文),Time为微博发布的时间戳,FN为微博被转发的次数,CN为微博获得的评论数,PN为微博获得的点赞数;c、定义微博的传播关系,根据上述步骤a定义的用户关系网络为一带权有向图UR=(V,E,P,W),则用户发布微博的传播关系定义为sr=(mi,<vi,vj>),其中vi和vj均表示代表微博用户的节点,mi表示用户vi发布的微博,<vi,vj>表示节点vi指向节点vj(表示信息传播方向),即用户vi发布的微博mi从节点vi传给了节点vj,则表示用户vj是用户vi的粉丝,或者是表示用户vi直接将微博mi推送给了用户vj,即用户vi发布的微博mi的内容中包含“@vj”的内容;d、定义微博的转发关系,根据步骤a将微博系统中的微博转发关系定义为fr=<mi,mj>,mi表示用户vi发布的微博,mj表示用户vj发布的微博,该式表示微博mj是对微博mi进行转发的微博,微博转发关系的方向为mi指向mj;e、在微博系统中,用户对微博信息的主要动作包括:发布、转发、主动推送(@用户名)、评论等,信息的发布和转发都是在用户关系网络上进行,沿着关系网络中边的反方向进行信息传播,信息的主动推送对象可以是其粉丝,也可以是其他用户,信息评论是围绕被评论微博展开,评论内容的传播范围就是原微博的传播范围,根据步骤a将微博系统中的微博评论关系定义为cr=<vj,mi>,该式表示用户vj对微博mi进行了评论,微博评论关系的方向为vj指向mi;f、定义微博信息交互网络模型为H=(M,U,SR,FR,CR,WM),其中M为用户发布微博的集合(发布微博包括用户编写的微博和转发的微博),U为发布和转发微博及评论微博的用户的集合,且(表示的是发布和转发微博及评论微博的用户集合属于微博用户的集合),SR为微博传播关系的集合,FR为微博转发关系的集合,CR为微博评论关系的集合,WM为用户发布的微博内容影响力权重的集合,对于微博集合M中的微博m,Author(m)表示微博m的作者,即微博m的发布者,wm(m)表示微博m的内容影响力权重,根据上述d步骤的定义,对微博m进行转发的用户集合表示为:
根据上述e步骤的定义,对微博m进行评论的用户集合表示为:
(4)根据步骤(2)和步骤(3)分别得到用户属性决定的影响力和用户微博内容决定的影响力来计算用户的直接影响力;
(5)根据步骤(1)采集的用户粉丝列表来获取其每个粉丝的影响力,再根据所述每个粉丝的影响力综合计算出用户的间接影响力;
(6)根据步骤(4)和步骤(5)得到用户的直接影响力和用户的间接影响力来计算用户的综合影响力,所述计算用户的直接影响力步骤具体如下:①、用户属性决定的影响力具体按照下面公式表述:
IFdir_user=β0N0+β1N1+β2N2+β3N3+β4N4+β5N5
其中,IFdir_user为所述用户属性决定的影响力,N0为用户的微博账号实名认证标志,即通过实名认证的用数值1表示,未通过实名认证的用数值0表示,N1为用户的关注数,N2为用户的粉丝数,N3为用户的总微博数,N4为用户的总转发数,N5为用户的总评论数,β0,β1,β2,β3,β4,β5分别为相应子属性的权重比利系数,且β0+β1+β2+β3+β4+β5=1;
②、计算用户发布的微博m的内容影响力,计算方法如下:
其中,m表示用户发布的微博,且m已在微博系统中的微博元素定义为一个8元组:m=(ID,Content,Author,Type,Time,FN,CN,PN),其中ID为微博编号,Content为微博内容,Author为微博作者,Type为微博的类型(原创博文、转发博文),Time为微博发布的时间戳,FN为微博被转发的次数,CN为微博获得的评论数,PN为微博获得的点赞数,wm(m)为微博m的内容影响力,PN为微博m获得的点赞数,vj和vk均为微博系统中的用户,FU(m)为对微博m进行转发的用户集合,w(vj)表示对微博m进行转发的用户vj的权重,即用户vj的影响力值,CU(m)为对微博m进行评论的用户集合,w(vk)表示对微博m进行评论的用户vk的权重,即用户vk的影响力值,γ1,γ2,γ3分别为点赞、转发和评论属性的权重比例系数,且γ1+γ2+γ3=1;
③、计算用户所发布的全部微博的内容影响力,计算方法如下:
其中,IFdir_mb为用户所发布的全部微博的内容影响力,wm(m)为微博m的内容影响力,Wk为时间窗口k,时间窗口就是一段时间区间,用来刻画用户发布微博的时间范围,窗口是随时间推进向前顺次滑移的,即上一个窗口结束的时间就是下一个窗口开始的时间,m.Time∈Wk表示微博内容m在时间窗口k内所发布的,为简化起见,用正整数表示时间窗口,数字越大表示距离当前时间越近,即分别用1,2,…,n表示第1,第2,…,第n个时间窗口,其中第n个时间窗口是当前时间所在窗口,f为衰减函数,f(k)表示第k个时间窗口内发布微博的内容影响力相比第n窗口的折扣幅度函数称为衰减函数,衰减函数表示为1≤k≤n,表示的是衰减的大小比例,具体值可以在使用时指定,k表示的是时间窗口的序号;
④、根据步骤①和步骤③按照下列公式计算用户的直接影响力:
IFdir=αIFdir_user+(1-α)IFdir_mb
其中,IFdir为用户的直接影响力,IFdir_user为用户属性决定的影响力,IFdir_mb为用户微博内容决定的影响力,α和(1-α)分别为用户属性决定的影响力和用户微博内容决定的影响力所占的权重比例系数,0<α<1。
(7)计算用户的间接影响力,其中用户的间接影响力是指用户通过其粉丝对其他用户产生的社交影响,用户的间接影响力由其粉丝的影响力决定,主要包括以下内容:首先需要先计算该用户每个粉丝的影响力,即用户间接影响力的计算过程是个迭代计算过程,迭代深度(次数)可根据计算精度的需求决定,然后根据获取的用户粉丝名单信息分别计算每个粉丝的影响力,其中以微博平台的用户关系网络模型为基础,参考PageRank算法的迭代投票思想,所述计算用户的间接影响力具体按照下列公式进行迭代计算:
其中为所有用户间接影响力值组成的向量,即更新后所有用户的间接影响力值向量,为更新前所有用户的影响力值向量,c为阻尼系数,eT为单位行向量,Y为投票矩阵,其中投票矩阵中的元素uij表示投票权重,所述其投票矩阵Y中的元素yij计算方法如下
其中,E为表示微博用户关系网络的带权有向图中连接节点间关系的有向边的集合,vi、vj和vk均为带权有向图中的节点,pi表示节点vi的权重,eij表示连接节点vi和节点vj的有向边,wij表示有向边eij的权重,eik表示连接节点vi和节点vk的有向边,wik表示有向边eik的权重,wij的计算公式为wij=ηT+(1-η)Q,其中,T为节点vi所代表的用户对节点vj所代表用户的微博进行转发的累计转发次数,Q为节点vi所代表的用户对节点vj所代表用户的微博进行评论的累计评论次数,η和(1-η)分别为累计转发次数和累计评论次数所占的权重比例系数,0<η<1。
所述其计算用户的综合影响力公式如下:
IF=ρIFdir+(1-ρ)IFindir(0≤ρ≤1)
其中,IF为微博用户的综合影响力,IFdir为用户的直接影响力,IFindir为用户的间接影响力,ρ和(1-ρ)分别为用户的直接影响力IFdir和间接影响力IFindir所占的权重比例系数,若ρ=1,则用户影响力完全为直接影响力,不考虑任何间接影响力。
本发明的有益效果:本发明基于信息交互网络模型的微博用户影响力计算方法在计算用户直接影响力时,首先通过网络爬虫技术采集用户的属性信息(包括认证标志、粉丝数、总微博数、总转发数和总评论数等)和用户所发布的微博信息(包括每篇微博的内容、发布时间、微博的点赞数、转发数和评论数,以及对微博进行转发和评论的用户列表信息等),再以微博为中心,建立信息交互网络模型,分别计算用户属性决定的影响力和用户微博内容决定的影响力,再根据用户的粉丝列表计算出用户的间接影响力。本发明基于信息交互网络模型的微博用户影响力计算方法综合考虑的用户的被关注度、活跃度和其微博内容的影响力,相比其它同类方法,不但提供了计算的准确性,更体现用户影响力的时效性和动态性,更加能够对用户的影响力进行有力度量和对微博系统中的用户进行合理排序,从而为微博的拓展应用提供理论基础,如微博的舆情监控与预警和微博营销推广。
附图说明
图1为本发明微博用户影响力计算流程示意图。
具体实施方式
下面结合图1对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
一种基于信息交互网络的微博用户影响力计算方法,包括以下几个部分:数据采集单元,对微博平台上用户的属性信息、用户发布的微博信息以及用户的粉丝列表等数据进行采集;信息交互网络构建单元,根据数据采集单元获取的用户微博信息,建立微博信息交互网络模型;用户属性决定的影响力计算单元,根据数据采集单元采集到的用户属性信息计算用户属性决定的影响力;用户发布的微博内容决定的影响力计算单元,根据数据采集单元采集到的用户微博信息以及信息交互网络构建单元构建的微博信息交互网络模型,计算用户微博内容决定的影响力,从而计算用户的直接影响力;用户间接影响力计算单元,根据数据采集单元采集到的用户粉丝信息,计算用户每个粉丝的影响力,再计算用户的间接影响力,最终通过用户的直接影响力和间接影响力计算出用户的综合影响力。其具体步骤如下:
(1)在微博平台上通过网络爬虫技术采集用户的属性信息、用户的微博信息和用户的粉丝列表,所述用户的属性信息包括实名认证标志、关注数、粉丝数、总微博数、总转发数和总评论数,所述用户的微博信息包括其所发布的每篇微博的内容和发布时间、微博的转发数、评论数、点赞数以及对微博进行转发和评论的用户名单;
(2)根据步骤(1)采集的用户属性信息计算用户属性决定的影响力;
(3)根据步骤(1)采集的用户微博信息来构建微博信息交互网络模型,通过构建的微博信息交互网络模型来计算用户微博内容决定的影响力,所述定义微博信息交互网络模型步骤为:a、在微博系统中将用户看作节点,用户之间的关注关系看作边,边的方向为从用户到被关注对象,边不但有方向,也有权重,定义微博系统的用户关系网络为一带权有向图:UR=(V,E,P,W),有向图中的节点代表微博系统中的用户,有向边代表微博系统中用户之间的关系,所述该式中的V表示节点的集合,E表示有向边的集合,P表示节点权重的集合,W表示边权重的集合,该式表示在节点集合V中任取两个节点vi和vj,若该式表示在有向边集合E中存在一条连接节点vi和节点vj的有向边eij,边的方向为vi指向vj,即在微博系统中用户vi和用户vj之间存在关系,用户vi关注用户vj,即用户vi是用户vj的粉丝,pi∈P表示节点vi的权重为pi,wij∈W表示有向边eij的权重为wij;b、微博系统中的微博元素定义为一个8元组:
m=(ID,Content,Author,Type,Time,FN,CN,PN),其中ID为微博编号,Content为微博内容,Author为微博作者,Type为微博的类型(原创博文、转发博文),Time为微博发布的时间戳,FN为微博被转发的次数,CN为微博获得的评论数,PN为微博获得的点赞数;c、定义微博的传播关系,根据上述步骤a定义的用户关系网络为一带权有向图UR=(V,E,P,W),则用户发布微博的传播关系定义为sr=(mi,<vi,vj>),其中vi和vj均表示代表微博用户的节点,mi表示用户vi发布的微博,<vi,vj>表示节点vi指向节点vj(表示信息传播方向),即用户vi发布的微博mi从节点vi传给了节点vj,则表示用户vj是用户vi的粉丝,或者是表示用户vi直接将微博mi推送给了用户vj,即用户vi发布的微博mi的内容中包含“@vj”的内容;d、定义微博的转发关系,根据步骤a将微博系统中的微博转发关系可以定义为fr=<mi,mj>,mi表示用户vi发布的微博,mj表示用户vj发布的微博,该式表示微博mj是对微博mi进行转发的微博,微博转发关系的方向为mi指向mj;e、在微博系统中,用户对微博信息的主要动作包括:发布、转发、主动推送(@用户名)、评论等,信息的发布和转发都是在用户关系网络上进行,沿着关系网络中边的反方向进行信息传播,信息的主动推送对象可以是其粉丝,也可以是其他用户,信息评论是围绕被评论微博展开,评论内容的传播范围就是原微博的传播范围,根据步骤a将微博系统中的微博评论关系可以定义为cr=<vj,mi>,该式表示用户vj对微博mi进行了评论,微博评论关系的方向为vj指向mi;f、定义微博信息交互网络模型为H=(M,U,SR,FR,CR,WM),其中M为用户发布微博的集合(发布微博包括用户编写的微博和转发的微博),U为发布和转发微博及评论微博的用户的集合,且(表示的是发布和转发微博及评论微博的用户集合属于微博用户的集合),SR为微博传播关系的集合,FR为微博转发关系的集合,CR为微博评论关系的集合,WM为用户发布的微博内容影响力权重的集合,对于微博集合M中的微博m,Author(m)表示微博m的作者,即微博m的发布者,wm(m)表示微博m的内容影响力权重,根据上述d步骤的定义,对微博m进行转发的用户集合表示为:
根据上述e步骤的定义,对微博m进行评论的用户集合表示为:
(4)根据步骤(2)和步骤(3)分别得到用户属性决定的影响力和用户微博内容决定的影响力来计算用户的直接影响力;
(5)根据步骤(1)采集的用户粉丝列表来获取其每个粉丝的影响力,再根据所述每个粉丝的影响力综合计算出用户的间接影响力;
(6)根据步骤(4)和步骤(5)得到用户的直接影响力和用户的间接影响力来计算用户的综合影响力,所述计算用户的直接影响力步骤具体如下:所述计算用户的直接影响力步骤具体如下:
①、用户属性决定的影响力具体按照下面公式表述:
IFdir_user=β0N0+β1N1+β2N2+β3N3+β4N4+β5N5
其中,IFdir_user为所述用户属性决定的影响力,N0为5用户的微博账号实名认证标志,即通过实名认证的用数值1表示,未通过实名认证的用数值0表示,N1为用户的关注数,N2为用户的粉丝数,N3为用户的总微博数,N4为用户的总转发数,N5为用户的总评论数,β0,β1,β2,β3,β4,β5分别为相应子属性的权重比利系数,且β0+β1+β2+β3+β4+β5=1;
②、计算用户发布的微博m的内容影响力,计算方法如下:
其中,m表示用户发布的微博,且m已在微博系统中的微博元素定义为一个8元组:m=(ID,Content,Author,Type,Time,FN,CN,PN),其中ID为微博编号,Content为微博内容,Author为微博作者,Type为微博的类型(原创博文、转发博文),Time为微博发布的时间戳,FN为微博被转发的次数,CN为微博获得的评论数,PN为微博获得的点赞数,wm(m)为微博m的内容影响力,PN为微博m获得的点赞数,vj和vk均为微博系统中的用户,FU(m)为对微博m进行转发的用户集合,w(vj)表示对微博m进行转发的用户vj的权重,即用户vj的影响力值,CU(m)为对微博m进行评论的用户集合,w(vk)表示对微博m进行评论的用户vk的权重,即用户vk的影响力值,γ1,γ2,γ3分别为点赞、转发和评论属性的权重比例系数,且γ1+γ2+γ3=1;
③、计算用户所发布的全部微博的内容影响力,计算方法如下:
其中,IFdir_mb为用户所发布的全部微博的内容影响力,wm(m)为微博m的内容影响力,Wk为时间窗口k,时间窗口就是一段时间区间,用来刻画用户发布微博的时间范围,窗口是随时间推进向前顺次滑移的,即上一个窗口结束的时间就是下一个窗口开始的时间,m.Time∈Wk表示微博内容m在时间窗口k内所发布的,为简化起见,用正整数表示时间窗口,数字越大表示距离当前时间越近,即分别用1,2,…,n表示第1,第2,…,第n个时间窗口,其中第n个时间窗口是当前时间所在窗口,f为衰减函数,f(k)表示第k个时间窗口内发布微博的内容影响力相比第n窗口的折扣幅度函数称为衰减函数,衰减函数表示为1≤k≤n,表示的是衰减的大小比例,具体值可以在使用时指定,k表示的是时间窗口的序号;
④、根据步骤①和步骤③按照下列公式计算用户的直接影响力:
IFdir=αIFdir_user+(1-α)IFdir_mb
其中,IFdir为用户的直接影响力,IFdir_user为用户属性决定的影响力,IFdir_mb为用户微博内容决定的影响力,α和(1-α)分别为用户属性决定的影响力和用户微博内容决定的影响力所占的权重比例系数,0<α<1。
计算用户的间接影响力,其中用户的间接影响力是指用户通过其粉丝对其他用户产生的社交影响,用户的间接影响力由其粉丝的影响力决定,主要包括以下内容:首先需要先计算该用户每个粉丝的影响力,即用户间接影响力的计算过程是个迭代计算过程,迭代深度(次数)可根据计算精度的需求决定,然后根据获取的用户粉丝名单信息分别计算每个粉丝的影响力,其中以微博平台的用户关系网络模型为基础,参考PageRank算法的迭代投票思想,所述计算用户的间接影响力具体按照下列公式进行迭代计算:
其中为所有用户间接影响力值组成的向量,即更新后所有用户的间接影响力值向量,为更新前所有用户的影响力值向量,c为阻尼系数,eT为单位行向量,Y为投票矩阵,其中投票矩阵中的元素uij表示投票权重,所述其投票矩阵Y中的元素yij计算方法如下
其中,E为表示微博用户关系网络的带权有向图中连接节点间关系的有向边的集合,vi、vj和vk均为带权有向图中的节点,pi表示节点vi的权重,eij表示连接节点vi和节点vj的有向边,wij表示有向边eij的权重,eik表示连接节点vi和节点vk的有向边,wik表示有向边eik的权重,wij的计算公式为wij=ηT+(1-η)Q,其中,T为节点vi所代表的用户对节点vj所代表用户的微博进行转发的累计转发次数,Q为节点vi所代表的用户对节点vj所代表用户的微博进行评论的累计评论次数,η和(1-η)分别为累计转发次数和累计评论次数所占的权重比例系数,0<η<1。
所述其计算用户的综合影响力公式如下:
IF=ρIFdir+(1-ρ)IFindir(0≤ρ≤1)
其中,IF为微博用户的综合影响力,IFdir为用户的直接影响力,IFindir为用户的间接影响力,ρ和(1-ρ)分别为用户的直接影响力IFdir和间接影响力IFindir所占的权重比例系数,若ρ=1,则用户影响力完全为直接影响力,不考虑任何间接影响力。
Claims (6)
1.一种基于信息交互网络的微博用户影响力计算方法,其特征在于,包括以下步骤:
(1)在微博平台上通过网络爬虫技术采集用户的属性信息、用户的微博信息和用户的粉丝列表;
(2)根据步骤(1)采集的用户属性信息计算用户属性决定的影响力;
(3)根据步骤(1)采集的用户微博信息来构建微博信息交互网络模型,通过构建的微博信息交互网络模型来计算用户微博内容决定的影响力;
(4)根据步骤(2)和步骤(3)分别得到用户属性决定的影响力和用户微博内容决定的影响力来计算用户的直接影响力,所述计算用户的直接影响力步骤具体如下:①、用户属性决定的影响力具体按照下面公式表述:
IFdir_user=β0N0+β1N1+β2N2+β3N3+β4N4+β5N5
其中,IFdir_user为所述用户属性决定的影响力,N0为用户的微博账号实名认证标志,即通过实名认证的用数值1表示,未通过实名认证的用数值0表示,N1为用户的关注数,N2为用户的粉丝数,N3为用户的总微博数,N4为用户的总转发数,N5为用户的总评论数,β0,β1,β2,β3,β4,β5分别为相应子属性的权重比利系数,且β0+β1+β2+β3+β4+β5=1;
②、计算用户发布的微博m的内容影响力,计算方法如下:
其中,m表示用户发布的微博,wm(m)为微博m的内容影响力,PN为微博m获得的点赞数,vj和vk均为微博系统中的用户,FU(m)为对微博m进行转发的用户集合,w(vj)表示对微博m进行转发的用户vj的权重,即用户vj的影响力值,CU(m)为对微博m进行评论的用户集合,w(vk)表示对微博m进行评论的用户vk的权重,即用户vk的影响力值,γ1,γ2,γ3分别为点赞、转发和评论属性的权重比例系数,且γ1+γ2+γ3=1;
③、计算用户所发布的全部微博的内容影响力,计算方法如下:
其中,IFdir_mb为用户所发布的全部微博的内容影响力,wm(m)为微博m的内容影响力,Wk为时间窗口k,时间窗口就是一段时间区间,用来刻画用户发布微博的时间范围,窗口是随时间推进向前顺次滑移的,即上一个窗口结束的时间就是下一个窗口开始的时间,m.Time∈Wk表示微博m是在时间窗口k内所发布的,f为衰减函数,f(k)表示第k个时间窗口内所发微博的内容影响力相比第n个窗口的折扣幅度函数,也称衰减函数,衰减函数表示为1≤k≤n;
④、根据步骤①和步骤③按照下列公式计算用户的直接影响力:
IFdir=α·IFdir_user+(1-α)·IFdir_mb
其中,IFdir为用户的直接影响力,IFdir_user为用户属性决定的影响力,IFdir_mb为用户微博内容决定的影响力,α和(1-α)分别为用户属性决定的影响力和用户微博内容决定的影响力所占的权重比例系数,0<α<1;
(5)根据步骤(1)采集的用户粉丝列表来获取其每个粉丝的影响力,再根据所述每个粉丝的影响力综合计算出用户的间接影响力,所述计算用户的间接影响力具体按照下列公式进行迭代计算:
其中为所有用户间接影响力值组成的向量,即更新后所有用户的间接影响力值向量,为更新前所有用户的影响力值向量,c为阻尼系数,eT为单位行向量,Y为投票矩阵;
(6)根据步骤(4)和步骤(5)得到用户的直接影响力和用户的间接影响力来计算用户的综合影响力。
2.根据权利要求1所述的一种基于信息交互网络的微博用户影响力计算方法,其特征在于,所述用户的属性信息包括实名认证标志、关注数、粉丝数、总微博数、总转发数和总评论数。
3.根据权利要求1所述的一种基于信息交互网络的微博用户影响力计算方法,其特征在于,所述定义微博信息交互网络模型步骤为:
a、定义微博系统的用户关系网络为一带权有向图:UR=(V,E,P,W),有向图中的节点代表微博系统中的用户,有向边代表微博系统中用户之间的关系,所述该式中的V表示节点的集合,E表示有向边的集合,P表示节点权重的集合,W表示边权重的集合,该式表示在节点集合V中两个节点vi和vj,若该式表示在有向边集合E中存在一条连接节点vi和节点vj的有向边eij,边的方向为vi指向vj,即在微博系统中用户vi和用户vj之间存在关系,用户vi关注用户vj,即用户vi是用户vj的粉丝,pi∈P表示节点vi的权重为pi,wij∈W表示有向边eij的权重为wij;
b、定义微博系统中用户发布的微博元素为一个8元组:
m=(ID,Content,Author,Type,Time,FN,CN,PN),其中,m表示用户发布的微博,ID为微博编号,Content为微博内容,Author为微博作者,Type为微博的类型,Time为微博发布的时间戳,FN为微博被转发的次数,CN为微博获得的评论数,PN为微博获得的点赞数;
c、定义微博的传播关系,根据上述步骤a定义的用户关系网络为一带权有向图UR=(V,E,P,W),则用户发布微博的传播关系定义为sr=(mi,<vi,vj>),其中vi和vj均表示代表微博用户的节点,mi表示用户vi发布的微博,<vi,vj>表示节点vi指向节点vj,即用户vi发布的微博mi从节点vi传给了节点vj,则表示用户vj是用户vi的粉丝,或者是表示用户vi直接将微博mi推送给了用户vj,即用户vi发布的微博mi的内容中包含“@vj”的内容;
d、定义微博的转发关系,根据步骤a将微博系统中的微博转发关系定义为fr=<mi,mj>,mi表示用户vi发布的微博,mj表示用户vj发布的微博,该式表示微博mj是对微博mi进行转发的微博,微博转发关系的方向为mi指向mj;
e、定义微博的评论关系,根据步骤a将微博系统中的微博评论关系定义为cr=<vj,mi>,该式表示用户vj对微博mi进行了评论,微博评论关系的方向为vj指向mi;
f、定义微博信息交互网络模型为H=(M,U,SR,FR,CR,WM),其中M为用户发布微博的集合,U为发布和转发微博及评论微博的用户的集合,且SR为微博传播关系的集合,FR为微博转发关系的集合,CR为微博评论关系的集合,WM为用户发布的微博内容影响力权重的集合,对于微博集合M中的微博m,Author(m)表示微博m的作者,即微博m的发布者,wm(m)表示微博m的内容影响力权重,根据上述d步骤的定义,对微博m进行转发的用户集合表示为:
根据上述e步骤的定义,对微博m进行评论的用户集合表示为:
4.根据权利要求1所述的一种基于信息交互网络的微博用户影响力计算方法,其特征在于,所述用户的微博信息包括其所发布的每篇微博的内容和发布时间、微博的转发数、评论数、点赞数以及对微博进行转发和评论的用户名单。
5.根据权利要求1所述的一种基于信息交互网络的微博用户影响力计算方法,其特征在于,所述其投票矩阵Y中的元素yij计算方法如下:
其中,E为表示微博用户关系网络的带权有向图中连接节点间关系的有向边的集合,vi、vj和vk均为带权有向图中的节点,pi表示节点vi的权重,eij表示连接节点vi和节点vj的有向边,wij表示有向边eij的权重;eik表示连接节点vi和节点vk的有向边,wik表示有向边eik的权重,wij的计算公式为:
wij=η·T+(1-η)·Q
其中,T为节点vi所代表的用户对节点vj所代表用户的微博进行转发的累计转发次数,Q为节点vi所代表的用户对节点vj所代表用户的微博进行评论的累计评论次数,η和(1-η)分别为累计转发次数和累计评论次数所占的权重比例系数,0<η<1。
6.根据权利要求1所述的一种基于信息交互网络的微博用户影响力计算方法,其特征在于,所述其计算用户的综合影响力公式如下:
IF=ρ·IFdir+(1-ρ)·IFindir
其中,IF为微博用户的综合影响力,IFdir为用户的直接影响力,IFindir为用户的间接影响力,ρ和(1-ρ)分别为用户的直接影响力和间接影响力所占的权重比例系数,0≤ρ≤1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510725236.6A CN105260474B (zh) | 2015-10-29 | 2015-10-29 | 一种基于信息交互网络的微博用户影响力计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510725236.6A CN105260474B (zh) | 2015-10-29 | 2015-10-29 | 一种基于信息交互网络的微博用户影响力计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105260474A CN105260474A (zh) | 2016-01-20 |
CN105260474B true CN105260474B (zh) | 2018-08-14 |
Family
ID=55100164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510725236.6A Expired - Fee Related CN105260474B (zh) | 2015-10-29 | 2015-10-29 | 一种基于信息交互网络的微博用户影响力计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105260474B (zh) |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022849A (zh) * | 2016-07-11 | 2016-10-12 | 互动派科技股份有限公司 | 一种新媒体价值与效果评估方法和系统 |
CN106372207B (zh) * | 2016-09-05 | 2019-07-16 | 北京蓝色光标品牌管理顾问股份有限公司 | 公众号信息的影响力排序方法及排序系统 |
CN107832572A (zh) * | 2016-09-14 | 2018-03-23 | 腾讯科技(深圳)有限公司 | 用户影响力值生成方法和装置 |
CN107977386A (zh) * | 2016-10-25 | 2018-05-01 | 航天信息股份有限公司 | 一种识别审计事件中的敏感用户的方法及装置 |
CN106599245A (zh) * | 2016-12-20 | 2017-04-26 | 西南石油大学 | 基于微博用户关系进行微博转发预测的方法和系统 |
CN106600069B (zh) * | 2016-12-20 | 2020-08-18 | 西南石油大学 | 基于微博主题标签进行微博转发预测的方法和系统 |
CN107092648A (zh) * | 2017-03-06 | 2017-08-25 | 扬州大学 | 一种微博网络中节点影响力计算方法 |
CN107577688B (zh) * | 2017-04-25 | 2020-11-10 | 上海市互联网信息办公室 | 基于媒体信息采集的原创文章影响力分析系统 |
CN107222470A (zh) * | 2017-05-25 | 2017-09-29 | 深圳众厉电力科技有限公司 | 一种认证信息全面的互联网用户认证系统 |
CN107203622B (zh) * | 2017-05-25 | 2020-11-06 | 广州市细行信息技术有限公司 | 一种评估准确的网络用户影响力评估系统 |
CN107451689A (zh) * | 2017-07-25 | 2017-12-08 | 中国联合网络通信集团有限公司 | 基于微博的话题趋势预测方法及装置 |
CN107633260B (zh) * | 2017-08-23 | 2020-10-16 | 上海师范大学 | 一种基于聚类的社交网络意见领袖挖掘方法 |
CN109840790B (zh) * | 2017-11-28 | 2023-04-28 | 腾讯科技(深圳)有限公司 | 用户流失的预测方法、装置及计算机设备 |
CN110020375B (zh) * | 2017-12-28 | 2023-06-27 | 沈阳新松机器人自动化股份有限公司 | 一种社交网络用户影响力的评估方法 |
CN108304867B (zh) * | 2018-01-24 | 2021-09-10 | 重庆邮电大学 | 面向社交网络的信息流行度预测方法及系统 |
CN108460499B (zh) * | 2018-04-02 | 2022-03-08 | 福州大学 | 一种融合用户时间信息的微博客用户影响力排名方法 |
CN108647247A (zh) * | 2018-04-16 | 2018-10-12 | 国家计算机网络与信息安全管理中心 | 基于改进PageRank算法的微博信息传播关键节点识别方法 |
CN108921380A (zh) * | 2018-05-29 | 2018-11-30 | 深圳市小蛙数据科技有限公司 | 影视作品和演职人员的潜力指数评价方法和装置 |
CN109063010B (zh) * | 2018-07-11 | 2022-01-28 | 成都爱为贝思科技有限公司 | 一种基于PageRank的意见领袖挖掘方法 |
CN109063927B (zh) * | 2018-08-28 | 2021-12-07 | 成都信息工程大学 | 一种基于ts-lstm和dnn的微博转发量预测方法 |
CN109299420A (zh) * | 2018-09-18 | 2019-02-01 | 精硕科技(北京)股份有限公司 | 社交媒体账号处理方法、装置、设备及可读存储介质 |
CN109492924B (zh) * | 2018-11-21 | 2022-05-17 | 哈尔滨工程大学 | 一种基于微博用户自身和行为价值二阶的影响力评估方法 |
CN109726319B (zh) * | 2018-12-12 | 2020-11-10 | 重庆邮电大学 | 一种基于交互关系的用户影响力分析方法 |
CN109783712B (zh) * | 2018-12-14 | 2023-10-17 | 平安科技(深圳)有限公司 | 一种基于微博用户的社交网络分析方法及装置 |
CN109657105B (zh) * | 2018-12-25 | 2021-10-22 | 杭州灿八科技有限公司 | 一种获取目标用户的方法 |
CN109815416B (zh) * | 2019-01-29 | 2020-12-22 | 北京字节跳动网络技术有限公司 | 关联信息的推送方法、装置,电子设备及存储介质 |
CN110196950B (zh) * | 2019-02-28 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 传播帐号的处理方法和装置 |
CN110083701B (zh) * | 2019-03-20 | 2023-07-21 | 重庆邮电大学 | 一种基于平均影响力的网络空间群体性事件预警系统 |
CN110059240A (zh) * | 2019-03-20 | 2019-07-26 | 重庆邮电大学 | 一种基于影响等级的网络用户责任指数计算方法 |
CN110110084A (zh) * | 2019-04-23 | 2019-08-09 | 北京科技大学 | 高质量用户生成内容的识别方法 |
CN110069711A (zh) * | 2019-04-23 | 2019-07-30 | 北京科技大学 | 用户价值分析方法和装置 |
CN110264284A (zh) * | 2019-06-27 | 2019-09-20 | 有米科技股份有限公司 | 新媒体营销属性分析预测方法、装置及系统 |
CN110766311B (zh) * | 2019-10-18 | 2023-10-31 | 北京神谷文化传播有限公司 | 基于Swarm模型的微博用户影响力计算方法及系统 |
CN110851684B (zh) * | 2019-11-12 | 2022-10-04 | 重庆邮电大学 | 一种基于三元关联图的社交话题影响力识别方法及装置 |
CN110929168A (zh) * | 2019-11-12 | 2020-03-27 | 北京百分点信息科技有限公司 | 关键受众确定方法、装置及电子设备 |
CN111210357A (zh) * | 2019-12-26 | 2020-05-29 | 南京富士通南大软件技术有限公司 | 基于社交网络信息交互的用户影响力获取方法 |
CN111898040B (zh) * | 2020-07-20 | 2022-04-15 | 电子科技大学 | 一种结合社交网络的圈层用户影响力评估方法 |
CN111898041B (zh) * | 2020-07-20 | 2022-04-15 | 电子科技大学 | 一种结合社交网络的圈层用户综合影响力评估及伪造判别方法 |
CN116208512B (zh) * | 2023-03-07 | 2023-10-17 | 杭州元媒科技有限公司 | 一种隐性交互行为的流量正向影响分析方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663101A (zh) * | 2012-04-13 | 2012-09-12 | 北京交通大学 | 一种基于新浪微博的用户等级排序算法 |
CN102945279A (zh) * | 2012-11-14 | 2013-02-27 | 清华大学 | 微博用户影响力的评估方法及装置 |
-
2015
- 2015-10-29 CN CN201510725236.6A patent/CN105260474B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663101A (zh) * | 2012-04-13 | 2012-09-12 | 北京交通大学 | 一种基于新浪微博的用户等级排序算法 |
CN102945279A (zh) * | 2012-11-14 | 2013-02-27 | 清华大学 | 微博用户影响力的评估方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105260474A (zh) | 2016-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105260474B (zh) | 一种基于信息交互网络的微博用户影响力计算方法 | |
Sheng et al. | Identifying influential nodes in complex networks based on global and local structure | |
Liu et al. | Towards early identification of online rumors based on long short-term memory networks | |
CN106980692A (zh) | 一种基于微博特定事件的影响力计算方法 | |
Bae et al. | Identifying and ranking influential spreaders in complex networks by neighborhood coreness | |
Li et al. | Link prediction in social networks based on hypergraph | |
Wang et al. | A community detection method based on local similarity and degree clustering information | |
CN103279887B (zh) | 一种基于信息理论的微博传播可视化分析方法 | |
CN106156286A (zh) | 面向专业文献知识实体的类型抽取系统及方法 | |
CN109933666A (zh) | 一种好友自动分类方法、装置、计算机设备和存储介质 | |
CN105095419A (zh) | 一种面向微博特定类型用户的信息影响力最大化方法 | |
CN105488092A (zh) | 一种时间敏感和自适应的子话题在线检测方法及系统 | |
Wang et al. | Management and entrepreneurship management mechanism of college students based on support vector machine algorithm | |
Tan et al. | ECRModel: An elastic collision-based rumor-propagation model in online social networks | |
Deng et al. | Highly efficient epidemic spreading model based LPA threshold community detection method | |
CN105678590A (zh) | 一种面向社交网络基于云模型的topN推荐方法 | |
Yu et al. | Uncovering and predicting the dynamic process of information cascades with survival model | |
CN109361556A (zh) | 一种基于节点熵和结构洞的关键节点感知方法 | |
CN104063479B (zh) | 一种基于社会网络的品牌网络热度计算方法 | |
Zhang et al. | Social sensing system for water conservation project: a case study of the South-to-North Water Transfer Project in China | |
Xuewei | Quantitative research on the evolution stages of we-media network public opinion based on a logistic equation | |
Chunyu et al. | Discrete bat algorithm and application in community detection | |
CN109871889A (zh) | 突发事件下大众心理评估方法 | |
CN105761152A (zh) | 社交网络中一种基于三元组的参与话题预测方法 | |
Yan et al. | Tackling the achilles heel of social networks: Influence propagation based language model smoothing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20181023 Address after: 310000 No. 998, Xue Yuan Street, Xiasha Higher Education Park, Hangzhou, Zhejiang Patentee after: Zhejiang Medium College Address before: 310000 201, room 1, 28 building, elegant court, Xue Lin Street, Jianggan District, Hangzhou, Zhejiang. Patentee before: Yu Dingguo |
|
TR01 | Transfer of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180814 Termination date: 20191029 |
|
CF01 | Termination of patent right due to non-payment of annual fee |