CN102262681B - 一种博客信息传播中识别关键博客集的方法 - Google Patents

一种博客信息传播中识别关键博客集的方法 Download PDF

Info

Publication number
CN102262681B
CN102262681B CN201110239145.3A CN201110239145A CN102262681B CN 102262681 B CN102262681 B CN 102262681B CN 201110239145 A CN201110239145 A CN 201110239145A CN 102262681 B CN102262681 B CN 102262681B
Authority
CN
China
Prior art keywords
blog
node
information
network chart
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110239145.3A
Other languages
English (en)
Other versions
CN102262681A (zh
Inventor
顾庆
张尧
汤九斌
陈道蓄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201110239145.3A priority Critical patent/CN102262681B/zh
Publication of CN102262681A publication Critical patent/CN102262681A/zh
Application granted granted Critical
Publication of CN102262681B publication Critical patent/CN102262681B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种可以快速、准确在博客信息传播中识别关键博客集的方法,其步骤是:1)以博客为单位收集和确定博客之间的关注关系和链接关系;2)以博客为节点构建博客网络图,图的边为博客间的关联;3)根据信息传播模型确定博客间关联(有向边)的权重;4)基于博客网络图计算每个博客对其他博客传播影响力的期望值;5)识别博客网络图中信息传播影响力最大的关键节点集合。本发明结合信息传播模型,应用博客之间的关联关系,通过计算信息传播期望,快速识别博客信息传播中关键的博客集合,以方便博客信息的监督。

Description

一种博客信息传播中识别关键博客集的方法
技术领域
本发明涉及博客信息传播中关键博客节点集合的快速识别问题,特别针对互联网时代博客网站(尤其是微博)越来越普及,已经成为新闻和评论等信息传播的主流平台之一,需要有效监督以帮助互联网上信息的鉴别和控制。
背景技术
博客(Weblog或blog)是以互联网为载体、同时由个人管理的信息共享平台。一个博客是一组包含文字、链接、图像等的网页集合,由博主(即注册在博客网站的用户)个人管理,不定期粘贴新文章(Posts)供人们浏览或转载。随着大量博客网站(如国外著名的Twitter,国内的新浪微博等)的涌现,博客已成为人们日常获取信息的主流平台之一。微博(Micro-Blog)的出现更降低了博客对用户技术和知识背景的要求,使得越来越多的人们主动加入到博客信息平台,共享新闻和自己的见解。互联网上各种信息真假莫辩,这要求对博客信息传播做适当的监督和引导;由于博客数量庞大且更新迅速,不可能对每一个博客随时进行跟踪,这就增加了监督的难度。
解决信息传播领域影响最大化问题,需要给定信息传播的网络图,设定信息传播模型,以寻找影响力最大的关键节点集合:集合中的节点数量给定,且节点上的信息可以传播到图中最多的节点上。目前解决影响最大化问题的主流技术有两类:其一是启发式方法;其二是随机模拟方法。启发式方法根据节点的拓扑特征,包括度数和到其他节点的平均最短距离等,选择度数大或者平均最短距离小的节点作为影响力大的节点。启发式方法的优点是执行性能较高;缺点是所识别的节点准确率低,即实际不能达到最大的影响力,而且所适用的传播模型过于简单,与实际网络中的信息传播方式不相符合。随机模拟方法基于设定的信息传播模型,运用蒙特卡洛随机模拟,在模拟足够多次(如10000次以上)的基础上确定节点或节点集合所能够影响的范围,再基于贪婪方法选择边际增益最高(即额外影响的节点数量最多)的节点作为关键节点。模拟方法的优点是可以适用于不同的信息传播模型,且识别的关键节点集准确率较高;缺点是执行性能过低,适用于相对静态的信息传播网络。博客信息传播网络信息量大,更新迅速,信息传播形式多样,现有方法尚不能满足博客信息传播的关键节点集识别要求。
发明内容
本发明所要解决的技术问题是提供一种可以快速识别博客信息传播中关键博客节点集合的方法,该方法能够以较高的执行性能更准确的识别关键节点集,适于博客信息平台数据量大更新快的特点,计算简单,具有扩展性和适应性,可以有效辅助博客信息平台的监督。
为实现上述目的,本发明采用如下的步骤:
1)以博客为单位收集和确定博主间的关联;
2)以博客为节点构建博客网络图,图的边为博客间的关联,对应博客间的链接关系或者博主之间的关注关系;
3)根据信息传播模型确定博客网络图中博客间的关联的权重;
4)基于博客网络图和关联权重的设置计算每个博客对其他博客信息传播影响力的期望值;
5)根据博客间信息传播影响力的期望值,识别博客网络图中信息传播影响力最大的关键节点集合,即关键博客集。
上述步骤1)中的关联包括关注关系以及博客中文章间的链接关系;而收集和确定博客间的关联的过程为:首先从博客网站获取博客数据,为每一个博客(博主)赋予唯一标识,如Bi。然后获取博主的好友列表或关注列表;好友列表确定博主间双向的好友关系;关注列表确定博主间单向的关注关系;好友关系可以表示为两个互为反向的关注关系;如果博主Bi关注博主Bj,则两者之间的关注关系标记为<Bj,Bi,f>。接下来获取博客Bi在t日内粘贴的文章,参数t可设为20。对博客Bi中的每一篇文章Pix,如果Pix链接(引用)了博客Bj中的文章Bjy,则认为博客Bi与博客Bj之间存在链接关系,标记为<Bj,Bi,Δt>,其中Δt表示文章Bix粘贴日期与当前日期的差值。如果博客Bi多次引用博客Bj中文章,则Δt为其中的最小值。
上述步骤2)中构建博客网络图的流程是:首先定义博客网络图为有向图,其中为博客集合,每个博客作为图中节点;E为博客之间关联(有向边)的集合。然后对博客群中任意两个博客Bi和Bj,如果Bi和Bj间存在关注关系<Bj,Bi,f>,或者存在链接关系<Bj,Bi,Δt>,则在Bi和Bj之间定义有向边eji:Bj→Bi;同理如果是<Bi,Bj,f>或者<Bi,Bj,Δt>,则定义有向边eij:Bi→Bj
上述步骤3)中确定博客网络图中边的权重。对边集E中的每一条有向边eij,分析eij对应的关联关系。如果是链接关系:<Bi,Bj,Δt>,则采用独立级联模型为边赋权重(其中链接关系权重的初始值λ可设为0.1,指数参数α可设为0.5):
wij=λe-α·Δt
如果是关注关系:<Bi,Bj,f>,则采用加权级联模型为边赋权重(其中集合Fj是博主Bj的关注集,|Fj|指集合的规模;关注关系权重的最大值δ可设为0.6):
w ij = &delta; | F j |
如果边eij即对应链接关系,又对应关注关系,则选择两者所确定权重的最大值作为该边上的权重:
w ij = max ( &lambda;e - &alpha; &CenterDot; &Delta;t , &delta; | F j | )
上述步骤4)中计算每个博客对其他博客信息传播影响力的期望值。首先对于博客节点Bi和Bj,标记p(i,j)为节点Bi对Bj的信息影响力期望值,等同于信息传播影响的概率。然后p(i,i)=1,表示节点肯定影响自己。若j≠i,则寻找网络图中节点Bi到节点Bj的最短路径,标记为PathI(Bi,Bj);p(i,j)定义为最短路径PathI(Bi,Bj)的权值(路径中所包含边权重的乘积):
p ( i , j ) = &Pi; e uv &Element; Path I ( B i , B j ) w uv
如果节点Bi到节点Bj不可达,则p(i,j)=0。节点间最短路径定义为节点间所有简单路径(路径上节点不重复出现)中权值最大的路径。可采用广度优先搜索算法遍历网络图中节点Bi到所有其他可达博客节点的最短路径。
上述步骤5)中识别博客网络图中信息传播影响力最大的关键节点集合。首先确定集合S的规模,如20(即最关键的20个节点);定义σ(S)为网络图中受集合S中博客节点影响的节点数量的期望值。然后选择网络图中影响范围最大的单个节点构成初始集合S={Bmax}。对应的σ({Bmax})计算如下:
&sigma; ( { B max } ) = &Sigma; j = 1 n p ( max , j )
其中max为节点下标。确定p(S,j)的初始值,即p({Bmax},j)=p(max,j)。接下来迭代,每次选择边际增益最大的节点Bu()加入集合S。节点Bu的边际增益按如下公式计算:
&delta; S ( B u ) = &Sigma; j = 1 n ( 1 - p ( S , j ) ) &CenterDot; p ( u , j )
集合S中增加节点Bu后,按如下公式调整集合S对节点Bj的影响力期望值:
重复上述两个步骤直至给定数量的节点被选入集合S。集合S即为博客网络图中信息传播影响力最大的关键节点集合。
本发明通过分析博客间关联,基于信息传播模型快速识别博客网络中信息传播影响力最大的博客节点集合,能够帮助确定信息传播的源头和集散地,协助博客信息传播链追踪等。其中根据关联关系,包括博客间链接关系和博主之间的关注关系,构建博客网络图;基于信息传播模型确定博客间关联(即博客网络图的边)的信息传播权重;据以计算每一个博客对其他博客信息影响力的期望值;进而根据博客网络的拓扑图快速识别其中影响力最大的博客节点集合。
本发明方法基于关键节点集合扩充中的边际增益递减特点,应用贪婪算法每次选择增益最大的博客节点。所识别的关键节点集合具有很高的准确性。另外本发明方法计算简单有效,能够快速识别博客信息传播网络中的关键节点集合,具有灵活性、适用性和扩展性。同已有方法相比较,本发明方法更加适用于数据量大、且更新频繁快速的博客信息传播平台的影响最大化分析。
附图说明
图1是博客信息传播关键博客节点集识别方法的总体框架;
图2是获取博客数据并确定博客间关联关系的处理流程;
图3是根据博客间关联构建博客网络图的处理流程;
图4是一个博客群的示例及其对应的博客网络图;
图5是为博客网络图中边赋予权重的处理流程;
图6是博客群示例对应的加权博客网络图;
图7是博客间信息传播影响力之期望值计算的处理流程;
图8是加权博客网络图中识别关键节点集的处理流程。
具体实施方式
图1所示为博客信息传播关键博客节点集识别方法的总体技术框架。方法的输入是博客网站上的博客网页数据,包括粘贴的文章、文章之间的链接关系、以及博主间的好友关系或关注关系等。方法的输出是给定数量(如20个)的关键博客节点集合,其联合影响力在已获取的博客群中最大。技术框架分为5个模块:确定博客和博主之间的链接关系或关注关系;以博客为节点、博客间关联为边构建博客网络图;设定信息传播模型为网络图中的边(即博客间关联)赋予权重;计算每个博客对其他博客信息影响力的期望值;最后识别博客网络图中信息传播影响力最大的关键节点集合。
本发明方法的第一个模块是确定博客和博主之间的链接关系或关注关系。如图2所示。首先从博客网站(如网易微博、新浪微博、博客中国等)获取博客数据,包括近期粘贴的文章、文章间的链接关系、以及博主的关注列表或好友列表等。为每一个博客赋予唯一标识Bi,因为博主与博客一一对应,所以Bi也可以用于标识博主。令所获取的博客群为:然后针对每一个博客Bi,获取Bi的好友列表或关注列表(一些博客网站为好友列表,而微博网站通常为关注列表)。其中好友关系一般是双向的,如果博主Bi和博主Bj是好友,则博主Bj和博主Bi也是好友;而关注关系一般是单向的,博主Bi关注博主Bj并不意味着博主Bj也会关注博主Bi(此时网站一般会注明博主Bi是博主Bj的“粉丝”)。为取得一致,好友关系被视为两个互为反向的关注关系;而博主Bi关注Bj标记为<Bj,Bi,f>,其中f表示“被关注”。
接下来分析博客Bi中近期粘贴的文章。设定参数t,表示获取博客中近t日粘贴的文章。参数t的设置可以参考博客群信息的平均更新速度,信息更新越快则t值越小,反之则越大;一个可选的参考值是20。对每一篇文章Pix,分析其中的链接关系。如果Pix链接(引用)了博客Bj中的文章Pjy,则认为博客Bi与博客Bj之间存在链接关系,标记为<Bj,Bi,Δt>,其中Δt表示文章Pix粘贴日期与当前日期的差值。例如Pix为2天前粘贴,则Δt=2。如果博客Bi多次引用了博客Bj中的文章,则链接关系中的Δt为博客Bi中最近一次文章链接的日期与当前日期的时间差。
本方法的第二个模块是以博客为节点、博客间关联为边构建博客网络图。如图3所示。定义博客网络图为有向图,其中为博客节点集合,E为博客之间关联(有向边)的集合。对博客群中任意两个博客Bi和Bj,如果Bi和Bj间存在关注关系<Bj,Bi,f>,或者存在链接关系<Bj,Bi,Δt>,则在Bi和Bj之间定义有向边eji:Bj→Bi。从信息传播角度,存在边eji代表博客Bj对博客Bi有信息影响。如果是关注关系,因为Bi关注Bj,所以Bj对Bi存在一定的影响力;如果是链接关系,因为Bi中文章链接Bj中文章,说明Bj的信息传播到Bi,Bj对Bi亦存在影响力。同理,如果博客Bi和Bj间还存在关联<Bi,Bj,f>或者<Bi,Bj,Δt>,则定义有向边eij:Bi→Bj
图4所示为一个博客群示例及其对应的博客网络图。如图4(a),该博客群由6个博客组成每一个博客有自己的关注列表和近期粘贴的文章列表。例如博客B1包含3篇粘贴的文章“P11,P12,P13”,关注列表中包含博客(博主)B2和B4。各文章之间存在链接关系,如文章P11被博客B2中的文章P22引用;文章P12被博客B5中的文章P51引用;而文章P13引用了博客B4中的文章P41。图4(b)为该博客群对应的博客网络图,考虑节点B1,根据其关注关系构成2条有向边e21和e41,根据文章间链接关系可构成3条有向边:e12,e15和e41;于是边e41同时对应关注关系和链接关系,其信息传播权重由这两项关系综合决定。由图4不难发现,博客B6中的文章最多,所引用的文章数量也最大;似乎信息最全面且值得监督。但是从信息传播的角度来看,博客B6的影响力其实最小,没有其他博客关注B6或引用B6中的文章。考虑图4(a)中的信息传播链P11→P22→P32→P61,如果到B6中才发现,该信息传播已经影响到了博客B2,B3和B6
本方法的第三个模块是设定信息传播模型,为网络图中的有向边赋予权重。信息传播模型有阈值模型(thresholdmodel)和级联模型(cascademodel)两类。根据博客信息传播的特点,本发明方法采用级联模型。级联模型又包含独立级联模型(independentcascade)和加权级联模型(weightedcascade),本发明方法综合应用这两个模型。在博客网络信息传播过程中,博客节点只有两个状态:活跃状态和非活跃状态。其中活跃状态指博客节点受到信息传播影响,表现为引用了某条信息而加入到信息传播链中;非活跃状态指尚未受到信息传播影响。博客节点可以从非活跃状态转入活跃状态,并进一步影响其他节点;一旦进入活跃状态,节点就不会再转回非活跃状态。
如图5所示,对边集E中的每一条有向边eij,分析eij对应的关联关系。如果是链接关系:<Bi,Bj,Δt>,则采用独立级联模型为边赋权重,如公式(1)所示。
wij=λe-α·Δt(1)
其中链接关系权重的初始值λ可设为0.1,指数参数α可设为0.5。随着时间差Δt的增加,链接关系权重按指数衰减。参数λ和α的设置可基于博客群中信息更新的速度。信息更新速度越快,则λ和α的值越大;反之更新速度越慢,则λ和α值越小。
如果边eij对应的是关注关系:<Bi,Bj,f>,则采用加权级联模型为边赋权重,如公式(2)所示。
w ij = &delta; | F j | - - - ( 2 )
其中集合Fj是博主Bj的关注集,|Fj|指集合的规模;关注关系权重的最大值δ可设为0.6。表示博主有60%的几率被关注的博客集影响;随着博主关注集规模的不断增加,博主被关注集中某个博主影响的几率将不断降低。
如果边eij即对应链接关系,又对应关注关系,则选择两者所确定权重的最大值作为该边上的权重。如公式(3)所示。
w ij = max ( &lambda;e - &alpha; &CenterDot; &Delta;t , &delta; | F j | ) - - - ( 3 )
图6所示为博客群示例所对应的加权博客网络图。其中假设所有链接关系距离当前日期都是1天(即Δt=1),于是链接关系的权重皆为:0.1×e-0.5=0.06。图6中的边e41同时对应关注关系<e4,e1,f>和链接关系<e4,e1,1>。其中关注关系对应的权重为0.6/2=0.3,而链接关系对应的权重为0.06;取两者的最大值,求得边e41上的权重为w41=0.3。注意本例中关注关系的权重较大,这是由于示例规模小,每一位博主最多只有2个关注。在实际的博客群中,一位博主往往有数十乃至数百个关注,按公式(2)计算的关注关系权重基本同链接关系的权重相当。
本方法的第四个模块是在加权博客网络图的基础上,计算每个博客对其他博客信息影响力的期望值。对于博客节点Bi和Bj,标记p(i,j)为节点Bi对Bj的信息影响力期望值。由于对节点Bj的信息影响只有两种结果:影响(值为1)和不影响(值为0),因此信息影响力的期望值等同于信息传播影响的概率。首先p(i,i)=1,表示节点肯定影响自己。若j≠i,为计算p(i,j),需要寻找网络图中节点Bi到节点Bj的最短路径,标记为PathI(Bi,Bj);如果节点Bi到节点Bj不可达,则p(i,j)=0。
网络图中一条路径的权值定义为路径上所有边的权重乘积。节点间最短路径定义为节点间所有简单路径(路径上节点不重复出现)中权值最大的路径。期望值p(i,j)定义为最短路径PathI(Bi,Bj)的权值,如公式(4)所示。
p ( i , j ) = &Pi; e uv &Element; Path I ( B i , B j ) w uv - - - ( 4 )
其中euv为最短路径PathI(Bi,Bj)上的边,wuv为边euv的权重。例如图6所示的加权网络中,从节点B2到节点B6的一条路径<e23,e36>其权值为:0.06×0.06=3.6×10-3。图中节点B2到节点B6共有6条简单路径,其中路径<e21,e16>为最短路径PathI(B2,B6),路径权值为0.09。于是节点B2对节点B6的信息影响力期望值为p(2,6)=0.09。
如图7所示,从博客Bi开始,采用广度优先搜索算法遍历网络图中节点Bi到所有其他可达博客节点的最短路径。该算法运用了一个基本原理:如果节点Bi到节点Bj的最短路径经过某个中间节点Bk,则最短路径PathI(Bi,Bj)必然包含最短路径PathI(Bi,Bk)。根据这一原理,只需遍历网络图中的所有边,就可以计算节点Bi到所有其他可达节点的最短路径,因此算法的执行性能较高。本模块执行完毕后的输出结果是信息影响力期望值矩阵Pn×n,其中n为博客集合的规模,行表示节点施加影响力,列表示节点被其他节点影响,期望值p(i,j)为矩阵中元素。
本方法的第五个模块是基于期望值矩阵,识别博客网络图中信息传播影响力最大的关键节点集合。令为博客节点集合,定义σ(S)为网络图中受S中博客节点影响的节点数量的期望值。不难得出,如果集合S仅包含1个节点,即S={Bi},则σ(S)可以按照公式(5)直接计算。
&sigma; ( { B i } ) = &Sigma; j = 1 n p ( i , j ) - - - ( 5 )
如果集合S中有2个以上的节点,则由于节点影响范围的重叠,不能直接累加S中各节点影响力期望值。由此定义集合S对网络图中节点,如Bj的信息影响力期望值,标记为p(S,j);如果节点Bj∈S,则p(S,j)=1。基于该定义,σ(S)可以按照公式(6)计算。
&sigma; ( S ) = &Sigma; j = 1 n p ( S , j ) - - - ( 6 )
如果集合S中只有一个节点,如Bi,则p({Bi},j)=p(i,j)。如果多于一个节点,可按照公式(7)逐步更新集合S对任一节点Bj的影响力期望值。
其中。由此在已选定节点集合S的基础上,可计算添加节点Bu后的边际增益δS(Bu)=σ(S∪{Bu})-σ(S),即增加节点Bu后,网络图中受S影响的节点数量增加的期望值。边际增益δS(Bu)的计算如公式(8)所示。
&delta; S ( B u ) = &Sigma; j = 1 n ( 1 - p ( S , j ) ) &CenterDot; p ( u , j ) - - - ( 8 )
其中要求。应用公式(5)、(7)和(8),可基于贪婪算法识别网络图中联合信息影响力最大的关键节点集合。如图8所示。首先确定集合S的规模,如20(即最关键的20个节点)。然后应用公式(5)选择网络图中影响范围最大的单个节点构成初始集合S={Bmax};同时确定p(S,j)的初始值,即p({Bmax},j)=p(max,j)(其中max为初始选定节点的下标)。
接下来迭代,第一步应用公式(8)每次选择边际增益最大的节点Bu加入集合S。第二步按照公式(7)更新p(S,j),注意如果Bj∈S或者j=u,则p(S,j)=1。重复上述两个步骤直至给定数量的节点被选入集合S。最后输出的集合S即为博客网络图中信息传播影响力最大的关键节点集合。
理论和实践证明,由于关键博客集合的选择具有边际增益递减的特点,即当选定的集合S规模不断增加时,新增节点Bu()后所带来的边际增益δS(Bu)逐渐减少。
基于这一特性,本发明方法采用的贪婪算法具有很高的准确性。另外本发明方法计算简单有效,能够快速识别博客信息传播网络中的关键博客集合,具有灵活性、适用性和扩展性。同已有方法相比较,本发明方法更加适用于数据量大、且更新频繁快速的博客信息传播平台的影响最大化分析。

Claims (4)

1.一种博客信息传播中识别关键博客集的方法,其特征在于包含以下步骤:
1)以博客为单位收集和确定博主间的关联;关联包括关注关系以及博客中文章间的链接关系;收集和确定博客间的关联过程为:首先从博客网站获取博客数据,为每一个博客,即博主,赋予唯一标识;然后获取博主的好友列表或关注列表;好友列表确定博主间双向的好友关系;关注列表确定博主间单向的关注关系;好友关系可以表示为两个互为反向的关注关系;如果博主关注博主,则两者间的关注关系标记为;接下来获取博客日内粘贴的文章,对博客中的每一篇文章,如果链接了博客中的文章,则认为博客与博客之间存在链接关系,标记为,其中表示文章粘贴日期与当前日期的差值;如果博客多次引用博客中文章,则为其中的最小值;
2)以博客为节点构建博客网络图,图的边为博客间的关联,对应博客间的链接关系或者博主之间的关注关系;
3)根据信息传播模型确定博客网络图中博客间的关联的权重,即确定博客网络图中有向边的权重,分三种情况:对边集E中的每一条有向边,分析对应的关联关系;其中:
情况1,关联关系为链接关系:,此时采用独立级联模型为边赋权重,即,其中链接关系权重的初始值设为0.1,指数参数设为0.5;
情况2,关联关系为关注关系:,此时采用加权级联模型为边赋权重,即,其中集合是博主的关注集,指集合的规模;关注关系权重的最大值设为0.6;
情况3,关联关系同时为链接关系和关注关系,此时选择两者所确定权重的最大值作为该边上的权重,即
4)基于博客网络图和关联权重的设置计算每个博客对其他博客信息传播影响力的期望值;
5)根据博客间信息传播影响力的期望值,识别博客网络图中信息传播影响力最大的关键节点集合,即关键博客集。
2.根据权利要求1所述的博客信息传播中识别关键博客集的方法,其特征在于步骤2)中构建博客网络图的流程是:首先定义博客网络图为有向图,其中为博客集合,每个博客作为图中节点;为博客之间关联的集合,即图中有向边的集合;然后对博客群中任意两个博客,如果间存在关注关系,或者存在链接关系,则在之间定义有向边;同理如果是或者,则定义有向边
3.根据权利要求2所述的博客信息传播中识别关键博客集的方法,其特征在于步骤4)中计算每个博客对其他博客信息传播影响力的期望值分三种情况,对于博客节点,标记为节点的信息影响力期望值,等同于信息传播影响的概率;其中i和j为节点的下标值,分三种情况计算:
情况1,,则,表示节点肯定影响自己;
情况2,若,且节点到节点不可达,则
情况3,若,且节点到节点可达,则寻找网络图中节点到节点的最短路径,标记为,指节点间所有简单路径中权值最大的路径,其中简单路径指路径上节点不重复出现;等于最短路径的权值,即路径中所包含边权重的乘积:
其中euv是从节点到节点最短路径上的任意一条边,wuv是边euv的权重。
4.根据权利要求3所述的博客信息传播中识别关键博客集的方法,其特征在于步骤5)中识别博客网络图中信息传播影响力最大的关键节点集合的过程是:首先确定集合的规模,定义为网络图中受集合中博客节点影响的节点数量的期望值;然后选择网络图中影响范围最大的单个节点构成初始集合,对应的计算如下:
其中为节点下标,确定的初始值,即;接下来迭代,每次选择边际增益最大的节点加入集合,其中,节点的边际增益按如下公式计算:
其中u是节点的下标,集合中增加节点后,按如下公式调整集合对节点的影响力期望值:
重复上述两个步骤直至给定数量的节点被选入集合,集合即为博客网络图中信息传播影响力最大的关键节点集合。
CN201110239145.3A 2011-08-19 2011-08-19 一种博客信息传播中识别关键博客集的方法 Expired - Fee Related CN102262681B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110239145.3A CN102262681B (zh) 2011-08-19 2011-08-19 一种博客信息传播中识别关键博客集的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110239145.3A CN102262681B (zh) 2011-08-19 2011-08-19 一种博客信息传播中识别关键博客集的方法

Publications (2)

Publication Number Publication Date
CN102262681A CN102262681A (zh) 2011-11-30
CN102262681B true CN102262681B (zh) 2015-12-02

Family

ID=45009309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110239145.3A Expired - Fee Related CN102262681B (zh) 2011-08-19 2011-08-19 一种博客信息传播中识别关键博客集的方法

Country Status (1)

Country Link
CN (1) CN102262681B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571485B (zh) * 2011-12-14 2014-08-27 上海交通大学 一种在微博平台上识别机器人用户的方法
CN102752279B (zh) * 2012-04-27 2014-11-12 中国科学院信息工程研究所 一种社交网络恶意代码传播的仿真系统及仿真方法
CN103426042B (zh) 2012-05-15 2016-04-13 腾讯科技(深圳)有限公司 社交网络的分组方法及系统
CN103886105B (zh) * 2014-04-11 2017-05-17 北京工业大学 一种基于社交网络用户行为的用户影响力分析方法
CN104954360B (zh) * 2015-04-17 2018-09-04 腾讯科技(深圳)有限公司 分享内容屏蔽方法及装置
CN104866586B (zh) * 2015-05-28 2019-02-01 中国科学院计算技术研究所 用于计算社会媒体中信息传播节点重要性的方法及系统
CN105095419B (zh) * 2015-07-15 2018-08-31 哈尔滨工程大学 一种面向微博特定类型用户的信息影响力最大化方法
CN106534234B (zh) * 2015-09-09 2020-04-28 腾讯科技(深圳)有限公司 关系链处理系统、方法和装置
CN110019677A (zh) * 2017-11-30 2019-07-16 南京大学 基于聚类分析的微博广告发布者识别方法及装置
CN108875018B (zh) * 2018-06-19 2021-06-29 网智天元科技集团股份有限公司 新闻影响力评估方法、装置及电子设备
CN110110974B (zh) * 2019-04-17 2022-03-29 福建天泉教育科技有限公司 关键意见领袖的识别方法及计算机可读存储介质
CN110213164B (zh) * 2019-05-21 2021-06-08 南瑞集团有限公司 一种基于拓扑信息融合的识别网络关键传播者的方法及装置
CN112861015A (zh) * 2019-11-27 2021-05-28 北京达佳互联信息技术有限公司 一种应用程序中账户关联信息获取方法、装置及电子设备
CN112446634B (zh) * 2020-12-03 2021-08-06 兰州大学 一种社交网络中影响力最大化节点的探测方法及系统
CN115659007B (zh) * 2022-09-21 2023-11-14 浙江大学 一种基于多样性的动态影响力传播种子最小化方法
CN117811992B (zh) * 2024-02-29 2024-05-28 山东海量信息技术研究院 一种网络不良信息传播抑制方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075942A (zh) * 2007-06-22 2007-11-21 清华大学 基于专家值传播算法的社会网络专家信息处理系统及方法
CN102214212A (zh) * 2011-05-20 2011-10-12 西北工业大学 基于多重链接的微博网络节点权重排序方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090030932A1 (en) * 2007-07-27 2009-01-29 Ralph Harik Methods for detecting and remedying missed opportunities in a social network
US9740753B2 (en) * 2008-12-18 2017-08-22 International Business Machines Corporation Using spheres-of-influence to characterize network relationships

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075942A (zh) * 2007-06-22 2007-11-21 清华大学 基于专家值传播算法的社会网络专家信息处理系统及方法
CN102214212A (zh) * 2011-05-20 2011-10-12 西北工业大学 基于多重链接的微博网络节点权重排序方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
博客信息传播的网络模型构建;张嘉龄等;《软件导刊》;20080531;第7卷(第5期);全文 *
微博客信息传播结构、路径及其影响因素分析;袁毅;《图书情报工作》;20110630;第55卷(第12期);全文 *
社会化网络的信息扩散研究;王萍;《情报杂志》;20091031;第28卷(第10期);全文 *

Also Published As

Publication number Publication date
CN102262681A (zh) 2011-11-30

Similar Documents

Publication Publication Date Title
CN102262681B (zh) 一种博客信息传播中识别关键博客集的方法
CN108492201B (zh) 一种基于社区结构的社交网络影响力最大化方法
Lee et al. Measurements, analyses, and insights on the entire ethereum blockchain network
Jung et al. Irie: Scalable and robust influence maximization in social networks
CN104134159B (zh) 一种基于随机模型预测信息最大化传播范围的方法
Zhu et al. Maximizing the spread of influence ranking in social networks
Korn et al. Lobby index in networks
Li et al. A dynamic algorithm based on cohesive entropy for influence maximization in social networks
Wang et al. Full reconstruction of simplicial complexes from binary contagion and Ising data
CN103678669A (zh) 一种社交网络中的社区影响力评估系统及方法
Li et al. On modeling product advertisement in large-scale online social networks
CN103970863A (zh) 基于lda主题模型的微博用户兴趣的挖掘方法及系统
CN101887460A (zh) 一种文献质量评估方法及应用
Hong et al. Efficient minimum cost seed selection with theoretical guarantees for competitive influence maximization
CN105095419A (zh) 一种面向微博特定类型用户的信息影响力最大化方法
CN103136267A (zh) 一种基于社区的专家挖掘方法与装置
CN103136331A (zh) 微博网络意见领袖识别方法
Han et al. Balanced seed selection for budgeted influence maximization in social networks
Li et al. Three-hop velocity attenuation propagation model for influence maximization in social networks
CN106209959A (zh) 基于用户需求的网络服务智能发现方法
Bi et al. Temporal gravity model for important node identification in temporal networks
Li et al. Estimating user influence ranking in independent cascade model
Abdy Sayyed et al. Combined flow and pressure deficit-based penalty in GA for optimal design of water distribution network
Liu et al. Understanding information diffusion with psychological field dynamic
CN104133808B (zh) 基于复杂对应系统的用户行为一致性度测量方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151202

Termination date: 20210819