CN102214212A - 基于多重链接的微博网络节点权重排序方法 - Google Patents
基于多重链接的微博网络节点权重排序方法 Download PDFInfo
- Publication number
- CN102214212A CN102214212A CN2011101329629A CN201110132962A CN102214212A CN 102214212 A CN102214212 A CN 102214212A CN 2011101329629 A CN2011101329629 A CN 2011101329629A CN 201110132962 A CN201110132962 A CN 201110132962A CN 102214212 A CN102214212 A CN 102214212A
- Authority
- CN
- China
- Prior art keywords
- user
- node
- network
- formula
- weights
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明公开了一种基于多重链接的微博网络节点权重排序方法,用于解决现有的微博网络节点权重排序方法召回率低的技术问题。技术方案是将微博网络构建成网络有向图G=(E,V),再通过定义用户有效粉丝集合Ef(u),大幅度减小了网络图规模,从而提高了计算速度。其次,跟踪节点消息,记录节点消息的发布、转发、回复、收藏等信息,确定节点附加链接关系,在这一部分中不去分析具体消息的内容,从而提高了网络分析速度。最后,结合网络动态性,识别并处理网络节点交互,整体上降低了系统开销、提高了计算方法的准确率和召回率。
Description
技术领域
本发明涉及一种微博网络节点权重排序方法,特别是一种基于多重链接的微博网络节点权重排序方法。
背景技术
微博网络(Micro-Blogging Network)为用户提供一个互动交流的平台,丰富了用户的业余生活,增强了朋友之间的交流。
在传统的社交网络中,节点权值主要通过计算用户好友数目以及分析用户之间的结构关系来计算。通常是分析网络结构中的节点度(Degree),单纯考虑出度(Out-Degree)精确率不高。在微博网络中网络节点构成有向图,仅仅考虑出度和入度(In-Degree)也达不到较高的精确度。
文献1“Discovering Important Bloggers based on Analyzing Blog Threads[WWW,Chiba,Japan,May 10-14,2005]”公开了一种基于帖子内容分析的博客重要用户分析方法ThreadRank,该方法通过分析大量的博客内容来判断其用户的重要性,需要耗费大量的时间用于内容清理和分析,效率较低。
文献2“Identifying Opinion Leaders in the Blogosphere[CIKM,pp.971-974,2007]”公开了一种意见领袖识别方法InfluenceRank,该方法根据与其他博客相比较来判断用户的重要性,以及这些用户对整个网络所做的贡献来计算用户权值,该论文采用了余弦定理计算不同博客实体的相似性,复杂性较高,开销大。
文献3“TwitterRank:Finding topic-sensitive Inuential Twitterers[WSDM,2010]”公开了一种Twitter网络节点计算方法TwitterRank,该方法根据Twitter中的用户关系、粉丝与关注者之间的分布以及在信息传播的过程中各种用户群体所起到的作用进行权重计算,该算法主要基于话题进行分析,召回率不高。
发明内容
为了克服现有的微博网络节点权重排序方法召回率低的不足,本发明提供一种基于多重链接的微博网络节点权重排序方法,该方法首先将微博网络构建成网络有向图G=(E,V),再通过定义用户有效粉丝集合Ef(u),可以大幅度减小网络图规模,从而提高计算速度;其次,跟踪节点消息,记录节点消息的发布、转发、回复、收藏等信息,确定节点附加链接关系,在这一部分中不去分析具体消息的内容,从而提高网络分析速度;最后,结合网络动态性,识别并处理网络节点交互,整体上可以降低系统开销、提高计算方法的准确率和召回率。
本发明解决其技术问题所采用的技术方案是:一种基于多重链接的微博网络节点权重排序方法,其特点是包括以下步骤:
(a)定义微博网络有向图:
G=(E,V)
式中,E表示用户关系集合,V表示用户节点集合。
定义用户的有效粉丝集合:
Ef(u)={v|v∈Follower(u)∧Response(u)>δ}
式中,δ是非负常数阈值,表示用户节点u的粉丝用户v对用户u反馈的程度门限,超过该阈值且属于用户u的粉丝的用户才能算作有效粉丝用户。
(b)根据公式
计算微博用户节点ui链接产生的节点权值IRL(ui);式中,Follower(ui)为用户ui所有粉丝构成的集合,L(uj)为用户uj粉丝的数目,σ是介于0和1的阻尼系数,N表示所考虑的微博用户总数。
(c)根据公式
计算用户ui的节点权值IRTR(ui),式中,Tweet(ui)为用户ui帖子集合,A表示所有具有交互情况的帖子集|A|是A的基合,Ns(uj)是用户uj针对帖子tj,的响应次数,Nμ(uj)为响应平均值,Response包括用户转帖、回帖、评论和收藏。
(d)根据公式
IR(ui)=(1-β)×IRL(ui)+β×IRTR(ui)
进行节点链接权值IR(ui)的计算;式中,参数β(β∈[0,1])决定链接关系和节点交互关系两个因子在节点权值计算中所处的地位;当β较小时,用户影响力权值主要由链接关系决定,特别当β=0时则完全由链接关系计算权值。
本发明的有益效果是:该方法首先将微博网络构建成网络有向图G=(E,V),再通过定义用户有效粉丝集合Ef(u),大幅度减小了网络图规模,从而提高了计算速度;其次,跟踪节点消息,记录节点消息的发布、转发、回复、收藏等信息,确定节点附加链接关系,在这一部分中不去分析具体消息的内容,从而提高了网络分析速度;最后,结合网络动态性,识别并处理网络节点交互,整体上降低了系统开销、提高了计算方法的准确率和召回率。表1是各种节点权值计算方法的召回率、准确率及平均节点处理时间对照。
表1各种节点权值计算方法的召回率、准确率及平均节点处理时间对照
计算方法 | 出度 | 入度/出度结合 | 文献1 | 文献2 | 文献3 | 本发明 |
召回率 | 57.3% | 65.4% | 82.2% | 81.7% | 88.5% | 89.3% |
准确率 | 62.2% | 67.3% | 86.1% | 84.7% | 90.4% | 91.7% |
时间/节点 | 0.14min | 0.23min | 3.37min | 2.81min | 2.76min | 0.31min |
表1是以处理10万个网络节点为基准测试的,从表中可以看出,单纯分析网络节点(入度,出度等链接关系计算方法)可以降低节点分析时间,但准确率和召回率不高;考虑节点内容(文献1、文献2和文献3的计算方法)后能够提高节点分析的召回率和准确率,但是会大大降低系统效率;本发明采用微博网络拓扑结构中链接关系与节点交互相结合的计算方法,降低了网络节点规模,因而降低了系统开销,同时准确率和召回率也有显著的提高。
下面结合具体实施方式对本发明作详细说明。
具体实施方式
本实施例以国内大型微博网络—新浪微博作为研究对象,数据集从新浪微博网络上采集,所采集的用户数量是350,747,用户关系13,223,205条。为了对比,从国外的微博网络Youtube上采集了1138,499用户和4,945,382条用户关系。由于原始数据量比较大,为了方便描述本发明,本实施例假设微博网络中有如下一个特例:
(1:2,4,5,6,12,16,19)
(2:3,7)
(3:4,7,8,9)
(4:1,3,7)
(5:2,6,8,9,11)
(6:1,3,4,10)
(7:3,4,5,8)
(8:3)
(9:1,7,13,19,22,25)
(10:2,4,5,9)
(11:4,7,12,29,33,41,565,587)
……
上述节点链接关系(Ni:Nj,…,Nk),其中Ni表示源节点,Nj…Nk表示由Ni指向的目的节点,即在实际网络中,Nj…Nk为Ni的关注者,后者是前者的粉丝。
节点交互关系如下:
(1:4,6,19)
(2:3)
(3:7)
(4:1,7)
(5:)
(6:1,3,10)
(7:3,8)
(8:)
(9:1,7,13,19,22)
(10:5,9)
(11:12,33,587)
……
上述节点交互关系(Ni:Nj,…,Nk),其中Ni表示源节点,Nj…Nk表示由Ni指向的目的节点,即在实际网络中,Ni对节点Nj…Nk活动进行了交互,回帖、转帖或者是收藏。
根据上述特例,本发明实施过程如下:
1.定义微博网络有向图。
由于网络节点巨大,在实际分析中不可能将所有节点关系都提取出来,为了减少节点数目,降低分析数据规模,在上述节点列表中,保留10个节点数据,去除ID号大于10的节点,整理后的节点链接关系如下所示:
(1:2,4,5,6)
(2:3,7)
(3:4,7,8,9)
(4:1,3,7)
(5:2,6,8,9)
(6:1,3,4,10)
(7:3,4,5,8)
(8:3)
(9:1,7)
(10:2,4,5,9)
矩阵表示为:
节点交互链接关系如下所示:
(1:4,6)
(2:3)
(3:7)
(4:1,7)
(5:)
(6:1,3,10)
(7:3,8)
(8:)
(9:1,7)
(10:5,9)
矩阵表示为:
因此,可以定义网络有向图
G=(E,V)
式中,E表示用户关系集合,V表示用户节点集合。即集合E={1,2,3,4,5,6,7,8,9,10},V={(1,2),(1,4),(1,5),(1,6),(2,3),(2,7),(3,4),(3,7),(3,8),(3,9),(4,1),(4,3),(4,7),(5,2),(5,6),(5,8),(5,9),(6,1),(6,3),(6,4),(6,10),(7,3),(7,4),(7,5),(7,8),(8,3),(9,1),(9,7),(10,2),(10,4),(10,5),(10,9)}。
在现实生活中,大部分用户都不会对其关注者的言论进行回应。比如转贴,回帖等。也就是说,并不是所有的粉丝都能提高其关注者的影响力权值,相反也不是所有的关注别人的用户会自损其影响力,而只有当用户在网络中处于有效地位时才能具有与其影响力相符合的作用。因此,根据公式
Ef(u)={v|v∈Follower(u)∧Response(u)>δ}
定义用户的有效粉丝集合。式中,δ是非负常数阈值,表示用户节点u的粉丝用户v对用户u反馈的程度门限,超过该阈值且属于用户u的粉丝的用户才能算作有效粉丝用户。
取δ=1.0得到用户有效粉丝节点集合,可以直接从矩阵R去除值全为0的行,即第5行和8行,该行全0表示ID为5和ID为8的节点为非有效用户,去除无效用户后的R矩阵为R′:
由于ID重新生成,N矩阵也发生变化:
2.定义由链接关系所产生的节点权值计算。
根据公式
式中,ui表示微博用户节点,IRL(ui)表示用户节点ui链接产生的节点权值,Follower(ui)为用户ui所有粉丝构成的集合,L(uj)为用户uj粉丝的数目,σ是介于0和1的阻尼系数,N表示所考虑的微博用户总数。
取σ=1.0,N=8。由于去除了2个节点,因此N由10变为8,公式中L表示用户的粉丝数目,L矩阵为:
L=(3,2,4,5,1,3,3,1)
递归计算得到各个节点的链接权值:
IRL=(0.1683,0.1569,0.1725,0.1692,0.0517,0.0924,0.1147,0.0743)
3.定义由节点交互关系所产生的节点权值计算。
互动链接由R′矩阵进行计算,根据公式
进行计算,首先假设本测试用例中各个节点响应次数均为1次,可以根据不同次数将对R′进行修改。帖子数目矩阵为:A=(4,5,10,3,8,9,2,17)。
则计算得到的互动链接权重矩阵为:
IRTR=(0.1189,0.1694,0.1612,0.0814,0.1129,0.0971,0.1547,0.1044)
式中,IRTR(ui)表示用户ui的节点权值,Tweet(ui)为用户ui帖子集合,A表示所有具有交互情况的帖子集|A|是A的基合,Ns(uj)是用户uj针对帖子tj,的响应次数,Nμ(uj)为响应平均值,Response包括用户转帖、回帖、评论和收藏。
4.节点链接权值的计算。
根据公式
IR(ui)=(1-β)×IRL(ui)+β×IRTR(ui)
进行节点链接权值IR(ui)的计算。式中,参数β(β∈[0,1])决定链接关系和节点交互关系两个因子在节点权值计算中所处的地位;当β较小时,用户影响力权值主要由链接关系决定,特别当β=0时则完全由链接关系计算权值。
取β=0.65后得到节点综合权值矩阵为:
IR=(0.1362,0.1650,0.1652,0.1121,0.0915,0.0955,0.1407,0.0939)
最后的节点按权值从大到小排名情况为:3,2,7,1,4,6,8,5。
Claims (1)
1.一种基于多重链接的微博网络节点权重排序方法,其特征在于包括以下步骤:
(a)定义微博网络有向图:
G=(E,V)
式中,E表示用户关系集合,V表示用户节点集合;
定义用户的有效粉丝集合:
Ef(u)={v|v∈Follower(u)∧Response(u)>σ}
式中,δ是非负常数阈值,表示用户节点u的粉丝用户v对用户u反馈的程度门限,超过该阈值且属于用户u的粉丝的用户才能算作有效粉丝用户;
(b)根据公式
计算微博用户节点ui链接产生的节点权值IRL(ui);式中,Follower(ui)为用户ui所有粉丝构成的集合,L(uj)为用户uj粉丝的数目,σ是介于0和1的阻尼系数,N表示所考虑的微博用户总数;
(c)根据公式
计算用户ui的节点权值IRTR(ui),式中,Tweet(ui)为用户ui帖子集合,A表示所有具有交互情况的帖子集|A|是A的基合,Ns(uj)是用户uj针对帖子tj,的响应次数,Nμ(uj)为响应平均值,Response包括用户转帖、回帖、评论和收藏;
(d)根据公式
IR(ui)=(1-β)×IRL(ui)+β×IRTR(ui)
进行节点链接权值IR(ui)的计算;式中,参数β(β∈[0,1])决定链接关系和节点交互关系两个因子在节点权值计算中所处的地位;当β较小时,用户影响力权值主要由链接关系决定,特别当β=0时则完全由链接关系计算权值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101329629A CN102214212A (zh) | 2011-05-20 | 2011-05-20 | 基于多重链接的微博网络节点权重排序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101329629A CN102214212A (zh) | 2011-05-20 | 2011-05-20 | 基于多重链接的微博网络节点权重排序方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102214212A true CN102214212A (zh) | 2011-10-12 |
Family
ID=44745520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011101329629A Pending CN102214212A (zh) | 2011-05-20 | 2011-05-20 | 基于多重链接的微博网络节点权重排序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102214212A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102262681A (zh) * | 2011-08-19 | 2011-11-30 | 南京大学 | 一种博客信息传播中识别关键博客集的方法 |
CN102426610A (zh) * | 2012-01-13 | 2012-04-25 | 中国科学院计算技术研究所 | 微博搜索排名方法及微博搜索引擎 |
CN102663101A (zh) * | 2012-04-13 | 2012-09-12 | 北京交通大学 | 一种基于新浪微博的用户等级排序算法 |
CN103136331A (zh) * | 2013-01-18 | 2013-06-05 | 西北工业大学 | 微博网络意见领袖识别方法 |
CN103885993A (zh) * | 2012-12-24 | 2014-06-25 | 北大方正集团有限公司 | 用于微博的舆情监控方法和装置 |
CN103984706A (zh) * | 2014-04-25 | 2014-08-13 | 北京交通大学 | 一种基于计算几何的微博用户影响力获取算法 |
CN104281669A (zh) * | 2014-09-28 | 2015-01-14 | 西安电子科技大学 | 社交网络用户影响数值的评估方法和装置 |
CN104572729A (zh) * | 2013-10-22 | 2015-04-29 | 腾讯科技(深圳)有限公司 | 一种链接分析的计算方法和装置及系统 |
CN105095988A (zh) * | 2015-07-01 | 2015-11-25 | 中国科学院计算技术研究所 | 社交网络信息爆发检测方法与系统 |
CN105144154A (zh) * | 2013-02-21 | 2015-12-09 | 微软公司 | 内容病毒式传播力的确定及可视化 |
CN105849763A (zh) * | 2013-10-25 | 2016-08-10 | 西斯摩斯公司 | 使用加权分析动态确定社交数据网络中影响者的系统和方法 |
CN106599245A (zh) * | 2016-12-20 | 2017-04-26 | 西南石油大学 | 基于微博用户关系进行微博转发预测的方法和系统 |
CN107330798A (zh) * | 2017-06-05 | 2017-11-07 | 大连理工大学 | 一种基于种子节点传播的社交网络间用户身份识别方法 |
CN108234356A (zh) * | 2017-11-29 | 2018-06-29 | 中电科华云信息技术有限公司 | 基于应用关系网络的最优化应用资源分布策略 |
-
2011
- 2011-05-20 CN CN2011101329629A patent/CN102214212A/zh active Pending
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102262681B (zh) * | 2011-08-19 | 2015-12-02 | 南京大学 | 一种博客信息传播中识别关键博客集的方法 |
CN102262681A (zh) * | 2011-08-19 | 2011-11-30 | 南京大学 | 一种博客信息传播中识别关键博客集的方法 |
CN102426610A (zh) * | 2012-01-13 | 2012-04-25 | 中国科学院计算技术研究所 | 微博搜索排名方法及微博搜索引擎 |
CN102426610B (zh) * | 2012-01-13 | 2014-05-07 | 中国科学院计算技术研究所 | 微博搜索排名方法及微博搜索引擎 |
CN102663101B (zh) * | 2012-04-13 | 2015-10-28 | 北京交通大学 | 一种基于新浪微博的用户等级排序算法 |
CN102663101A (zh) * | 2012-04-13 | 2012-09-12 | 北京交通大学 | 一种基于新浪微博的用户等级排序算法 |
CN103885993A (zh) * | 2012-12-24 | 2014-06-25 | 北大方正集团有限公司 | 用于微博的舆情监控方法和装置 |
CN103136331A (zh) * | 2013-01-18 | 2013-06-05 | 西北工业大学 | 微博网络意见领袖识别方法 |
CN105144154A (zh) * | 2013-02-21 | 2015-12-09 | 微软公司 | 内容病毒式传播力的确定及可视化 |
CN104572729A (zh) * | 2013-10-22 | 2015-04-29 | 腾讯科技(深圳)有限公司 | 一种链接分析的计算方法和装置及系统 |
CN104572729B (zh) * | 2013-10-22 | 2019-04-02 | 腾讯科技(深圳)有限公司 | 一种链接分析的计算方法和装置及系统 |
CN105849763A (zh) * | 2013-10-25 | 2016-08-10 | 西斯摩斯公司 | 使用加权分析动态确定社交数据网络中影响者的系统和方法 |
CN103984706A (zh) * | 2014-04-25 | 2014-08-13 | 北京交通大学 | 一种基于计算几何的微博用户影响力获取算法 |
CN104281669B (zh) * | 2014-09-28 | 2017-09-22 | 西安电子科技大学 | 社交网络用户影响数值的评估方法和装置 |
CN104281669A (zh) * | 2014-09-28 | 2015-01-14 | 西安电子科技大学 | 社交网络用户影响数值的评估方法和装置 |
CN105095988A (zh) * | 2015-07-01 | 2015-11-25 | 中国科学院计算技术研究所 | 社交网络信息爆发检测方法与系统 |
CN106599245A (zh) * | 2016-12-20 | 2017-04-26 | 西南石油大学 | 基于微博用户关系进行微博转发预测的方法和系统 |
CN107330798A (zh) * | 2017-06-05 | 2017-11-07 | 大连理工大学 | 一种基于种子节点传播的社交网络间用户身份识别方法 |
CN107330798B (zh) * | 2017-06-05 | 2021-01-19 | 大连理工大学 | 一种基于种子节点传播的社交网络间用户身份识别方法 |
CN108234356A (zh) * | 2017-11-29 | 2018-06-29 | 中电科华云信息技术有限公司 | 基于应用关系网络的最优化应用资源分布策略 |
CN108234356B (zh) * | 2017-11-29 | 2021-07-06 | 中电科华云信息技术有限公司 | 基于应用关系网络的最优化应用资源分布策略 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102214212A (zh) | 基于多重链接的微博网络节点权重排序方法 | |
Attigeri et al. | Stock market prediction: A big data approach | |
Chen et al. | Entity embedding-based anomaly detection for heterogeneous categorical events | |
CN106682770B (zh) | 一种基于好友圈子的动态微博转发行为预测系统及方法 | |
Zhang et al. | Event detection and popularity prediction in microblogging | |
CN104133837B (zh) | 一种基于分布式计算的互联网信息投放渠道优化系统 | |
Jain et al. | Sentiments analysis of Twitter data using data mining | |
CN103136331A (zh) | 微博网络意见领袖识别方法 | |
CN106022800A (zh) | 一种用户特征数据的处理方法和装置 | |
CN107292463A (zh) | 一种对应用程序进行项目评估的方法及系统 | |
CN112612942B (zh) | 一种基于社交大数据的基金推荐系统及方法 | |
CN102664744A (zh) | 网络消息通信中群发推荐的方法 | |
Karidi et al. | A personalized tweet recommendation approach based on concept graphs | |
US9720975B2 (en) | Dynamic influence tracking engine and method | |
Ramsingh et al. | Data analytic on diabetic awareness with Hadoop streaming using map reduce in python | |
Sumanth et al. | Discovering top experts for trending domains on stack overflow | |
CN108090794A (zh) | 一种基于动态滑动时间窗口的商品对象排序方法及装置 | |
Ganesan et al. | High utility fuzzy product mining (HUFPM) using investigation of HUWAS approach | |
CN114756764A (zh) | 基于企业的内容信息流推荐方法、装置、电子设备及存储介质 | |
CN106295844A (zh) | 一种数据处理方法、装置、系统及电子设备 | |
Tounkara et al. | Mixture regression models for closed population capture–recapture data | |
Saberi et al. | An online statistical quality control framework for performance management in crowdsourcing | |
Singer et al. | Factors influencing the co-evolution of social and content networks in online social media | |
JP2020035022A (ja) | 評価更新装置、方法、及びプログラム | |
Sandeep et al. | Cracking the Code: Unleashing the Power of Sentiment Analysis & ML for Moroccan Stock Market Forecasting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20111012 |