CN109063010B - 一种基于PageRank的意见领袖挖掘方法 - Google Patents
一种基于PageRank的意见领袖挖掘方法 Download PDFInfo
- Publication number
- CN109063010B CN109063010B CN201810754839.2A CN201810754839A CN109063010B CN 109063010 B CN109063010 B CN 109063010B CN 201810754839 A CN201810754839 A CN 201810754839A CN 109063010 B CN109063010 B CN 109063010B
- Authority
- CN
- China
- Prior art keywords
- user
- influence
- users
- event
- forwarding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000005065 mining Methods 0.000 title claims abstract description 15
- 238000013016 damping Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 8
- 238000007418 data mining Methods 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 16
- 230000000694 effects Effects 0.000 description 6
- 238000009792 diffusion process Methods 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 229920002472 Starch Polymers 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 235000019698 starch Nutrition 0.000 description 1
- 239000008107 starch Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于PageRank的意见领袖挖掘方法,属于数据挖掘领域。本发明基于PageRank算法的核心思想,将其引入到社交网络用户影响力分析之中。本发明不仅考虑了社交网络用户关系拓扑结构信息,而且融合了社交网络用户的一些体现其影响力的属性信息。在社交网络拓扑信息方面算法基于事件中用户的转发关系构建了一个加权的用户关系网络,事件是具有主题性质的和大量广泛的用户参与的,以事件为基础使用转发机制构建关系网络不仅具有信息的针对性与目标性,而且明显能减少社交媒体信息数据量的使用,同时这种网络因事件的不同具有动态性。针对社交网络用户属性信息方面,算法使用了能直接体现用户影响力用户属性信息,能更加精确的刻画了用户影响力。
Description
技术领域
本发明属于数据挖掘领域,特别涉及一种基于PageRank的意见领袖挖掘方法。
背景技术
以互联网为基础的社交媒体的迅猛发展,作为真实世界反映与延伸的社交网络已经成为了人们日常生活中密不可分的一部分。人作为社交网络的主体,积极参与到以互联网为基础的社交活动中,并在其中主导着整个社交网络的交互行为,人们在社交平台上不仅能随时随地发布自己遇到的新鲜事,而且能及时的浏览热点事件,并参与到事件的讨论之中,以表达自己的观点与情绪,而且也能寻找自己感兴趣的事情,与自己的朋友和关注着者们及时的交流与沟通。
在如此巨大的用户群中,背景不同与组成结构不同的用户在使用社交网络中造成的影响迥异,比如在Twitter中发布信息,拥有巨大粉丝数的明星相比于普通使用者来说在信息传播中被转发的次数更多,信息传播造成影响的广度和深度也就更大,在现实生活中,比如在互联网节点优化部署领域,最优节点的部署能节约成本,提高服务质量等。因此找出具有高度影响力的节点对于社交网路用户行为分析至关重要,也是社交网络分析的研究热点。
传统的影响力节点分析方法以复杂网络的拓扑结构为依托,来衡量关键节点,在无向网络节点关键性排序的几个常用统计指标为度中心性、节点介数中心性、接近中心性、k-shell和k-core、特征向量中心性等,这些衡量关键节点的指标适用性单一,范围较窄,难以适用在新型的社交网络中,新型的社交网络以用户为中心,以用户之间的各种关系为边构建而成,同时也包含了用户产生的文本信息、用户之间的社交行为等,因此传统的节点重要性的度量方法难以适用,需要新的适用于新型社交网络的关键节点度量的算法。
发明内容
本发明的目的在于,提出一种基于PageRank的意见领袖挖掘方法,给评估社交网络用户影响力提供一种定量的定性的快速的解决方案。相比其它传统方法,本发明借鉴了PageRank算法的核心思想,将其引入到社交网络用户影响力分析之中,算法融合了社交网络用户关系拓扑结构信息与社交网络用户中的属性信息。
一种基于PageRank的意见领袖挖掘方法,其特征在于,包括以下步骤:
步骤1,采集社交网络热点事件推文,得到事件推文集合;
步骤2,提取事件中用户和推文的属性特征;
步骤3,根据用户转发关系构建用户转发关系拓扑图,并根据用户转发关系和用户节点属性计算用户关系网络节点权重和边权重;
步骤4,基于InfRank算法计算用户影响力,得到用户排名结果。
进一步地,所述步骤1包括以下流程:
采集社交网络中热点事件的相关推文,基于推文事件识别技术识别关于一主题的热点事件,事件的相关推文组成事件推文集合。
进一步地,所述步骤2包括以下流程:
提取的用户属性特征包括用户ID、用户名、用户昵称、粉丝数、朋友数、发表的推文及其数量、评论数。
进一步地,所述步骤2包括以下流程:
提取的推文属性特征包括推文ID、推文内容、发布推文的用户、推文类型、转发次数、发布时间、推文中含有的“RT”或“@”的信息。
进一步地,所述步骤3中计算用户关系网络边权重的流程如下:
事件中用户u转发的推文总数T可以表示为
其中,ri表示用户u从用户i处转发的推文数,U={u1,u2,…,un}表示用户u转发了其推文的用户集,n表示用户总数,R={r1,r2,…,rn}表示相应转发源被用户u转发的推文数,边(u,v)之间的权重wuv为
进一步地,所述步骤3中计算用户关系网络节点权重的流程如下:
事件中用户u的节点权重为wu,归一化的粉丝数为wfl,朋友数为wfr,发表推文数为wt,被评论数为wrepl,wu表示为
wu=wfl+wfr+wt+wrepl。
进一步地,所述步骤4的流程如下:
用户u的间接影响力为
其中,latentRank(u)表示用户u的间接影响力,RT(u)表示转发用户u推文的用户集合,α为阻尼因子,表示用户在当前节点继续往下浏览的概率,wvu表示社交网络用户转发关系网络中有向边(v,u)的权重,N表示节点个数,用户u的直接影响力为
directRank(u)=wu
其中,directRank(u)表示用户u的直接影响力,用户u的节点影响力InfRank(u)为
InfRank(u)=latentRank(u)+directRank(u)
根据用户的节点影响力,输出用户排名结果。
本发明的有益效果:本发明提出了一种基于PageRank的意见领袖挖掘方法,基于PageRank算法的核心思想,将其引入到社交网络用户影响力分析之中。本发明不仅考虑了社交网络用户关系拓扑结构信息,而且融合了社交网络用户的一些体现其影响力的属性信息。在社交网络拓扑信息方面算法基于事件中用户的转发关系构建了一个加权的用户关系网络,事件是具有主题性质的和大量广泛的用户参与的,以事件为基础使用转发机制构建关系网络不仅具有信息的针对性与目标性,而且明显能减少社交媒体信息数据量的使用,同时这种网络因事件的不同具有动态性。针对社交网络用户属性信息方面,算法使用了能直接体现用户影响力用户属性信息,能更加精确的刻画了用户影响力。
附图说明
图1为本发明实施例的流程图。
图2为本发明实施例中InfRunk算法计算出的Top1000用户数量随InfRunk值的柱状统计图。
具体实施方式
下面结合附图对本发明的实施例做进一步的说明。
请参阅图1,本发明提出的一种基于PageRank的意见领袖挖掘方法,通过以下步骤实现:
步骤1,采集社交网络热点事件推文,得到事件推文集合。
本实施例中,采集社交网络中热点事件的相关推文,基于推文事件识别技术识别关于某一主题的热点事件,事件的相关推文组成事件推文集合。
步骤2,提取事件中用户和推文的属性特征。
在社交媒体中,定义事件为在某个特定时间点讨论某个相关主题的文本数据量发生改变,其具有时间和话题特征,也通常与人物和地点等实体相关联,用户作为推动事件的发生和演化的主体,在其中扮演着极其重要的地位。社交平台提供了一种现实世界所发生事情的实时信息,例如推特用户可以随时随地所发表推文,其内容信息涉及到方方面面从日常生活中的小事到最近最热的地方或全球新闻事件等。同时每当爆发出新闻热点时,都会在社交网络中掀起热烈讨论,每个用户根据自己的兴趣爱好以及关注点的不同参与到相关事件的讨论中,涉及到不同话题的事件参与的用户的类型也不相同。在推特,互动行为中的转发是用户主观思想的一种直接体现,是一种对别人的认可行为,围绕某一主题事件,具有影响力的用户发表观点及意见,具有相同或者类似观点的人转发该用户推文,用户这种感情倾向性具有一致性,即持有某种观点的人或者具有兴趣爱好的人,一方面倾向于转发与类似的推文,也倾向于在发表推文中思想表达一致,这种行为在政治活动中例如美国的选举,体现的更为明显。为了构建以事件为基础的加权用户转发关系网络,因此本发明需要从中提取用户的属性特征和推文的属性特征。
本实施例中,提取的用户属性特征包括用户ID、用户名、用户昵称、粉丝数、朋友数、发表的推文及其数量、评论数等。如下表(一)所示,列举了一些常用的用户属性信息,这些用户个人属性特征既是用户个性化特性又能直观的衡量用户的重要性,是用户影响力的重要刻画。
用户属性信息 | 表示形式 |
用户ID | Int64 |
用户名 | String |
粉丝数 | Int32 |
朋友数 | Int32 |
发推数 | Int32 |
评论数 | Int32 |
表(一)用户属性特征示例表
本实施例中,提取的推文属性特征包括推文ID、推文内容、发布推文的用户、推文类型、转发次数、发布时间、推文中含有的“RT”或“@”的信息。如下表(二)所示。
推文属性信息 | 表示形式 |
推文ID | Int64 |
用户 | Object |
推文类型 | Null |
转发次数 | Int32 |
发布时间 | String |
表(二)推文属性特征示例表
步骤3,根据用户转发关系构建用户转发关系拓扑图,并根据用户转发关系和用户节点属性计算用户关系网络节点权重和边权重。
基于以上信息,提出了如何构建加权用户转发关系网络的方法,本发明定义了关系网络节点权重,用于衡量用户的直接影响力,用户的直接影响力直观的表示了用户在社交网络活动中体现的直接重要性,例如粉丝数多的明星,在信息传播中体现的重要性要远远比普通用户要大,而且这类用户一旦转发其他人的推文,造成的影响也较大。就像PageRank算法,基本思想是其一如同文献中的相互引用,被很多网页链接到的网页PageRank值较大,相对也更为重要,其二邻居节点的PageRank值较大,则链接的其他网页PageRank值也相应较高。同样定义了关系网络的边权重,作为用户的间接影响力,度量了被转发者对转发者的影响程度,同时也说明了转发者对被转发者的认可程度,这也体现了基于转发的用户关系网络是一个情感关系网络,边权重体现了用户的一种情感倾向性。在实际应用中,节点权重与边权重具有重要意义,可以表现很多抽象概念,例如在计算机网络中,链路的边权重可以表示链路的带宽、链路的代价亦或者链路的速率,然而目前基于无向的图的PageRank计算较多,在社交网络中用户之间的交互行为产生影响的表征行为有很多,例如两者之间评论回复次数增多,用户的影响力也较大,再者在一个事件中,一个用户对另一个用户的推文转发量较多,也表明该用户态度对另一个用户观点的赞同度。因此加权社交网络更加真实的反映了用户之间的关系,具有重要意义。
本实施例中,关系网络边权重的计算如下:
事件中用户u转发的推文总数T可以表示为
其中,ri表示用户u从用户i处转发的推文数,U={u1,u2,…,un}表示用户u转发了其推文的用户集,n表示用户总数,R={r1,r2,…,rn}表示相应转发源被用户u转发的推文数,边(u,v)之间的权重wuv为
本实施例中,关系网络节点权重的计算如下:
事件中用户u的节点权重为wu,归一化的粉丝数为wfl,朋友数为wfr,发表推文数为wt,被评论数为wrepl,wu表示为
wu=wfl+wfr+wt+wrepl
社交网路中用户粉丝数、朋友数、发表的推文数以及评论数回复数是一种直接用户影响力的度量,例如用户的粉丝数越多,在事件中该用户发布的信息传播范围越广,越能被更多的用户看到转发或评论,可以理解影响力较高的用户容易成为事件中意见领袖。
步骤4,基于InfRank算法计算用户影响力,得到用户排名结果。
在复杂的社交网络环境中,不同用户因其地位、角色、背景、思想、行为的不同所起的重要性也不相同,意见领袖是一种在特定领域中他们的信息、观点和意见能够较强的影响其他人。大量研究表明信息并不会直接流向公众,而是这些信息首先被意见领袖得知,经过他们发布信息之后才会被传播给普通大众。基于以上分析,本发明定义了一种意见领袖挖掘算法,该算法主要有一下几点:其一引入了以某相关主题的事件为背景,其二引入了PageRank算法,用于计算用户在转发关系加权网络中间接影响力,提取用户之间的转发次数是衡量用户主观思想的最直接体现,其三引入了用户节点权重,用来衡量用户的直接影响力,它是用户在社交网络中影响力的最直接体现。下面将介绍基于PageRank的意见领袖挖掘算法,定义用户的间接影响力为公式所示。
其中,latentRank(u)表示用户u的间接影响力,RT(u)表示转发用户u推文的用户集合,α为阻尼因子,表示用户在当前节点继续往下浏览的概率,wvu表示社交网络用户转发关系网络中有向边(v,u)的权重,N表示节点个数,用户u的直接影响力为
directRank(u)=wu
其中,directRank(u)表示用户u的直接影响力,基于以上分析,用户u的节点影响力InfRank(u)为
InfRank(u)=latentRank(u)+directRank(u)
根据用户的节点影响力,输出用户排名结果。
社交网络中用户影响力定义为用户的间接影响力与用户的直接影响力的叠加和,它一方面结合了事件中用户的转发关系构成的网络拓扑结构,衡量了用户在事件传播过程中扮演角色的重要性,另一方面它结合了用户本身的一些属性信息,这些信息可以直观的衡量用户的重要性。其算法的完整思路是:首先算法是以具有相关主题的事件为基础的,事件在Twitter中是一堆关于某个相关话题推文的集合,然后分析事件中的推文,提取社交网络中的用户集合以及转发关系,再者根据转发关系构建用户关系网络拓扑图,计算用户之间边的权重以及计算用户节点权重,运行latentRank以及directRank算法计算用户在转发关系网络中间接影响力和用户的直接影响力,最后计算用户的影响力InfRank。
本发明的实验测试数据是根据微软数据中心提供的2012年美国大选期间所发的推文,我们提取了大选前期发生的有关大选的事件推文集合总共151057条,其中发布推文数为54218,转发推文数为84723,其中还包括回复评论推文,这种官方提供的Twitter数据保证的权威性以及真实性。在推特使用中,转发是一种信息扩散的关键机制,它是Twitter社交网络传播信息的一种简单而强大的方式。转发能很好的体现一个人的主观思想,能最好的保留发布推文内容的原始性。虽然转发能简单看做是一种转播和复制行为,但是这种用户的转发行为使得信息扩散到用户的自身关系网络结构中,从而引起新的转发行为,这也是一种信息的级联与传播。根据推特平台提供的推文数据格式,首先提取了这84723条转发推文并处理了推文附带的属性信息,其次提取了事件中参与转发推文并去重后的用户集合以及用户的相关属性信息,构成转发的用户数据集。在我们构造的实验网络中总共有24162个用户节点以及总共64273条由用户转发行为构成的边,并根据已经定义的边权重与节点权重计算其权重结果。
screen_name | Followers | friends | tweets | replys | InfRank |
KattWilliams | 535834 | 84 | 2543 | 278 | 0.105267 |
RileyJokess | 264226 | 138 | 1492 | 538 | 0.092144 |
BarackObam | 19545769 | 673207 | 4625 | 136492 | 0.085906 |
justinbieber | 28376208 | 122835 | 15270 | 462148 | 0.083421 |
cnnbrk | 8841038 | 72 | 17342 | 1372 | 0.073246 |
N_VAsianGoddess | 29454 | 370 | 763 | 593 | 0.063943 |
BreakingNews | 4637875 | 500 | 2473 | 1422 | 0.062184 |
MittRomney | 1290171 | 269 | 523 | 1937 | 0.056391 |
HuffingtonPost | 2105924 | 5130 | 4729 | 17428 | 0.043276 |
supreme_corey | 25951 | 6166 | 402 | 392 | 0.042103 |
表(三)Top10意见领袖各个指标分布表
如表(三)所示,可以看出,排名前10的影响力人物在大选事件中主要是明星、政治人物以及新闻媒体,这是与实际相符合的,大选中这些名人以及新闻媒体都是活跃在一线的,他们是普通用户信息来源的窗口,同时也符合信息传播的规律即信息并不会直接流向公众,而是首先被意见领袖得知,经过他们发布信息之后才会被传播给普通大众;另外,值得注意的是在计算出的排名前10的影响力用户中,发现粉丝数并不是用户在事件中发挥影响力的主观因素,例如‘N_VAsianGoddess’粉丝数较少,但是在事件中起到的影响力却较大,粉丝数的多少虽然能够起到加快信息扩散的目的,但是粉丝数较大的用户与在相关事件中的体现出来的重要性没有什么关联性,从一方面说粉丝数并不能直接度量用户的影响力,其三也说明了用户的粉丝中存在着僵尸粉丝或者不活跃粉丝,这些用户粉丝并不会参与到他关注的用户所涉及的事件中,不发表意见也不转发等。粉丝数代表用户的知名度但与用户的重要影响力没有关系,用户有较高的粉丝数不一定能引起高度的转发以及提及,单一的粉丝数并不能揭示用户的影响力。
请参阅图2,图2示出了InfRank算法计算出的前1000名用户数量随其值的柱状统计图,从拟合的曲线的结果能分析得到随着用户的InfRank值的增加,即较高影响力的用户数量减少,是一种幂率下降趋势,这也符合了实际生活中真正起到影响力的用户很少。
账户名 | PageRank | flRank | InfRank |
BarackObama | 4 | 7 | 3 |
cnnbrk | 10 | 19 | 5 |
BreakingNews | 8 | 42 | 7 |
MittRomney | 16 | 38 | 8 |
HuffingtonPost | 18 | 24 | 9 |
Obama2012 | 23 | 48 | 13 |
realDonaldTrump | 26 | 11 | 15 |
LOLGOP | 21 | 42 | 26 |
ComedyPosts | 19 | 36 | 31 |
TheEconomist | 52 | 27 | 47 |
表(四)各算法用户排名对比表
表(四)示出了PageRank、flRank以及InfRank算法计算的10个影响力账户的排名结果。其中通过对比原始PageRank与InfRank结果发现,这些影响力账号在给出的用户转发关系图中PageRank的结果要靠后一些也存在极少账号排名较InfRank靠前一些,而且其排名顺序明显发生变化。而InfRank算法在给出的影响力账号中排名靠前,而且具有更好的效果。这主要在于PageRank算法把用户的影响力值均分的结果,而没有考虑用户之间联系的紧密性,即它把用户的PageRank值均匀的分摊到从该节点出发的相邻节点上,不仅没有考虑到节点之间联系的关系强度,而且原始的PageRank算法没有主题相关性也就是与用户参与的事件没有任何关联。同时PageRank算法虽然从用户的交互行为的关系拓扑中度量了用户的影响力,但是用户的一些直接影响力的属性信息也并没考虑,这也导致了该算法的缺失性,InfRank则弥补这一缺陷。其次对比InfRank与flRank算法,后者给出的结果明显的差很多,并且其没有从转发关系去考虑用户的重要性,而是从关注关系去度量用户的重要性,我们前面分析过粉丝数的多少虽然能够起到加快信息扩散的目的,但是粉丝数大的用户与在相关事件中的体现出来的重要性没有什么关联性。这也仅仅是从事件本身的用户集合去考虑的,如果是社交网站依据关注关系构建拓扑网络度量用户的影响力,这将是一件既耗时又费力的工作,例如一个名人动辄数千万粉丝,多则上亿,因此我们认为依据用户的关注关系构建拓扑网络在实际生活中是很难应用的,不仅不具有适用性而且不具有用户影响力的评价性。
综上所述,本发明提出的一种基于PageRank的意见领袖挖掘方法,从相关主题事件考虑,从参与事件讨论的用户的角度出发,从能够直接体现用户思想的用户转发行为为基础构建的用户影响力评价模型,挖掘事件中的意见领袖人物。以事件为基础,不仅能增加用户关注的主题相关性,而且能够适当的减少社交媒体数据的使用分析量,同时用户作为事件发展与演化的主体在事件中具有高度的积极性、活跃性和参与性,因此以事件思考具有优越性,其次用户在参与事件中具有转发行为,这种行为能直接体现用户的主观思想,表示了用户对转发者思想的赞同或者与自己的观点相似,再者转发是推特中人际互动的关键机制,充分表明了信息传播扩散的流动趋势。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (4)
1.一种基于PageRank的意见领袖挖掘方法,其特征在于,包括以下步骤:
步骤1,采集社交网络热点事件推文,得到事件推文集合;
步骤2,提取事件中用户和推文的属性特征;
步骤3,根据用户转发关系构建用户转发关系拓扑图,并根据用户转发关系和用户节点属性计算用户关系网络节点权重和边权重;
计算用户关系网络边权重的流程如下:
事件中用户u转发的推文总数T表示为
其中,ri表示用户u从用户i处转发的推文数,U={u1,u2,…,un}表示用户u转发了其推文的用户集,n表示用户总数,R={r1,r2,…,rn}表示相应转发源被用户u转发的推文数,边(u,v)之间的权重wuv为
计算用户关系网络节点权重的流程如下:
事件中用户u的节点权重为wu,归一化的粉丝数为wfl,朋友数为wfr,发表推文数为wt,被评论数为wrepl,wu表示为
wu=wfl+wfr+wt+wrepl;
步骤4,基于InfRank算法计算用户影响力,得到用户排名结果;流程如下:
用户u的间接影响力为
其中,latentRank(u)表示用户u的间接影响力,RT(u)表示转发用户u推文的用户集合,α为阻尼因子,表示用户在当前节点继续往下浏览的概率,wvu表示社交网络用户转发关系网络中有向边(v,u)的权重,N表示节点个数,用户u的直接影响力为
directRank(u)=wu
其中,directRank(u)表示用户u的直接影响力,用户u的节点影响力InfRank(u)为
InfRank(u)=latentRank(u)+directRank(u)
根据用户的节点影响力,输出用户排名结果。
2.如权利要求1所述的基于PageRank的意见领袖挖掘方法,其特征在于,所述步骤1包括以下流程:
采集社交网络中热点事件的相关推文,基于推文事件识别技术识别关于一主题的热点事件,事件的相关推文组成事件推文集合。
3.如权利要求1所述的基于PageRank的意见领袖挖掘方法,其特征在于,所述步骤2包括以下流程:
提取的用户属性特征包括用户ID、用户名、用户昵称、粉丝数、朋友数、发表的推文及其数量、评论数。
4.如权利要求1所述的基于PageRank的意见领袖挖掘方法,其特征在于,所述步骤2包括以下流程:
提取的推文属性特征包括推文ID、推文内容、发布推文的用户、推文类型、转发次数、发布时间、推文中含有的“RT”或“@”的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810754839.2A CN109063010B (zh) | 2018-07-11 | 2018-07-11 | 一种基于PageRank的意见领袖挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810754839.2A CN109063010B (zh) | 2018-07-11 | 2018-07-11 | 一种基于PageRank的意见领袖挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109063010A CN109063010A (zh) | 2018-12-21 |
CN109063010B true CN109063010B (zh) | 2022-01-28 |
Family
ID=64815864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810754839.2A Active CN109063010B (zh) | 2018-07-11 | 2018-07-11 | 一种基于PageRank的意见领袖挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109063010B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766426A (zh) * | 2018-12-31 | 2019-05-17 | 杭州翼兔网络科技有限公司 | 一种热门话题活跃用户定位方法 |
CN110287442A (zh) * | 2019-06-28 | 2019-09-27 | 秒针信息技术有限公司 | 一种影响力排名的确定方法、装置、电子设备及存储介质 |
CN110598062A (zh) * | 2019-09-24 | 2019-12-20 | 支付宝(杭州)信息技术有限公司 | 一种数据资产的重要度量化方法、装置及电子设备 |
CN111062202B (zh) * | 2019-11-04 | 2023-10-13 | 中证征信(深圳)有限公司 | 信源影响力的评估方法、装置、设备及可读介质 |
CN110929168A (zh) * | 2019-11-12 | 2020-03-27 | 北京百分点信息科技有限公司 | 关键受众确定方法、装置及电子设备 |
CN111210357A (zh) * | 2019-12-26 | 2020-05-29 | 南京富士通南大软件技术有限公司 | 基于社交网络信息交互的用户影响力获取方法 |
CN111125453B (zh) * | 2019-12-27 | 2023-03-28 | 中国电子科技集团公司信息科学研究院 | 基于子图同构的社交网络中意见领袖角色识别方法及存储介质 |
CN113781250A (zh) * | 2020-09-14 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 社交媒体信息传播评估方法和装置 |
CN112527964B (zh) * | 2020-12-18 | 2022-07-01 | 重庆邮电大学 | 基于多模态流形学习和社交网络特征的微博摘要生成方法 |
CN113190765B (zh) * | 2021-04-23 | 2024-01-26 | 国家计算机网络与信息安全管理中心 | 基于社交网络重构的意见领袖识别方法和装置 |
CN113392219A (zh) * | 2021-08-16 | 2021-09-14 | 北京易真学思教育科技有限公司 | 用户类型的获取方法、装置、计算机设备和介质 |
CN113704585B (zh) * | 2021-08-25 | 2022-06-10 | 广东工业大学 | 一种焦点小组成员筛选方法、装置、终端及存储介质 |
CN118229353A (zh) * | 2024-02-19 | 2024-06-21 | 淮安金宁广告传媒有限公司 | 一种互联网广告服务方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279472B (zh) * | 2013-03-22 | 2014-10-01 | 北京宏博知微科技有限公司 | 一种社交网络高影响力信息的提取方法 |
CN104123352A (zh) * | 2014-07-10 | 2014-10-29 | 西安理工大学 | 面向微博的话题层次用户影响力度量方法 |
CN104298767A (zh) * | 2014-10-29 | 2015-01-21 | 西安交通大学 | 一种微博网络中用户影响力度量的方法 |
CN105260474A (zh) * | 2015-10-29 | 2016-01-20 | 俞定国 | 一种基于信息交互网络的微博用户影响力计算方法 |
CN106980692A (zh) * | 2016-05-30 | 2017-07-25 | 国家计算机网络与信息安全管理中心 | 一种基于微博特定事件的影响力计算方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160226983A1 (en) * | 2013-12-19 | 2016-08-04 | International Business Machines Corporation | System and method for computation of relevance of an individual with a campaign in social media |
-
2018
- 2018-07-11 CN CN201810754839.2A patent/CN109063010B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279472B (zh) * | 2013-03-22 | 2014-10-01 | 北京宏博知微科技有限公司 | 一种社交网络高影响力信息的提取方法 |
CN104123352A (zh) * | 2014-07-10 | 2014-10-29 | 西安理工大学 | 面向微博的话题层次用户影响力度量方法 |
CN104298767A (zh) * | 2014-10-29 | 2015-01-21 | 西安交通大学 | 一种微博网络中用户影响力度量的方法 |
CN105260474A (zh) * | 2015-10-29 | 2016-01-20 | 俞定国 | 一种基于信息交互网络的微博用户影响力计算方法 |
CN106980692A (zh) * | 2016-05-30 | 2017-07-25 | 国家计算机网络与信息安全管理中心 | 一种基于微博特定事件的影响力计算方法 |
Non-Patent Citations (1)
Title |
---|
基于多关系与属性的主题层次影响力评估算法;刘久云等;《桂林电子科技大学学报》;20150825;第35卷(第4期);第329-335页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109063010A (zh) | 2018-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109063010B (zh) | 一种基于PageRank的意见领袖挖掘方法 | |
Kumar et al. | Dynamics of conversations | |
Chang et al. | What is tumblr: A statistical overview and comparison | |
Bliss et al. | Twitter reciprocal reply networks exhibit assortativity with respect to happiness | |
Jia et al. | Predicting the implicit and the explicit video popularity in a user generated content site with enhanced social features | |
Zhang et al. | Product information diffusion in a social network | |
Backstrom et al. | Preferential behavior in online groups | |
Gu et al. | Modeling of user portrait through social media | |
CN107633260B (zh) | 一种基于聚类的社交网络意见领袖挖掘方法 | |
Quercia et al. | Talk of the city: Our tweets, our community happiness | |
CN104834695A (zh) | 基于用户兴趣度和地理位置的活动推荐方法 | |
Hansen et al. | EventGraphs: Charting collections of conference connections | |
Borondo et al. | Mapping the online communication patterns of political conversations | |
Lim et al. | Tweets beget propinquity: Detecting highly interactive communities on twitter using tweeting links | |
Li et al. | What are Chinese talking about in hot weibos? | |
CN111143704A (zh) | 一种融合用户影响关系的在线社区好友推荐方法及系统 | |
Ackland et al. | Political homophily on the web | |
Xia et al. | Characterization of user online dating behavior and preference on a large online dating site | |
Weitzel et al. | Measuring node importance on twitter microblogging | |
Chua et al. | Rumor retransmission on Twitter: message characteristics, user characteristics and retransmission outcomes | |
US20130097235A1 (en) | Online or offline virtual honor system | |
Nguyen et al. | A data-driven study of influences in Twitter communities | |
Kardara et al. | Influence patterns in topic communities of social media | |
CN103200073B (zh) | 一种信息处理方法和装置 | |
Zygmunt | Role identification of social networkers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |