CN104035987A - 一种微博网络用户影响力排名方法 - Google Patents
一种微博网络用户影响力排名方法 Download PDFInfo
- Publication number
- CN104035987A CN104035987A CN201410240919.8A CN201410240919A CN104035987A CN 104035987 A CN104035987 A CN 104035987A CN 201410240919 A CN201410240919 A CN 201410240919A CN 104035987 A CN104035987 A CN 104035987A
- Authority
- CN
- China
- Prior art keywords
- user
- microblogging
- influence power
- users
- liveness
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Abstract
本发明公开了一种微博网络用户影响力排名方法,该方法首先收集用户参与在线社交的真实信息,包括用户微博数、粉丝数以及用户注册时间等,并基于以上信息计算出用户活跃度等;确定了用户活跃度之后,再进一步考虑用户的链接关系,将计算的活跃度应用到迭代和分配过程中,即在每次迭代之后,将当前节点的影响力按照所链出节点的活跃度进行加权分配并迭代计算,最终收敛到用户的影响力值。该方法能够实现动态的用户影响力排名,具有更好的公平性与准确性,能够更好的满足微博网络的复杂性和实时性的要求。
Description
技术领域
本发明涉及微博网络中用户影响力的排名方法,属于数据挖掘技术领域。
背景技术
在社交网络迅速发展的今天,如何科学评价其成员在这一社会性媒体中的综合影响力,已形成一门新的学问,并将成为社会学研究的一项全新课题,也必将成为社会性媒体营销的一项重要指标。微博作为一种全新的社交媒介,在极短的时间里积聚了大量的用户,俨然已成为业界的热门研究主题。
传统对微博用户影响力的研究都是借鉴网页排名方法,例如:PageRank、HITS(Hyperlink-Induced Topic Search)等实现的一些静态方法,是在网页排名方法基础上引入用户好友关系、微博数量等要素进行方法排名,而并没有考虑到网络的动态发展过程。而本发明能够很好地解决上面的问题。
发明内容
本发明目的在于提供了一种微博网络用户影响力排名方法,该方法是基于时间因素,即TSNIRank(Time-based Social Network Influence Rank)方法,该方法通过将用户参与微博活动的的情况与时间相结合,引入用户“活跃度”的概念,最后将用户“活跃度”作为影响力分配的因子来实现方法的迭代分配过程。与现有技术相比,本发明主要包括:首先,结合了微博网络的具体特征,将微博网络中用户之间关注关系、粉丝数、微博数等引入到传统的网页排名方法中。相对于PageRank等传统方法排名结果具有更高的覆盖人次,排名更加的公平和准确。其次,本发明引入了时间因素,对用户影响力从动态发展的角度进行衡量,更加符合微博网络的实时特性与演变特征。相对于传统未考虑时间的静态方法来说,能够更为精确的发掘当前的最具影响力用户,提高新用户的排名,降低不活跃老用户的排名,排名结果具有更好的现实意义与价值。
本发明解决其技术问题所采用的技术方案是:本发明提供了一种基于时间因素的微博网络用户影响力排名方法,该方法将谷歌PageRank网页排名方法应用到微博网络之中,并根据用户在微博网络中的参与情况,结合了时间因素。
方法流程:
步骤1:采集用户参与在线社交的真实信息,再根据公式,计算出每个用户的活跃度;
步骤2:将所有用户的影响力TSNIRank的初始值均设置为1/n,n为样本总用户数;
步骤3:根据公式,计算每个用户的新的值;
步骤4:将上述步骤3中的新的TSNIRank值作为下次迭代的初始值;
步骤5:重复上述步骤3、4的计算过程,直到两次迭代之间的每个用户TSNIRank值之差的绝对值小于设定的一个很小的常数ε,表明计算结果已收敛。
本发明所述方法的步骤1可分为两个步骤:首先需要采集到活跃度和方法相关的所有用户信息。用户信息的采集方法很多,可采用网络爬虫爬取、微博开放平台的API调用或者直接使用别人公开的开源数据集。用户参与在线社交的真实信息包括:用户粉丝数、发表微博数和用户注册时间;获取了相关数据之后,根据公式计算出用户的活跃度。其中P代表用户活跃度,f为粉丝数,w为微博数,Tc数据获取时间,Tr为用户微博账号的注册时间。用户活跃度可以反映用户自注册了微博账号以来的平均在线的活跃程度,如果用户的在线活动很少,那么随着时间的推移,用户的活跃度会逐渐下降,从而实现了用户影响力排名的一个动态的评价。
本发明所述方法的步骤3和步骤4涉及的影响力迭代公式为:
其中,I(u)为用户影响力,P为用户活跃度,B(u)为用户的所有链入关系集合,A(v)为用户v的所有链出关系集合,d为阻尼因子,为0-1之间的常数用来保证结果的收敛,在本方法中,d=0.85。
本发明所述方法的步骤3将计算的用户活跃度P代入到影响力计算的迭代公式中: 反复迭代直至结果收敛即为该方法的排名结果。
本发明所述方法是结合用户静态的链接关系,将用户活跃度应用到迭代和分配过程中,即在每次迭代之后,将当前用户的影响力按照所链出节点的活跃度进行加权分配并迭代计算,直到收敛到稳定的用户影响力值。
有益效果:
1、本发明结合时间因素,利用用户的在线社交的频次与时间计算出用户活跃度,在迭代计算的过程中以用户活跃度为分配因子进行非均匀的迭代分配。
2、本发明克服了PageRank单纯考虑链接关系的缺点,并引入时间的要素,能够实现动态的用户影响力排名,具有更好的公平性与准确性,能够更好的满足微博网络的复杂性和实时性的要求。
附图说明
图1为本发明的数据采集和解析系统示意图。
图2为本发明的方法流程图。
具体实施方式
以下结合说明书附图对本发明创造作进一步的详细说明。
如图1所示,本发明的系统主要分为采集系统和解析系统。采集系统负责按照一定的目标对微博网络(如Sina微博等)的服务器进行访问,将有用信息下载并存储;解析系统则根据研究的需要,对采集的数据格式进行相关的变换以适应不同的研究分析工具。系统的运作流程具体如下:
(1)首先选取典型微博用户ID,然后将用户ID加入到任务队列中,根据需要,向服务器发送API请求以获取所需要的用户信息,如用户昵称、粉丝数、微博数、用户关注列表、互粉列表以及注册时间地点等的数据。
(2)服务器返回的是JSON格式的数据流,再通过JSON数据解析模块,将数据以表的形式存储到SQL数据库中。
(3)最后通过数据解析模块,对存储的数据进行相应的处理,获得用户之间的链路连接关系,以及与用户相关联的粉丝数、发表微博数、注册时间等信息。
如图2所示,本发明是根据用户的在线社交的真实数据而计算出用户活跃度,在迭代计算的过程中以用户活跃度为分配因子进行非均匀的迭代分配。该方法克服了PageRank单纯考虑链接关系的缺点,并引入时间的要素,能够实现动态的用户影响力排名,具有更好的公平性与准确性,能够更好的满足微博网络的复杂性和实时性的要求,该方法具体的实施步骤如下:
步骤1:原始数据采集
数据的采集是方法实现最基础的环节,采集的方式有多种。鉴于目前的微博平台,如:新浪微博、腾讯微博都建立了自己的微博开放平台,可通过这些平台采取API调用方式来获取用户具体微博信息。例如:用户关注关系的API请求方法如下所示:
请求方式:get
请求URL:https://api.weibo.com/2/friendships/friends/ids.json
请求参数:UID=2216755173&access_token=2.00Tz2LpBYxeb8Bc558101675xJjqEEUID的值代表当前请求所针对的用户。
步骤2:用户活跃度计算
将上述步骤1中采集的用户数据,利用公式计算出每个用户的活跃度。其中P代表用户活跃度,f为粉丝数,w为微博数,Tc数据获取时间,Tr为用户微博账号的注册时间,该公式反映了用户自注册微博以来的平均在线活跃情况。
步骤3:影响力计算
首先将所有用户的影响力TSNIRank的初始值均设置为1/n,n为样本总用户数,然后根据公式 计算每个用户的影响力。
步骤4:方法迭代
将上述步骤3的计算结果作为下一次计算的初值反复根据上述公式进行迭代,直到两次迭代结果的差的绝对值小于一个很小的常数ε,终止迭代运算。可通过调整ε值来控制迭代的精度与次数。在迭代过程中,可利用矩阵的方法,将迭代公式转化为邻接关系矩阵的运算,以提高运算效率。
Claims (8)
1.一种微博网络用户影响力排名方法,其特征在于,所述方法;,包括如下步骤:
步骤1:采集用户参与在线社交的真实信息,再根据公式,计算出每个用户的活跃度;
步骤2:将所有用户的影响力TSNIRank的初始值均设置为1/n,n为样本总用户数;
步骤3:根据公式,计算每个用户的新的值;
步骤4:将上述步骤3中的新的TSNIRank值作为下次迭代的初始值;
步骤5:重复上述步骤3、4的计算过程,直到两次迭代之间的每个用户TSNIRank值之差的绝对值小于设定的一个很小的常数ε,表明计算结果已收敛。
2.根据权利要求1所述的一种微博网络用户影响力排名方法,其特征在于,所述方法是基于时间因素的方法。
3.根据权利要求1所述的一种微博网络用户影响力排名方法,其特征在于,所述方法步骤1的用户真实信息包括:用户粉丝数、发表微博数和用户注册时间。
4.根据权利要求1所述的一种微博网络用户影响力排名方法,其特征在于,所述方法步骤1的公式为:
其中,P代表用户活跃度,f为粉丝数,w为微博数,Tc数据获取时间,Tr为用户微博账号的注册时间。
5.根据权利要求1所述的一种微博网络用户影响力排名方法,其特征在于,所述方法的步骤3和步骤4涉及的影响力迭代公式为:
其中,I(u)为用户影响力,P为用户活跃度,B(u)为用户的所有链入关系集合,A(v)为用户v的所有链出关系集合,d为阻尼因子,为0-1之间的常数。
6.根据权利要求1所述的一种微博网络用户影响力排名方法,其特征在于:所述方法的步骤3将计算的用户活跃度P代入到影响力计算的迭代公式中: 反复迭代直至结果收敛即为该方法的排名结果。
7.根据权利要求1所述的一种微博网络用户影响力排名方法,其特征在于:所述方法将谷歌PageRank网页排名方法应用到微博网络之中,并根据用户在微博网络中的参与情况,结合时间因素。
8.根据权利要求1所述的一种微博网络用户影响力排名方法,其特征在于:所述方法是结合用户静态的链接关系,将用户活跃度应用到迭代和分配过程中,即在每次迭代之后,将当前用户的影响力按照所链出节点的活跃度进行加权分配并迭代计算,直到收敛到稳定的用户影响力值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410240919.8A CN104035987B (zh) | 2014-05-30 | 2014-05-30 | 一种微博网络用户影响力排名方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410240919.8A CN104035987B (zh) | 2014-05-30 | 2014-05-30 | 一种微博网络用户影响力排名方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104035987A true CN104035987A (zh) | 2014-09-10 |
CN104035987B CN104035987B (zh) | 2017-06-30 |
Family
ID=51466757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410240919.8A Active CN104035987B (zh) | 2014-05-30 | 2014-05-30 | 一种微博网络用户影响力排名方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104035987B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205146A (zh) * | 2015-09-18 | 2015-12-30 | 国家计算机网络与信息安全管理中心 | 一种计算微博用户影响力的方法 |
CN105653538A (zh) * | 2014-11-13 | 2016-06-08 | 中国科学院自动化研究所 | 数据挖掘的方法和装置 |
CN105991333A (zh) * | 2015-02-26 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 一种数据处理的方法及系统 |
CN106777338A (zh) * | 2017-01-13 | 2017-05-31 | 深圳市深黑科技有限公司 | 一种网络公众号动态传播力综合指数统计方法及其系统 |
WO2017118426A1 (zh) * | 2016-01-07 | 2017-07-13 | 腾讯科技(深圳)有限公司 | 社交平台的用户影响力估算方法、装置及计算机存储介质 |
CN107370614A (zh) * | 2016-05-13 | 2017-11-21 | 北京京东尚科信息技术有限公司 | 网络用户活跃度评估方法和预测方法 |
CN107404445A (zh) * | 2016-05-18 | 2017-11-28 | 北京京东尚科信息技术有限公司 | 自媒体资源的分配方法和分配装置 |
CN107633260A (zh) * | 2017-08-23 | 2018-01-26 | 上海师范大学 | 一种基于聚类的社交网络意见领袖挖掘方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090248599A1 (en) * | 2008-04-01 | 2009-10-01 | Hueter Geoffrey J | Universal system and method for representing and predicting human behavior |
CN101770487A (zh) * | 2008-12-26 | 2010-07-07 | 聚友空间网络技术有限公司 | 社交网络中用户影响力的计算方法和系统 |
CN102663101A (zh) * | 2012-04-13 | 2012-09-12 | 北京交通大学 | 一种基于新浪微博的用户等级排序算法 |
CN103024017A (zh) * | 2012-12-04 | 2013-04-03 | 武汉大学 | 一种社交网络重要目标及社区群体识别方法 |
CN103617279A (zh) * | 2013-12-09 | 2014-03-05 | 南京邮电大学 | 基于Pagerank方法的微博信息传播影响力评估模型的实现方法 |
-
2014
- 2014-05-30 CN CN201410240919.8A patent/CN104035987B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090248599A1 (en) * | 2008-04-01 | 2009-10-01 | Hueter Geoffrey J | Universal system and method for representing and predicting human behavior |
CN101770487A (zh) * | 2008-12-26 | 2010-07-07 | 聚友空间网络技术有限公司 | 社交网络中用户影响力的计算方法和系统 |
CN102663101A (zh) * | 2012-04-13 | 2012-09-12 | 北京交通大学 | 一种基于新浪微博的用户等级排序算法 |
CN103024017A (zh) * | 2012-12-04 | 2013-04-03 | 武汉大学 | 一种社交网络重要目标及社区群体识别方法 |
CN103617279A (zh) * | 2013-12-09 | 2014-03-05 | 南京邮电大学 | 基于Pagerank方法的微博信息传播影响力评估模型的实现方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653538A (zh) * | 2014-11-13 | 2016-06-08 | 中国科学院自动化研究所 | 数据挖掘的方法和装置 |
CN105653538B (zh) * | 2014-11-13 | 2019-12-20 | 中国科学院自动化研究所 | 数据挖掘的方法和装置 |
CN105991333A (zh) * | 2015-02-26 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 一种数据处理的方法及系统 |
CN105205146B (zh) * | 2015-09-18 | 2018-10-30 | 国家计算机网络与信息安全管理中心 | 一种计算微博用户影响力的方法 |
CN105205146A (zh) * | 2015-09-18 | 2015-12-30 | 国家计算机网络与信息安全管理中心 | 一种计算微博用户影响力的方法 |
CN106952166B (zh) * | 2016-01-07 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 一种社交平台的用户影响力估算方法及装置 |
WO2017118426A1 (zh) * | 2016-01-07 | 2017-07-13 | 腾讯科技(深圳)有限公司 | 社交平台的用户影响力估算方法、装置及计算机存储介质 |
CN106952166A (zh) * | 2016-01-07 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 一种社交平台的用户影响力估算方法及装置 |
CN107370614A (zh) * | 2016-05-13 | 2017-11-21 | 北京京东尚科信息技术有限公司 | 网络用户活跃度评估方法和预测方法 |
CN107404445A (zh) * | 2016-05-18 | 2017-11-28 | 北京京东尚科信息技术有限公司 | 自媒体资源的分配方法和分配装置 |
CN106777338A (zh) * | 2017-01-13 | 2017-05-31 | 深圳市深黑科技有限公司 | 一种网络公众号动态传播力综合指数统计方法及其系统 |
CN107633260A (zh) * | 2017-08-23 | 2018-01-26 | 上海师范大学 | 一种基于聚类的社交网络意见领袖挖掘方法 |
CN107633260B (zh) * | 2017-08-23 | 2020-10-16 | 上海师范大学 | 一种基于聚类的社交网络意见领袖挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104035987B (zh) | 2017-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104035987A (zh) | 一种微博网络用户影响力排名方法 | |
Pouryazdan et al. | Quantifying user reputation scores, data trustworthiness, and user incentives in mobile crowd-sensing | |
US20170091644A1 (en) | Identification of a propagator-type leader in a social network | |
CN111222029B (zh) | 一种网络舆情信息传播中关键节点选择方法 | |
CN103488678B (zh) | 一种基于用户签到相似度的好友推荐系统 | |
Knoot et al. | Best management practices and timber harvesting: the role of social networks in shaping landowner decisions | |
Ray et al. | A backcast land use change model to generate past land use maps: application and validation at the Muskegon River watershed of Michigan, USA | |
CN103617279A (zh) | 基于Pagerank方法的微博信息传播影响力评估模型的实现方法 | |
CN103024017A (zh) | 一种社交网络重要目标及社区群体识别方法 | |
Nan et al. | A cross-space, multi-interaction-based dynamic incentive mechanism for mobile crowd sensing | |
US20130346496A1 (en) | System and method of predicting community member responsiveness | |
US10817539B2 (en) | Identification of a trigger-type leader in a social network | |
CN102075352A (zh) | 一种网络用户行为预测的方法和装置 | |
Piraveenan | Applications of game theory in project management: a structured review and analysis | |
US20150100683A1 (en) | Identification of an authority-type leader in a social network | |
Zhan et al. | Incentive mechanism design for federated learning: Challenges and opportunities | |
CN109726319B (zh) | 一种基于交互关系的用户影响力分析方法 | |
CN109933666A (zh) | 一种好友自动分类方法、装置、计算机设备和存储介质 | |
CN104794644B (zh) | 一种面向智能服务引擎的任务众包方法 | |
CN103198432A (zh) | 在线社会网络中网络群体的检测方法及系统 | |
Chang et al. | Characterizing rural household differentiation from the perspective of farmland transfer in eastern China using an agent based model | |
CN103399919A (zh) | 基于社会关系网的信任增强服务推送方法 | |
Sabzian et al. | Modeling the adoption and diffusion of mobile telecommunications technologies in Iran: A computational approach based on agent-based modeling and social network theory | |
Wu et al. | Incentive mechanism for federated learning based on random client sampling | |
Zhang et al. | Collective ratings for online communities with strategic users |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |