CN102663101B

CN102663101B - 一种基于新浪微博的用户等级排序算法

Info

Publication number: CN102663101B
Application number: CN201210109215.8A
Authority: CN
Inventors: 刘云; 廉捷; 曹伟; 周欣; 李维杰; 陈海强
Original assignee: Beijing Jiaotong University; China Information Technology Security Evaluation Center
Current assignee: Beijing Jiaotong University; China Information Technology Security Evaluation Center
Priority date: 2012-04-13
Filing date: 2012-04-13
Publication date: 2015-10-28
Anticipated expiration: 2032-04-13
Also published as: CN102663101A

Abstract

本发明公开了一种基于新浪微博的用户等级排序算法，包括如下步骤：a、抓取新浪微博中的实时数据；b、通过数据分析确定新浪微博中影响用户等级排序的制约因素；c、建立用户等级排序中用户影响力参考模型；d、建立用户等级排序中用户活跃度参考模型；e、通过用户影响力与用户活跃度模型加权获得用户权重计算模型，利用该模型实现新浪微博用户等级排序。可用于社交网络研究领域。本发明具有较高的合理性与较小的时间损耗，适用于实时网络环境中。

Description

一种基于新浪微博的用户等级排序算法

技术领域

本发明涉及社交网络技术领域，尤其涉及一种基于新浪微博的用户等级排序算法。

背景技术

自从2006年世界上最知名的微博社交网站Twitter问世以来，几年中Twitter赢得了相当可观的市场占有率。在2009年，Twitter的用户增长率高达2565％，是著名社交网站Facebook与LinkedIn增长量总和的10倍。(参考文献1：A.Ronel，M.Teutle，“Twitter：NetworkProperties Analysis”.CONIELECOMP 54407732010180-186)在中国，新浪微博占有着巨大的市场份额，其中87％的微博使用者为新浪微博用户。(参考文献2：E.Wen，V.Sun，“SINA Microblog ResearchReport”.http://www.techweb.com.cn/data/2011-02-25/916941.shtml2011，2)相比Twitter，新浪微博是一个更综合更复杂的微博社交网络系统。除了传统微博应用固有的功能，新浪微博将一条微博长度由140个字符扩展到140个汉字(280字符)，同时一条微博信息中允许插入short-url网址、视频、音乐、图片或图片组合，这些功能都增强了用户对于新浪微博的使用体验，使得新浪微博的用户参与性更强，同时信息传播力更大。因此，对于新浪微博用户、微博社区与网络结构、观点传播与用户行为分析的研究应当被给予足够的重视。

在研究微博信息传播与热点敏感话题发现的过程中，人作为微博信息传播与话题发起的主体，起着至关重要的作用。同样的信息从网络社区中不同等级的用户中发布出来，其覆盖范围与影响力也是千差万别的。因此对于微博用户等级排序的研究将成为微博研究中首先需要解决的问题。

在网络搜索引擎的研究中，文献3与文献4提出了PageRank与HITS算法，用来计算互联网络中不同网页的页面权重。这两套算法的核心思想是，如果一个页面被众多具有较高权重的页面所指向，那么这个页面将有很高的可能性成为权威页面。当一个具有高权威性的导航网站中存在大量页面连接时，为了避免这个页面过多地将自身权重传递给每一个它所指向的页面，文献5-7在文献3，4的基础上改进了PageRank与HITS算法，使得网络权重数值的传递更加均匀。在微博网站Twitter的研究中，文献8将网络中高权威用户分为两类，即名人用户与媒体用户。研究指出：在信息传播的过程中，名人用户的作用主要是作为信息发布的主体，而这些发布的信息主要通过媒体用户以转发的形式分享出去。文献9通过用户每条微博信息的回复关注数量作为主要因素建模来评定用户的等级排序，但忽视了用户在微博社区中的度分布特征。文献10通过用户的连接关系与话题分布特征来衡量微博用户在Twitter中的影响力。文献11基于改进HITS算法与文献12中介绍的TwitterRank算法，提出了一套新浪微博用户权重算法，但在计算用户权重中使用的迭代算法时间复杂度极高，很难应用在实际微博社区网络环境中。文献13基于用户好友关系与网络历史数据统计，建立了Twitter用户影响力模型，但文献11-13均没有将用户间的交互情况考虑到用户好友关系中去，造成了数据统计上的较大偏差。文献14通过用户微博信息特征向量分析，对微博搜索结果进行了排序。文献15基于用户微博信息聚类，引入潜在语义分析建立了用户在不同话题中的影响力模型。除此之外，文献16，17分析了新浪微博的网络结构特征与用户行为规律，研究指出微博社交网络为典型的小世界无标度网络，度分布特征符合幂律分布，发帖特性伴随长尾效应。用户行为具有非Poisson特性与事件时间分布等。(参考文献3：Brin S，Page L.“The anatomy of alarge-scale hypertextual web search engine”.Computer Networks andISDN Systems 30(1998)107-117。参考文献4：Kleinberg J.“Authoritative sources in a hyperlinked environment”.JACM 46(5)(1999)604-632。参考文献5：Yi Tong.“Apply HITS Algorithm toMeasuring Class′s Authoritative Complexity”.WiCom 2954(2008)1-4。参考文献6：Jilin Zhang，Yongjian Ren.“Webs ranking model based onpagerank algorithm”.ICISE 5691573(2010)4811-4814。参考文献7：Cheng Su，Yuntao Pan.“PageRank，HITS and Impact Factor for JournalRanking”.CSIE 351(2009)285-290。参考文献8：Alex Leavitt，EvanBurchard，David Fisher，Sam Gilbert“The Influentials：NewApproaches for Analyzing Influence on Twitter”.Web Ecology Project4(2)(2009)1-18。参考文献9：Anish Das Sarma.“Ranking Mechanismsin Twitter-like Forums”.ACM 1718487.1718491(2010)21-30。参考文献10：Meeyoung Cha.“Measuring User Influence in Twitter：TheMillion Follower Fallacy”.Proceedings of international AAAIConference on Weblogs and Social(2010)10-17。参考文献11：YanChao-Zhang，Yun Liu，Hui Cheng，Fei Xiong，ChangLun-Zhang.″AMethod of Measuring User Influence in MicroBlog″，JCIT：Journal ofConvergence Information Technology”.6(10)(2011)243-250。参考文献12：Jian-Shu Weng，Ee-Peng Lim，Jing Jiang，Qi He，“TwitterRank：Finding Topic-Sensitive Influential Twitterers”，In Proceedings of thethird ACM international conference on Web search and data mining1718487.1718520(2010)261-270。参考文献13：Wang Rui，JinYongsheng.“An Empirical Study on the Relationship between theFollowers′Number and Influence of Microblogging”.ICEE 509(2010)2014-2017。参考文献14：Rinkesh Nagmoti.“Ranking Approaches forMicroblog Search”.WI-IAT 170(2010)153-157。参考文献15：AdityaPal.“Identifying Topical Authorities in Microblogs”.1935826.1935843(2011)45-54。参考文献16：S.C.Deerwester，S.T.Dumais，T.K.Landauer，G.W.Furnas，and R.A.Harshman.“Indexing by LatentSemantic Analysis.41(6)(1990)391-407。参考文献17：Shulong Kang，Chuang Zhang.“Complexit Research of Massively MicrobloggingBased on Human Behaviors”.DBTA 5658996(2010)1-4。)

发明内容

本发明解决的技术问题在于选择何种因数对新浪微博的用户等级排序。

为了解决以上问题，一种基于新浪微博的用户等级排序算法，包括如下步骤：

a、抓取新浪微博中的实时数据；

b、通过数据分析确定新浪微博中影响用户等级排序的制约因素；

c、建立用户等级排序中用户影响力参考模型；

d、建立用户等级排序中用户活跃度参考模型；

e、通过用户影响力与用户活跃度模型加权获得用户权重计算模型，利用该模型实现新浪微博用户等级排序。

进一步，作为一种优选方案，步骤a中所述的抓取新浪微博中的实时数据过程为：

a1、利用新浪微博开放API接口抓取新浪微博实时数据；

a2、利用网络爬虫与网页解析技术采集开放API功能以及限制之外的新浪微博在线数据；

a3、设计结合新浪微博开放API与网页解析技术的新浪微博数据采集程序，实现数据的全面高效获取。

进一步，作为一种优选方案，步骤b中所述的分析确定新浪微博中影响用户等级排序的制约因素包括以下步骤：

b1、判断用户粉丝数量与用户微博影响力关系；

b2、分析用户微博影响力随时间的演化规律；

b3、分析用户的微博回复与转发关系；

b4、判断用户好友数量与用户微博影响力的关系。

进一步，作为一种优选方案，步骤e中所述的通过用户影响力与用户活跃度模型加权获得用户权重计算模型，利用该模型实现新浪微博用户等级排序具体如下：

W＝W_i+λ·W_a

其中W为新浪微博用户权重。用户权重由用户影响力W_i与用户活跃度W_a加权构成，参数λ用来调节这两部分权重数值上的平衡。

进一步，作为一种优选方案，所述的相应用户影响力参考模型为：

C_{i, j} = β \cdot {| \frac{R_{j, i}}{T_{i}}, \frac{{Rt}_{j, i} + M_{j . i}}{T_{j}} |}_{MEAN}

W_{i} = N_{f} + \underset{&ForAll; j, j &RightArrow; i}{Σ} ({αC}_{i, j} \cdot \frac{F_{j}}{n_{j}})

a = \{\begin{matrix} 1 & (N_{j} \leq T_{i} \cdot N_{i}) \\ \overset{&OverBar;}{F_{j, (f - 1)}} / \overset{&OverBar;}{F_{j, f}} & (N_{j} > T_{i} \cdot N_{i}) \end{matrix}

其中C_i，j为用户i与i的粉丝用户j之间的用户好友关系交互指数；T_i与T_j分别代表用户i与用户j最新发布的若干条微博数量；R_j，i为用户j对于用户i微博的评论次数；Rt_j，i与M_j，i分别代表用户j转发与用户i的微博次数；式中系数β为一个正整数用来线性放大用户j对于用户i交互指数的影响。N为用户粉丝数量；为用户粉丝的平均粉丝拥有数；表示该用户除去粉丝j后的粉丝平均粉丝拥有数；因此α的取值为(0，1]，这样，当用户i存在一个极大权重的粉丝j时，参数α将用来调节高权重粉丝对于某一个用户的影响。

进一步，作为一种优选方案，所述的相应用户活跃度参考模型为：

W_{a} = (r_{re} + r_{rt}) \cdot \underset{t &Element; 15 days}{Σ} (T_{t} + {Rt}_{t} + M_{t})

用户活跃度特征由用户近期15天内发布的微博数量T_t、转发数量Rt_t与提及()数量M_t加权构成；考虑用户参与微博交互活动的参与质量，r_re与r_rt分别表示用户历史微博信息的平均回复率与平均转发率，避免一个广告用户或者恶意发送消息用户对于用户活跃度特征判定的影响。

本发明将用户等级排序即用户权重，看作为用户分布特征、用户好友特征与好友关系、用户参与度与贡献水平的综合评定，从而将用户权重划分为用户影响力与用户活跃度两大主要因素。本发明具有较高的合理性与较小的时间损耗，适用于实时网络环境中。

附图说明

当结合附图考虑时，通过参照下面的详细描述，能够更完整更好地理解本发明以及容易得知其中许多伴随的优点，但此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定，其中：

图1为用户粉丝数目与用户微博影响力关系对比图；

图2为明星用户微博影响力演化规律；

图3为普通用户微博影响力演化规律；

图4为用户平均转发率与回复率对比趋势；

图5为用户好友数目与用户微博平均回复率对比关系；

图6为用户好友数与用户粉丝数对比关系；

图7为微博好友关系示意图；

图8为用户权重对比图；

图9为本排序算法实施例流程图。

具体实施方式

以下参照图1-9对本发明的实施例进行说明。

为使上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

如图9所示，本发明提供了一种基于新浪微博的用户等级排序算法，其特征在于：包括如下步骤：

S1、抓取新浪微博中的实时数据；

S2、通过数据分析确定新浪微博中影响用户等级排序的制约因素；

S3、建立用户等级排序中用户影响力参考模型；

S4、建立用户等级排序中用户活跃度参考模型；

S5、通过用户影响力与用户活跃度模型加权获得用户权重计算模型，利用该模型实现新浪微博用户等级排序。

实施例2

通过数据分析确定新浪微博中影响用户等级排序的制约因素，分为以下四个步骤：

步骤1：判断用户粉丝数量与用户微博影响力关系。

图1为用户粉丝数目与用户微博影响力关系对比图。直觉上，我们认为微博中的用户拥有越多的粉丝数量，那么这个用户发布的微博就有越大的可能性被转发或回复。为了验证这个假设，本发明通过收集微博中具有特定标签的用户信息来进行下述测试。标签为用户的特有属性，一个用户可选择持有0到10个用户标签来标注用户自身的兴趣与关注事物。这样收集到的用户可能在粉丝数量上有很大的差别，但起码具备同样的一种兴趣爱好，于是在某些话题与用户行为上会表现出相似的特性，这也是通过标签收集用户的一大优势。因为用户标签的搜索结果是按照用户粉丝数量的数值作为排序返回用户信息的，而每次标签查询，系统至多只返回1000位用户。因此测试中选择非热门的用户标签，以保证试验收集到的用户既包含了具有很高粉丝数量的明星用户，也涵盖了网络中的普通用户。图1显示了用户粉丝数量与该用户最近100条微博平均转发率与平均回复率的关系。通过图1可以近似地得出结论：用户微博影响力随着用户粉丝数量的增加而增大。测试中，本发明选取了10组不同的用户标签，每组标签返回1000位用户信息，测试结果均支持以上结论。

步骤2：分析用户微博影响力随时间的演化规律。

除上述结论之外，本发明还需要研究用户微博影响力随时间的变化规律。通常在微博的使用习惯中，用户往往会不断收到网络中其他用户节点的关注，用户可选择互相关注或不做出反应，而很少做出删除粉丝连接的操作。也就是说我们可以近似认为，一个用户的粉丝数目随着时间的延续将呈现出递增的关系。因此，本发明收集了两组数据用来验证用户微博受关注程度随时间的变化关系。第一组测试样本为从新浪微博中排名前2000的用户中随机抽取的100位用户，排名依据用户的粉丝数量；第二组测试样本为从上述1000名拥有特定标签的用户中随机抽取的100位用户。试验计算了这些用户在过去8个月中所发微博的平均转发率与回复率，并统计出用户组的月平均回复与转发率。为了屏蔽不同用户间微博回复与转发数量上的差异，公式(1)对其进行了归一化处理：

R_{i} = \frac{Σ_{j = 1}^{n} T_{j}}{n_{i}} / {| \frac{ΣT}{n} |}_{MAX} - - - (1)

其中R_i为第i个月的归一化用户月平均回复或转发率。T_j代表当月第j条微博的评论和转发次数；为该用户在第i月中的平均回复或转发比率。图2与图3为测试中两组用户数据样本集微博影响力(回复与转发率)随时间演化规律。图2为第一组测试样本，图3为第二组样本。

通过图2图3可以看出，用户微博的影响力随着时间的延续逐渐提高。因为新浪微博正处于蓬勃发展的状态，因此用户的入度分布也在不断递增，因此我们可以得到结论：用户的微博影响力随着自身粉丝数量的增长而不断增强。测试数据采集与2011年6月，因此当时的微博评论数量尚未能完全收集，所以图2与图3在6月显示的数据值偏低，这只是数据不能完全统计的结果，并不与结论冲突。另外一个需要注意的问题是，归一化后用户组的微博影响力理论最大值为1，若数值偏离1越远，那么组内用户微博影响力随时间的演化差异也就越大。在测试数据中，两组用户实际的比率分别为：0.6813，0.6926与0.5674，0.5798。因此用户的好友数量仅仅是影响用户微博影响力的一个因素而不是全部。

步骤3：分析特定用户的微博回复与转发关系。

为了分析用户微博平均回复与转发数量间的关系，本发明收集了两组数据来进行下列试验。第一组数据为排名前1000位的新浪微博认证用户(注：所有排名依据用户粉丝数量顺序)；第二组数据为排名前1000位的非新浪微博认证用户。对于每一位用户，试验收集了该用户近期发布的至多200条微博信息与这些微博的评论、转发数目。图4显示了这些用户微博的平均转发数量与平均回复数量的对应关系，可以看出用户微博的平均转发与回复呈现出较强的线性关系，于是我们可以得出结论：一个用户的微博评论数量越高，那么他对应的微博传播力也就越大，反之亦然。

步骤4：判断用户好友数量与用户微博影响力的关系。

使用上述1000名新浪微博认证用户与1000名非认证用户作为数据集，本发明测试了用户好友数量与用户微博平均回复率间的关系。从图5中可以看出，用户微博的平均回复率与用户好友数量没有直接联系，又因为用户微博平均回复率与转发率呈线性关系，因此可以得到结论：用户好友数量不加入用户微博影响力考虑因素。

上述步骤S3中采用改进HITS算法进行用户权重分析。下面对改进HIT算法模型进行介绍。

HIT算法

通过上述步骤S2中讨论可以得出：用户的粉丝数量是决定用户影响力大小的核心因素之一。HITS算法的主要思想是：网络中的权威结点倾向于被其他权威结点指向，也就是说如果网络中有大量具有高权威性的结点都指向同一节点，那么那一结点将有很高的可能性也是一个权威结点。

a_{i}^{(t)} = \underset{&ForAll; j : j &RightArrow; i}{Σ} h_{j}^{(t - 1)} - - - (2)

h_{i}^{(t)} = \underset{&ForAll; i : i &RightArrow; j}{Σ} a_{j}^{(t - 1)} - - - (3)

a (v) = \frac{a (v)}{\sqrt{\underset{&ForAll; w &Element; N}{Σ} [a {(w)}^{2}]}} &DoubleLeftRightArrow; Σ_{v = 1}^{N} a {(v)}^{2} = 1 - - - (4)

h (v) = \frac{h (v)}{\sqrt{\underset{&ForAll; w &Element; N}{Σ} [h {(w)}^{2}]}} &DoubleLeftRightArrow; Σ_{v = 1}^{N} h {(v)}^{2} = 1 - - - (5)

公式(2)-(5)表述了HITS算法的过程。网络中的每个结点由authority与hub数值参量构成，结点的authority数值由指向它的其它结点hub值决定。结点的hub数值由它所指向的其它结点的authority数值决定。每一次迭代运算后对authority与hub取值进行归一化处理，直到第n次迭代运算数值趋向稳定后停止计算。算法中a^(t＝0)与h^(t＝0)的初始值为1，与分别是结点i在第t次迭代过程之后的authority与hub数值。公式(4)(5)为每一步之后的归一化过程，直到迭代结果达到收敛。

HITS算法在当今互联网搜索引擎的网页权重计算中被广泛采用。因为一个网页中包含了各式各样的连接，可能连接到不同的主题或广告。如果一个高权威性网页连接到一个广告页面，那么这个广告页面于是被赋予了很高的权重；或者当搜索一个主题时，返回了与该主题无关的其他高权威页面，这些都会影响到HITS算法在搜索引擎应用中的公正性。但是一个微博中的用户并不是简单的基于某类主题或事件的主体，而是一个综合的复杂的个体，具有独立的思考与判别能力。因此相比HITS算法在搜索引擎中的应用，当其被用于微博网络中用户结点的权重计算时，可以有效避免“主题漂移”现象，因此具有更高的合理性。

改进HITS算法在微博用户权重计算中的应用

本发明涉及的改进HITS算法在微博用户权重中的应用分为以下两个步骤：

步骤1：HITS算法中权重传递过程的优化设计

在新浪微博中，我们发现具有大量粉丝的明星用户通常只具有少量的好友数目，而且这些好友往往也是高粉丝用户甚至明星用户，这些用户的微博往往具有很高的回复与转发率。也有一些用户，比如媒体或广告，拥有较高的粉丝数量和好友人数，而这些用户所发布的微博常常是为特定产品或品牌服务的，这些微博也常常不会被广泛关注。图6为用户好友数与用户粉丝数对比关系，分别以粉丝数量排名前1000位的新浪微博认证用户，1000位非新浪微博认证用户以及1000名随机选出用户作为数据样本。从图6中可以看出，随机选出的新浪微博用户，即普通微博用户，其好友数量/粉丝数量在1之间上下浮动，而新浪微博认证用户的粉丝数量远远超过其好友人数。因此，为了避免一个权威用户过量地将自身权威性传递给该用户的每一个好友，本发明以公式(6)代替了原HITS算法公式(2)：

a_{i}^{(t)} = \underset{&ForAll; j : j &RightArrow; i}{Σ} h_{j}^{(t - 1)} / n_{j} - - - (6)

公式(6)保证了用户j将公平地将自身权重平均分配到他的每一位好友身上，取代了原HITS算法中结点将自身权重全额传递给每一个连接结点的思想。

步骤2：改进HITS算法在微博用户权重计算中的优化

因为HITS算法需要迭代计算，因此具有较高的时间复杂度。传统的HITS算法被应用于互联网的网页权重计算。当一个用户通过网页A连接到网页B，而网页B中存在指向网页C的连接，如果网页A、B、C间存在较强的主题相关性，那么这个用户将有很高的可能行通过网页A，浏览到网页B和C，也就是说网页A会同时对网页B和C产生影响。HITS算法的作用方式就是用户对于网页的点击，因此通过迭代的方式计算网页权重虽然耗时，却是必要的。

图7为微博好友关系示意图，单向的连接关系存在于用户A、B、C与D之间。当用户B转发了A的微博，而之后用户C评论了B对A的转发，首先需要判断的是用户C的评论是源自用户B的影响力与微博内容本身，还是用户A的影响力依然作用于用户C对用户B转发微博的评论行为。

在新浪微博中，若用户B转发了用户A发布的一条微博信息，当用户C通过用户B看到这条信息并决定转发时，系统回复机制允许C同时回复给用户B和A。如果D通过用户C看到A最初发布的这条微博信息并决定转发时，系统回复机制允许D同时回复给C和A。也就是说，每一次用户的转发行为都可能会连带回复原始作者与传播关系中的上一级用户。因此，为了避免上述转发机制对于用户影响力传播关系分析的干扰，本发明只选择转发数量为0的微博进行下面的测试。测试中，我们收集每一条微博评论的回复用户信息。表1分别为排名前1000位的认证用户，排名前1000位的非认证用户，与1000位普通用户的0转发微博评论情况，从表1中可以看出，普通用户的微博评论者中，只有0.02％的评论来自一个陌生的用户，即便对于著名的明星用户而言，来自陌生人的评论也仅占很小一部分。因此我们可以得到结论：一篇微博之所以被关注，主要源于微博内容本身，以及用户在网络中的邻居发布者，而与微博的传播过程中的间接转发者几乎毫无关系。因此，对于改进HITS算法在计算微博中用户权重关系的应用中，不再需要进行用户权重的迭代计算，这样使得本发明优化后的改进HITS算法更加合理，同时更大大降低了算法的时间复杂度。最终，公式(7)优化后的改进HITS算法，其中Fj表示用户j的粉丝数量。

a_{i} = \underset{&ForAll; j : j &RightArrow; i}{Σ} F_{j} / n_{j} - - - (7)

表1用户微博回复用户特征分析

上述过程S3中确定用户影响力模型中，好友关系交互指数，其主要步骤如下：

步骤1：确定用户好友关系交互指数。

本发明定义C_i，j为用户i与i的粉丝用户j之间的用户好友关系交互指数。C_i，j的物理意义是用户j对于用户i微博的评论频率与用户j自身微博中转发或用户i的微博比例。C_i，j的数值由公式(8)决定

C_{i, j} = β \cdot {| \frac{R_{j, i}}{T_{i}}, \frac{{Rt}_{j, i} + M_{j . i}}{T_{j}} |}_{MEAN} - - - (8)

公式(8)中，T_i与T_j分别代表用户i与用户j最新发布的若干条微博数量。考虑到用户微博与用户状态的时效性以及新浪微博API的限制，公式中的T_i与T_j均选用用户最新发布的至多200条微博。式中R_j，i对于i微博的评论次数；Rt_j，i与M_j，i分别代表用户j转发与用户i的微博次数。式中系数β为一个正整数用来线性放大用户j对于用户i交互指数的影响。现实中用户好友关系交互指数用来衡量用户j将在多大程度上将自身的权重分配给用户i，避免了用户i的一个从不交互的高权重好友j，对于用户i影响力判定带来的干扰。

步骤2：用户影响力参考模型。

本发明定义用户影响力取决于用户粉丝数量，用户粉丝质量以及用户好友交互关系，即上述用户好友关系交互指数C_i，j。因此公式(9)为用户影响力参考模型，其中N_f为用户粉丝数量。

W_{i} = N_{f} + \underset{&ForAll; j, j &RightArrow; i}{Σ} (C_{i, j} \cdot \frac{F_{j}}{n_{j}}) - - - (9)

为了屏蔽一个高权重粉丝偶尔关注用户某条微博对于这个用户的影响，用户影响力模型被公式(10)(11)调节：

W_{i} = N_{f} + \underset{&ForAll; j, j &RightArrow; i}{Σ} ({αC}_{i, j} \cdot \frac{F_{j}}{n_{j}}) - - - (10)

a = \{\begin{matrix} 1 & (N_{j} \leq T_{i} \cdot N_{i}) \\ \overset{&OverBar;}{F_{j, (f - 1)}} / \overset{&OverBar;}{F_{j, f}} & (N_{j} > T_{i} \cdot N_{i}) \end{matrix} - - - (11)

式中T_i与T_j分别用户最新发布的微博数量。公式(11)中，N_i为用户i的粉丝数量，同理，N_j为用户j的粉丝数量。为用户粉丝的平均粉丝拥有数，表示该用户除去粉丝j后的粉丝平均粉丝拥有数。因此α的取值为(0，1]，这样，当用户i存在一个极大权重的粉丝j时，参数α将用来调节高权重粉丝对于某一个用户的影响。

上述步骤S4中建立用户等级排序中用户活跃度参考模型，其具体方法如下。

建立用户活跃度特征参考模型。

本发明上述步骤S2与步骤S3中均没有对时间信息进行考虑，如公式(8)只考虑了用户最新发布微博的数量，而忽视了这些微博信息的发布时间。也就是说，当一个用户停止使用新浪微博或因其他原因使用其他微博平台服务的时候，在现实中，这些现象本应导致用户影响力水平发生改变，然而现有的研究与模型均不能及时反应这一变化。为了解决这一问题，本发明引入用户活跃度参考模型，使得用户权重结合时间戳信息，反应当前用户在最近一段特定时间段的参与情况。

W_{a} = \underset{t &Element; 15 days}{Σ} (T_{t} + {Rt}_{t} + M_{t}) - - - (12)

公式(12)定义了用户的活跃度特征。本发明定义的用户活跃度特征由用户近期15天内发布的微博数量T_t、转发数量Rt_t与提及()数量M_t加权构成。考虑用户参与微博交互活动的参与质量，本发明用公式(13)平衡原有用户活跃度特征：

W_{a} = (r_{re} + r_{rt}) \cdot \underset{t &Element; 15 days}{Σ} (T_{t} + {Rt}_{t} + M_{t}) - - - (13)

其中r_re与r_rt分别表示用户历史微博信息的平均回复率与平均转发率。因此，公式(13)可以有效避免一个广告用户或者恶意发送消息用户对于用户活跃度特征判定的影响。

新浪微博用户权重模型

最终，公式(14)为新浪微博用户权重模型。用户权重由用户影响力W_i与用户活跃度W_a加权构成。参数λ用来调节这两部分权重数值上的平衡。另外，如果一个用户在6个月中都没有参与过新浪微博的社交活动，那么我们将设置这个用户权重为0，不再进行等级排序。

W＝W_i+λ·W_a (14)

以下内容为本发明对上述算法的分析与评估，主要表现在四方面：

用户影响力模型评估

本发明的测试数据，来自本发明作者新浪微博的508位粉丝与好友信息。之所以选择与本发明作者相关的这508位用户，是为了方便将本算法用户排序结果与新浪微博官方用户排名进行比较。测试收集了这508位用户的所有好友与粉丝信息、近期发布的200条微博信息，和这所有微博信息的评论与转发信息。

因为新浪微博的API限制，每一次用户粉丝查询至多返回5000个用户信息，这样，当一个用户具有较高粉丝数量的时候，我们便无法获得他的全部粉丝列表。受于API限制，本发明在应用中，以下述公式(15)模拟上述过程公式(10)。公式中，N_obtain表示通过API实际获得的用户i好友数量。

W_{i} = N_{f} + \frac{N_{f}}{N_{obtain}} \underset{&ForAll; j, j &RightArrow; i}{Σ} ({αC}_{i, j} \cdot \frac{F_{j}}{n_{j}}) - - - (15)

结合公式(8)与(15)，当参数β被设置成50，100，200和300的时候，最终用户排名结果只有轻微的变化。在这4组参数的试验中，只有11位用户先后进入了排名前10位用户清单，甚至在这些测试中，有9位用户只在权重数值上发生了变化，而用户排名没有发生改变。因此在下列所有的测试中，β均被设置为200，用户的影响力排名与权重分数如表2所示。

表2用户影响力排名

通过表2可以看出，利用本发明所设计算法计算得到的排名前10的用户均为新浪微博认证用户。其中一部分用户的影响力主要来自自身的粉丝数量，如排名第1、2、3和第5位的用户；然而也有一部分用户其影响力主要来自他们高质量的粉丝，如排名第4、8，尤其是排名第10位的用户。当我们分析排名前20位用户的时候，其中18名为新浪微博认证用户，2位非新浪微博认证用户拥有较高的排序主要源自其粉丝的高影响力。(注：样本中508位用户中有49位为新浪微博认证用户。)

用户活跃度模型评估

同上，表3列出了用户活跃度排名前10的用户信息。

表3用户活跃度排名

如表3所示，在用户活跃度排名前10的用户中，只有1名用户为非新浪认证用户，延伸到排名前20的用户中，有4名用户为非认证用户。与用户影响力排名相比，活跃度特征排名前10的用户只有2位用户发生了改变，其余用户只是在排序位置上有所变化。这些变化在排名前10的用户中，尤其是认证用户中变化并不明显，因为名人用户的微博在现实中更容易被广泛的关注，通常拥有较高的转发与回复率，这就导致了他们拥有较高的贡献度；而对于非认证用户，也就是微博中的普通用户，其活跃度主要取决于微博社交的参与程度，也就是发布微博的频率。

用户权重与排序评估

根据公式(14)，用户权重由用户影响力与用户活跃度加权构成，参数λ用来调节这两部分权重数值上的平衡。本发明通过计算用户平均影响力数值与活跃度数值来确定λ的取值。在计算中，为了保证统计数据的客观性，我们去除了排名前5％的与后15％的用户，λ的取值由公式(16)定义。

λ = \overset{&OverBar;}{W_{i}} / \overset{&OverBar;}{W_{a}} - - - (16)

在本发明的样本数据中，的计算结果为841.0041，的计算结果为187.6926，因此在权重计算中，λ的取值被设定为4.5，最终，本发明作者的排名前10的粉丝信息如表4所示，排名前10的好友信息如表5所示。

表4用户粉丝排名

表5用户好友排名

如表4所示，在本发明作者排名前10的粉丝中，有4名用户为非新浪微博认证用户，排名前20的粉丝中，有10名用户为非认证用户。排名前10的好友信息如表5所示，所有用户均为新浪微博认证用户，排名前20的好友用户中，有18名为新浪微博认证用户。作者排名前10的粉丝与好友信息均可以通过新浪微博的官方应用查看结果，相比两套算法，因为设计上的差异导致用户权重数量级的差别，所以这里我们只比较用户的排序。在两套算法中，用户的权重分数均是以天为单位不断更新，因此我们连续10天收集新浪微博官方应用返回的用户好友与粉丝排名情况。在这10天的数据中，只有14位不同的用户先后进入过作者10大好友用户排行榜，而进入作者粉丝用户10大排行榜的达到34位用户。这个现象说明了拥有较高权威性的用户(主要存在与作者好友列表中)，其权重主要源自用户自身的影响力水平，通常可以保持一个相对稳定的权重得分；而普通用户(主要存在于作者粉丝列表中)的权重得分在很大一方面取决于用户最近一段时间的微博活动参与度与微博质量，因此会有较大的变动。

测试中引入查全率与准确率这两个概念来验证本发明设计算法的合理性。这里假设新浪微博官方应用给出的用户排名顺数是合理有效的。下述试验以排名前n位的用户信息进行测试。

recall＝U_top∩U_10days/U_10days (17)

precision＝U_top∩U_10days/U_top (18)

查全率表示本发明设计算法在最近10天中所找出的排名前n位用户，在官方应用所出现用户中的比例，如公式(17)。准确率表示本发明设计算法中，正确找出官方应用列表出现用户的比例，如公式(18)。在测试中，对于作者好友样本集的查全率与准确率，n设置为15进行计算；对于作者粉丝样本集的查全率与准确率，n设置为40进行计算。通常来说，当查全率越高时准确率会越低，反之亦然，因此n的取值不改变测试结果性质。表6为试验结果。

表6查全率与准确率

算法整体评估与分析

本发明测试环境为基于JAVA的应用程序，在数据挖掘过程中同时使用8套access token与配套access secret进行新浪微博数据抓取。测试中第一次爬行收集了508位用户信息，通过第二次爬行收集了这508位用户对应的226,341位粉丝用户信息，同时程序还收集了这508位用户最近发布的73,748条微博信息，与这些微博对应的435,963条评论信息。受于API的限制，程序在抓取过程中需要依靠线程来控制抓取频率，每执行一次特定API查询之后，程序都要根据API的种类不同休眠特定的时间。假如API使用没有限制或者API的使用得到新浪微博的官方高级授权，那么数据抓取将变得极其便捷。因此计算程序整体运行时间将不再考虑数据抓取的过程。

在之前的研究中，我们利用HITS算法对用户权重进行迭代计算，对于网络中的344,894位用户，程序消耗超过13小时使得运算结果达到收敛，于是用同样的程序逻辑模拟本试验的508+226,341(忽略两次用户搜索中的重复用户)位用户，大约需要8小时达到收敛。当改进HITS算法应用在微博用户影响力权重计算中时，即公式(7)，计算用户好友关系交互指数为最耗时的运算，即公式(8)。本发明最后利用创建微博评论信息中的用户ID索引，优化传统的数据库查询算法，于是大大提升了程序的运行效率，最终将整体运算时间控制在21分钟之内，也就是平均2.4秒完成一个用户的所有权重分析计算。从而使本发明设计的用户权重排序算法可以被分布式应用在即时的微博网络平台上。

表7三种计算方法时间消耗对比

最后一个需要讨论的问题是用户权重数值随时间的波动是否应当控制在一个合理的范围内。本发明认为，一个用户的权重不应该仅仅因为用户行为的不同，在连续2天发生较大的变化。为了验证这个问题，本发明选取了5位用户进行测试。这5位均为连续10天出现在新浪微博官方应用中排名前10位的作者好友名单中的用户，以便将两种算法测试结果进行比对。(注：新浪微博官方应用只显示作者好友和粉丝中排名前10位的用户。)图8为权重变化比较结果图，从图中可以看出本发明设计的算法相比新浪微博官方应用中用户排序算法具有更高的稳定性。公式(19)量化了用户权重在连续10天中的变化率，其中W为用户权重，等号右边分子为样本数据标准差。表8最终显示出用户权重的变化率，从数据能够看出，本发明设计的新浪微博排序算法具有更高的合理性。

r = \sqrt{\frac{Σ_{i = 1}^{n} {(W_{i} - \overset{&OverBar;}{W})}^{2}}{n - 1}} / \overset{&OverBar;}{W} - - - (19)

表8用户权重变化率

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些具体实施方式仅是举例说明，本领域的技术人员在不脱离本发明的原理和实质的情况下，可以对上述方法和系统的细节进行各种省略、替换和改变。例如，合并上述方法步骤，从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此，本发明的范围仅由所附权利要求书限定。

Claims

1.一种基于新浪微博的用户等级排序方法，其特征在于：包括如下步骤：

a、抓取新浪微博中的实时数据；

c、建立用户等级排序中用户影响力参考模型：

C_{i, j} = β \cdot {| \frac{R_{j, i}}{T_{i}}, \frac{{Rt}_{j, i} + M_{j, i}}{T_{j}} |}_{MEAN}

W_{i} = N_{f} + \underset{&ForAll; j, j &RightArrow; i}{Σ} (α C_{i, j} \cdot \frac{F_{j}}{n_{j}})

a = \{\begin{matrix} 1 & (N_{j} \leq T_{i} \cdot N_{i}) \\ \overset{&OverBar;}{F_{j, (f - 1)}} / \overset{&OverBar;}{F_{j, f}} & (N_{j} > T_{i} \cdot N_{i}) \end{matrix}

其中C_i,j为用户i与i的粉丝用户j之间的用户好友关系交互指数；T_i与T_j分别代表用户i与用户j最新发布的若干条微博数量；R_j,i为用户j对于用户i微博的评论次数；Rt_j,i与M_j,i分别代表用户j转发与用户i的微博次数；式中系数β为一个正整数用来线性放大用户j对于用户i交互指数的影响；N_i、N_j分别为用户i与用户j粉丝数量；n_j为用户j的好友数量；为用户粉丝的平均粉丝拥有数；表示该用户除去粉丝j后的粉丝平均粉丝拥有数；因此α的取值为(0,1]，这样，当用户i存在一个极大权重的粉丝j时，参数α将用来调节高权重粉丝对于某一个用户的影响；其中F_j表示用户j的粉丝数量，其中N_f为用户粉丝数量；

d、建立用户等级排序中用户活跃度参考模型：

W_{a} = (r_{re} + r_{rt}) \cdot \underset{t &Element; 15 days}{Σ} (T_{t} + R t_{t} + M_{t})

用户活跃度特征由用户近期15天内发布的微博数量T_t、转发数量Rt_t与提及()数量M_t加权构成；考虑用户参与微博交互活动的参与质量，r_re与r_rt分别表示用户历史微博信息的平均回复率与平均转发率，避免一个广告用户或者恶意发送消息用户对于用户活跃度特征判定的影响；

e、通过用户影响力与用户活跃度模型加权获得用户权重计算模型，利用该模型实现新浪微博用户等级排序：W＝W_i+λ·W_a

其中W为新浪微博用户权重，用户权重由用户影响力W_i与用户活跃度W_a加权构成，参数λ用来调节这两部分权重数值上的平衡。

2.如权利要求1所述的基于新浪微博的用户等级排序方法，其特征在于：步骤a中所述的抓取新浪微博中的实时数据过程为：

a1、利用新浪微博开放API接口抓取新浪微博实时数据；

3.如权利要求1所述的基于新浪微博的用户等级排序方法，其特征在于：步骤b中所述的分析确定新浪微博中影响用户等级排序的制约因素包括以下步骤：

b1、判断用户粉丝数量与用户微博影响力关系；

b2、分析用户微博影响力随时间的演化规律；

b3、分析用户的微博回复与转发关系；

b4、判断用户好友数量与用户微博影响力的关系。