CN103136330A

CN103136330A - 基于微博平台的用户可信度评估方法

Info

Publication number: CN103136330A
Application number: CN2013100014635A
Authority: CN
Inventors: 李石君; 王峰; 余伟; 甘琳; 杨莎; 王俊; 刘晶; 丁永刚
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2013-01-04
Filing date: 2013-01-04
Publication date: 2013-06-05
Anticipated expiration: 2033-01-04
Also published as: CN103136330B

Abstract

本发明是一种基于微博平台的用户可信度评估方法，基于全球著名的微博平台，如Twitter,新浪微博，腾讯微博等，针对信息可信度进行研究，提出采用用户可信度评估模型来评估用户的可信度，为全球的微博用户识别微博平台上海量信息的真伪提供了关键性的理论依据以供同行参考，并提出了重要的应用价值供广大微博用户运用。本方法可广泛应用于微博平台上的信息可信度评估方面，主要包括微博平台上的用户可信度，主题专家的探测，广告投放效果的实际价值等等，在一定程度上为微博用户在信息化时代准确的识别微博上海量信息的真伪奠定了重要的基础。

Description

基于微博平台的用户可信度评估方法

技术领域

本发明属于信息可信度的研究范畴，特别涉及的研究领域包括微博平台上的用户可信度。

背景技术

基于全球著名的微博平台Twitter和新浪微博等微博平台上的可信度研究是一个新兴的研究领域，涉及的研究领域包括微博平台上的用户可信度，评论可信度，事件可信度，主题专家的探测，广告投放效果的实际价值等一切跟微博平台上的信息可信度相关的技术领域。该领域涉及到的主要研究对象，关键技术和实际应用价值主要包括：

微博上的主题专家搜索：Saptarshi Ghosh等人利用众包的智慧设计出了一套取名为Cognos的系统，该系统能够找出Twitter上的主题专家。他们在建立专家搜索系统之前，提取了包含在众包列表中的信息，信息包括三部分：1.建立Twitter用户众包列表；2.挖掘元数据以推断单个Twitter用户的主题经验；3.给一个查询主题，按用户相对经验值排序，把跟查询匹配的主题专家按照排序输出；因为Twitter作为一个广泛受欢迎的系统，能够发掘网络上的实时信息，众包列表的思想在该文中为Twitter上将来的内容搜索，推荐和发现服务建立了有价值的基础。该文中同时还提到了当前基于列表的方法对于网络垃圾而言是脆弱的，即恶意用户能够创建伪造列表，这些伪造列表包括一个目标用户对用户推断属性的操控。迄今为止，虽然没有找到这类攻击的证据，然而这类攻击在不久的将来很容易发动起来。这类攻击的防御方法就要求考虑创建列表的用户的信誉。

Twitter上评估事件可信度：Manish Gupta等人研究出了与用户和微博相关的一系列事件可信度自动评估的问题，提出了一套基于事件图优化的可信度分析方法。首先在由事件，微博和用户组成的多类型网络上实施类Page-Rank可信度传播实验，然后在每一次的迭代中通过一个新事件图的规范化更新事件的可信度得分，从而加强基本的信任分析。该文的主要贡献在于：1.为了计算Twitter事件的可信度，提出了BasicCA方法，该方法为多类型网络上权威的传播运用类Page-Rank迭代，这种多类型网络由事件，微博和用户组成。2.提出了EventOptCA算法在每次迭代过程中构建事件图，利用相似事件应该具有相似的可信度得分的直觉加强事件可信度的值。3.利用从两大数据集中提取的457个新闻事件证明了本文中提到方法的比基于分类器特征方法的准确性更高。

Twitter上以实体为中心主题导向的观点概括：诸如Twitter一类的微博服务已经变成人们在一个大范围的主题上表达自己观点的大众渠道。Twitter平台每分钟都承载着包含用户情感和态度的大量信息。观点的自动概括和给概括系统构成的巨大挑战同样都迫切需要。Xinfan Meng等人在论文中研究了Twitter平台上的名人，商标等实体的观点概括问题。该文中提出了一种以实体为中心的主题导向的观点概括框架，目的是产生跟主题一致的观点概括和显著强调观点背后的洞察力。为了达到这个目标，首先从Twitter上的标签，带人为注解的情感标签中挖掘主题。把标签作为弱监督信息集成到主题模型算法中以获取更好的解释和表示，用于计算标签间的相似度，采用近邻传播聚类算法把标签分组成连贯的主题。之后，采用目标依赖情感分类方法识别给定消息目标的观点。最终，观点概括在一个统一的优化框架中通过来自于主题，观点和洞察力等其他因素的集成信息产生。通过真实数据集上的扩展实验评估个人观点概括模块的性能和产生的概要信息的质量。实验结果表明了所提框架和算法的有效性。

Twitter开放域的事件抽取：Twitter消息是最新的，包含了事件的信息流和评论流，但它们又同样是支离破碎，充满杂质的，这样就刺激了抽取，聚类重要事件系统的需求。之前关于抽取事件的结构化表示的工作大部分都关注于新闻专线文本。Twitter独特的特征给开放域事件抽取带来了一种新的挑战和机遇。Alan Ritter等人在文中提出了TWICAL,它是Twitter平台上的第一个开放域事件抽取和分类系统。来自于Twitter的重要事件开放域日程表的精确抽取是切实可行的。

概括和分析Twitter消息的框架：通过社交网络上的用户和诸如Facebook和Twitter上的微博网址产生的数据量是巨大的。这些数据的实时分析是一个挑战，当前大多数都关注于当前产生数据的有效率查询和检索。XintianYang等人在论文中提出了一种有效的流概括框架，该框架能够递增式的建立Twitter消息流的概要。并且提出了一种算法来压缩Twitter消息，该消息具有压缩率低，质量高和运行时间短的特点。

Twitter上的特定主题可信度建模：Byungkyu Kang等人在论文中展现和评估了三种计算模型，用于推荐Twitter上可信赖的特定主题信息。第一个模型关注用户层次的可信度，在潜在的社交图中管理各种动态的信息流用于计算可信度等级。第二个模型应用基于内容的策略针对单个的微博消息计算粒度可信度得分。第三个模型是两种模型结合面的混合方法，同时采用了求均值和过滤的混合策略。

Twitter平台上紧急情况下的信息可信度：Twitter在快速信息传播方面展现出了它最巨大的影响力。之前的研究表明大多数微博信息的发布是值得信赖的，但是因为一些人在Twitter上发布了紧急情况下的谣言和垃圾信息，舆论导向就会因此而误导甚至于引发暴动。X.Xia 等人在论文中提出了一种在线Twitter监测模型。在这个监督模型中提出了一套非监督性学习算法用于探测突发性事件。然后人为的把数据分为可信和不可信两类。然后提取和用户的社会行为，消息内容，消息主题和消息传播相关的特征。文中利用学习贝叶斯网络的监督性方法来预测紧急情况下的消息可信度。

Twitter上新闻内容可信度度量：Hend S.Al-Khalifa等人在论文中开发一套能衡量Twitter上发布的新闻内容的可信度系统采用两种方法给每条微博消息指定可信度层次。第一种方法是基于Twitter消息和真实新闻源的相似性的。第二种方法是基于一系列已验证的新闻源的，这些新闻源不包括一系列提出的特征。

Twitter上的信息可信度：通过Twitter分析新闻传播的信息可信度是一种广受欢迎的微博服务。之前的研究表明Twitter上大多数发布的消息还是值得信赖的，但是微博服务也通常被用来传播错误信息和假的谣言。该文主要关注于评估指定的消息集的自动评估方法。特别是分析跟主题相关的微博的可信与否及其特征的提取。利用来自于用户发布和转发微博的行为，来自于发布微博的文本，来自于外部源的引用等特征。

Twitter上度量阿拉伯文本的可信度：当前自动度量网络内容的可信度的研究，如文本和多媒体已经涉及到了许多种语言，但没有一种语言是关于阿拉伯语网络内容的可信度度量的。Rasha M.BinSultan Al-Eidan等人在该文中展示了一种自动度量发布在Twitter上指定新闻区域内的阿拉伯语写的内容的可信度（一种微博服务）。该工具基于两种方法，第一种方法是基于Twitter消息和真实新闻源的相似性的。第二种方法是基于一系列已经提出的特征中，有一部分已验证内容的相似性。

在线信息可信度判断：为了更好的支持老年人在互联网上高质量健康信息的消费，理解老年人是怎样做在线健康信息判断是很重要的，为了做到这一点，Q.Vera Liao等人在论文中提到了两次实验研究来探索消息内容，网址特征，和用户评论的可信度线索在不同程度上是怎样影响年轻人和老年人的可信度判断的。文中的第一个实验表明了跟年轻人相比，老年人对消息内容和网址特征的可信度线索更缺乏敏感；第二个实验表明，与消息内容中可信度线索一致的用户评论能够加强老年人的可信度判断。和年轻人相比，老年人似乎很少受到和消息内容不一致的用户评论的影响。

微博的可信度认知：Twitter现在被用来发布大量内容，例如爆炸式新闻，由此增加了评估微博消息可信度的重要性。由于用户越来越多的通过搜索来访问微博消息，和直接访问互联网相比，他们能用来做基本可信度判断的信息很少。Meredith Ringel Morris等人在该文中展示了关于用户的微博消息可信度感知的调查结果，并发现了特征用户考虑的和可信度评估相关的事情与当前搜索引擎揭示的不同之处。实验表明，用户就单独基于内容的可信赖判断是很弱的，相反当在做可信度评估的时候，用户会受到例如用户名等的启发式方法的影响。基于这些发现，微博消息的作者能够被用来加强他们与读者间的信赖程度。为了更好的表达可信度，对显示社交搜索结果进行了改进。

博客帖子的可信度：信息的可信度要参考它本身的可信度或者它的来源的可信度。

W．Weerkamp等人在该文中探索了关于博客帖子检索任务的启发式可信度指标，凭直觉来讲，越可信的博客帖子更受到研究者的青睐。基于之前引入的一个针对微博的可信度框架，把它们筛选为一些可信度指标，并把它们划分为发布层指标（例如拼写，时间性和文档长度）和博客层指标（例如，规则性，专业知识和评论）。假设启发式可信度指标的使用会积极的影响准确率。该文中提出采用从重排方法中的可信度框架到博客发布检索问题的思想，介绍了两种初始化运行的Topn重排的简单方法。第一种方法是启发式可信度重排，简单的重排基于启发式可信度得分这一标准的Topn。第二种方法是合并重排，即把Topn结果的启发式可信度得分乘以Topn结果的检索得分，然后基于相乘结果的得分重新排序。实验结果表明，启发式重排比合并重排有更大的改进，然而在已有强标准的基础上两种方法都有所改进。对于启发式重排来说最佳性能是把所有发布层指标结合起来。采用发布层指标结合评论和代词时，连接重排运行最佳。，虽然博客层指标（专业知识，规则性和连贯性）对性能没有什么积极的贡献，但是分析表明这些指标对某种主题是有用的。

在线新闻的可信度：C.Joo Chung等人在该研究中调查了一系列对在线新闻来源的三个类别的可信度感知有贡献的传统的和技术性的指标。这些来源包括主流网址，独立网址和索引类型的网址。然而可信度的传统维仍旧是有影响的，实验结果表明索引类在线新闻源的超文本特性是特别的重要，而多媒体特性和交互性并不影响可信度感知。

网络搜索结果的可信度判断：Y.Yamamoto等人在该文中提出了一套系统帮助用户判断网络搜索结果的可信度从而进一步能够搜索出可信的网页。常规的网络搜索引擎仅仅只展示标题，网页片段和URLs链接给用户，几乎不给出判断网络搜索结果的可信度线索。此外，常规搜索引擎的排序算法通常都是基于网页相关性和网页受欢迎程度的。而该系统能够提供给用户三方面功能：1.关于主要的可信度搜索结果的几个得分的计算和可视化；2.通过对网络搜索结果的用户可信度反馈而建立的用户可信度判断预测模型；3.基于用户预测可信度模型的网络搜索结果重排。实验结果表明，系统能够使用户，特别是对搜索主题有一定认识的用户，能够使他们从一系列的网络搜索结果中找出可信的网页，而且查找效率比常规网络搜索接口效率还要高。

可信度管理：对等应用被用在互联网上的共享用户生成内容中。对于用户生成内容有重大需求以此来分析可信度和质量。通过分析用户的反馈，针对来源于内容项目的可信度提出了一系列方案，其中大多数采用去中心化计算和半去中心化的方法。Y.Liao等人在该文中提出了P2P方案：得分树。它是针对每个感兴趣的内容项，通过聚合分布式评估和发布可信度评估，去中心化的一种相对复杂的可信度管理算法。

社交网络中的平衡原理：社交网络中的平衡原理如图2所示，“+”表示信任，“—”表示不信任。该原理的主要思想如下：

图2(a)中表明，用户a和用户b之间相互信任，用户b和用户c之间相互信任，则可以推导出用户a和用户c之间相互信任。

图2(b)中表明，用户a和用户b之间相互不信任，用户b和用户c之间相互不信任，则可以推导出用户a和用户c之间相互不信任。

图2(c)中表明，用户a和用户b之间相互不信任，用户a和用户c之间相互不信任，则可以推导出用户b和用户c之间相互信任。

图2(d)中表明，用户a和用户b之间相互信任，用户a和用户c之间相互信任，则可以推导出用户b和用户c之间相互不信任。

从该原理的基本思想分析可以得出，显然图2(a)和图2(b)的推导过程在通常情况下是成立的，而图2(c)和图2(d)的推导过程则不一定是成立的了，所以，图2(a)和图2(b)显示的这种社交网络结构通常意义上来讲是一种稳定的社交网络结构，而图2(c)和图2(d)则不一定是一种稳定的社交网络结构。该原理同样可以运用到微博平台的用户可信度进行研究，即用户a对用户b的可信度高，用户a对用户c的可信度高,则用户b对用户c的可信度高；用户a对用户b的可信度低，用户a对用户c的可信度低,则用户b对用户c的可信度低。

新浪微博由新浪公司于2009年8月创办，是中国最大的门户网站，像用户提供了一系列微博服务。据新浪新闻发布的最新消息，新浪微博迄今为止注册用户已突破三亿人，多于一半的用户使用手机终端登录微博，一天产生的微博数总量多达一亿条。注册用户可以通过网页，WAP页，短信和彩信等途径发布信息和上传图片。一句话或者一张图片可以通过电脑或者手机随时随地的发布，并且可以随时随地的和朋友们探讨话题和共享资源。新浪微博自2009年成立以来，获得了社会各界的热烈欢迎和广泛关注，截止2010年时注册用户总数就达到了5000万，但是在当时的5000万用户中，并不是所以用户都是值得信任的，因此新浪微博在微博社区管理中心制定了一系列可信度考核规则，但是这些规则中也不乏存在漏洞。一个重大的纰漏就是用户可信度排序问题。大多数有名的方法大多引入社会地位和用户资料完整度等信息，但是似乎并不能完全肯定一个社会地位高的名人或者一个用户资料非常完整的用户就一定是一个值得信赖的用户，事实上上述两种因素仅仅只是片面的衡量和考察了用户的可信度，为了说明新浪微博在微博社区管理中心制定的可信度考核规则的纰漏，我们举出了下面的例子加以说明：

例如一个没有很多粉丝的草根用户发了一条轰动性的含有爆炸新闻的微博，一时之间引发了微博上的热议。这个草根用户的其中一个名人用户看到了这则爆炸新闻在没考证这条新闻真伪性的前提下转发了这条微博，并由这个名人的其它粉丝以爆炸性的速度迅速转发，后经证实该条微博是一条假新闻，按照新浪微博微博管理社区的奖惩规则，凡是转发了虚假新闻的用户超过一定条数的都要被扣除一定的可信度分数，这下奖惩规则的漏洞就出来了，正是由于转发的行为是一种单向的被动行为，假新闻的发起者被扣除再多的分值也是理所当然，但是若干名人的得分也会因此而受到牵连，原因很简单，因为名人的粉丝数通常都很大，那么微博的转发量也相应就会很大，名人可以控制自己是否转发别人的微博，但是他们却没有办法控制他们的粉丝去转发自己的微博，由于名人粉丝数的庞大导致了转发量的巨大，从而导致自己要和微博的发起者扣除差不多的分值，显然奖惩规则的扣分依据微博上的这种被动转发行为是非常不合理的。

并不是所有的微博注册用户都是值得信任的，事实上可以根据他们的可信度得分根据他们是否发布虚假信息在不断的变化。另外，评估用户的可信度也有利于发现微博上某个领域的话题专家，正是由于话题专家可以被认为是某个领域的权威，因而他们说的话的可信度才高，否则不是话题专家的话，他们表达的信息的可信度就必然很低。

因此，针对全球著名的微博平台上的可信度研究正处于一个新兴的时期的事实，基于各种微博平台下的可信度研究还没有真正的建立起来。

参考文献：

[1]Saptarshi Ghosh,Naveen Sharma,Fabricio Benevenuto.Cognos:Crowd-sourcing Search for Topic Experts in Micro-blogs.SIGIR2012:575-584.

[2]Manish Gupta,Peixiang Zhao,Jiawei Han.Evaluation Event Credibility on Twitter.SDM 153-164.

[3]X.Meng,F.Wei,X.Liu,M.Zhou,S.Li,H.Wang.Entity-Centric Topic-Oriented Opinion Summarization in Twitter.KDD,2012:379-387.

[4]Alan Ritter,Mausam,Oren Etzioni.Open Domain Event Extraction from Twitter.KDD,2012:1104-1112.

[5]Xintian Yang,Amol Ghoting,Yiye Ruan.A Framework for Summarizing and Analyzing Twitter Feeds.KDD,2012:370-378.

[6]Byungkyu Kang,John O’Donovan,Tobiad

ModelingTopic Specific Credibility in Twitter.IUI,2012:179-188.

[7]X.Xia et al.Information Credibility on Twitter in Emergency Situation.PAISI,2012:45-59.

[8]Hend S.Al-Khalifa,Rasha M.Al-Eidan.An experimental system for measuring the credibility of news content in Twitter.International Journal of Web Information Systems(IJWIS),Vol.7No.2,2011pp.130-151.

[9]Carlos Castillo,Marcelo Mendoza,Barbara Poblete.Information Credibility on Twitter.WWW,2011:675-684.

[10]Rasha M.BinSultan Al-Eidan,Rend S.Al-Khalif a and AbdulMalik S.AI-Salman.Measuring The Credibility ofArabic Text Content in Twitter.ICDIM,2010:285-291.

[11]Q.Vera Liao&Wai-Tat Fu.Age Differences in Credibility Judgment of Online Health Information.IHI,2012:353-362.

[12]M.Ringel Morris,S.Counts,A.Roseway，A.Hoff，J.Schwarz.Tweeting is Believing?Understanding Micro-blog Credibility Perceptions.CSCW，2012:441-450.

[13]W.Weerkamp&M.de Rijke.Credibility-inspired rankingfor blog post retrieval.Information Retrieval For Social Media.2012,Vol15:243-277.

[14]C.Joo Chung,Y.Nam,M.A.Stefanone.Exploring Online News Credibility:The Relative Influence of Traditional and Technological Factors.Journal of Computer-Mediated Communication[J].2012,Vol17:171-186.

[15]Y.Yamamoto,K.Tanaka.Enhancing Credibility Judgment of Web Search Results.CHI.2011,1235-1244.

[16]Y.Liao,A.Harwood,K.Ramamohanarao.Score-Tree:A De-centralised Framework for Credibility Management of User-Generated Content.DAIS2011,LNCS6723,pp.249-256.

发明内容

针对现有技术的缺陷，本发明提出了一种基于微博平台的用户可信度评估方法。

本发明的技术方案一种基于微博平台的用户可信度评估方法，设微博平台共有n个用户，设其中任一用户i为待评估的用户，用户i以外的n-1个用户任一记为用户j，采用以下用户可信度评估模型来评估用户的可信度，

UserRank - Total = 1 - f + f \times {\underset{j = 1,}{Σ}}_{j &NotEqual; i}^{n} \lg \frac{UserRank (j)}{| UserRank (j) - UserRank (i) |} - - - (1)

在上述表达式中，UserRank(j)表示用户j的用户可信度得分，UserRank(i)表示用户i的用户可信度得分，UserRank-Total表示用户i的最终可信度；

权重值f计算采用的公式如下，

f = \frac{UserRank (i)}{Max [UserRank (j)]}, (j = 1 . . . n) - - - (2)

Max[UserRank(j)]为微博平台n个用户的用户可信度得分最大值；

任一用户的用户可信度UserRank计算采用的模型如下，

UserRank＝(Tw,Fr,Fo,Fa,Bf) (3)

其中，UserRank为Tw、Fr、Fo、Fa和Bf这五个分量的加权和，这五个分量是用户的微博数、用户的粉丝数、用户的关注数、用户的收藏数、用户的互粉数的相应得分。

而且，某用户i的微博数的相应得分的计算方法如下，

Tw (i) = 1 - a + a \times {\underset{j = 1,}{Σ}}_{j &NotEqual; i}^{n} \lg \frac{{Tw}_{j}}{| {Tw}_{j} - {Tw}_{i} |} - - - (4)

其中，

a = \frac{T_{j}}{Max [T_{j}]}, (j = 1 . . . n) .

而且，某用户i的粉丝数的相应得分的计算方法如下，

Fr (i) = 1 - b + b \times {\underset{j = 1,}{Σ}}_{j &NotEqual; i}^{n} \lg \frac{{Fr}_{j}}{| {Fr}_{j} - {Fr}_{i} |} - - - (5)

其中，

b = \frac{{Fr}_{j}}{Max [{Fr}_{j}]}, (j = 1 . . . n) .

而且，某用户i的关注数的相应得分的计算方法如下，

Fo (i) = 1 - c + c \times {\underset{j = 1,}{Σ}}_{j &NotEqual; i}^{n} \lg \frac{{Fo}_{j}}{| {Fo}_{j} - {Fo}_{i} |} - - - (6)

其中，

c = \frac{{Fr}_{j}}{Max [{Fr}_{j}]}, (j = 1 . . . n) .

而且，某用户i的收藏数的相应得分的计算方法如下，

Fa (i) = 1 - d + d \times {\underset{j = 1,}{Σ}}_{j &NotEqual; i}^{n} \lg \frac{{Fa}_{j}}{| {Fa}_{j} - {Fa}_{i} |} - - - (7)

其中，

d = \frac{{Fr}_{j}}{Max [{Fr}_{j}]}, (j = 1 . . . n) .

而且，某用户i的互粉数的相应得分的计算方法如下，

Bf (i) = 1 - e + e \times {\underset{j = 1,}{Σ}}_{j &NotEqual; i}^{n} \lg \frac{{Bf}_{j}}{| {Bf}_{j} - {Bf}_{i} |} - - - (8)

其中，

e = \frac{{Bf}_{j}}{Max [{Bf}_{j}]}, (j = 1 . . . n) .

本发明基于全球著名的微博平台，如Twitter，新浪微博，腾讯微博等，针对信息可信度进行研究，提出了微博平台上的用户可信度研究模型及其算法。本方法可广泛应用于微博平台上的信息可信度评估方面，主要包括微博平台上的用户可信度，主题专家的探测，广告投放效果的实际价值等等，在一定程度上为微博用户在信息化时代准确的识别微博上海量信息的真伪奠定了重要的基础。

附图说明

图1是信息可信度的应用原理图。

图2是社交网络中的平衡原理示意图，其中图2(a)、图2(b)、图2(c)、图2(d)分别为四种情况的示意图。

图3是本发明实施例的用户可信度运用场景示例图。

具体实施方式

如图1所示，本发明基于微博平台研究信息可信度，信息可信度包括用户可信度、评论可信度、事件可信度，基于评估模型和评估算法可以得到可信度评估结果，用于主题专家探测、广告投放效用、僵尸用户探测、民众舆论导向、恶意用户探测、垃圾信息清理、事件真相揭露等。本发明针对用户可信度提供评估技术方案，具体实施时可采用计算机软件技术实现自动运行。

如图3所示，由草根用户发布了一条很具有诱惑性的爆炸性新闻，例如某地房子的房价大幅度下滑。某名人正好是该草根用户的其中一个粉丝，他觉得这条微博能给自己的微博带来更多的人气或者其它什么原因，总之在不知情的情况下转发了这条爆炸性新闻，由于名人用户的粉丝量本来就很大（粉丝1、粉丝2、粉丝3…），因此该条爆炸性新闻必然会以几何级数的方式传播出去，经过一段时间之后，等到这条新闻得到证实为虚假新闻之后，根据现行的新浪微博管理中心的官方惩处办法，必然会对传播该虚假微博流的一干人等一一加以惩处，该微博的罪魁祸首，即发起者被严重惩处自是理所当然，但是他却连累了转发他微博的名人用户，跟着他得到了相同的惩处，显然这种一竿子打死一船人的惩处规则是不合理的。

以下结合附图和实施例详细说明本发明技术方案。

本发明提出如下几点假设：

1.权威用户或者主题专家比一般用户拥有更高可信度得分的可能性要大一些；

2.一般来说，特征相似的注册用户的可信度得分应该相差无几；

3.拥有高可信度得分的用户比拥有低可信度得分的用户的可信度要高，用户可信度得分为正的用户比用户可信度为负的用户的可信度要高；

在提出评估模型之前，必须从微博用户可信度这一实际问题中尽可能准确的提取一些特征向量的加以刻画和描述问题；因此，首先必须提出一些基本概念：

用户可信度：用户可信度是用来描述和刻画微博用户可信赖程度的。一个高可信度用户与其它一般用户相比，具有更高的可信度得分和更多的粉丝，因而比那些粉丝数少的用户更值得信赖。例如，世界著名作家莫言获得了2012年度诺贝尔文学奖，他就理所当然的应该拥有更高的用户可信度。他是中国的公众人物，在文学领域是著名的专家，因而他必然在文学领域有很多对他的文学作品感兴趣的粉丝。因此，绝大多数微博用户都会认为莫言是一个高可信度的人。因此，实施例提出以下用户可信度评估模型来评估用户的可信度：

UserRank - Total = 1 - f + f \times {\underset{j = 1,}{Σ}}_{j &NotEqual; i}^{n} \lg \frac{UserRank (j)}{| UserRank (j) - UserRank (i) |} - - - (1)

其中，设微博平台共有n个用户，设其中任一用户i为待评估的用户，i的取值范围为1,2…n，用户i以外的n-1个用户任一记为用户j，则j＝1…n,j≠i，UserRank(j)表示用户j的用户可信度得分，UserRank(i)表示用户i的用户可信度得分。

在上述表达式中，UserRank-Total用来表示用户i的最终可信度。UserRank-Total由其它n-1个用户的User-Rank值计算得到。跟Page-Rank值相类似的，用户可信度得分User-Rank值事实上也是一个得分值。得分的高低意味着用户的可信度是高还是低。总分包括两部分，一部分是用户自评估得分，另一部分是用户互评估得分。这种思想是一种类似于Page-Rank（页面排序）算法的思想。在上述表达式1中，权重值f可以由下面列出的公式2随机的计算出来。

f = \frac{UserRank (i)}{Max [UserRank (j)]}, (j = 1 . . . n) - - - (2)

从上述表达式中可以看出，权重f等于待评估的用户i的User-Rank值与所有用户的User-Rank值最大值Max[UserRank(j)]的比值，此处将微博平台的n个用户任一记为用户j，j＝1...n。假定User-Rank值和五个因素有关，这五个相关因素称之为五个特征分量，它们分别是用户的微博数Tw，用户的粉丝数Fr，用户的关注数Fo，用户的收藏数Fa，用户的互粉数Bf。然后求这五个特征分量值的和。User-Rank模型如下：

UserRank＝(Tw,Fr,Fo,Fa,Bf) (3)

其中UserRank的计算方法为Tw、Fr、Fo、Fa和Bf这五个分量的加权和，这五个分量分别是Tweets、Friends、Followers、Favorites和Bi-Followers的字母缩写。微博平台的任一用户i的User-Rank值五个分量的计算方法如下：

Tw (i) = 1 - a + a \times {\underset{j = 1,}{Σ}}_{j &NotEqual; i}^{n} \lg \frac{{Tw}_{j}}{| {Tw}_{j} - {Tw}_{i} |} - - - (4)

a为微博数算子，Tw_j为用户j的微博数，Tw_i为用户i的微博数。

上述公式（4）用来计算某用户微博数的类Page-Rank得分，即用户的微博数分量Tw(i)。主要用于说明微博数多的用户对该用户关注后，对该用户的贡献较大，则该用户的Page-Rank得分就越高，而相反的是微博数少的用户对该用户关注后，对该用户的贡献较小，则该用户的Page-Rank得分就越低。

Fr (i) = 1 - b + b \times {\underset{j = 1,}{Σ}}_{j &NotEqual; i}^{n} \lg \frac{{Fr}_{j}}{| {Fr}_{j} - {Fr}_{i} |} - - - (5)

b为粉丝数算子，Fr_j为用户j的粉丝数，Fr_j为用户i的粉丝数。

上述公式（5）用来计算某用户粉丝数的类Page-Rank得分，即用户的粉丝数分量Fr(i)。主要用于说明粉丝数多的用户对该用户关注后，对该用户的贡献较大，则该用户的Page-Rank得分就越高，而相反的是粉丝数少的用户对该用户关注后，对该用户的贡献较小，则该用户的Page-Rank得分就越低。

Fo (i) = 1 - c + c \times {\underset{j = 1,}{Σ}}_{j &NotEqual; i}^{n} \lg \frac{{Fo}_{j}}{| {Fo}_{j} - {Fo}_{i} |} - - - (6)

c为关注数算子，Fo_j为用户j的关注数，Fo_i为用户i的关注数。

上述公式（6）用来计算某用户关注数的类Page-Rank得分，即用户的关注数分量Fo(i)。主要用于说明关注数多的用户对该用户关注后，对该用户的贡献较大，则该用户的Page-Rank得分就越高，而相反的是关注数少的用户对该用户关注后，对该用户的贡献较小，则该用户的Page-Rank得分就越低。

Fa (i) = 1 - d + d \times {\underset{j = 1,}{Σ}}_{j &NotEqual; i}^{n} \lg \frac{{Fa}_{j}}{| {Fa}_{j} - {Fa}_{i} |} - - - (7)

d为收藏数算子，Fa_j为用户j的收藏数，Fa_i为用户i的收藏数。

上述公式（7）用来计算某用户收藏数的类Page-Rank得分，即用户的收藏数分量Fa(i)。主要用于说明收藏数多的用户对该用户关注后，对该用户的贡献较大，则该用户的Page-Rank得分就越高，而相反的是收藏数少的用户对该用户关注后，对该用户的贡献较小，则该用户的Page-Rank得分就越低。

Bf (i) = 1 - e + e \times {\underset{j = 1,}{Σ}}_{j &NotEqual; i}^{n} \lg \frac{{Bf}_{j}}{| {Bf}_{j} - {Bf}_{i} |} - - - (8)

e为互粉数算子，Bf_i为用户j的互粉数，Bf_i为用户i的互粉数。

上述公式（8）用来计算某用户互粉数的类Page-Rank得分，即用户的互粉数分量Bf(i)。主要用于说明互粉数多的用户对该用户关注后，对该用户的贡献较大，则该用户的Page-Rank得分就越高，而相反的是互粉数少的用户对该用户关注后，对该用户的贡献较小，则该用户的Page-Rank得分就越低。

上述计算公式（4）-（8）中，除待评分的某用户i以外的n-1个用户任一记为用户j，j＝1…n,j≠i。

实施例的各算子计算如下：

a = \frac{T_{j}}{Max [T_{j}]},

b = \frac{{Fr}_{j}}{Max [{Fr}_{j}]},

c = \frac{{Fo}_{j}}{Max [{Fo}_{j}]},

d = \frac{{Fa}_{j}}{Max [{Fa}_{j}]},

e = \frac{{Bf}_{i}}{Max [{Bf}_{j}]}

(j＝1…n). (9)

其中，Max[T_j]、Max[Fr_j]、Max[Fo_j]、Max[Fa_j]、Max[Bf_j]分别表示所有用户的微博数、粉丝数、关注数、收藏数、互粉数最大值，此处将微博平台的n个用户任一记为用户j，j＝1...n。

由上述计算公式（4）-（9）得到UserRank(i)。可以看出，用五个分量的比值表征此五个分量的相对关系，用分量之间的差值关系表征各用户之间的各个分量之间的差距，差距越小的用户，表明该用户和待计算可信度用户之间的可信度差距越小，若该用户的可信度很大，则他给待计算可信度用户贡献的可信度分值就越大，从而用来表征可信度越大的用户关注的用户的可信度也越大，反之，可信度越小的用户则不会给待计算可信度用户的可信度分值贡献很多，用来表明被可信度低的用户关注的待计算可信度用户，并不会大幅提升待计算可信度用户的可信度分值，从而表明可信度低的用户关注的用户的可信度不会很高这个特点。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于微博平台的用户可信度评估方法，其特征在于：设微博平台共有n个用户，设其中任一用户i为待评估的用户，用户i以外的n-1个用户任一记为用户j，采用以下用户可信度评估模型来评估用户的可信度，

UserRank - Total = 1 - f + f \times {\underset{j = 1,}{Σ}}_{j &NotEqual; i}^{n} \lg \frac{UserRank (j)}{| UserRank (j) - UserRank (i) |} - - - (1)

权重值f计算采用的公式如下，

f = \frac{UserRank (i)}{Max [UserRank (j)]}, (j = 1 . . . n) - - - (2)

Max[UserRank(j)]为微博平台n个用户的用户可信度得分最大值；

任一用户的用户可信度UserRank计算采用的模型如下，

UserRank＝(Tw,Fr,Fo,Fa,Bf) (3)

2.如权利要求1所述的一种基于微博平台的用户可信度评估方法，其特征在于：某用户i的微博数的相应得分的计算方法如下，

Tw (i) = 1 - a + a \times {\underset{j = 1,}{Σ}}_{j &NotEqual; i}^{n} \lg \frac{{Tw}_{j}}{| {Tw}_{j} - {Tw}_{i} |} - - - (4)

其中，

a = \frac{T_{j}}{Max [T_{j}]}, (j = 1 . . . n) .

3.如权利要求1所述的一种基于微博平台的用户可信度评估方法，其特征在于：某用户i的粉丝数的相应得分的计算方法如下，

Fr (i) = 1 - b + b \times {\underset{j = 1,}{Σ}}_{j &NotEqual; i}^{n} \lg \frac{{Fr}_{j}}{| {Fr}_{j} - {Fr}_{i} |} - - - (5)

其中，

b = \frac{{Fr}_{j}}{Max [{Fr}_{j}]}, (j = 1 . . . n) .

4.如权利要求1所述的一种基于微博平台的用户可信度评估方法，其特征在于：某用户i的关注数的相应得分的计算方法如下，

Fo (i) = 1 - c + c \times {\underset{j = 1,}{Σ}}_{j &NotEqual; i}^{n} \lg \frac{{Fo}_{j}}{| {Fo}_{j} - {Fo}_{i} |} - - - (6)

其中，

c = \frac{{Fr}_{j}}{Max [{Fr}_{j}]}, (j = 1 . . . n) .

5.如权利要求1所述的一种基于微博平台的用户可信度评估方法，其特征在于：某用户i的收藏数的相应得分的计算方法如下，

Fa (i) = 1 - d + d \times {\underset{j = 1,}{Σ}}_{j &NotEqual; i}^{n} \lg \frac{{Fa}_{j}}{| {Fa}_{j} - {Fa}_{i} |} - - - (7)

其中，

d = \frac{{Fr}_{j}}{Max [{Fr}_{j}]}, (j = 1 . . . n) .

6.如权利要求1所述的一种基于微博平台的用户可信度评估方法，其特征在于：某用户i的互粉数的相应得分的计算方法如下，

Bf (i) = 1 - e + {e \times \underset{j = 1,}{Σ}}_{j &NotEqual; i}^{n} \lg \frac{{Bf}_{j}}{| {Bf}_{j} - {Bf}_{i} |} - - - (8)

其中，

e = \frac{{Bf}_{j}}{Max [{Bf}_{j}]}, (j = 1 . . . n) .