CN104657498B - 微博用户影响力的评估方法 - Google Patents

微博用户影响力的评估方法 Download PDF

Info

Publication number
CN104657498B
CN104657498B CN201510105466.2A CN201510105466A CN104657498B CN 104657498 B CN104657498 B CN 104657498B CN 201510105466 A CN201510105466 A CN 201510105466A CN 104657498 B CN104657498 B CN 104657498B
Authority
CN
China
Prior art keywords
micro
influence power
microblogging
blog information
forwarding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510105466.2A
Other languages
English (en)
Other versions
CN104657498A (zh
Inventor
胡文鹏
郑楠
戴汝为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201510105466.2A priority Critical patent/CN104657498B/zh
Publication of CN104657498A publication Critical patent/CN104657498A/zh
Application granted granted Critical
Publication of CN104657498B publication Critical patent/CN104657498B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供的微博用户影响力的评估方法,包括:从微博网站中获取微博信息,将所述微博信息进行处理,将处理的微博信息进行分类得到转发微博信息和原创微博信息;根据所述原创微博信息获取所述原创微博信息的影响力;根据所述转发微博信息获取所述转发微博信息的影响力;根据所述原创微博信息的影响力和所述转发微博信息的影响力获取微博用户的影响力;将所述微博用户的影响力通过函数拟合预测微博用户未来阶段的影响力。本发明可以准确地评估微博用户的影响力。

Description

微博用户影响力的评估方法
技术领域
本发明涉及信息过滤和数据挖掘技术领域,特别是涉及一种微博用户影响力的评估方法。
背景技术
公认的互联网三大应用是电子邮件、即时通讯和信息检索,社交网络的出现实现了三者的有机结合,并取得了巨大成功。近年来,微博的出现引起了人们极大的关注,它的发展将社交网络的应用推到了一个新的层次。
微博是一个基于用户之间关系的信息传播、分享以及获取的平台,用户可以通过WEB、WAP以及各种客户端组建个人社区。对于信息的即时交流和分享,微博更注重随意性和时效性,更能反映出时时的最新动态和思想。微博整合了博客、即时通信、电子邮件、移动终端等网络应用,是当下移动网络和互联网结合融合的集大成者。因此微博作为复杂的、全新的、庞大的且影响力广泛的网络服务平台,无论是对于网民、网络服务商还是网络管理者来说,如何更好的利用微博这一新兴事物是值得深思的问题。
用户影响力是微博用户在交互过程中表现出的一种重要特征,越来越多的用户倾向于通过影响力较高的用户,有选择的获取高质量信息。因此,发现和预测有影响力用户,有助于丰富和提高用户的浏览体验。微博用户的影响力还是微博数据利用的重要指标,它反映了数据传播集中于重要的用户。发现和预测有影响力用户,可以更好的引导舆论,更高效可靠的监管信息传播,更好的发挥微博的商业价值。
现有的技术是通过粉丝数量来表征微博用户的影响力,而忽略了微博用户影响力的其他组成部分,从而无法准确表征微博用户的影响力。
发明内容
本发明提供的微博用户影响力的评估方法,可以准确评估微博用户的影响力。
根据本发明的一方面,提供一种微博用户影响力的评估方法,包括:
从微博网站中获取微博信息,将所述微博信息进行处理,将处理的微博信息进行分类得到转发微博信息和原创微博信息;根据所述原创微博信息获取所述原创微博信息的影响力;根据所述转发微博信息获取所述转发微博信息的影响力;根据所述原创微博信息的影响力和所述转发微博信息的影响力获取微博用户的影响力;将所述微博用户的影响力通过函数拟合预测微博用户未来阶段的影响力。
本发明实施例提供的微博用户影响力的评估方法,通过原创微博信息的影响力和转发微博信息的影响力获取微博用户的影响力,从而准确评估微博用户的影响力。
附图说明
图1为本发明实施例提供的微博用户影响力的评估方法的流程图。
具体实施方式
本发明的总体构思是,通过原创微博信息的影响力和转发微博信息的影响力获取微博用户的影响力,从而准确评估微博用户的影响力。
下面结合附图对本发明实施例提供的微博用户影响力的评估方法进行详细描述。
图1为本发明实施例提供的微博用户影响力的评估方法的流程图。
参照图1,在步骤S101,从微博网站中获取微博信息,将所述微博信息进行处理,将处理的微博信息进行分类得到转发微博信息和原创微博信息。
这里,处理阶段主要包括网页内容信息的抓取和信息的抽取两个阶段,将所述微博信息进行处理包括:
所述微博信息根据统一资源定位符URL抓取网页内容信息;
根据所述网页内容信息中的链接信息逐级抓取网页信息;
将逐级抓取的网页信息通过网页模板格式和定义表达式进行抽取得到所述处理的微博信息。
在步骤S102,根据所述原创微博信息获取所述原创微博信息的影响力。
根据本发明的示例性实施例,所述根据所述原创微博信息获取所述原创微博信息的影响力包括:
从所述原创微博信息中进行提取得到第一微博属性信息和微博内容信息,所述第一微博属性信息包括第一用户粉丝数量、第一微博评论数量、第一微博转发数量;
根据所述第一微博评论数量和第一微博转发数量获取第一校正因子;
将所述微博内容信息进行词性标注,获取所述微博内容信息对应的词性的数量,通过多元线性回归对所述词性的数量及所述第一校正因子进行线性拟合得到拟合系数;
根据所述第一校正因子和所述拟合系数获取所述原创微博信息的影响力。
通过词性标注系统可以将微博的不同词性进行标注,并将微博分成不同的词条。词性标注的结果通过拟合,可以获得按照重要性词条排名,进一步需要根据选出前k个词条进行分析。选出词性数目最多的11种主要词性作为变量,使用前面所述的影响力大小的实际情况进行线性拟合,得出各个词性的加权系数。
具体地,微博用户的粉丝数较大,该用户发表的微博就有可能接受更多的认得评论以及转发,因此在微博内容影响力的评估中就会受到粉丝数的影响,片面的强调粉丝数的重要性,因此这里将转发数和评论数进行归一化处理。
转发数和评论数作为最直观反应用户原创微博重要性的指标,同样二者之间也存在着重要性的差异。用户对一条微博感兴趣,或者产生共鸣以后才会转发或者评论,而转发后会有更多人看到该微博,因此直观上看转发微博具有更大的重要性。
根据本发明的示例性实施例,所述根据所述第一微博评论数量和第一微博转发数量获取第一校正因子包括:
根据所述第一微博转发数量和第一微博评论数量通过层次分析方法分别获取第一微博转发数量权重和第一微博评论数量权重;
根据所述第一微博转发数量权重和第一微博评论数量权重获取第一校正因子。
这里,对微博关注数量、微博粉丝数量、微博转发数以及微博评论数进行评估,构成成对比较矩阵,具体如下:
由此得出转发数和评论数的权重比值c≈3.35。
根据本发明的示例性实施例,所述根据所述第一校正因子和所述拟合系数获取所述原创微博信息的影响力包括:
根据公式(1)计算原创微博信息的影响力:
其中,omi为所述原创微博信息的影响力,rep为所述微博转发数量,a、c为权重,com为所述微博评论数量,fol为所述用户粉丝数量,b为所述拟合系数。
在步骤S103,根据所述转发微博信息获取所述转发微博信息的影响力。
根据本发明的示例性实施例,所述根据所述转发微博信息获取所述转发微博信息的影响力包括:
从所述转发微博信息中进行提取得到第二微博属性信息,所述第二微博属性信息包括第二用户粉丝数量、第二微博评论数量、第二微博转发数量和第二用户关注数量;
根据所述第二微博评论数量和所述第二微博转发数量获取第二校正因子;
根据所述第二校正因子和转发率获取所述转发微博信息的影响力。
根据本发明的示例性实施例,所述根据所述第二微博评论数量和所述第二微博转发数量获取第二校正因子包括:
根据所述第二微博转发数量和第二微博评论数量通过层次分析方法分别获取第二微博转发数量权重和第二微博评论数量权重;
根据所述第二微博转发数量权重和第二微博评论数量权重获取第二校正因子。
这里,根据公式(2)计算校正因子,具体如下:
rmip=(rep×c+com)/fol (2)
其中,rep为微博转发数量,c为权重,约为3.35,com为微博评论数量,fol为微博粉丝数量。
根据本发明的示例性实施例,所述根据所述第二校正因子和转发率获取所述转发微博信息的影响力包括:
根据公式(3)计算所述转发微博信息的影响力:
rmi=rmip×(1+r) (3)
其中,rmi为所述转发微博信息的影响力,rmip为所述校正因子,r为所述转发率。
这里,转发微博的数量与用户的关注数量有直接的关系,关注数量越多的用户也就有机会接触更多的微博,因此转发的数量可能较大;有些用户很活跃,遇到任何有价值的微博都会转发,但是自己的关注数量很少,限制了此类用户转发微博的影响力。转发率是通过微博的转发数量与微博的关注数量的比值而获取的,因此各个用户的转发率各不相同。
在步骤S104,根据所述原创微博信息的影响力和所述转发微博信息的影响力获取微博用户的影响力。
根据本发明的示例性实施例,所述根据所述原创微博信息的影响力和所述转发微博信息的影响力获取微博用户的影响力包括:
根据公式(4)计算所述微博用户的影响力:
其中,mui为所述微博用户的影响力,rmi为所述转发微博信息的影响力,omi为所述原创微博信息的影响力,fol为所述用户粉丝数量。
这里,每个用户都有自己的粉丝数以及多条原创微博和转发微博,该步骤的工作即为将前面获得的每条原创微博及转发微博的影响力累加求和,计算每个微博用户的影响力。
在步骤S105,将所述微博用户的影响力通过函数拟合预测微博用户未来阶段的影响力。
这里,通过计算得出微博用户历史上各个阶段的影响力大小,按照时间顺序将影响力排序,n天为一个影响力汇总单位,n值较小容易受到离群点的影响,难以获得有效的规律;n值较大则没有研究意义。经过综合分析,本发明使用n=10。再使用指数平滑函数找出随时间距离变化不同时间段对某一阶段的影响力的影响,计算影响权重,通过权重加权对用户影响力进行下一时间阶段的预测分析。
公式(5)为预测微博用户未来阶段的影响力的函数,具体如下:
Ft+1=αYt+(1-α)Ft (5)
其中,Ft+1为t+1期的指数平滑趋势预测值,Yt为t期的指数平滑预测值,Ft为t期实际观测值,α为加权系数。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (7)

1.一种微博用户影响力的评估方法,其特征在于,所述方法包括:
从微博网站中获取微博信息,将所述微博信息进行处理,将处理的微博信息进行分类得到转发微博信息和原创微博信息;
根据所述原创微博信息获取所述原创微博信息的影响力;
根据所述转发微博信息获取所述转发微博信息的影响力;
根据所述原创微博信息的影响力和所述转发微博信息的影响力获取微博用户的影响力;
将所述微博用户的影响力通过函数拟合预测微博用户未来阶段的影响力;
所述根据所述原创微博信息获取所述原创微博信息的影响力包括:
从所述原创微博信息中进行提取得到第一微博属性信息和微博内容信息,所述第一微博属性信息包括第一用户粉丝数量、第一微博评论数量、第一微博转发数量;
根据所述第一微博评论数量和第一微博转发数量获取第一校正因子;
将所述微博内容信息进行词性标注,获取所述微博内容信息对应的词性的数量,通过多元线性回归对所述词性的数量及所述第一校正因子进行线性拟合得到拟合系数;
根据所述第一校正因子和所述拟合系数获取所述原创微博信息的影响力。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一微博评论数量和第一微博转发数量获取第一校正因子包括:
根据所述第一微博转发数量和第一微博评论数量通过层次分析方法分别获取第一微博转发数量权重和第一微博评论数量权重;
根据所述第一微博转发数量权重和第一微博评论数量权重获取第一校正因子。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一校正因子和所述拟合系数获取所述原创微博信息的影响力包括:
根据下式计算所述原创微博信息的影响力:
<mrow> <mi>o</mi> <mi>m</mi> <mi>i</mi> <mo>=</mo> <mi>a</mi> <mo>&amp;times;</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>11</mn> </munderover> <msub> <mi>b</mi> <mi>i</mi> </msub> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>+</mo> <mrow> <mo>(</mo> <mi>r</mi> <mi>e</mi> <mi>p</mi> <mo>&amp;times;</mo> <mi>c</mi> <mo>+</mo> <mi>c</mi> <mi>o</mi> <mi>m</mi> <mo>)</mo> </mrow> <mo>/</mo> <mi>f</mi> <mi>o</mi> <mi>l</mi> </mrow>
其中,omi为所述原创微博信息的影响力,rep为所述微博转发数量,a、c为权重,com为所述微博评论数量,fol为所述用户粉丝数量,b为所述拟合系数。
4.根据权利要求3所述的方法,其特征在于,所述根据所述转发微博信息获取所述转发微博信息的影响力包括:
从所述转发微博信息中进行提取得到第二微博属性信息,所述第二微博属性信息包括第二用户粉丝数量、第二微博评论数量、第二微博转发数量和第二用户关注数量;
根据所述第二微博评论数量和所述第二微博转发数量获取第二校正因子;
根据所述第二校正因子和转发率获取所述转发微博信息的影响力。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第二微博评论数量和所述第二微博转发数量获取第二校正因子包括:
根据所述第二微博转发数量和第二微博评论数量通过层次分析方法分别获取第二微博转发数量权重和第二微博评论数量权重;
根据所述第二微博转发数量权重和第二微博评论数量权重获取第二校正因子。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第二校正因子和转发率获取所述转发微博信息的影响力包括:
根据下式计算所述转发微博信息的影响力:
rmi=rmip×(1+r)
其中,rmi为所述转发微博信息的影响力,rmip为所述校正因子,r为所述转发率。
7.根据权利要求6所述的方法,其特征在于,所述根据所述原创微博信息的影响力和所述转发微博信息的影响力获取微博用户的影响力包括:
根据下式计算所述微博用户的影响力:
<mrow> <mi>m</mi> <mi>u</mi> <mi>i</mi> <mo>=</mo> <mrow> <mo>(</mo> <munder> <mi>&amp;Sigma;</mi> <mrow> <mi>a</mi> <mi>l</mi> <mi>l</mi> <mi>r</mi> <mi>m</mi> </mrow> </munder> <mi>r</mi> <mi>m</mi> <mi>i</mi> <mo>+</mo> <munder> <mi>&amp;Sigma;</mi> <mrow> <mi>a</mi> <mi>l</mi> <mi>l</mi> <mi>o</mi> <mi>m</mi> </mrow> </munder> <mi>o</mi> <mi>m</mi> <mi>i</mi> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <mi>f</mi> <mi>o</mi> <mi>l</mi> </mrow>
其中,mui为所述微博用户的影响力,rmi为所述转发微博信息的影响力,omi为所述原创微博信息的影响力,fol为所述用户粉丝数量。
CN201510105466.2A 2015-03-11 2015-03-11 微博用户影响力的评估方法 Active CN104657498B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510105466.2A CN104657498B (zh) 2015-03-11 2015-03-11 微博用户影响力的评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510105466.2A CN104657498B (zh) 2015-03-11 2015-03-11 微博用户影响力的评估方法

Publications (2)

Publication Number Publication Date
CN104657498A CN104657498A (zh) 2015-05-27
CN104657498B true CN104657498B (zh) 2017-12-01

Family

ID=53248625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510105466.2A Active CN104657498B (zh) 2015-03-11 2015-03-11 微博用户影响力的评估方法

Country Status (1)

Country Link
CN (1) CN104657498B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326615B (zh) * 2015-06-17 2019-03-26 派斡信息技术(上海)有限公司 分享元素的方法
CN106708796A (zh) * 2015-07-15 2017-05-24 中国科学院计算技术研究所 一种基于文本的关键人名的提取方法及系统
CN105740421A (zh) * 2015-09-11 2016-07-06 深圳市博尔芯电子科技有限公司 一种针对微博用户的查找最大影响力的实现方法
CN105205146B (zh) * 2015-09-18 2018-10-30 国家计算机网络与信息安全管理中心 一种计算微博用户影响力的方法
CN108268534A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 传播影响力计算方法及装置
CN106875277A (zh) * 2017-01-16 2017-06-20 星云纵横(北京)大数据信息技术有限公司 一种社交媒体账号影响力的判断方法
CN106874428B (zh) * 2017-01-23 2021-05-07 北京航空航天大学 选择信息传播的关键节点的方法和装置
CN109191449A (zh) * 2018-09-10 2019-01-11 广东智媒云图科技股份有限公司 一种图片质量评价方法及装置
CN109492924B (zh) * 2018-11-21 2022-05-17 哈尔滨工程大学 一种基于微博用户自身和行为价值二阶的影响力评估方法
CN110766311B (zh) * 2019-10-18 2023-10-31 北京神谷文化传播有限公司 基于Swarm模型的微博用户影响力计算方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102385576A (zh) * 2010-08-27 2012-03-21 腾讯科技(深圳)有限公司 博主影响力计算方法及系统
CN102945279A (zh) * 2012-11-14 2013-02-27 清华大学 微博用户影响力的评估方法及装置
CN103617279A (zh) * 2013-12-09 2014-03-05 南京邮电大学 基于Pagerank方法的微博信息传播影响力评估模型的实现方法
CN103984701A (zh) * 2014-04-16 2014-08-13 北京邮电大学 微博转发量预测模型生成方法及微博转发量预测方法
CN104216954A (zh) * 2014-08-20 2014-12-17 北京邮电大学 突发事件话题状态的预测装置及预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102385576A (zh) * 2010-08-27 2012-03-21 腾讯科技(深圳)有限公司 博主影响力计算方法及系统
CN102945279A (zh) * 2012-11-14 2013-02-27 清华大学 微博用户影响力的评估方法及装置
CN103617279A (zh) * 2013-12-09 2014-03-05 南京邮电大学 基于Pagerank方法的微博信息传播影响力评估模型的实现方法
CN103984701A (zh) * 2014-04-16 2014-08-13 北京邮电大学 微博转发量预测模型生成方法及微博转发量预测方法
CN104216954A (zh) * 2014-08-20 2014-12-17 北京邮电大学 突发事件话题状态的预测装置及预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
微博热点话题检测与趋势预测研究;姚海波;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140115;第I139-216页 *

Also Published As

Publication number Publication date
CN104657498A (zh) 2015-05-27

Similar Documents

Publication Publication Date Title
CN104657498B (zh) 微博用户影响力的评估方法
US10410128B2 (en) Method, device, and server for friend recommendation
TWI491217B (zh) 使用自使用者活動更新所得觀點增加內容關聯性之方法
US10304036B2 (en) Social media profiling for one or more authors using one or more social media platforms
EP2747013A1 (en) System and Method for Analyzing Messages in a Network or Across Networks
US20150215421A1 (en) Method and system for pushing recommended friend to user of social network
US11157134B2 (en) Interfaces for a messaging inbox
US20150161517A1 (en) Device and method for predicting popularity of social data
WO2011008145A1 (en) Providing content by using a social network
US11032231B1 (en) Techniques to convert multi-party conversations to an editable document
JP2013117830A (ja) レコメンド装置、レコメンドシステム、レコメンド方法およびプログラム
KR101664941B1 (ko) 국지적 공간 의존성 지표를 이용하여 특정 키워드에 대한 트위터 상의 유력지역 탐색방법
US8498979B1 (en) System and method for semantic analysis of social network user activities
Joshi et al. Environmental noise induced hearing loss in Nepal.
CN105069003B (zh) 一种基于转发链相似度的用户关注对象推荐计算方法
CN102937973A (zh) 一种生成用于信息呈现的呈现配置信息的方法和设备
Compton Mixing Friends With Politics: A Functional Analysis of Presidential Candidate's Social Networking Profiles
CN104462275A (zh) 一种基于社交网络的应用推荐方法
JP2017050030A5 (zh)
EP2815374A1 (en) Optimizing content production based upon distribution channel metrics
CN103365858B (zh) 基于一查询序列由多个源设备获取搜索结果的方法与设备
JP5806081B2 (ja) レコメンド装置、レコメンドシステム、レコメンド方法およびプログラム
Dey et al. Information spreading in Online Social Networks: A case study on Twitter network
JP2014035719A (ja) 投稿情報システム、算出装置及び算出方法
AU2017232032A1 (en) Real-time method and system for assessing and improving a presence and perception of an entity

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant