CN109492924A - 一种基于微博用户自身和行为价值二阶的影响力评估方法 - Google Patents

一种基于微博用户自身和行为价值二阶的影响力评估方法 Download PDF

Info

Publication number
CN109492924A
CN109492924A CN201811393912.4A CN201811393912A CN109492924A CN 109492924 A CN109492924 A CN 109492924A CN 201811393912 A CN201811393912 A CN 201811393912A CN 109492924 A CN109492924 A CN 109492924A
Authority
CN
China
Prior art keywords
user
influence power
behavior memory
behavior
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811393912.4A
Other languages
English (en)
Other versions
CN109492924B (zh
Inventor
杨静
马博文
张健沛
王勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201811393912.4A priority Critical patent/CN109492924B/zh
Publication of CN109492924A publication Critical patent/CN109492924A/zh
Application granted granted Critical
Publication of CN109492924B publication Critical patent/CN109492924B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于微博用户自身和行为价值二阶的影响力评估方法,属于计算机数据挖掘技术领域。包括:(1)利用爬虫技术和微博官方API接口采集微博数据;(2)对采集后的数据处理,得出所需用户的特征向量;(3)通过用户所有粉丝的自身价值来计算该用户的自身价值;(4)通过用户所有推送转发者的行为价值来计算用户的行为价值;(5)综合用户的自身与行为价值计算用户最终的影响力。本发明通过对用户粉丝数量、质量的计算和用户推送微博的转发者行为质量的计算,即避免了僵尸粉、推销商造成的虚假影响力又突出了推送较少但质量极高的用户的隐藏影响力;对于发现微博平台中信息的传播规律、广告投放、病毒式营销和舆情管控等工作具有重要意义。

Description

一种基于微博用户自身和行为价值二阶的影响力评估方法
技术领域
本发明属于计算机数据挖掘技术领域,具体涉及一种基于微博用户自身和行为价值二阶的影响力评估方法。
背景技术
随着Web2.0技术的发展和成熟加速了社交网络媒体平台的普及和多样化,微博以其极快的内容获取和更新速度获取了大量用户,跃身成为国内最大的社交媒体平台。因此对微博中高影响力节点的挖掘算法研究有助于发现微博平台中内容信息的传播规律,可以为相应的企业用户、管理者用户进行广告投放、病毒式营销和舆情管控等提供可靠实时的理论数据依据。
目前,常见方法都是从以下3个角度对社会网络高影响力节点进行挖掘:第一基于拓扑结构的特征度量,局部属性如节点的度中心性,全局属性如节点的紧密中心性、介数中心性等,基于随机游走的度量PageRank、HITS等算法通过对网络结构中的用户节点打分来区分用户影响力的大小;第二基于行为的特征度量,如传播范围分析、用户活跃度分析;第三基于内容的特征度量,如话题分析、相似性分析等。然而上述方法大多是从单方面去评价用户影响力,即使结合多个角度去计算也与现实结果存在差异,方法的时间复杂度和准确性有待优化。
发明内容
本发明的目的在于提供一种基于微博用户自身和行为价值二阶的影响力评估方法,最大可能性的避免了僵尸粉、推销商造成的虚假影响力又突出了推送较少但质量极高的用户的隐藏影响力。相较于其他方法花费时间更少,准确度更高。从而为相应的企业用户、管理者、学术研究者更加准确快速的挑选更具影响力的微博用户。
本发明的目的是这样实现的:
一种基于微博用户自身和行为价值二阶的影响力评估方法,包括如下步骤:
步骤一:利用爬虫技术和微博官方API接口采集微博数据;
步骤二:对步骤一中采集的数据进行处理,包括用户静态属性的清理,用户动态行为信息的筛选,得到方法所需用户的特征向量;
步骤三:通过用户所有粉丝的自身价值来计算该用户的自身价值;
步骤四:通过用户所有推送转发者的行为价值来计算用户的行为价值;
步骤五:综合用户的自身与行为价值计算用户最终的影响力。
所述步骤一中,利用爬虫技术采集微博数据后,按照话题分类采集用户和用户关注者、粉丝的全部信息。
所述步骤二中,用户静态属性的清理具体指清理出采集到数据中用户粉丝ID、数量、推送微博ID、数量、转发者ID;用户动态行为信息的筛选具体指将用户的粉丝、转发者做为用户进行二次迭代分析。
所述步骤三中,用户的自身价值计算公式为:
其中ki表示用户i的粉丝数,kj1表示用户i的第j1个粉丝的粉丝量。
所述步骤四中,用户的行为价值计算公式为:
其中Hbi表示用户i的一阶行为价值,tj1表示用户i发送的第j1篇微博的转发量,ki表示用户i转发微博的数量;Hbi (2)表示用户i的二阶行为价值。
所述步骤五中,用户最终的影响力计算公式为:
其中H-mining(i)表示用户i的综合影响力,取值为用户的自身价值影响力和用户行为价值影响力归一化处理的加权和,α的最佳取值为0.8。
本发明有益效果在于:
(1)本发明通过二次迭代,既保证了用户的质量又保证了用户的粉丝数量和粉丝的行为质量,克服了僵尸粉、水军、推销商对计算用户影响力时造成的虚假影响力,有避免忽略推送较少但质量极高的用户隐藏的真实影响力;
(2)本发明对于发现微博平台中内容信息的传播规律、相应的企业用户、管理者用户进行广告投放、病毒式营销和舆情管控等工作具有重要意义。
附图说明
图1为基于微博用户自身和行为价值二阶的影响力评估模型的基本流程图;
图2为本发明与其他方法的实验对比图。
具体实施方式
下面结合附图对本发明做更进一步描述。
本发明涉及社交网络数据挖掘领域,具体涉及一种基于微博用户自身与行为价值的影响力评估方法。此方法包括如下步骤:步骤一:利用爬虫技术和微博官方API接口进行微博的数据采集;步骤二:对采集后的数据处理,包括用户静态属性的清理,用户动态行为信息的筛选,得出方法所需用户的特征向量;步骤三:通过用户所有粉丝的自身价值来计算该用户的自身价值;步骤四:通过用户所有推送转发者的行为价值来计算用户的行为价值;步骤五:综合用户的自身与行为价值计算用户最终的影响力。本发提出一种基于微博用户的自身与行为价值的综合影响力评估方法,该技术通过对用户粉丝数量、质量的计算和用户推送微博的转发者行为质量的计算,即避免了僵尸粉、推销商造成的虚假影响力又突出了推送较少但质量极高的用户的隐藏影响力。
一种基于微博用户自身和行为价值二阶的影响力评估方法的基本步骤如下:
步骤1、利用爬虫技术和微博官方API接口进行微博的数据采集,通过Python编写爬虫利用新浪微博的开放接口API获取所需数据,按照话题分类采集用户和用户关注者、粉丝的全部信息。例如:选择某一话题,针对已有的大V,爬取大V的粉丝数量、粉丝ID、推送微博数量、微博转发量和微博转发者ID等信息。
步骤2、对采集后的数据处理,包括用户静态属性的清理,用户动态行为信息的筛选,不仅要清洗出采集到数据中用户粉丝ID、数量、推送微博ID、数量、转发者ID,还要将用户的粉丝、转发者做为用户进行二次迭代分析,得出方法所需用户的特征向量如表1所示;
表1微博用户特征向量
步骤3、通过用户所有粉丝的自身价值来计算该用户的自身价值,通过步骤二中得到的用户粉丝数量和粉丝的粉丝数量计算出用户自身价值,用户自身价值计算公式如下所示:其中ki表示用户i的粉丝数,kj1表示用户i的第j1个粉丝的粉丝量。
步骤4、通过用户所有推送转发者的行为价值来计算用户的行为价值,通过步骤二中得到的用户推送微博的转发数量和转发者的推送微博转发数量计算出用户行为价值,用户行为价值影响力计算公式:其中Hbi表示用户i的一阶行为价值,tj1表示用户i发送的第j1篇微博的转发量,ki表示用户i转发微博的数量。
其中Hbi (2)表示用户i的二阶行为价值,即用户行为价值影响力,ki表示用户i转发微博的数量。
步骤5、综合用户的自身与行为价值计算用户最终的影响力,综合影响力计算公式如下所示:其中H-mining(i)表示用户i的综合影响力,取值为用户的自身价值影响力和用户行为价值影响力做归一化处理的加权和。经过多次试验结果验证,当取α=0.8时,该方法的效果与实际结果越接近。
为证明该评估方法的准确性,分别用已有的PageRank算法、H-index算法和用户粉丝数量与本评估方法做对比实验,TOP10数据对比表如表2所示:
通过斯皮尔曼等级相关系来评价H-mining、H-index、PageRank和粉丝数与新浪官方排名的相关性,进而判断各模型排名的准确性。斯皮尔曼等级相关系数计算公式为:其中Xi表示新浪微博对用户i影响力的官方排名,Yi表示用户i分别在H-mining、H-index、PageRank和粉丝量模型中的影响力排名,A为用户节点的集合,n为用户数量,P为斯皮尔曼等级相关系数,越接近+1越相关,越接近-1越负相关,对比结果如图2所示。
本方法基于微博用户自身和行为价值二阶的用户影响力评估模型,通过二次迭代,既保证了用户的质量又保证了用户的粉丝数量和粉丝的行为质量,克服了僵尸粉、水军、推销商对计算用户影响力时造成的虚假影响力,有避免忽略推送较少但质量极高的用户隐藏的真实影响力。对于发现微博平台中内容信息的传播规律、相应的企业用户、管理者用户进行广告投放、病毒式营销和舆情管控等工作具有重要意义。

Claims (6)

1.一种基于微博用户自身和行为价值二阶的影响力评估方法,其特征在于,包括:
(1)利用爬虫技术和微博官方API接口采集微博数据;
(2)对步骤(1)中采集的数据进行处理,包括用户静态属性的清理,用户动态行为信息的筛选,得到方法所需用户的特征向量;
(3)通过用户所有粉丝的自身价值来计算该用户的自身价值;
(4)通过用户所有推送转发者的行为价值来计算用户的行为价值;
(5)综合用户的自身与行为价值计算用户最终的影响力。
2.根据权利要求1所述的一种基于微博用户自身和行为价值二阶的影响力评估方法,其特征在于:所述的步骤(1)中,利用爬虫技术采集微博数据后,按照话题分类采集用户和用户关注者、粉丝的全部信息。
3.根据权利要求1所述的一种基于微博用户自身和行为价值二阶的影响力评估方法,其特征在于:所述的步骤(2)中,用户静态属性的清理具体指清理出采集到数据中用户粉丝ID、数量、推送微博ID、数量、转发者ID;用户动态行为信息的筛选具体指将用户的粉丝、转发者做为用户进行二次迭代分析。
4.根据权利要求1所述的一种基于微博用户自身和行为价值二阶的影响力评估方法,其特征在于:所述的步骤(3)中,用户的自身价值计算公式为:
其中ki表示用户i的粉丝数,kj1表示用户i的第j1个粉丝的粉丝量。
5.根据权利要求1所述的一种基于微博用户自身和行为价值二阶的影响力评估方法,其特征在于:所述的步骤(4)中,用户的行为价值计算公式为:
其中Hbi表示用户i的一阶行为价值,tj1表示用户i发送的第j1篇微博的转发量,ki表示用户i转发微博的数量;Hbi (2)表示用户i的二阶行为价值。
6.根据权利要求1所述的一种基于微博用户自身和行为价值二阶的影响力评估方法,其特征在于:所述的步骤(5)中,用户最终的影响力计算公式为:
其中H-mining(i)表示用户i的综合影响力,取值为用户的自身价值影响力和用户行为价值影响力归一化处理的加权和,α的最佳取值为0.8。
CN201811393912.4A 2018-11-21 2018-11-21 一种基于微博用户自身和行为价值二阶的影响力评估方法 Active CN109492924B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811393912.4A CN109492924B (zh) 2018-11-21 2018-11-21 一种基于微博用户自身和行为价值二阶的影响力评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811393912.4A CN109492924B (zh) 2018-11-21 2018-11-21 一种基于微博用户自身和行为价值二阶的影响力评估方法

Publications (2)

Publication Number Publication Date
CN109492924A true CN109492924A (zh) 2019-03-19
CN109492924B CN109492924B (zh) 2022-05-17

Family

ID=65697303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811393912.4A Active CN109492924B (zh) 2018-11-21 2018-11-21 一种基于微博用户自身和行为价值二阶的影响力评估方法

Country Status (1)

Country Link
CN (1) CN109492924B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766126A (zh) * 2019-10-15 2020-02-07 哈尔滨工程大学 用户行为与心理学的社会网络影响力最大化方法
CN111882343A (zh) * 2020-06-12 2020-11-03 智云众(北京)信息技术有限公司 基于达人价值指数的广告投放方法、装置及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945279A (zh) * 2012-11-14 2013-02-27 清华大学 微博用户影响力的评估方法及装置
CN104657498A (zh) * 2015-03-11 2015-05-27 中国科学院自动化研究所 微博用户影响力的评估方法
CN105260474A (zh) * 2015-10-29 2016-01-20 俞定国 一种基于信息交互网络的微博用户影响力计算方法
CN105608625A (zh) * 2016-01-04 2016-05-25 哈尔滨工程大学 一种基于微博用户质量的信息影响力评估方法
CN105740421A (zh) * 2015-09-11 2016-07-06 深圳市博尔芯电子科技有限公司 一种针对微博用户的查找最大影响力的实现方法
CN106991160A (zh) * 2017-03-30 2017-07-28 武汉大学 一种基于用户影响力以及内容的微博传播预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945279A (zh) * 2012-11-14 2013-02-27 清华大学 微博用户影响力的评估方法及装置
CN104657498A (zh) * 2015-03-11 2015-05-27 中国科学院自动化研究所 微博用户影响力的评估方法
CN105740421A (zh) * 2015-09-11 2016-07-06 深圳市博尔芯电子科技有限公司 一种针对微博用户的查找最大影响力的实现方法
CN105260474A (zh) * 2015-10-29 2016-01-20 俞定国 一种基于信息交互网络的微博用户影响力计算方法
CN105608625A (zh) * 2016-01-04 2016-05-25 哈尔滨工程大学 一种基于微博用户质量的信息影响力评估方法
CN106991160A (zh) * 2017-03-30 2017-07-28 武汉大学 一种基于用户影响力以及内容的微博传播预测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
KECHEN ZHUANG: "User spread influence measurement in microblog", 《MULTIMEDIA TOOLS AND APPLICATIONS》 *
YANCHAO ZHANG: "A Method of Measuring User Influence in MicroBlog", 《JOURNAL OF CONVERGENCE INFORMATION》 *
张昊等: "一种微博用户影响力的计算方法", 《计算机应用与软件》 *
贾冲冲等: "基于HRank的微博用户影响力评价", 《计算机应用》 *
郑新等: "基于Hadoop的微博用户影响力排名算法设计", 《信息技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766126A (zh) * 2019-10-15 2020-02-07 哈尔滨工程大学 用户行为与心理学的社会网络影响力最大化方法
CN111882343A (zh) * 2020-06-12 2020-11-03 智云众(北京)信息技术有限公司 基于达人价值指数的广告投放方法、装置及设备

Also Published As

Publication number Publication date
CN109492924B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN103795613B (zh) 一种在线社交网络中朋友关系预测的方法
Athey et al. Estimating heterogeneous consumer preferences for restaurants and travel time using mobile location data
Bourigault et al. Representation learning for information diffusion through social networks: an embedded cascade model
Zhu et al. Modeling user mobility for location promotion in location-based social networks
Jiang et al. Evolutionary dynamics of information diffusion over social networks
Zhang et al. Evaluating geo-social influence in location-based social networks
Gurukar et al. Commit: A scalable approach to mining communication motifs from dynamic networks
Scellato et al. Exploiting place features in link prediction on location-based social networks
Cheng et al. You are where you tweet: a content-based approach to geo-locating twitter users
CN104899267B (zh) 一种社交网站账号相似度的综合数据挖掘方法
Sala et al. Brief announcement: revisiting the power-law degree distribution for social graph analysis
CN105678590A (zh) 一种面向社交网络基于云模型的topN推荐方法
CN109492924A (zh) 一种基于微博用户自身和行为价值二阶的影响力评估方法
Liu et al. A two-phase model for retweet number prediction
Alfalahi et al. Community detection in social networks through similarity virtual networks
Ozdikis et al. Spatial statistics of term co-occurrences for location prediction of tweets
Correa et al. iTop: interaction based topic centric community discovery on twitter
CN105183728A (zh) 一种微博中人物关联关系分析方法
Jayasinghe et al. Statistical comparisons of non-deterministic IR systems using two dimensional variance
Liu et al. From strangers to neighbors: Link prediction in microblogs using social distance game
CN106447375A (zh) 一种年龄信息估计方法及装置
Luts Real-time semiparametric regression for distributed data sets
CN103491074A (zh) 僵尸网络检测方法及装置
Xian et al. Multi-view low-rank coding-based network data de-anonymization
Zhuo et al. DiffusionGAN: Network embedding for information diffusion prediction with generative adversarial nets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant