CN109492924B - 一种基于微博用户自身和行为价值二阶的影响力评估方法 - Google Patents

一种基于微博用户自身和行为价值二阶的影响力评估方法 Download PDF

Info

Publication number
CN109492924B
CN109492924B CN201811393912.4A CN201811393912A CN109492924B CN 109492924 B CN109492924 B CN 109492924B CN 201811393912 A CN201811393912 A CN 201811393912A CN 109492924 B CN109492924 B CN 109492924B
Authority
CN
China
Prior art keywords
user
microblog
influence
value
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811393912.4A
Other languages
English (en)
Other versions
CN109492924A (zh
Inventor
杨静
马博文
张健沛
王勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201811393912.4A priority Critical patent/CN109492924B/zh
Publication of CN109492924A publication Critical patent/CN109492924A/zh
Application granted granted Critical
Publication of CN109492924B publication Critical patent/CN109492924B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于微博用户自身和行为价值二阶的影响力评估方法,属于计算机数据挖掘技术领域。包括:(1)利用爬虫技术和微博官方API接口采集微博数据;(2)对采集后的数据处理,得出所需用户的特征向量;(3)通过用户所有粉丝的自身价值来计算该用户的自身价值;(4)通过用户所有推送转发者的行为价值来计算用户的行为价值;(5)综合用户的自身与行为价值计算用户最终的影响力。本发明通过对用户粉丝数量、质量的计算和用户推送微博的转发者行为质量的计算,即避免了僵尸粉、推销商造成的虚假影响力又突出了推送较少但质量极高的用户的隐藏影响力;对于发现微博平台中信息的传播规律、广告投放、病毒式营销和舆情管控等工作具有重要意义。

Description

一种基于微博用户自身和行为价值二阶的影响力评估方法
技术领域
本发明属于计算机数据挖掘技术领域,具体涉及一种基于微博用户自身和行为价值二阶的影响力评估方法。
背景技术
随着Web2.0技术的发展和成熟加速了社交网络媒体平台的普及和多样化,微博以其极快的内容获取和更新速度获取了大量用户,跃身成为国内最大的社交媒体平台。因此对微博中高影响力节点的挖掘算法研究有助于发现微博平台中内容信息的传播规律,可以为相应的企业用户、管理者用户进行广告投放、病毒式营销和舆情管控等提供可靠实时的理论数据依据。
目前,常见方法都是从以下3个角度对社会网络高影响力节点进行挖掘:第一基于拓扑结构的特征度量,局部属性如节点的度中心性,全局属性如节点的紧密中心性、介数中心性等,基于随机游走的度量PageRank、HITS等算法通过对网络结构中的用户节点打分来区分用户影响力的大小;第二基于行为的特征度量,如传播范围分析、用户活跃度分析;第三基于内容的特征度量,如话题分析、相似性分析等。然而上述方法大多是从单方面去评价用户影响力,即使结合多个角度去计算也与现实结果存在差异,方法的时间复杂度和准确性有待优化。
发明内容
本发明的目的在于提供一种基于微博用户自身和行为价值二阶的影响力评估方法,最大可能性的避免了僵尸粉、推销商造成的虚假影响力又突出了推送较少但质量极高的用户的隐藏影响力。相较于其他方法花费时间更少,准确度更高。从而为相应的企业用户、管理者、学术研究者更加准确快速的挑选更具影响力的微博用户。
本发明的目的是这样实现的:
一种基于微博用户自身和行为价值二阶的影响力评估方法,包括如下步骤:
步骤一:利用爬虫技术和微博官方API接口采集微博数据;
步骤二:对步骤一中采集的数据进行处理,包括用户静态属性的清理,用户动态行为信息的筛选,得到方法所需用户的特征向量;
步骤三:通过用户所有粉丝的自身价值来计算该用户的自身价值;
步骤四:通过用户所有推送转发者的行为价值来计算用户的行为价值;
步骤五:综合用户的自身与行为价值计算用户最终的影响力。
所述步骤一中,利用爬虫技术采集微博数据后,按照话题分类采集用户和用户关注者、粉丝的全部信息。
所述步骤二中,用户静态属性的清理具体指清理出采集到数据中用户粉丝ID、数量、推送微博ID、数量、转发者ID;用户动态行为信息的筛选具体指将用户的粉丝、转发者做为用户进行二次迭代分析。
所述步骤三中,用户的自身价值计算公式为:
Figure BDA0001874684390000021
其中ki表示用户i的粉丝数,kj1表示用户i的第j1个粉丝的粉丝量。
所述步骤四中,用户的行为价值计算公式为:
Figure BDA0001874684390000022
Figure BDA0001874684390000023
其中Hbi表示用户i的一阶行为价值,tj1表示用户i发送的第j1篇微博的转发量,ki表示用户i转发微博的数量;Hbi (2)表示用户i的二阶行为价值。
所述步骤五中,用户最终的影响力计算公式为:
Figure BDA0001874684390000024
其中H-mining(i)表示用户i的综合影响力,取值为用户的自身价值影响力和用户行为价值影响力归一化处理的加权和,α的最佳取值为0.8。
本发明有益效果在于:
(1)本发明通过二次迭代,既保证了用户的质量又保证了用户的粉丝数量和粉丝的行为质量,克服了僵尸粉、水军、推销商对计算用户影响力时造成的虚假影响力,有避免忽略推送较少但质量极高的用户隐藏的真实影响力;
(2)本发明对于发现微博平台中内容信息的传播规律、相应的企业用户、管理者用户进行广告投放、病毒式营销和舆情管控等工作具有重要意义。
附图说明
图1为基于微博用户自身和行为价值二阶的影响力评估模型的基本流程图;
图2为本发明与其他方法的实验对比图。
具体实施方式
下面结合附图对本发明做更进一步描述。
本发明涉及社交网络数据挖掘领域,具体涉及一种基于微博用户自身与行为价值的影响力评估方法。此方法包括如下步骤:步骤一:利用爬虫技术和微博官方API接口进行微博的数据采集;步骤二:对采集后的数据处理,包括用户静态属性的清理,用户动态行为信息的筛选,得出方法所需用户的特征向量;步骤三:通过用户所有粉丝的自身价值来计算该用户的自身价值;步骤四:通过用户所有推送转发者的行为价值来计算用户的行为价值;步骤五:综合用户的自身与行为价值计算用户最终的影响力。本发提出一种基于微博用户的自身与行为价值的综合影响力评估方法,该技术通过对用户粉丝数量、质量的计算和用户推送微博的转发者行为质量的计算,即避免了僵尸粉、推销商造成的虚假影响力又突出了推送较少但质量极高的用户的隐藏影响力。
一种基于微博用户自身和行为价值二阶的影响力评估方法的基本步骤如下:
步骤1、利用爬虫技术和微博官方API接口进行微博的数据采集,通过Python编写爬虫利用新浪微博的开放接口API获取所需数据,按照话题分类采集用户和用户关注者、粉丝的全部信息。例如:选择某一话题,针对已有的大V,爬取大V的粉丝数量、粉丝ID、推送微博数量、微博转发量和微博转发者ID等信息。
步骤2、对采集后的数据处理,包括用户静态属性的清理,用户动态行为信息的筛选,不仅要清洗出采集到数据中用户粉丝ID、数量、推送微博ID、数量、转发者ID,还要将用户的粉丝、转发者做为用户进行二次迭代分析,得出方法所需用户的特征向量如表1所示;
表1微博用户特征向量
Figure BDA0001874684390000031
步骤3、通过用户所有粉丝的自身价值来计算该用户的自身价值,通过步骤二中得到的用户粉丝数量和粉丝的粉丝数量计算出用户自身价值,用户自身价值计算公式如下所示:
Figure BDA0001874684390000032
其中ki表示用户i的粉丝数,kj1表示用户i的第j1个粉丝的粉丝量。
步骤4、通过用户所有推送转发者的行为价值来计算用户的行为价值,通过步骤二中得到的用户推送微博的转发数量和转发者的推送微博转发数量计算出用户行为价值,用户行为价值影响力计算公式:
Figure BDA0001874684390000033
其中Hbi表示用户i的一阶行为价值,tj1表示用户i发送的第j1篇微博的转发量,ki表示用户i转发微博的数量。
Figure BDA0001874684390000034
其中Hbi (2)表示用户i的二阶行为价值,即用户行为价值影响力,ki表示用户i转发微博的数量。
步骤5、综合用户的自身与行为价值计算用户最终的影响力,综合影响力计算公式如下所示:
Figure BDA0001874684390000041
其中H-mining(i)表示用户i的综合影响力,取值为用户的自身价值影响力和用户行为价值影响力做归一化处理的加权和。经过多次试验结果验证,当取α=0.8时,该方法的效果与实际结果越接近。
为证明该评估方法的准确性,分别用已有的PageRank算法、H-index算法和用户粉丝数量与本评估方法做对比实验,TOP10数据对比表如表2所示:
Figure BDA0001874684390000042
通过斯皮尔曼等级相关系来评价H-mining、H-index、PageRank和粉丝数与新浪官方排名的相关性,进而判断各模型排名的准确性。斯皮尔曼等级相关系数计算公式为:
Figure BDA0001874684390000043
其中Xi表示新浪微博对用户i影响力的官方排名,Yi表示用户i分别在H-mining、H-index、PageRank和粉丝量模型中的影响力排名,A为用户节点的集合,n为用户数量,P为斯皮尔曼等级相关系数,越接近+1越相关,越接近-1越负相关,对比结果如图2所示。
本方法基于微博用户自身和行为价值二阶的用户影响力评估模型,通过二次迭代,既保证了用户的质量又保证了用户的粉丝数量和粉丝的行为质量,克服了僵尸粉、水军、推销商对计算用户影响力时造成的虚假影响力,有避免忽略推送较少但质量极高的用户隐藏的真实影响力。对于发现微博平台中内容信息的传播规律、相应的企业用户、管理者用户进行广告投放、病毒式营销和舆情管控等工作具有重要意义。

Claims (1)

1.一种基于微博用户自身和行为价值二阶的影响力评估方法,其特征在于,包括:
步骤1:利用爬虫技术和微博官方API接口进行微博的数据采集,按照话题分类采集用户和用户关注者、粉丝的全部信息;
步骤2:对采集后的数据处理,包括用户静态属性的清理、用户动态行为信息的筛选,不仅要清洗出采集到数据中用户粉丝ID、数量、推送微博ID、数量、转发者ID,还要将用户的粉丝、转发者做为用户进行二次迭代分析,得出用户的特征向量;
所述用户的特征向量包括用户信息、用户关系、微博信息;所述用户信息包括用户ID、用户粉丝数、关注数、发布微博数;所述用户关系包括用户ID、关注用户的ID、粉丝ID;所述微博信息包括用户ID,被转发数、被转发者ID;
步骤3:通过用户所有粉丝的自身价值来计算该用户的自身价值,通过步骤二中得到的用户粉丝数量和粉丝的粉丝数量计算出用户自身价值,用户自身价值计算公式如下所示:
Figure FDA0003511059670000011
其中,ki表示用户i的粉丝数;kj1表示用户i的第1个粉丝的粉丝量;
步骤4:通过用户所有推送转发者的行为价值来计算用户的行为价值,通过步骤二中得到的用户推送微博的转发数量和转发者的推送微博转发数量计算出用户行为价值,用户行为价值影响力计算公式:
Figure FDA0003511059670000012
Figure FDA0003511059670000013
其中,Hbi表示用户i的一阶行为价值;
Figure FDA0003511059670000014
表示用户i推送的第ni篇微博的转发量;ni表示用户i推送微博的数量;Hbi (2)表示用户i的二阶行为价值,即用户行为价值影响力;
步骤5:综合用户的自身与行为价值计算用户最终的影响力,综合影响力计算公式如下所示:
Figure FDA0003511059670000015
其中,H-mining(i)表示用户i的综合影响力,取值为用户的自身价值影响力和用户行为价值影响力做归一化处理的加权和;α=0.8。
CN201811393912.4A 2018-11-21 2018-11-21 一种基于微博用户自身和行为价值二阶的影响力评估方法 Active CN109492924B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811393912.4A CN109492924B (zh) 2018-11-21 2018-11-21 一种基于微博用户自身和行为价值二阶的影响力评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811393912.4A CN109492924B (zh) 2018-11-21 2018-11-21 一种基于微博用户自身和行为价值二阶的影响力评估方法

Publications (2)

Publication Number Publication Date
CN109492924A CN109492924A (zh) 2019-03-19
CN109492924B true CN109492924B (zh) 2022-05-17

Family

ID=65697303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811393912.4A Active CN109492924B (zh) 2018-11-21 2018-11-21 一种基于微博用户自身和行为价值二阶的影响力评估方法

Country Status (1)

Country Link
CN (1) CN109492924B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766126B (zh) * 2019-10-15 2023-11-21 哈尔滨工程大学 用户行为与心理学的社会网络影响力最大化方法
CN111882343A (zh) * 2020-06-12 2020-11-03 智云众(北京)信息技术有限公司 基于达人价值指数的广告投放方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945279A (zh) * 2012-11-14 2013-02-27 清华大学 微博用户影响力的评估方法及装置
CN104657498A (zh) * 2015-03-11 2015-05-27 中国科学院自动化研究所 微博用户影响力的评估方法
CN105608625A (zh) * 2016-01-04 2016-05-25 哈尔滨工程大学 一种基于微博用户质量的信息影响力评估方法
CN106991160A (zh) * 2017-03-30 2017-07-28 武汉大学 一种基于用户影响力以及内容的微博传播预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740421A (zh) * 2015-09-11 2016-07-06 深圳市博尔芯电子科技有限公司 一种针对微博用户的查找最大影响力的实现方法
CN105260474B (zh) * 2015-10-29 2018-08-14 俞定国 一种基于信息交互网络的微博用户影响力计算方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945279A (zh) * 2012-11-14 2013-02-27 清华大学 微博用户影响力的评估方法及装置
CN104657498A (zh) * 2015-03-11 2015-05-27 中国科学院自动化研究所 微博用户影响力的评估方法
CN105608625A (zh) * 2016-01-04 2016-05-25 哈尔滨工程大学 一种基于微博用户质量的信息影响力评估方法
CN106991160A (zh) * 2017-03-30 2017-07-28 武汉大学 一种基于用户影响力以及内容的微博传播预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Hadoop的微博用户影响力排名算法设计;郑新等;《信息技术》;20170125;第76-79页 *

Also Published As

Publication number Publication date
CN109492924A (zh) 2019-03-19

Similar Documents

Publication Publication Date Title
CN104615608B (zh) 一种数据挖掘处理系统及方法
CN110457404B (zh) 基于复杂异质网络的社交媒体账户分类方法
CN103150374B (zh) 一种识别微博异常用户的方法和系统
WO2017167071A1 (zh) 一种对应用程序进行项目评估的方法及系统
CN111598461B (zh) 一种基于企业知识图谱实时的风险泛化与传导分析方法
CN112615888B (zh) 一种网络攻击行为的威胁评估方法及装置
CN104484343A (zh) 一种对微博进行主题发现与追踪的方法
CN113422761B (zh) 基于对抗学习的恶意社交用户检测方法
US20140147048A1 (en) Document quality measurement
CN102135983A (zh) 基于网络用户行为的群体划分方法和装置
Avrachenkov et al. Quick detection of high-degree entities in large directed networks
CN109492924B (zh) 一种基于微博用户自身和行为价值二阶的影响力评估方法
Xiao et al. Towards confidence interval estimation in truth discovery
Chen Data mining applications in e-government information security
CN105468780A (zh) 一种微博文本中产品名实体的规范化方法及装置
Mashayekhi et al. Weighted estimation of information diffusion probabilities for independent cascade model
CN115329078B (zh) 文本数据处理方法、装置、设备以及存储介质
Liu et al. Research on discovering Deep Web entries based ontopic crawling and ontology
CN114491232B (zh) 信息查询方法、装置、电子设备和存储介质
Yu et al. Prediction of users retweet times in social network
Zhao et al. High-value user identification based on topic weight
Xiao et al. Data analysis algorithms for mining online communities from microblogs
Seth et al. A Tale of Two (Similar) Cities-Inferring City Similarity through Geo-spatial Query Log Analysis.
CN116644227A (zh) 一种基于签到数据离散特征量化的位置推荐系统自然噪声过滤方法
Marcin et al. Extracting topic trends and connections: semantic analysis and topic linking in Twitter and Wikipedia datasets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant