CN109492924B - 一种基于微博用户自身和行为价值二阶的影响力评估方法 - Google Patents
一种基于微博用户自身和行为价值二阶的影响力评估方法 Download PDFInfo
- Publication number
- CN109492924B CN109492924B CN201811393912.4A CN201811393912A CN109492924B CN 109492924 B CN109492924 B CN 109492924B CN 201811393912 A CN201811393912 A CN 201811393912A CN 109492924 B CN109492924 B CN 109492924B
- Authority
- CN
- China
- Prior art keywords
- user
- microblog
- influence
- value
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims abstract description 17
- 238000005516 engineering process Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000003542 behavioural effect Effects 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000005065 mining Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 230000003068 static effect Effects 0.000 claims description 5
- 238000000034 method Methods 0.000 abstract description 25
- 238000007418 data mining Methods 0.000 abstract description 3
- 241000700605 Viruses Species 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 4
- 239000000843 powder Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013210 evaluation model Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 101000911753 Homo sapiens Protein FAM107B Proteins 0.000 description 1
- 102100026983 Protein FAM107B Human genes 0.000 description 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于微博用户自身和行为价值二阶的影响力评估方法,属于计算机数据挖掘技术领域。包括:(1)利用爬虫技术和微博官方API接口采集微博数据;(2)对采集后的数据处理,得出所需用户的特征向量;(3)通过用户所有粉丝的自身价值来计算该用户的自身价值;(4)通过用户所有推送转发者的行为价值来计算用户的行为价值;(5)综合用户的自身与行为价值计算用户最终的影响力。本发明通过对用户粉丝数量、质量的计算和用户推送微博的转发者行为质量的计算,即避免了僵尸粉、推销商造成的虚假影响力又突出了推送较少但质量极高的用户的隐藏影响力;对于发现微博平台中信息的传播规律、广告投放、病毒式营销和舆情管控等工作具有重要意义。
Description
技术领域
本发明属于计算机数据挖掘技术领域,具体涉及一种基于微博用户自身和行为价值二阶的影响力评估方法。
背景技术
随着Web2.0技术的发展和成熟加速了社交网络媒体平台的普及和多样化,微博以其极快的内容获取和更新速度获取了大量用户,跃身成为国内最大的社交媒体平台。因此对微博中高影响力节点的挖掘算法研究有助于发现微博平台中内容信息的传播规律,可以为相应的企业用户、管理者用户进行广告投放、病毒式营销和舆情管控等提供可靠实时的理论数据依据。
目前,常见方法都是从以下3个角度对社会网络高影响力节点进行挖掘:第一基于拓扑结构的特征度量,局部属性如节点的度中心性,全局属性如节点的紧密中心性、介数中心性等,基于随机游走的度量PageRank、HITS等算法通过对网络结构中的用户节点打分来区分用户影响力的大小;第二基于行为的特征度量,如传播范围分析、用户活跃度分析;第三基于内容的特征度量,如话题分析、相似性分析等。然而上述方法大多是从单方面去评价用户影响力,即使结合多个角度去计算也与现实结果存在差异,方法的时间复杂度和准确性有待优化。
发明内容
本发明的目的在于提供一种基于微博用户自身和行为价值二阶的影响力评估方法,最大可能性的避免了僵尸粉、推销商造成的虚假影响力又突出了推送较少但质量极高的用户的隐藏影响力。相较于其他方法花费时间更少,准确度更高。从而为相应的企业用户、管理者、学术研究者更加准确快速的挑选更具影响力的微博用户。
本发明的目的是这样实现的:
一种基于微博用户自身和行为价值二阶的影响力评估方法,包括如下步骤:
步骤一:利用爬虫技术和微博官方API接口采集微博数据;
步骤二:对步骤一中采集的数据进行处理,包括用户静态属性的清理,用户动态行为信息的筛选,得到方法所需用户的特征向量;
步骤三:通过用户所有粉丝的自身价值来计算该用户的自身价值;
步骤四:通过用户所有推送转发者的行为价值来计算用户的行为价值;
步骤五:综合用户的自身与行为价值计算用户最终的影响力。
所述步骤一中,利用爬虫技术采集微博数据后,按照话题分类采集用户和用户关注者、粉丝的全部信息。
所述步骤二中,用户静态属性的清理具体指清理出采集到数据中用户粉丝ID、数量、推送微博ID、数量、转发者ID;用户动态行为信息的筛选具体指将用户的粉丝、转发者做为用户进行二次迭代分析。
所述步骤三中,用户的自身价值计算公式为:
其中ki表示用户i的粉丝数,kj1表示用户i的第j1个粉丝的粉丝量。
所述步骤四中,用户的行为价值计算公式为:
其中Hbi表示用户i的一阶行为价值,tj1表示用户i发送的第j1篇微博的转发量,ki表示用户i转发微博的数量;Hbi (2)表示用户i的二阶行为价值。
所述步骤五中,用户最终的影响力计算公式为:
其中H-mining(i)表示用户i的综合影响力,取值为用户的自身价值影响力和用户行为价值影响力归一化处理的加权和,α的最佳取值为0.8。
本发明有益效果在于:
(1)本发明通过二次迭代,既保证了用户的质量又保证了用户的粉丝数量和粉丝的行为质量,克服了僵尸粉、水军、推销商对计算用户影响力时造成的虚假影响力,有避免忽略推送较少但质量极高的用户隐藏的真实影响力;
(2)本发明对于发现微博平台中内容信息的传播规律、相应的企业用户、管理者用户进行广告投放、病毒式营销和舆情管控等工作具有重要意义。
附图说明
图1为基于微博用户自身和行为价值二阶的影响力评估模型的基本流程图;
图2为本发明与其他方法的实验对比图。
具体实施方式
下面结合附图对本发明做更进一步描述。
本发明涉及社交网络数据挖掘领域,具体涉及一种基于微博用户自身与行为价值的影响力评估方法。此方法包括如下步骤:步骤一:利用爬虫技术和微博官方API接口进行微博的数据采集;步骤二:对采集后的数据处理,包括用户静态属性的清理,用户动态行为信息的筛选,得出方法所需用户的特征向量;步骤三:通过用户所有粉丝的自身价值来计算该用户的自身价值;步骤四:通过用户所有推送转发者的行为价值来计算用户的行为价值;步骤五:综合用户的自身与行为价值计算用户最终的影响力。本发提出一种基于微博用户的自身与行为价值的综合影响力评估方法,该技术通过对用户粉丝数量、质量的计算和用户推送微博的转发者行为质量的计算,即避免了僵尸粉、推销商造成的虚假影响力又突出了推送较少但质量极高的用户的隐藏影响力。
一种基于微博用户自身和行为价值二阶的影响力评估方法的基本步骤如下:
步骤1、利用爬虫技术和微博官方API接口进行微博的数据采集,通过Python编写爬虫利用新浪微博的开放接口API获取所需数据,按照话题分类采集用户和用户关注者、粉丝的全部信息。例如:选择某一话题,针对已有的大V,爬取大V的粉丝数量、粉丝ID、推送微博数量、微博转发量和微博转发者ID等信息。
步骤2、对采集后的数据处理,包括用户静态属性的清理,用户动态行为信息的筛选,不仅要清洗出采集到数据中用户粉丝ID、数量、推送微博ID、数量、转发者ID,还要将用户的粉丝、转发者做为用户进行二次迭代分析,得出方法所需用户的特征向量如表1所示;
表1微博用户特征向量
步骤3、通过用户所有粉丝的自身价值来计算该用户的自身价值,通过步骤二中得到的用户粉丝数量和粉丝的粉丝数量计算出用户自身价值,用户自身价值计算公式如下所示:其中ki表示用户i的粉丝数,kj1表示用户i的第j1个粉丝的粉丝量。
步骤4、通过用户所有推送转发者的行为价值来计算用户的行为价值,通过步骤二中得到的用户推送微博的转发数量和转发者的推送微博转发数量计算出用户行为价值,用户行为价值影响力计算公式:其中Hbi表示用户i的一阶行为价值,tj1表示用户i发送的第j1篇微博的转发量,ki表示用户i转发微博的数量。
步骤5、综合用户的自身与行为价值计算用户最终的影响力,综合影响力计算公式如下所示:其中H-mining(i)表示用户i的综合影响力,取值为用户的自身价值影响力和用户行为价值影响力做归一化处理的加权和。经过多次试验结果验证,当取α=0.8时,该方法的效果与实际结果越接近。
为证明该评估方法的准确性,分别用已有的PageRank算法、H-index算法和用户粉丝数量与本评估方法做对比实验,TOP10数据对比表如表2所示:
通过斯皮尔曼等级相关系来评价H-mining、H-index、PageRank和粉丝数与新浪官方排名的相关性,进而判断各模型排名的准确性。斯皮尔曼等级相关系数计算公式为:其中Xi表示新浪微博对用户i影响力的官方排名,Yi表示用户i分别在H-mining、H-index、PageRank和粉丝量模型中的影响力排名,A为用户节点的集合,n为用户数量,P为斯皮尔曼等级相关系数,越接近+1越相关,越接近-1越负相关,对比结果如图2所示。
本方法基于微博用户自身和行为价值二阶的用户影响力评估模型,通过二次迭代,既保证了用户的质量又保证了用户的粉丝数量和粉丝的行为质量,克服了僵尸粉、水军、推销商对计算用户影响力时造成的虚假影响力,有避免忽略推送较少但质量极高的用户隐藏的真实影响力。对于发现微博平台中内容信息的传播规律、相应的企业用户、管理者用户进行广告投放、病毒式营销和舆情管控等工作具有重要意义。
Claims (1)
1.一种基于微博用户自身和行为价值二阶的影响力评估方法,其特征在于,包括:
步骤1:利用爬虫技术和微博官方API接口进行微博的数据采集,按照话题分类采集用户和用户关注者、粉丝的全部信息;
步骤2:对采集后的数据处理,包括用户静态属性的清理、用户动态行为信息的筛选,不仅要清洗出采集到数据中用户粉丝ID、数量、推送微博ID、数量、转发者ID,还要将用户的粉丝、转发者做为用户进行二次迭代分析,得出用户的特征向量;
所述用户的特征向量包括用户信息、用户关系、微博信息;所述用户信息包括用户ID、用户粉丝数、关注数、发布微博数;所述用户关系包括用户ID、关注用户的ID、粉丝ID;所述微博信息包括用户ID,被转发数、被转发者ID;
步骤3:通过用户所有粉丝的自身价值来计算该用户的自身价值,通过步骤二中得到的用户粉丝数量和粉丝的粉丝数量计算出用户自身价值,用户自身价值计算公式如下所示:
其中,ki表示用户i的粉丝数;kj1表示用户i的第1个粉丝的粉丝量;
步骤4:通过用户所有推送转发者的行为价值来计算用户的行为价值,通过步骤二中得到的用户推送微博的转发数量和转发者的推送微博转发数量计算出用户行为价值,用户行为价值影响力计算公式:
步骤5:综合用户的自身与行为价值计算用户最终的影响力,综合影响力计算公式如下所示:
其中,H-mining(i)表示用户i的综合影响力,取值为用户的自身价值影响力和用户行为价值影响力做归一化处理的加权和;α=0.8。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811393912.4A CN109492924B (zh) | 2018-11-21 | 2018-11-21 | 一种基于微博用户自身和行为价值二阶的影响力评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811393912.4A CN109492924B (zh) | 2018-11-21 | 2018-11-21 | 一种基于微博用户自身和行为价值二阶的影响力评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109492924A CN109492924A (zh) | 2019-03-19 |
CN109492924B true CN109492924B (zh) | 2022-05-17 |
Family
ID=65697303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811393912.4A Active CN109492924B (zh) | 2018-11-21 | 2018-11-21 | 一种基于微博用户自身和行为价值二阶的影响力评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492924B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110766126B (zh) * | 2019-10-15 | 2023-11-21 | 哈尔滨工程大学 | 用户行为与心理学的社会网络影响力最大化方法 |
CN111882343A (zh) * | 2020-06-12 | 2020-11-03 | 智云众(北京)信息技术有限公司 | 基于达人价值指数的广告投放方法、装置及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945279A (zh) * | 2012-11-14 | 2013-02-27 | 清华大学 | 微博用户影响力的评估方法及装置 |
CN104657498A (zh) * | 2015-03-11 | 2015-05-27 | 中国科学院自动化研究所 | 微博用户影响力的评估方法 |
CN105608625A (zh) * | 2016-01-04 | 2016-05-25 | 哈尔滨工程大学 | 一种基于微博用户质量的信息影响力评估方法 |
CN106991160A (zh) * | 2017-03-30 | 2017-07-28 | 武汉大学 | 一种基于用户影响力以及内容的微博传播预测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740421A (zh) * | 2015-09-11 | 2016-07-06 | 深圳市博尔芯电子科技有限公司 | 一种针对微博用户的查找最大影响力的实现方法 |
CN105260474B (zh) * | 2015-10-29 | 2018-08-14 | 俞定国 | 一种基于信息交互网络的微博用户影响力计算方法 |
-
2018
- 2018-11-21 CN CN201811393912.4A patent/CN109492924B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945279A (zh) * | 2012-11-14 | 2013-02-27 | 清华大学 | 微博用户影响力的评估方法及装置 |
CN104657498A (zh) * | 2015-03-11 | 2015-05-27 | 中国科学院自动化研究所 | 微博用户影响力的评估方法 |
CN105608625A (zh) * | 2016-01-04 | 2016-05-25 | 哈尔滨工程大学 | 一种基于微博用户质量的信息影响力评估方法 |
CN106991160A (zh) * | 2017-03-30 | 2017-07-28 | 武汉大学 | 一种基于用户影响力以及内容的微博传播预测方法 |
Non-Patent Citations (1)
Title |
---|
基于Hadoop的微博用户影响力排名算法设计;郑新等;《信息技术》;20170125;第76-79页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109492924A (zh) | 2019-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110457404B (zh) | 基于复杂异质网络的社交媒体账户分类方法 | |
CN103150374B (zh) | 一种识别微博异常用户的方法和系统 | |
Fleischhacker et al. | Detecting errors in numerical linked data using cross-checked outlier detection | |
WO2017167071A1 (zh) | 一种对应用程序进行项目评估的方法及系统 | |
CN105719191B (zh) | 多尺度空间下不确定行为语义的社交群体发现方法 | |
CN104484343A (zh) | 一种对微博进行主题发现与追踪的方法 | |
CN112615888B (zh) | 一种网络攻击行为的威胁评估方法及装置 | |
CN113422761B (zh) | 基于对抗学习的恶意社交用户检测方法 | |
Xiao et al. | Towards confidence interval estimation in truth discovery | |
CN109783614A (zh) | 一种社交网络待发布文本的差分隐私泄露检测方法及系统 | |
CN109492924B (zh) | 一种基于微博用户自身和行为价值二阶的影响力评估方法 | |
Chen | Data mining applications in e-government information security | |
Avrachenkov et al. | Quick detection of high-degree entities in large directed networks | |
Han et al. | A semantic community detection algorithm based on quantizing progress | |
CN105468780A (zh) | 一种微博文本中产品名实体的规范化方法及装置 | |
CN115329078B (zh) | 文本数据处理方法、装置、设备以及存储介质 | |
CN109885760B (zh) | 基于用户兴趣的信息溯源方法和系统 | |
Liu et al. | Research on discovering Deep Web entries based ontopic crawling and ontology | |
Yu et al. | Prediction of users retweet times in social network | |
Sridhar et al. | Envisaging prominence of Indian telecom operators using an ensemble link based approach | |
Niu et al. | Entity resolution with attribute and connection graph | |
Zhao et al. | High-value user identification based on topic weight | |
CN116644227A (zh) | 一种基于签到数据离散特征量化的位置推荐系统自然噪声过滤方法 | |
Marcin et al. | Extracting topic trends and connections: semantic analysis and topic linking in Twitter and Wikipedia datasets | |
CN107483256B (zh) | 一种网络化数据流的标签提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |