CN111953740A - 一种基于selenium检查统计微博博主不活跃粉丝的方法 - Google Patents

一种基于selenium检查统计微博博主不活跃粉丝的方法 Download PDF

Info

Publication number
CN111953740A
CN111953740A CN202010702420.XA CN202010702420A CN111953740A CN 111953740 A CN111953740 A CN 111953740A CN 202010702420 A CN202010702420 A CN 202010702420A CN 111953740 A CN111953740 A CN 111953740A
Authority
CN
China
Prior art keywords
microblog
vermicelli
inactive
fan
selenium
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010702420.XA
Other languages
English (en)
Inventor
李益彰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guanqun Information Technology Nanjing Co ltd
Original Assignee
Guanqun Information Technology Nanjing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guanqun Information Technology Nanjing Co ltd filed Critical Guanqun Information Technology Nanjing Co ltd
Priority to CN202010702420.XA priority Critical patent/CN111953740A/zh
Publication of CN111953740A publication Critical patent/CN111953740A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0876Network architectures or network communication protocols for network security for authentication of entities based on the identity of the terminal or configuration, e.g. MAC address, hardware or software configuration or device fingerprint

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Power Engineering (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种基于selenium检查统计微博博主不活跃粉丝的方法,包括以下步骤:通过自动化工具登录第三方微博账户;通过所述第三方微博账户进入博主主页,获取所述博主的粉丝列表;依次读取所述粉丝列表,进入粉丝主页,获取所述粉丝的发微博、点赞微博和互关粉丝信息;构建不活跃粉丝判断模型;将所述粉丝的发微博、点赞微博和互关粉丝信息输入所述不活跃粉丝判断模型,获取判断结果。本发明可以准确快速的确定微博博主的不活跃粉丝数量,解决了终端商家和大众困扰的问题。

Description

一种基于selenium检查统计微博博主不活跃粉丝的方法
技术领域
本发明涉及计算机信息领域,具体而言,涉及一种基于selenium检查统计微博博主不活跃粉丝的方法。
背景技术
随着人工智能和大数据时代的到来,各种数据都变得越来越重要。新浪微博作为国内最大的社交平台之一,因为其拥有大量用户,每天都产生着庞大的数据,商家以及大众对于微博知名用户的粉丝真实性存在一些疑问,需要获取一些知名用户的大致真实人气,好用来评判其真实粉丝数量,所以如何判断微博博主不活跃粉丝数量就变成了一个值得解决的问题。
发明内容
本发明的目的在于提供一种基于selenium检查统计微博博主不活跃粉丝的方法。
为解决上述技术问题,本发明采用的技术方案是:一种基于selenium检查统计微博博主不活跃粉丝的方法,包括以下步骤:通过自动化工具登录第三方微博账户;通过所述第三方微博账户进入博主主页,获取所述博主的粉丝列表;依次读取所述粉丝列表,进入粉丝主页,获取所述粉丝的发微博、点赞微博和互关粉丝信息;构建不活跃粉丝判断模型;将所述粉丝的发微博、点赞微博和互关粉丝信息输入所述不活跃粉丝判断模型,获取判断结果。
作为优选方案,所述构建不活跃粉丝判断模型,包括以下步骤:判断所述粉丝主页最近一条微博是否在第一设定时间内;统计所述粉丝主页在第二设定时间内的点赞微博数,且判断所述粉丝点赞微博是否与所述博主相关;统计并判断所述粉丝主页有无互关粉丝。
作为优选方案,所述第一设定时间为3个月,所述第二设定时间为1个月。
作为优选方案,所述进入博主主页,具体包括,通过自动化工具进入微博官网,构建第一访问地址进入博主主页。
作为优选方案,判断所述粉丝点赞微博是否与所述博主相关,具体为:获取所述粉丝点赞微博的主页第二访问地址,判断所述第二访问地址是否与所述第一访问地址一致。
作为优选方案,所述依次读取所述粉丝列表,具体包括,依次获取所述粉丝列表中粉丝主页第三访问地址,并将所述粉丝主页第三访问地址存入队列中。
作为优选方案,所述自动化工具为selenium测试工具。
与现有技术相比,本发明的有益效果包括:通过selenium自动化工具快速进行登录账户并获取粉丝的发微博、点赞微博和互关粉丝信息,再将信息导入不活跃粉丝判断模型中处理,可以准确快速的确定微博博主的不活跃粉丝数量,解决了终端商家和大众困扰的问题。
附图说明
参照附图来说明本发明的公开内容。应当了解,附图仅仅用于说明目的,而并非意在对本发明的保护范围构成限制。在附图中,相同的附图标记用于指代相同的部件。其中:
图1为本发明实施例的基于selenium检查统计微博博主不活跃粉丝的方法流程图。
图2为本发明实施例的构建不活跃粉丝判断模型的步骤流程图。
具体实施方式
容易理解,根据本发明的技术方案,在不变更本发明实质精神下,本领域的一般技术人员可以提出可相互替换的多种结构方式以及实现方式。因此,以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明,而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。
根据本发明的一实施方式结合图1示出。一种基于selenium检查统计微博博主不活跃粉丝的方法,包括以下步骤:
S1:通过自动化工具登录第三方微博账户。通过selenium自动化工具,设置第三方微博账号密码登录。
可选的,通过getcookie和setcookie的方法来保存cookie,设置一个时间阈值30天,当cookie到期时,自动执行getcookie方法,更新存放在本地的cookie文件,从而实现免用户密码登录。
S2:通过第三方微博账户进入博主主页,获取博主的粉丝列表。
使用selenium自动化工具并通过第三方微博账户进入微博官网weibo.cn,构建第一访问地址进入博主主页,获取博主的粉丝列表。
S3:依次读取粉丝列表,进入粉丝主页,获取粉丝的发微博、点赞微博和互关粉丝信息。
依次获取粉丝列表中粉丝主页第三访问地址,并将第三访问地址存入队列中,使用selenium自动化工具依次从队列中获取第三访问地址,通过第三访问地址进入粉丝主页,获取粉丝的发微博数量及其时间、点赞微博数量及其时间和互关粉丝数量。
S4:构建不活跃粉丝判断模型,如图2所示,包括以下步骤:
S401:判断粉丝主页最近一条微博是否在第一设定时间内,第一设定时间为3个月,如果输出结果为是,则为活跃粉丝,反之,进行下一步。
S402:统计粉丝主页在第二设定时间内的点赞微博数,第二设定时间为1个月,且判断粉丝点赞微博是否与博主相关。
获取粉丝点赞微博的主页第二访问地址,判断第二访问地址是否与第一访问地址一致,如果两个访问地址一致,则说明粉丝点赞微博与博主相关。当相关的点赞微博数占到总数的98%以上时,则进行下一步,反之为活跃粉丝。
S403:统计并判断粉丝主页有无互关粉丝。直接从粉丝主页获取互关粉丝数量,当互关粉丝少于1个时,则判断为不活跃粉丝。
S5:将粉丝的发微博、点赞微博和互关粉丝信息输入不活跃粉丝判断模型,获取判断结果。
本发明公开了一种基于selenium检查统计微博博主不活跃粉丝的方法,通过selenium自动化工具快速进行登录账户并获取粉丝的发微博、点赞微博和互关粉丝信息,再将信息导入不活跃粉丝判断模型中处理,可以准确快速的确定微博博主的不活跃粉丝数量,解决了终端商家和大众困扰的问题。
本发明的技术范围不仅仅局限于上述说明中的内容,本领域技术人员可以在不脱离本发明技术思想的前提下,对上述实施例进行多种变形和修改,而这些变形和修改均应当属于本发明的保护范围内。

Claims (7)

1.一种基于selenium检查统计微博博主不活跃粉丝的方法,其特征在于,包括以下步骤:
通过自动化工具登录第三方微博账户;
通过所述第三方微博账户进入博主主页,获取所述博主的粉丝列表;
依次读取所述粉丝列表,进入粉丝主页,获取所述粉丝的发微博、点赞微博和互关粉丝信息;
构建不活跃粉丝判断模型;
将所述粉丝的发微博、点赞微博和互关粉丝信息输入所述不活跃粉丝判断模型,获取判断结果。
2.根据权利要求1所述的基于selenium检查统计微博博主不活跃粉丝的方法,其特征在于,所述构建不活跃粉丝判断模型,包括以下步骤:
判断所述粉丝主页最近一条微博是否在第一设定时间内;
统计所述粉丝主页在第二设定时间内的点赞微博数,且判断所述粉丝点赞微博是否与所述博主相关;
统计并判断所述粉丝主页有无互关粉丝。
3.根据权利要求2所述的基于selenium检查统计微博博主不活跃粉丝的方法,其特征在于,所述第一设定时间为3个月,所述第二设定时间为1个月。
4.根据权利要求1所述的基于selenium检查统计微博博主不活跃粉丝的方法,其特征在于,所述进入博主主页,具体包括,通过自动化工具进入微博官网,构建第一访问地址进入博主主页。
5.根据权利要求4所述的基于selenium检查统计微博博主不活跃粉丝的方法,其特征在于,判断所述粉丝点赞微博是否与所述博主相关,具体为:获取所述粉丝点赞微博的主页第二访问地址,判断所述第二访问地址是否与所述第一访问地址一致。
6.根据权利要求1所述的基于selenium检查统计微博博主不活跃粉丝的方法,其特征在于,所述依次读取所述粉丝列表,具体包括,依次获取所述粉丝列表中粉丝主页第三访问地址,并将所述第三访问地址存入队列中。
7.根据权利要求1所述的基于selenium检查统计微博博主不活跃粉丝的方法,其特征在于,所述自动化工具为selenium测试工具。
CN202010702420.XA 2020-07-21 2020-07-21 一种基于selenium检查统计微博博主不活跃粉丝的方法 Pending CN111953740A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010702420.XA CN111953740A (zh) 2020-07-21 2020-07-21 一种基于selenium检查统计微博博主不活跃粉丝的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010702420.XA CN111953740A (zh) 2020-07-21 2020-07-21 一种基于selenium检查统计微博博主不活跃粉丝的方法

Publications (1)

Publication Number Publication Date
CN111953740A true CN111953740A (zh) 2020-11-17

Family

ID=73340148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010702420.XA Pending CN111953740A (zh) 2020-07-21 2020-07-21 一种基于selenium检查统计微博博主不活跃粉丝的方法

Country Status (1)

Country Link
CN (1) CN111953740A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103117891A (zh) * 2013-01-18 2013-05-22 武汉大学 微博平台上的僵尸用户探测方法
CN104484390A (zh) * 2014-12-11 2015-04-01 哈尔滨工程大学 一种面向微博的僵尸粉丝检测方法
CN106682118A (zh) * 2016-12-08 2017-05-17 华中科技大学 基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法
CN109255101A (zh) * 2018-08-23 2019-01-22 北京学之途网络科技有限公司 基于机器学习和抽样算法的微博粉丝数获取方法及装置
CN109543086A (zh) * 2018-11-23 2019-03-29 北京信息科技大学 一种面向多数据源的网络数据采集与展示方法
CN109902216A (zh) * 2019-03-04 2019-06-18 桂林电子科技大学 一种基于社交网络的数据采集与分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103117891A (zh) * 2013-01-18 2013-05-22 武汉大学 微博平台上的僵尸用户探测方法
CN104484390A (zh) * 2014-12-11 2015-04-01 哈尔滨工程大学 一种面向微博的僵尸粉丝检测方法
CN106682118A (zh) * 2016-12-08 2017-05-17 华中科技大学 基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法
CN109255101A (zh) * 2018-08-23 2019-01-22 北京学之途网络科技有限公司 基于机器学习和抽样算法的微博粉丝数获取方法及装置
CN109543086A (zh) * 2018-11-23 2019-03-29 北京信息科技大学 一种面向多数据源的网络数据采集与展示方法
CN109902216A (zh) * 2019-03-04 2019-06-18 桂林电子科技大学 一种基于社交网络的数据采集与分析方法

Similar Documents

Publication Publication Date Title
US9838400B2 (en) System and method for validating users using social network information
CN105930727B (zh) 基于Web的爬虫识别方法
CN104519032B (zh) 一种互联网账号的安全策略及系统
US9223968B2 (en) Determining whether virtual network user is malicious user based on degree of association
WO2019134544A1 (zh) 营销信息的推送方法及装置
JP5551704B2 (ja) オンライン・マーケティング効率の評価
CN106650398B (zh) 移动平台的验证码识别系统及识别方法
Thorlund et al. Comparison of statistical inferences from the DerSimonian–Laird and alternative random‐effects model meta‐analyses–an empirical assessment of 920 Cochrane primary outcome meta‐analyses
US9210189B2 (en) Method, system and client terminal for detection of phishing websites
CN107369034A (zh) 一种用户调研诚信判断的方法和装置
WO2013160904A1 (en) Influence scores for social media profiles
CN102640144A (zh) 协同操作数据的方法和系统
CN110336838B (zh) 账号异常检测方法、装置、终端及存储介质
TW202046206A (zh) 異常帳戶的檢測方法及裝置
TW201901579A (zh) 用於風險評測的資料採集方法及裝置和電子設備
CN105208009B (zh) 一种账号安全检测方法及装置
CN112953938A (zh) 网络攻击防御方法、装置、电子设备及可读存储介质
CN112711691A (zh) 网络舆情引导效果数据信息处理方法、系统、终端及介质
CN112397204B (zh) 一种预测高原病的方法、装置、计算机设备和存储介质
CN111953740A (zh) 一种基于selenium检查统计微博博主不活跃粉丝的方法
CN106933905A (zh) 网页访问数据的监测方法和装置
CN111814064A (zh) 基于Neo4j的异常用户处理方法、装置、计算机设备和介质
CN111147441A (zh) 网络购票的舞弊行为自动检测方法、设备及可读存储介质
JP2002157422A (ja) 与信方法および記録媒体
CN108984773A (zh) 数据缺失情况下的黑名单多维信息验证方法及系统及可读存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201117