CN104484390A - 一种面向微博的僵尸粉丝检测方法 - Google Patents

一种面向微博的僵尸粉丝检测方法 Download PDF

Info

Publication number
CN104484390A
CN104484390A CN201410765042.4A CN201410765042A CN104484390A CN 104484390 A CN104484390 A CN 104484390A CN 201410765042 A CN201410765042 A CN 201410765042A CN 104484390 A CN104484390 A CN 104484390A
Authority
CN
China
Prior art keywords
user
bean vermicelli
interactions
corpse
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410765042.4A
Other languages
English (en)
Inventor
杨武
董国忠
王巍
苘大鹏
玄世昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201410765042.4A priority Critical patent/CN104484390A/zh
Publication of CN104484390A publication Critical patent/CN104484390A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

本发明公开了一种面向微博的僵尸粉丝检测方法。包括以下几个步骤:选取训练样本集,标注训练样本集中每个用户的用户类型;根据训练样本集中用户的交互行为,建立用户交互图;基于用户交互图提取用户特征;将训练集中每个用户的用户类型和用户特征输入神经网络分类器进行训练,得到训练后的神经网络分类器;提取待检测用户的用户特征,将待检测用户的用户特征输入给训练后的神经网络分类器,得到当前待检测用户的用户类型。本发明能够提高检测僵尸粉丝的检测率与准确度。

Description

一种面向微博的僵尸粉丝检测方法
技术领域
本发明属于互联网信息管理领域,尤其涉及一种面向微博的僵尸粉丝检测方法。
背景技术
随着社交网络的快速发展,微博作为主要的社交媒体得到了广大网民的关注。微博个人用户通过微博与朋友交流并在微博上发布并分享信息,明星用户以及企业微博用户通过微博进行营销从而提高知名度。由于微博用户数量的快速增长,用户的影响力和可信度在信息传播和扩散起着重要作用。为了提高用户影响力和可信度,一些用户采取随机关注其他用户的方式获取其他用户的关注从而增加粉丝数。这种方法不能够满足需要大量粉丝的用户的需求,由此产生了僵尸粉丝营销商出售粉丝的业务。目前僵尸粉丝营销商所利用的僵尸粉丝来源途径主要分为两种,一种是创建虚假用户,这些虚假用户通常具有较低的影响力和可信度,另一种是通过某些手段使正常用户妥协为僵尸粉丝用户,与虚假用户不同的是妥协用户是高度智能的并且同时具有正常用户和虚假用户的用户特征。微博中的僵尸粉丝以及具有大量僵尸粉丝的微博用户经常发布营销消息和包含恶意链接的垃圾消息,破坏了微博社区环境以及降低了微博的用户体验。
为了抵制僵尸粉丝以及具有大量僵尸粉丝的微博用户破坏微博的用户体验,微博启动信息流优化计划,针对用户的举报,对微博内的垃圾营销内容限制展示。但是由于微博中存在大量的僵尸粉丝并且高智能僵尸粉丝采用逃避策略避免被发现,微博采用的人工举报的方式效果并不是很明显。
现有的微博垃圾用户检测方法中未对不同智能级别的僵尸粉丝进行深入分析,在检测过程中未考虑微博用户本身以及微博用户粉丝的用户行为特征,应用到实际微博僵尸粉丝检测系统中会导致较大的误报率、较低的检测率。
发明内容
本发明的目的是提供能够提高僵尸粉丝的检测率和准确度的,一种面向微博的僵尸粉丝检测方法。
本发明是通过以下技术方案实现的:
一种面向微博的僵尸粉丝检测方法,包括以下几个步骤:
步骤一:选取训练样本集,样本集中包含用户信息,标注训练样本集中每个用户的用户类型,用户类型为正常用户和僵尸粉丝用户;
步骤二:根据训练样本集中用户的交互行为,建立用户交互图G=(U,E,W),U表示用户集合,E表示顶点之间有交互行为的边的集合,wij∈W,wij表示用户i和用户j的交互次数;
步骤三:基于用户交互图提取用户特征;
步骤四:将训练集中每个用户的用户类型和用户特征输入神经网络分类器进行训练,得到训练后的神经网络分类器;
步骤五:建立待检测用户的用户交互图,提取待检测用户的用户特征,将待检测用户的用户特征输入给训练后的神经网络分类器,得到当前待检测用户的用户类型;
步骤六:读取下一个待检测用户,重复步骤五,直到任务结束。
本发明一种面向微博的僵尸粉丝检测方法,还可以包括:
用户特征包括用户关注粉丝比、用户单向交互特征、用户双向交互特征,用户单向交互特征包括用户原创消息的单向交互动作的平均值和用户非原创消息的单向交互动作的平均值,其中,用户原创消息的单向交互动作的平均值:
A o ( i ) = 1 | M o ( i ) | · Σ m ∈ Mo ( i ) rc ( m )
其中,Mo(i)表示用户i的原创消息集合,rc(m)表示消息m的评论数和转发数的总和;
用户非原创消息的单向交互动作的平均值:
A no ( i ) = 1 | M no ( i ) | · Σ m ∈ Mno ( i ) rc ( m )
其中,Mno(i)表示用户i的原创消息集合,rc(m)表示消息m的评论数和转发数的总和;
所述的用户双向交互特征包括用户交互度和用户交互质量,其中,用户交互度为:
N ( i ) = Σ j ∈ U i w ij
其中,Ui表示与用户i具有双向交互动作的用户集合,
用户交互质量可以表示为:
Q(i)=ri
其中,ri表示用户i的交互指数。
有益效果:
本发明提出一个用户交互图模型,利用用户交互图模型抽取用户交互特征,提出的单向和双向用户交互特征相比其他方法应用在僵尸粉丝检测问题中具有较高的鲁棒性。
本发明提出一个基于用户交互行为和神经网络分类器的僵尸粉丝检测方法,此方法能够有效的检测微博中的僵尸粉丝,提高检测僵尸粉丝的检测率与准确度。
附图说明
图1是本发明提供的微博僵尸粉丝检测的方法的流程图。
图2是本发明提供的僵尸粉丝检测方法的示意图。
具体实施方式
下面将结合附图对本发明做进一步详细说明。
本发明提供一种面向微博的僵尸粉丝检测方法,该方法包括以下四个步骤:
步骤A:分析正常用户以及僵尸粉丝的用户特征并建立用户交互图模型;
步骤B:基于用户交互图模型抽取用户特征;
步骤C:根据提取的用户特征训练神经网络分类器;
步骤D:提取待检测用户的用户特征,通过训练后的神经网络分类器以及抽取的用户特征判定僵尸粉丝。
步骤A中,分析正常用户以及僵尸粉丝的用户特征并建立用户交互图模型的步骤为:
步骤A1,通过僵尸粉丝营销商以及志愿者人工标注两种方式选取正常用户以及僵尸粉丝用户并存储标注用户类型;
步骤A2,根据用户交互行为定义用户交互动作以及用户交互质量;
步骤A3,根据用户交互动作建立并形式化用户交互图。
步骤B中,基于用户交互图模型抽取用户特征的步骤为:
步骤B1,提取用户特征(用户关注粉丝比、用户单向交互特征、用户双向交互特征)并计算用户特征值;
步骤B2,将提取的用户特征存储到数据库。
步骤C中,根据提取的用户特征训练神经网络分类器的步骤为:
步骤C1,从数据库中提取用户特征以及用户类型;
步骤C2,根据用户特征以及用户类型训练神经网络分类器。
步骤D中,通过训练后的神经网络分类器以及待检测用户的用户特征判定僵尸粉丝的步骤为:
步骤D1,提取待检测用户的用户特征;
步骤D2,通过训练后的神经网络分类器以及待检测用户的用户特征判定僵尸粉丝。
如图1~图2所示,本发明方法详述如下:
在步骤101中,分析正常用户以及僵尸粉丝的用户特征并建立用户交互图模型。
正常用户以及僵尸粉丝用户选取方法包括通过僵尸粉丝营销商以及志愿者人工标注两种方式。
在抽取用户交互特征之前,根据用户交互行为定义用户交互动作、用户交互图以及用户交互质量。
用户交互动作:对于用户i和j,如果i与j主动交互,包括评论、转发等行为,则称此单向交互为主动交互,其中i主动用户,j为被动用户。当j回应i的主动交互,一般为回复等行为,则称其为被动交互,并且单向用户交互行为转变为双向用户交互行为。
用户交互图:用户交互图定义为无向有权图G=(U,E,W),用户交互图中U表示用户集合,E表示顶点之间有交互关系的边的集合,对于任意的wij∈W,wij表示用户i和j的交互次数。
用户交互质量:如果用户i在用户交互图G中的至少有r个邻居节点,每个邻居节点至少有r次双向交互行为,则称用户i的交互指数为r。
在步骤102中,基于用户交互图模型抽取用户特征。
所抽取的用户特征包括用户关注粉丝比、用户单向交互特征、用户双向交互特征。
用户单向交互特征包括用户原创消息的单向交互动作的平均值、用户非原创消息的单向交互动作的平均值,示例性地,用户原创消息的单向交互动作的平均值可以表示为:
A o ( i ) = 1 | M o ( i ) | · Σ m ∈ Mo ( i ) rc ( m )
其中,Mo(i)表示用户i的原创消息集合,rc(m)表示消息m的评论数和转发数的总和。
用户非原创消息的单向交互动作的平均值可以表示为:
A no ( i ) = 1 | M no ( i ) | · Σ m ∈ Mno ( i ) rc ( m )
其中,Mno(i)表示用户i的原创消息集合,rc(m)表示消息m的评论数和转发数的总和。
用户双向交互特征包括用户交互度和用户交互质量,示例性地,用户交互度可以表示为:
N ( i ) = Σ j ∈ U i w ij
其中,Ui表示与用户i具有双向交互关系的用户集合。
用户交互质量可以表示为:
Q(i)=ri
其中,ri表示用户i的交互指数。
在步骤103中,根据提取的用户特征以及用户类型训练神经网络分类器。
在步骤104中,建立待检测用户的用户交互图,该用户交互图中的用户为与待检测用户有交互行为的用户,提取待检测用户的用户特征,通过训练后的神经网络分类器以及待检测用户的用户特征判定僵尸粉丝。
给定提取的用户特征以及用户类型作为神经网络分类器的输入,通过训练神经网络分类器并在采集的数据集上进行验证,实验结果表明本方法提出的特征具有高鲁棒性并且僵尸粉丝检测的准确率高达98%以上。

Claims (2)

1.一种面向微博的僵尸粉丝检测方法,其特征在于,包括以下几个步骤:
步骤一:选取训练样本集,样本集中包含用户信息,标注训练样本集中每个用户的用户类型,用户类型为正常用户和僵尸粉丝用户;
步骤二:根据训练样本集中用户的交互行为,建立用户交互图G=(U,E,W),U表示用户集合,E表示顶点之间有交互行为的边的集合,wij∈W,wij表示用户i和用户j的交互次数;
步骤三:基于用户交互图提取用户特征;
步骤四:将训练集中每个用户的用户类型和用户特征输入神经网络分类器进行训练,得到训练后的神经网络分类器;
步骤五:建立待检测用户的用户交互图,提取待检测用户的用户特征,将待检测用户的用户特征输入给训练后的神经网络分类器,得到当前待检测用户的用户类型;
步骤六:读取下一个待检测用户,重复步骤五,直到任务结束。
2.根据权利要求1所述的一种面向微博的僵尸粉丝检测方法,其特征在于:所述的用户特征包括用户关注粉丝比、用户单向交互特征、用户双向交互特征,用户单向交互特征包括用户原创消息的单向交互动作的平均值和用户非原创消息的单向交互动作的平均值,其中,用户原创消息的单向交互动作的平均值:
A o ( i ) = 1 | M o ( i ) | · Σ m ∈ M o ( i ) rc ( m )
其中,Mo(i)表示用户i的原创消息集合,rc(m)表示消息m的评论数和转发数的总和;用户非原创消息的单向交互动作的平均值:
A no ( i ) = 1 | M no ( i ) | · Σ m ∈ M no ( i ) rc ( m )
其中,Mno(i)表示用户i的原创消息集合,rc(m)表示消息m的评论数和转发数的总和;所述的用户双向交互特征包括用户交互度和用户交互质量,其中,用户交互度为:
N ( i ) = Σ j ∈ U i w ij
其中,Ui表示与用户i具有双向交互动作的用户集合,
用户交互质量可以表示为:
Q(i)=ri
其中,ri表示用户i的交互指数。
CN201410765042.4A 2014-12-11 2014-12-11 一种面向微博的僵尸粉丝检测方法 Pending CN104484390A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410765042.4A CN104484390A (zh) 2014-12-11 2014-12-11 一种面向微博的僵尸粉丝检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410765042.4A CN104484390A (zh) 2014-12-11 2014-12-11 一种面向微博的僵尸粉丝检测方法

Publications (1)

Publication Number Publication Date
CN104484390A true CN104484390A (zh) 2015-04-01

Family

ID=52758931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410765042.4A Pending CN104484390A (zh) 2014-12-11 2014-12-11 一种面向微博的僵尸粉丝检测方法

Country Status (1)

Country Link
CN (1) CN104484390A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005594A (zh) * 2015-06-29 2015-10-28 嘉兴慧康智能科技有限公司 异常微博用户识别方法
CN106682118A (zh) * 2016-12-08 2017-05-17 华中科技大学 基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法
CN107168945A (zh) * 2017-04-13 2017-09-15 广东工业大学 一种融合多特征的双向循环神经网络细粒度意见挖掘方法
CN107402754A (zh) * 2017-06-30 2017-11-28 北京金山安全软件有限公司 信息处理和模型训练方法、装置、电子设备、存储介质
CN109255101A (zh) * 2018-08-23 2019-01-22 北京学之途网络科技有限公司 基于机器学习和抽样算法的微博粉丝数获取方法及装置
CN110022359A (zh) * 2019-03-25 2019-07-16 浙江每日互动网络科技股份有限公司 一种基于移动终端数据获取终端用户状态的方法
CN110300089A (zh) * 2018-03-23 2019-10-01 腾讯科技(深圳)有限公司 目标帐号的处理方法、装置、存储介质及电子装置
CN111259962A (zh) * 2020-01-17 2020-06-09 中南大学 一种针对时序社交数据的Sybil账号检测方法
CN111953740A (zh) * 2020-07-21 2020-11-17 冠群信息技术(南京)有限公司 一种基于selenium检查统计微博博主不活跃粉丝的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050222806A1 (en) * 2004-04-01 2005-10-06 Ectel Ltd. Detection of outliers in communication networks
CN103117891A (zh) * 2013-01-18 2013-05-22 武汉大学 微博平台上的僵尸用户探测方法
CN104166726A (zh) * 2014-08-26 2014-11-26 哈尔滨工程大学 一种面向微博文本流的突发关键词检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050222806A1 (en) * 2004-04-01 2005-10-06 Ectel Ltd. Detection of outliers in communication networks
CN103117891A (zh) * 2013-01-18 2013-05-22 武汉大学 微博平台上的僵尸用户探测方法
CN104166726A (zh) * 2014-08-26 2014-11-26 哈尔滨工程大学 一种面向微博文本流的突发关键词检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王越等: "一种多特征微博僵尸粉检测方法与实现", 《中国科技论文》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005594A (zh) * 2015-06-29 2015-10-28 嘉兴慧康智能科技有限公司 异常微博用户识别方法
CN105005594B (zh) * 2015-06-29 2018-07-13 嘉兴慧康智能科技有限公司 异常微博用户识别方法
CN106682118A (zh) * 2016-12-08 2017-05-17 华中科技大学 基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法
CN107168945B (zh) * 2017-04-13 2020-07-14 广东工业大学 一种融合多特征的双向循环神经网络细粒度意见挖掘方法
CN107168945A (zh) * 2017-04-13 2017-09-15 广东工业大学 一种融合多特征的双向循环神经网络细粒度意见挖掘方法
CN107402754A (zh) * 2017-06-30 2017-11-28 北京金山安全软件有限公司 信息处理和模型训练方法、装置、电子设备、存储介质
CN110300089A (zh) * 2018-03-23 2019-10-01 腾讯科技(深圳)有限公司 目标帐号的处理方法、装置、存储介质及电子装置
CN110300089B (zh) * 2018-03-23 2020-09-29 腾讯科技(深圳)有限公司 目标帐号的处理方法、装置、存储介质及电子装置
CN109255101A (zh) * 2018-08-23 2019-01-22 北京学之途网络科技有限公司 基于机器学习和抽样算法的微博粉丝数获取方法及装置
CN110022359A (zh) * 2019-03-25 2019-07-16 浙江每日互动网络科技股份有限公司 一种基于移动终端数据获取终端用户状态的方法
CN111259962A (zh) * 2020-01-17 2020-06-09 中南大学 一种针对时序社交数据的Sybil账号检测方法
CN111259962B (zh) * 2020-01-17 2023-06-20 中南大学 一种针对时序社交数据的Sybil账号检测方法
CN111953740A (zh) * 2020-07-21 2020-11-17 冠群信息技术(南京)有限公司 一种基于selenium检查统计微博博主不活跃粉丝的方法

Similar Documents

Publication Publication Date Title
CN104484390A (zh) 一种面向微博的僵尸粉丝检测方法
CN106886518B (zh) 一种微博账号分类的方法
Zheng et al. Detecting spammers on social networks
Zhu et al. Discovering spammers in social networks
CN102629904B (zh) 一种网络水军的探测与判定方法
CN104915397A (zh) 一种微博传播趋势预测方法及装置
CN103795613A (zh) 一种在线社交网络中朋友关系预测的方法
CN105550275A (zh) 一种微博转发量预测方法
Weber et al. Who's in the gang? Revealing coordinating communities in social media
Yarnell et al. Using occupancy analysis to validate the use of footprint tunnels as a method for monitoring the hedgehog E rinaceus europaeus
Al‐Qurishi et al. SybilTrap: A graph‐based semi‐supervised Sybil defense scheme for online social networks
CN112566093B (zh) 一种终端关系识别方法、装置、计算机设备及存储介质
CN106952167A (zh) 一种基于多元线性回归的餐饮业好友连边影响力预测方法
Kharaji et al. A new approach for finding cloned profiles in online social networks
CN104915354A (zh) 多媒体文件推送方法及装置
Tiwari Analysis and detection of fake profile over social network
CN111767472A (zh) 一种社交网络异常账号检测方法及系统
CN104298782A (zh) 互联网用户主动访问行为轨迹的分析方法
Sun et al. Matrix based community evolution events detection in online social networks
Rezaei et al. Anomaly detection in online social networks using structure-based technique
Chen et al. Network intrusion detection using class association rule mining based on genetic network programming
Reddy et al. Integrated approach to detect spam in social media networks using hybrid features
CN108536776A (zh) 一种社交网络中的统一用户恶意行为检测方法和系统
Milling et al. Distinguishing infections on different graph topologies
Yu et al. New to online dating? Learning from experienced users for a successful match

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150401

RJ01 Rejection of invention patent application after publication