CN103457799A - 基于关系图的微博僵尸用户检测方法 - Google Patents

基于关系图的微博僵尸用户检测方法 Download PDF

Info

Publication number
CN103457799A
CN103457799A CN2013103964042A CN201310396404A CN103457799A CN 103457799 A CN103457799 A CN 103457799A CN 2013103964042 A CN2013103964042 A CN 2013103964042A CN 201310396404 A CN201310396404 A CN 201310396404A CN 103457799 A CN103457799 A CN 103457799A
Authority
CN
China
Prior art keywords
user
users
corpse
microblogging
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013103964042A
Other languages
English (en)
Other versions
CN103457799B (zh
Inventor
邹福泰
姚雨石
吴嘉玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201310396404.2A priority Critical patent/CN103457799B/zh
Publication of CN103457799A publication Critical patent/CN103457799A/zh
Application granted granted Critical
Publication of CN103457799B publication Critical patent/CN103457799B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于关系图分析的微博僵尸用户检测方法,包括数据收集模块和关系图分析模块;数据收集模块用于收集一个已知僵尸用户的数据和从数据中挑选样本用户。关系图分析模块用于判断样本用户是否是僵尸用户:首先建立已知僵尸用户和样本用户的关系图;初始化用户的恶意评分;计算用户的关联性数值并按照关系图和传播规则计算和更新样本用户的恶意评分;判断样本用户的恶意评分的是否传播收敛;判断传播收敛的样本用户的恶意评分是否大于阈值,大于阈值则该样本用户为僵尸用户。本发明利用僵尸用户的社会关系和语义关系寻找识别其他僵尸用户,提高了僵尸用户的判别效率。本发明运用于社交网络,为其提供更加安全有效的检测服务,提高了社交网络的安全性。

Description

基于关系图的微博僵尸用户检测方法
技术领域
本发明涉及一种微博僵尸用户检测方法,尤其涉及一种基于关系图的微博僵尸用户检测方法。
背景技术
当今科技时代,随着智能通信终端的流行,移动互联网也日益走进人们的日常生活中。当前,社交网络是移动互联网中相当热门的应用,如国外的“Facebook”和“Twitter”等,在中国,在线社交网络也已渐渐成为一个主要的平台,比较熟知和常用的是微博,人们在网络上通过微博搜集信息,结交志同道合的人。微博,即微博客(MicroBlog)的简称,是一种可以即时发布消息的类似博客的系统,是一个基于用户关系的信息分享、传播以及获取平台。微博被称为中国的“Twitter”,因为它类似于Twitter。微博不仅可以满足用户相互推荐彼此感兴趣的网络咨询,还可以关注自己欣赏的名人或朋友,查看别人的最新动态或发表自己的最新言论,从而达到与别人分享快乐的目的,因此微博得到了越来越多人的喜爱。
然而,从用户的使用习惯和不同的文化角度来看,微博和“Twitter”是不同的。根据惠普实验室的研究,人们在微博上更喜欢转发信息而不是发表原创的微博,只要分享的有价值,人们在微博上会很热心帮助转发。此外,两者在用户体验方面也不同。在“Twitter”,人们只能分享文本信息,但在微博中,人们还能够分享图片、视频和音频。此外,微博也允许用户回复状态并在同一时间转发,这在“Twitter”是不可行的。
随着微博的广泛发展,出现了许多虚假用户,即僵尸用户。这些僵尸用户的出现存在很多方面的原因。一方面,为了满足微博用户的虚荣心和提高个人微博的关注度,有些人选择花钱买一些虚假的用户来提高自己的用户丝数目,这种行为大大降低了用户的个人诚信;另一方面就是有人利用微博的这种检测漏洞大肆贩卖“僵尸用户”,那些在背后控制“僵尸用户”的人通过交易获取不小的利益,致使僵尸用户产业链的产生,为微博带来不小的负面影响。这也是微博与“Twitter”的一个明显区别。
现在,有许多人研究西方社交网站,然而,对中国社交网络的研究却是一片空白。由于微博和“Twitter”的巨大差异,所以,本领域的技术人员致力于开发一种检测微博僵尸用户的方法。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种基于可视化关系图分析的微博僵尸用户检测方法。
为实现上述目的,本发明提供了一种基于可视关系网络的微博僵尸用户检测方法,其特征在于,包括数据收集模块和关系图分析模块;
所述数据收集模块用于根据一个已知僵尸用户,收集所述已知僵尸用户的数据,并挑选出样本用户;
所述关系图分析模块用于判断所述样本用户是否是僵尸用户,具体包括以下步骤:
步骤201,将所述已知僵尸用户和所述样本用户的关系属性可视化,作出关系图:所述已知僵尸用户和所述样本用户均作为所述关系图的节点;
步骤202,初始化所述已知僵尸用户和所述样本用户的恶意评分;
步骤203,分析所述关系图的共性,计算所述关系图中各个所述节点的关联性数值,并按照传播规则和所述关系图计算和更新所述样本用户的恶意评分;
步骤204,判断所述样本用户的所述恶意评分是否传播收敛,如果传播收敛,跳入步骤205;如果不传播收敛,则跳转入步骤203;
步骤205,判断所述样本用户的所述恶意评分是否大于阈值,如果大于所述阈值,则跳转入步骤206;如果小于所述阈值,则所述样本用户被判定为正常用户;
步骤206:所述样本用户被判定为僵尸用户;
步骤207:处理完毕。
进一步地,所述数据收集模块是通过微博API收集的所述已知僵尸用户的数据。
进一步地,所述已知僵尸用户的数据包括用户粉丝和关注者的名字以及数量。
进一步地,所述数据收集模块对所述样本用户的选择是随机的。
进一步地,所述数据收集模块选择的所述样本用户的用户粉丝和关注者的数量小于1000。
进一步地,所述步骤201的所述关系图的相邻节点之间有关注与被关注的关系。
进一步地,在所述步骤202中,所述已知僵尸用户的恶意评分初始化为1,所述样本用户的恶意评分初始化为0。
进一步地,在所述步骤203中,所述节点的所述关联性数值为所述节点所对应的用户的粉丝数量的倒数。
进一步地,所述步骤203中的所述传播规则包括:
a),当计算一个用户的粉丝的恶意评分时,粉丝的恶意评分为用户的恶意评分乘以用户的关联性数值;
b),当一个用户关注多个用户时,一个用户的恶意评分是它所关注的多个用户的恶意评分之和。
进一步地,所述步骤204的所述传播收敛是指所述样本用户的所述恶意评分达到稳定不再发生变化。
由于微博缺乏对僵尸用户的检测机制,通过对僵尸用户关系网络的全面分析,所训练出来的检测方法准确度和回归度都较高,综合性能较好。适用于中国社交网络的僵尸用户判别。由于僵尸用户大多数是由系统自动生成,所以他们的ID很大程度上是相似的,此外为了避免被检测到,僵尸用户往往会互相关注使得看上去与正常用户没有区别,因此在他们的社交网络图中会有许多ID相似的用户聚拢在一块,所以如果能事先找到一个僵尸用户那么就很有可能找到与其相关的僵尸用户,大大提升了推理算法的效率。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的数据收集模块的处理过程;
图2是本发明的关系图分析模块的处理流程图。
具体实施方式
下面结合附图对本发明的实施例作详细说明:本实施例在以本发明技术方案前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明的一种基于关系图的微博僵尸用户检测方法,分为两大模块:数据收集模块和关系图分析模块。
数据收集模块的处理流程具体如图1所示。首先,通过微博的API(ApplicationProgramming Interface,应用程序编程接口)101从已知僵尸用户的账户开始,收集已知僵尸用户的数据102,即该僵尸用户的用户粉丝和关注者的用户名和数量;然后,收集已知僵尸用户的用户粉丝和关注者的数据;最后,从已知僵尸用户的用户粉丝和关注者中选择样本用户,并将样本用户和已知僵尸用户数据存入关系数据库中,其中样本用户是随机选择的。在本发明的较佳实施例中,为了保证选择的随机性,在已知僵尸用户的用户粉丝和关注者中,选择其用户粉丝和关注者不超过1000的用户作为样本用户。
数据收集模块的处理是通过人工登录微博来获取的用户信息:每一个微博用户都有自己的用户名,并且根据用户名,每个用户都有一个个人页面的链接:http://weibo.com/userid,登录到该页面中,用户的数据(用户粉丝和关注者)都能够一目了然的查到。
关系图分析模块的处理流程如图2所示,具体包括以下步骤:
步骤201,将已知僵尸用户和样本用户的关系属性可视化,作出关系图:
将每个用户(包括已知僵尸包括已知僵尸用户和样本用户)视作一个节点,对于任意两个用户,如果他们之间有关注与被关注的关系,则这两个节点之间由一条有向线段相连,方向由粉丝指向被关注的用户。
步骤202,初始化每个节点用户(包括已知僵尸用户和样本用户)的恶意评分:设定已知僵尸用户的恶意评分为1,设定每个样本用户的恶意评分为0;
步骤203,分析关系图的共性并得出僵尸用户的社会关系,计算和更新样本用户的恶意评分:
1)计算用户的关联性数值:统计每一个用户的粉丝数量,并将这个数量取倒数即为该用户与其粉丝之间的关联性数值;
2)将该关联性数值作为该用户与其相邻用户的关系图的边的权值;
3)根据关联性数值和已知僵尸用户的恶意评分按传播规则计算样本用户的恶意评分,其传播规则为:a)当计算一个用户的粉丝的恶意评分时,粉丝的恶意评分是用户的恶意评分乘以用户的关联性数值;b)当一个用户关注多个用户时,该用户的评分将是该用户所关注的所有用户的恶意评分之和;
4)按照关系图迭代计算,更新每个样本用户的恶意评分。
步骤204,判断样本用户的恶意评分是否达到稳定值不再变化,即为传播收敛:如果传播收敛,则跳转至步骤205;如果没有达到传播收敛,则跳转至步骤203。
步骤205,对每个样本用户此时的恶意评分值进行判断:如果恶意评分大于阈值(阈值确定可由启发性实验确定),则跳转如步骤206;如果恶意评分小于阈值,则该用户被判定为正常用户。
步骤206:该样本用户被判定为僵尸用户。
步骤207:僵尸用户判定结束。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于可视关系网络的微博僵尸用户检测方法,其特征在于,包括数据收集模块和关系图分析模块;
所述数据收集模块用于根据一个已知僵尸用户,收集所述已知僵尸用户的数据,并挑选出样本用户;
所述关系图分析模块用于判断所述样本用户是否是僵尸用户,具体包括以下步骤:
步骤(201),将所述已知僵尸用户和所述样本用户的关系属性可视化,作出关系图:所述已知僵尸用户和所述样本用户均作为所述关系图的节点;
步骤(202),初始化所述已知僵尸用户和所述样本用户的恶意评分;
步骤(203),分析所述关系图的共性,计算所述关系图中各个所述节点的关联性数值,并按照传播规则和所述关系图计算和更新所述样本用户的恶意评分;
步骤(204),判断所述样本用户的所述恶意评分是否传播收敛,如果传播收敛,跳入步骤(205);如果不传播收敛,则跳转入步骤(203);
步骤(205),判断所述样本用户的所述恶意评分是否大于阈值,如果大于所述阈值,则跳转入步骤(206);如果小于所述阈值,则所述样本用户被判定为正常用户;
步骤(206),所述样本用户被判定为僵尸用户;
步骤(207),处理完毕。
2.如权利要求1所述的微博僵尸用户检测方法,其中,所述数据收集模块是通过微博API收集的所述已知僵尸用户的数据。
3.如权利要求1所述的微博僵尸用户检测方法,其中,所述已知僵尸用户的数据包括用户粉丝和关注者的名字以及数量。
4.如权利要求1所述的微博僵尸用户检测方法,其中,所述数据收集模块对所述样本用户的选择是随机的。
5.如权利要求1所述的微博僵尸用户检测方法,其中,所述数据收集模块选择的所述样本用户的用户粉丝和关注者的数量小于1000。
6.如权利要求1所述的微博僵尸用户检测方法,其中,所述步骤(201)的所述关系图的相邻节点之间有关注与被关注的关系。
7.如权利要求1所述的微博僵尸用户检测方法,其中,在所述步骤(202)中,所述已知僵尸用户的恶意评分初始化为1,所述样本用户的恶意评分初始化为0。
8.如权利要求1所述的微博僵尸用户检测方法,其中,在所述步骤(203)中,所述节点的所述关联性数值为所述节点所对应的用户的粉丝数量的倒数。
9.如权利要求1所述的微博僵尸用户检测方法,其中,所述步骤(203)中所述传播规则包括:
a),当计算一个用户的粉丝的恶意评分时,粉丝的恶意评分为用户的恶意评分乘以用户的关联性数值;
b),当一个用户关注多个用户时,一个用户的恶意评分是它所关注的多个用户的恶意评分之和。
10.如权利要求1所述的微博僵尸用户检测方法,其中,所述步骤(204)中所述的传播收敛是指所述样本用户的所述恶意评分达到稳定不再发生变化。
CN201310396404.2A 2013-09-03 2013-09-03 基于关系图的微博僵尸用户检测方法 Expired - Fee Related CN103457799B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310396404.2A CN103457799B (zh) 2013-09-03 2013-09-03 基于关系图的微博僵尸用户检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310396404.2A CN103457799B (zh) 2013-09-03 2013-09-03 基于关系图的微博僵尸用户检测方法

Publications (2)

Publication Number Publication Date
CN103457799A true CN103457799A (zh) 2013-12-18
CN103457799B CN103457799B (zh) 2016-08-17

Family

ID=49739784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310396404.2A Expired - Fee Related CN103457799B (zh) 2013-09-03 2013-09-03 基于关系图的微博僵尸用户检测方法

Country Status (1)

Country Link
CN (1) CN103457799B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104092601A (zh) * 2014-07-28 2014-10-08 北京微众文化传媒有限公司 社交网络账号的识别方法和装置
CN105005594A (zh) * 2015-06-29 2015-10-28 嘉兴慧康智能科技有限公司 异常微博用户识别方法
CN105357189A (zh) * 2015-10-13 2016-02-24 精硕世纪科技(北京)有限公司 僵尸账号检测方法和装置
CN105389505A (zh) * 2015-10-19 2016-03-09 西安电子科技大学 基于栈式稀疏自编码器的托攻击检测方法
CN105956184A (zh) * 2016-06-01 2016-09-21 西安交通大学 一种微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法
CN108471445A (zh) * 2018-04-02 2018-08-31 北京奇艺世纪科技有限公司 一种关注对象内容更新通知方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102946331A (zh) * 2012-10-10 2013-02-27 北京交通大学 一种社交网络僵尸用户检测方法及装置
CN103117891A (zh) * 2013-01-18 2013-05-22 武汉大学 微博平台上的僵尸用户探测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102946331A (zh) * 2012-10-10 2013-02-27 北京交通大学 一种社交网络僵尸用户检测方法及装置
CN103117891A (zh) * 2013-01-18 2013-05-22 武汉大学 微博平台上的僵尸用户探测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZI CHU, STEVEN GIANVECCHIO, HAINING WANG, SUSHIL JAJODIA: "Detecting Automation of Twitter Accounts: Are You a Human, Bot, or Cyborg", 《IEEE TRANSACTIONS ON DEPENDABLE AND SECURE COMPUTING》, vol. 9, 31 December 2012 (2012-12-31) *
原福永,冯静,符茜茜,曹旭峰: "一种降低微博僵尸粉影响的方法", 《现代图书情报技术》, 31 May 2012 (2012-05-31) *
方明,方意: "一种新型智能僵尸粉甄别方法", 《计算机工程》, 30 April 2013 (2013-04-30) *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104092601A (zh) * 2014-07-28 2014-10-08 北京微众文化传媒有限公司 社交网络账号的识别方法和装置
CN104092601B (zh) * 2014-07-28 2017-12-05 北京微众文化传媒有限公司 社交网络账号的识别方法和装置
CN105005594A (zh) * 2015-06-29 2015-10-28 嘉兴慧康智能科技有限公司 异常微博用户识别方法
CN105005594B (zh) * 2015-06-29 2018-07-13 嘉兴慧康智能科技有限公司 异常微博用户识别方法
CN105357189A (zh) * 2015-10-13 2016-02-24 精硕世纪科技(北京)有限公司 僵尸账号检测方法和装置
CN105357189B (zh) * 2015-10-13 2018-05-01 精硕科技(北京)股份有限公司 僵尸账号检测方法和装置
CN105389505A (zh) * 2015-10-19 2016-03-09 西安电子科技大学 基于栈式稀疏自编码器的托攻击检测方法
CN105389505B (zh) * 2015-10-19 2018-06-12 西安电子科技大学 基于栈式稀疏自编码器的托攻击检测方法
CN105956184A (zh) * 2016-06-01 2016-09-21 西安交通大学 一种微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法
CN108471445A (zh) * 2018-04-02 2018-08-31 北京奇艺世纪科技有限公司 一种关注对象内容更新通知方法和装置
CN108471445B (zh) * 2018-04-02 2021-08-13 北京奇艺世纪科技有限公司 一种关注对象内容更新通知方法和装置

Also Published As

Publication number Publication date
CN103457799B (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
Bindu et al. Discovering spammer communities in twitter
CN103457799A (zh) 基于关系图的微博僵尸用户检测方法
Adali et al. Measuring behavioral trust in social networks
CN104580385B (zh) 一种拓展用户关系链的方法及装置
US9542503B2 (en) Estimation of closeness of topics based on graph analytics
KR102009912B1 (ko) 통신 시스템의 구성 또는 세팅을 자동으로 변경 또는 업데이트하는 방법 및 시스템
CN103916306B (zh) 实现即时通信的方法和装置
Chen et al. Influencerank: An efficient social influence measurement for millions of users in microblog
CN104796392B (zh) 一种跳转上下文同步装置、方法及客户端
CN103458042A (zh) 一种微博广告用户检测方法
CN103345524A (zh) 微博热点话题检测方法及系统
CN103179198A (zh) 基于多关系网络的话题影响力个体挖掘方法
CN105550275A (zh) 一种微博转发量预测方法
US20130007141A1 (en) Information exchange in the social network environment
KR20130033510A (ko) 토픽 기반 sns 서비스 제공 방법
CN103279483B (zh) 一种面向微博客的话题流行范围评估方法及系统
CN109726319A (zh) 一种基于交互关系的用户影响力分析方法
US20140365584A1 (en) Personalized low latency communication
CN110851684B (zh) 一种基于三元关联图的社交话题影响力识别方法及装置
CN102750288B (zh) 一种互联网内容推荐方法及装置
CN106603387B (zh) 基于微博转发关系进行微博转发路径预测的方法和系统
KR20150020823A (ko) 소셜 네트워크에서의 상대적 친밀도 측정 시스템
Liu et al. On crowd-retweeting spamming campaign in social networks
CN109146700A (zh) 一种针对社交网络领袖的影响力特征提取方法
CN106600069B (zh) 基于微博主题标签进行微博转发预测的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160817

Termination date: 20210903

CF01 Termination of patent right due to non-payment of annual fee