CN102946331B - 一种社交网络僵尸用户检测方法及装置 - Google Patents

一种社交网络僵尸用户检测方法及装置 Download PDF

Info

Publication number
CN102946331B
CN102946331B CN201210383204.9A CN201210383204A CN102946331B CN 102946331 B CN102946331 B CN 102946331B CN 201210383204 A CN201210383204 A CN 201210383204A CN 102946331 B CN102946331 B CN 102946331B
Authority
CN
China
Prior art keywords
user
corpse
information
entry
doubtful
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210383204.9A
Other languages
English (en)
Other versions
CN102946331A (zh
Inventor
苏伟
张宏科
赵佳
郝增勇
高伟
王凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN201210383204.9A priority Critical patent/CN102946331B/zh
Publication of CN102946331A publication Critical patent/CN102946331A/zh
Application granted granted Critical
Publication of CN102946331B publication Critical patent/CN102946331B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种社交网络僵尸用户检测方法,所述方法包括:提取被检测用户在设定时间段之内所发布的条目和信息;根据僵尸用户行为属性和特征对所述条目和信息进行分析,将符合僵尸用户行为属性和特征的所述用户分类为疑似僵尸用户;对所述疑似僵尸用户,根据所述条目和信息进行语义分析,对符合僵尸用户语义特征的所述用户分类为僵尸用户。本发明提供了一种有效的自动社交网络僵尸用户检测方法,能够方便准确的检测出社交网络中的僵尸用户,保证了社交网络的服务初衷,构建能够反映群体智慧和群体热点的网络社区和信息发布交流平台。

Description

一种社交网络僵尸用户检测方法及装置
技术领域
本发明涉及用户行为分类计数领域,特别涉及一种社交网络僵尸用户检测方法及装置。
背景技术
随着互联网的发展,目前以各种web应用的日志分析为基础的用户分类,用户行为分析技术已十分成熟。数量庞大的互联网用户活跃在网络结构的最上层,在各种应用服务中获取信息,发生行为。web技术的发展使网络服务日益丰富多样化,从最初的收发电子邮件、浏览静态网页等基本而有限的服务类型,发展到web2.0时代种类繁多的应用服务和上网体验。在用户交互式动态网页技术基础之上,电子商务和各种网络社区的出现,使用户真正成为了互联网服务的中心。用户积极参与、互动和讨论的站点成为热点。而服务提供者看来,无非是把现实市场中对消费者的竞争转移到了互联网这一虚拟平台之上,以尽力迎合消费者喜好为目的。但对于2009年前后才广泛兴起的社交网络应用,各种用户行为分析技术还在不断完善中,且这些技术的应用更多是为实现用户兴趣发现和服务推荐的目的。而对于社交网络中一类特殊用户——僵尸粉丝的识别和检测技术还基本处于空白。目前对于这类用户的处理也基本上限于人工维护,如利用举报机制等由后台人员进行处理。服务提供者主动探究用户兴趣,挖掘用户行为特征。各种用于用户行为分析的方法和系统不胜枚举,再将分析结果应用于各种服务推荐。然而在这其中对于一些违规和异常行为用户的主动检测分离技术还比较少。各网站和论坛对一些违规和不良的言论和图片视频等资源的检测更多是人工的和滞后的。2009年兴起的社交网络如微博等,服务提供商也在各种以用户行为分析为基础的用户推荐和各种兴趣体验应用方面推陈出新。但是在违规用户行为分类上也基本上限于人工维护,如利用举报机制等由后台人员进行处理。而本发明专利给出的僵尸用户检测系统是专门适用于社交网络的。它属于一种社交网络中用户分类系统,可以将正常用户和僵尸用户进行区分。还可以根据用户行为分析的结果对不同的用户赋予不同的操作权限。
僵尸用户检测也是一种用户行为分析和用户分类的方法。分类的标准是用户是否从事了僵尸粉丝行为,这些行为用来营造某些用户的虚假人气和关注度。分类的结果有两种,正常用户和僵尸用户。所谓僵尸用户,就是在社交网络中大量注册的某些用户账号。这些用户账号被某些机构和个人通过机器程序或其他手段操纵控制,来达到赢利或制造虚假人气和关注度的目的。当前社交网络中很多用户利用僵尸粉丝来营造虚假人气和关注度。例如,某用户向某粉丝代理支付一定费用,代理人负责利用其手中控制的僵尸用户对该客户所发布的信息内容进行大量的转发和评论,使这些内容在短时间内成为社交网站相关评价机制下的热门消息。而这些消息将在重要位置显示或直接推荐给用户。通过这种方式,客户可能达到增加关注度和人气,或者散布非法消息等目的。而上述违规行为的根源在于僵尸粉丝的存在。如何检测和分离出僵尸粉丝,成为解决类似上述问题的根本途径。
现有社交网络对僵尸粉丝控制不利,没有有效的实时的管控措施。社交网络作为一个用户主动提交和发布的信息组成的虚拟社区,不仅增强了人的社区性,而且提供了一个热点讨论和热点发布的平台。人们在社交网络上不仅可以互相交流,而且可以获取各种各样五花八门的热门信息。热门信息的形成,正是由于众多用户的积极参与,如对某条微博的转发,评论等。一些信息在短时间内成为热门,被推上热门推荐的位置,从而可以被更多用户所知晓。但是这样一种充分发挥人群体智慧的自由行为机制也带来一些问题,僵尸用户的出现就是其中一种。如果社交网络中的某用户想在短时间使自己获得大量粉丝以赢得更高关注,或是想让自己的言论成为热门讨论话题,除了依靠自身魅力和影响力外,在某些社交平台下,僵尸粉丝也可以帮这些用户做到短期内人气的提升。例如有些个人和公司利用机器注册和控制大量社交网络用户账号,并向一些目标用户出售粉丝服务。交易条件是:在目标用户发表某言论后由被控制的大量僵尸用户进行转发和评论,使之在短时间内成为热门而获得的推荐。这是一种营造虚假人气和利用违规手段来获得关注度的用户行为。僵尸用户的存在对于社交网络服务提供者和用户两者来说都有消极意义。僵尸粉丝的存在使服务提供者的用户行为分析和热门兴趣推荐等服务受到干扰,不能为用户提供满意的服务体验。而对用户来说,则破坏了多数选择的社区性原则,对用户是一种欺骗和不良的引导。更不利的是,某些用户可能利用僵尸粉丝来发布一些不良信息,这样的行为不加制止,造成的社会危害可能是巨大的。
在实现本发明的过程中,发明人发现现有技术中尚没有一种有效的自动的社交网络中僵尸用户检测方案,无法有效的检测社交网络中的僵尸用户,给社交网络的管理带来了极大的不便。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种社交网络僵尸用户检测方法及装置。所述技术方案如下:
一种社交网络僵尸用户检测方法,所述方法包括:
提取被检测用户在设定时间段之内所发布的条目和信息;
根据僵尸用户行为属性和特征对所述条目和信息进行分析,将符合僵尸用户行为属性和特征的所述用户分类为疑似僵尸用户;
对所述疑似僵尸用户,根据所述条目和信息进行语义分析,对符合僵尸用户语义特征的所述用户分类为僵尸用户。
所述提取被检测用户在设定时间段之内所发布的条目和信息,包括:
将用户在设定时间内发布的条目和信息整合成用户序列;其中,包括用户主动发布条目和信息以及与目标用户相关的操作两类;所述用户主动发布条目和信息用所述用户的用户名标注,所述与目标用户相关的操作用所述目标用户的用户名标注。
所述根据僵尸用户行为属性和特征对所述条目和信息进行分析,包括:
锁定目标用户;
将与所述目标用户相关联的用户行为作为所述僵尸用户行为属性和特征;
将与多个所述目标用户相关的用户行为组合,生成决策表;所述决策表中包括多个所述目标用户的所有排列组合;
将所述条目和信息分别与决策表中信息比对,进行分析。
所述根据僵尸用户行为属性和特征对所述条目和信息进行分析的方法包括但不限于粗糙集法、模糊集法、决策树法、邻近算法、支持向量机法、价值流程图法、贝叶斯分类算法或神经网络法。
所述根据所述条目和信息进行语义分析,包括:
提取所述条目和信息中的语言,分析所述语言与目标用户发布内容主题是否相关;或者,分析所述语言是否为纯表情语言或者简单的重复性语言。
所述根据所述条目和信息进行语义分析包括但不限于对所述条目和信息进行文本相似度分析、机器学习分析、关键词匹配分析或人工智能语义分析。
所述方法还包括:
分别对所述疑似僵尸用户和僵尸用户采取限制措施。
一种社交网络僵尸用户检测装置,所述装置包括用户行为采集单元、粗粒度处理单元和细粒度处理单元,其中,
所述用户行为采集单元,用于提取被检测用户在设定时间段之内所发布的条目和信息;
所述粗粒度处理单元,用于根据僵尸用户行为属性和特征对所述条目和信息进行分析,将符合僵尸用户行为属性和特征的所述用户分类为疑似僵尸用户;
所述细粒度处理单元,用于对所述疑似僵尸用户,根据所述条目和信息进行语义分析,对符合僵尸用户语义特征的所述用户分类为僵尸用户。
所述装置还包括用户操作处理单元,用于分别对所述疑似僵尸用户和僵尸用户采取限制措施。
所述粗粒度处理单元进一步包括目标客户子单元、决策表子单元和比对子单元,其中,
所述目标客户子单元,用于锁定目标用户;
所述决策表子单元,用于将与多个所述目标用户相关的用户行为组合,生成决策表;
所述比对子单元,用于将所述条目和信息分别与决策表中信息比对,进行分析。
本发明实施例提供的技术方案带来的有益效果是:
通过检测用户在设定时间段内发布的条目和信息,针对性的进行粗粒度分类和细粒度分类,粗粒度分类主要依据僵尸用户的一般行为属性和特征进行排查,得到疑似僵尸用户的名单。再对疑似僵尸用户根据语义进行细粒度的分类。本发明实施例提供了一种有效的自动社交网络僵尸用户检测方法,能够方便准确的检测出社交网络中的僵尸用户,保证了社交网络的服务初衷,构建能够反映群体智慧和群体热点的网络社区和信息发布交流平台,在一定程度上解决了利用违规手段干扰社区性和公平性的行为,防止了虚假人气和关注的产生。进一步的,在一定程度上遏制了不良信息的发布源,禁止了利用僵尸粉丝来发布不良消息的模式,并且遏制了以提升人气为手段进行非法和反动言论散播的行为。同时,消除僵尸用户粉丝行为干扰,对服务提供商来说也更有益于准确把握用户群体特征。克服了人工识别滞后性的缺陷,可以实时的禁止僵尸用户对雇主用户的粉丝行为。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的社交网络僵尸用户检测方法流程图;
图2是本发明实施例一提供的语义相关度分析示意图;
图3是本发明实施例二提供的社交网络僵尸用户检测装置结构示意图;
图4是本发明实施例二提供的粗粒度处理单元200结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供的僵尸用户检测方案属于一种用户分类系统。在执行检测过程中,通过预处理服务器和再处理服务器,将识别的结果分为了疑似僵尸用户和确认僵尸用户两种。系统对两者分别采取不同的限制措施,对前者针对目标用户的粉丝行为进行部分限制,而对后者则是完全限制。判决服务器的回复机制可以在禁止僵尸用户的同时,消息通知目标用户有僵尸用户行为已被禁止。如果目标用户是通过消费手段购买僵尸粉丝的话,这类消息可以被视为对目标用户的警告。
僵尸用户检测中的一些技术环节可以作为解决方案的关键。因为从事僵尸行为的代理机构以盈利为目的,往往向很多用户出售服务。根据这个特征,可以推想某代理控制的所有僵尸粉丝或所有僵尸粉丝的一部分,一定具备一些共同或相似的行为特征。利用这些特征,可以对目标用户进行预分类。然后再根据发布信息的特征来区别正常用户和僵尸用户,进行更细致的分类,从而达到将僵尸用户分离的目的。检测过程涉及两个关键技术步骤,其中一个是提取被检测用户群的社交网络行为序列,利用数据挖掘技术对用户进行预分类。分类的依据是疑似僵尸用户行为特征。另一个是对预分类后被判别为疑似僵尸用户的对象进行近一步的检测,包括用语习惯以及与关注主题内容相匹配的关键词的使用情况。在这部分检测中,需要构建一个关注主题关键词库以及运用一些基本的文本相似度检测,关键词匹配和特征检测等技术。
实施例一
如图1所示,为本实施例提供的社交网络僵尸用户检测方法流程图,具体如下:
步骤10,提取被检测用户在设定时间段之内所发布的条目和信息。
对于社交网络中僵尸用户的检测,首先需要设定被检测用户。当然,也可以是对社交网络中所有的用户进行筛查。对于被检测用户来说,也需要设定一段时间内的用户行为,通过分析该段时间内的用户行为来判定用户是否为僵尸用户。通常这个设定时间可以根据需要来设定,设定时长需要有足够的长度,用以得到足够的数据来判断用户行为是否符合僵尸用户的行为习惯。
用户所发布的条目和信息,通常需要包括用户在个人空间发布的消息以及用户对其它用户的操作行为,例如,可以对其他用户的关注、对其他用户发布内容的回复等。这些条目和信息,记录了用户在社交网络中的行为,可以作为分析用户是否符合僵尸用户行为的依据。
将用户在设定时间内发布的条目和信息整合成用户序列;其中,包括用户主动发布条目和信息以及与目标用户相关的操作两类;用户主动发布条目和信息用用户的用户名标注,与目标用户相关的操作用目标用户的用户名标注。
步骤20,根据僵尸用户行为属性和特征对条目和信息进行分析,将符合僵尸用户行为属牲和特征的用户分类为疑似僵尸用户。
通常僵尸用户检测主要针对以盈利为目的的僵尸用户销售的情况,在这种情况下的僵尸用户存在一些共同特征,可以利用这些特征对用户进行预分类。向目标用户销售僵尸粉丝的控制者往往会出于广泛赢利的考虑将其控制的大量社交网络账号的粉丝行为出售给多个雇主用户(目标用户),早期的僵尸用户账号完全用于服务雇主用户的粉丝行为而没有其他主动的任何操作,其行为与雇主用户行为直接相关,这样的僵尸用户很容易被识别出来,僵尸账号的使用寿命有限。为了躲避服务提供者的封号处理,僵尸控制者往往采用后台机器控制大量账号,这些账号不仅能完成雇主要求的粉丝行为,还能在这些行为的间断内进行各种主动行为,如在对两个雇主用户的微博进行转发评论的间隔还由机器程序控制发布一些个人微博,这些微博多是一些提前设定好的句子或图片之类。虽然这样的僵尸用户自身得到的进化,可以躲避一些基本的检测。但仔细分析还是能发现这些僵尸用户的一些很明显的行为特征。
在对这些僵尸用户行为分析的基础上,本实施例提取一些与这些特征相关的关键数据结构,供后续的分类和检测使用。例如,如表1所示,为一个时间段内某用户的8个行为操作。
表1
1 “到这里来写点东西”
2 转发目标用户P1的某条微博
3 发布图片一张
4 “心情不好”
5 评论目标用户P2的某条微博
6 “高兴”
7 “晚安”
8 转发并评论目标用户P3的某条微博
其中,包括用户自己发布的信息和与目标用户相关的操作。根据上面的分析,类似形式的操作在僵尸用户中普遍存在,是僵尸用户的一个典型特征,即在完成雇主要求的粉丝行为的间隔上机器会自动发布一些预先设置好的文字或图片信息。本实施例在总结出这个特征的基础上,同时为便于后续的快速分类处理,设计出一种简单信息提取方法。
因为我们关注的是僵尸用户的一些异常的粉丝行为,而作为粉丝的一个典型特征就是与雇主用户有极大的关联度。所以我们简单的把用户的所有行为划分为两类,一类是自己主动发布的信息,另一类是与目标用户相关操作,对于前者我们用用户名代表,对于后者我们用目标用户名来代表每一个粉丝行为。这样对于每个用户在一个时间段内,我们可以得到一个行为序列,序列的每项是一个用户名,如上表所示,假设被记录的用户名为X,那么每行用正常字体标示的行为都用X标示,而红斜体标示的行,则分别用目标用户名P1,P2,P3来代表,得到的序列就是:{X,P1,X,X,P2,X,X,P3}。
经过上面的提取处理后将用户各种复杂的文字图片等信息简化为一个行为序列。这种形式将十分适合后续的预分类。
在得到用户行为序列基础上,粗粒度分类可以利用数据挖掘中所有适于进行分类的算法,例如最主要的几种分类算法:粗糙集,模糊集,决策树、KNN法(邻近算法)、SVM法(支持向量机)、VSM法(价值流程图)、Bayes法(贝叶斯分类算法)、神经网络等。下面以粗糙集预分类为例。
在提取出行为序列之后要做的工作是提取与僵尸用户行为相关的各种属性和特征,不管僵尸用户用何种方式伪装,其行为序列中总有和雇主用户相关的操作,可能雇主相同但次序不同,也可能雇主不同,所以作为检测系统,首先要锁定一些目标用户,这些目标用户被怀疑购买了僵尸粉丝,因为出卖僵尸粉丝者往往将粉丝行为出卖给多个雇主,所以适当多的锁定雇主用户,把同时与这些雇主有关联操作的行为视为一种疑似僵尸用户行为,用这样的方式可以得到一张决策表,通过这张决策表,可以得到很多决策规则来对新的用户进行判别,这种多属性决策的方法简单有效,很适用于预分类过程。
锁定目标用户;将与目标用户相关联的用户行为作为僵尸用户行为属性和特征;将与多个目标用户相关的用户行为组合,生成决策表;决策表中包括多个目标用户的所有排列组合;将条目和信息分别与决策表中信息比对,进行分析。
下面举例说明。假设以锁定的目标用户为:P1,P2,P3。将同时与这其中的几个用户关联的行为视为疑似僵尸行为特征。将P1P2P3的组合作为属性a,P1P2的组合作为属性b,P2P3的组合作为属性c,P1P3的组合作为属性d。决策集合有两个,1代表疑似僵尸用户集合,0代表非僵尸用户集。属性值方面,1代表有该属性,0代表无该属性。5个被检测用户名分别为X,Y,Z,A,B。五个用户的行为序列如下:
X:{X,X,X,X,P1,X,X,X}
Y:{Y,P1,Y,Y,P2,Y,Y,Y}
Z:{Z,Z,P1,Z,Z,Z,P2,Z}
A:{A,A,A,A,A,A,P1,P3}
B:{P1,B,B,P2,B,B,B,P3}
决策表如表2所示。
表2
用户名 属性a 属性b 属性c 属性d 是否疑似僵尸用户
X 0 0 0 0 0
Y 0 1 0 0 1
Z 0 1 0 0 1
A 0 0 0 1 1
B 1 1 1 1 1
根据粗糙集多属性决策规则求解方法中的分辨矩阵和分辨函数,可得到如下面决策规则即:当a=1或b=1或c=1或d=1时,该用户为疑似僵尸用户。
这样当有新用户待检测时,只需根据生成的规则就可快速判断该用户是否为疑似僵尸用户。
步骤30,对疑似僵尸用户,根据条目和信息进行语义分析,对符合僵尸用户语义特征的用户分类为僵尸用户。
通常的方法是提取条目和信息中的语言,分析语言与目标用户发布内容主题是否相关;或者,分析语言是否为纯表情语言或者简单的重复性语言。
经过粗粒度分类过程,对疑似僵尸用户的具体信息进行进一步的分析。细粒度分类功能首先挖掘出僵尸用户的另一种行为特征,即作为真实人类用户的语言功能思考功能和被机器操纵的僵尸用户机械化呆板化甚至无关化的回应之间的差异。利用这一差异,可以对疑似僵尸用户进行再分类。
具体实现过程是,僵尸用户在对目标用户发布内容进行相关操作时,不管是回复、转发、评论时所用的语言有一些特点,那就是大量或者全部使用诸如表情之类的应用,或者是与目标用户发布内容主题毫不相关的文字,满足这些特征的疑似僵尸用户就可以被确认为僵尸用户。
对疑似僵尸用户语义分析用到文本相似度,机器学习,关键词匹配以及人工智能语义分析等各种算法的综合。所实现的功能是检测某用户对目标用户的各种粉丝行为操作中的用语是否和目标用户发布的主题语义相关。
如图2所示,这个语义相关度分析系统包括五个相关词库。
感情色彩及是非评价相关词库:库中包含分类的表达感情色彩和是非判断的常用词汇。
人物相关词库:与某些名人或历史人物相关的关键词库。
时间相关词库:与某些特殊时间相关的关键词库。
地点相关词库:与某些特殊地点相关的关键词库。
事件相关词库:与某些特殊事件或历史事件相关的关键词库。
语义分析的过程对目标用户的每个发布的文本内容按照上面词库的结构提取出主干关键词。
在分析用户的粉丝行为时发现,在评论或转发某条消息时,用户多数情况下根据消息的感情色彩或具体内容而进行带有感情色彩或是非喜好判断的评价语言。所以在判断用户粉丝行为用语和目标用户主题的语义相关度时,应首先考虑感情色彩和是非方面的评价,再考虑与内容主干的具体关联。
分析的过程是首先确定目标用户发布内容的感情色彩或是非价值等,对疑似僵尸用户评论或转发中用到的词汇与感情色彩词汇库中对应的分类进行匹配,如果匹配成功,则不认为疑似僵尸用户为确认僵尸用户。
然后再进行进一步语义分析,疑似僵尸用户用到的词汇分别与目标用户发布内容的主干关键词进行语义相似度匹配,匹配的过程根据上图结构化词库中构建的语义树来进行,即判断两词之间的相似度,如果相似度大于一定门限,则认为转发或评论内容与主题语义相关,则不认为疑似僵尸用户为确认僵尸用户。
进一步的,在完成了疑似僵尸用户和僵尸用户的分类后,可以根据疑似僵尸用户的僵尸用户列表,对用户采取相应的限制措施。例如,当某用户向某目标用户发起粉丝行为时,要先经过检测。用户的用户名将被两个名单分别进行匹配,如果该用户名在疑似僵尸用户名单而不在确认僵尸用户名单上,则对该用户对目标用户的粉丝行为操作进行部分限制,如限制在一定时间内转发和评论的次数;如果该用户名在确认僵尸用户名单中,则完全禁止该用户对目标用户的粉丝行为,并向用户发送禁止消息来作为警告。
实施例二
参见图3,本发明实施例提供了一种社交网络僵尸用户检测装置,该装置包括用户行为采集单元100、粗粒度处理单元200和细粒度处理单元300,具体如下:
用户行为采集单元100,用于提取被检测用户在设定时间段之内所发布的条目和信息。
用户行为采集单元100用来提取并存储所有被检测用户在一定时间段之内的个人空间首页所有条目和信息。
粗粒度处理单元200,用于根据僵尸用户行为属性和特征对条目和信息进行分析,将符合僵尸用户行为属性和特征的用户分类为疑似僵尸用户。
粗粒度处理单元200根据粗粒度计算处理的需要,按照一定标准,将每个用户的行为数据用统一的方式来描述和表示。根据用户行为信息数据结构,对用户进行粗粒度的分类处理,主要是判断和识别疑似僵尸用户的行为特征是否在该用户的行为数据结构中出现。粗粒度分类处理过程用数据挖掘和人工智能中涉及到的预分类算法可以实现。粗粒度处理的结果是过滤掉了正常用户,识别出了疑似僵尸用户。处理结果(被分类为疑似僵尸的用户名单)将发送给细粒度处理单元300做细粒度处理。
细粒度处理单元300,用于对疑似僵尸用户,根据条目和信息进行语义分析,对将合僵尸用户语义特征的用户分类为僵尸用户。
细粒度处理单元300的主要功能是用来对疑似僵尸用户检测结果做近一步的行为分析和分类。在功能实现上主要是利用僵尸用户的粉丝行为操作特征对用户行为数据结构中的具体行为内容做特征匹配,符合僵尸用户特征的疑似僵尸用户将被确认为僵尸用户。
进一步的,上述装置还包括用户操作处理单元400,用于分别对疑似僵尸用户和僵尸用户采取限制措施。
用户操作处理单元400根据实时更新的疑似僵尸用户名单和确认僵尸用户名单,对所有用户的操作行为进行限制处理——对正常用户的操作行为不加任何限制;对疑似僵尸用户进行部分操作行为限制;对确认僵尸用户进行所有操作行为限制。
用户行为采集单元100所采集的数据来源是一定时间内的用户操作页面信息。待检测用户各自的页面内容,即在一定时间内用户主动发布的信息和对其他用户发布内容的评论、转发、回复等。
粗粒度处理单元200要将粗粒度处理后的疑似僵尸用户信息发送给细粒度处理单元300。
粗粒度处理单元200要将疑似僵尸用户名单发送给用户操作处理单元400。
细粒度处理单元300接收疑似僵尸用户信息,做细粒度分类处理。
细粒度处理单元300要将细粒度处理后的确认僵尸用户名单发送给用户操作处理单元400。
用户操作处理单元400接收从粗粒度处理单元200发送来的疑似僵尸用户名单和从细粒度处理单元300发送来的确认僵尸用户名单,并以此作为限制操作的判据。
进一步的,如图4所示,上述的粗粒度处理单元200进一步包括目标客户子单元201、决策表子单元202和比对子单元203,具体如下:
目标客户子单元201,用于锁定目标用户。
决策表子单元202,用于将与多个目标用户相关的用户行为组合,生成决策表。
比对子单元203,用于将条目和信息分别与决策表中信息比对,进行分析。
需要说明的是:上述实施例提供的社交网络僵尸用户检测装置在社交网络僵尸用户检测时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的社交网络僵尸用户检测装置与社交网络僵尸用户检测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
综上所述,本发明实施例通过检测用户在设定时间段内发布的条目和信息,针对性的进行粗粒度分类和细粒度分类,粗粒度分类主要依据僵尸用户的一般行为属性和特征进行排查,得到疑似僵尸用户的名单。再对疑似僵尸用户根据语义进行细粒度的分类。本发明实施例提供了一种有效的自动社交网络僵尸用户检测方法,能够方便准确的检测出社交网络中的僵尸用户,保证了社交网络的服务初衷,构建能够反映群体智慧和群体热点的网络社区和信息发布交流平台,在一定程度上解决了利用违规手段干扰社区性和公平性的行为,防止了虚假人气和关注的产生。进一步的,在一定程度上遏制了不良信息的发布源,禁止了利用僵尸粉丝来发布不良消息的模式,并且遏制了以提升人气为手段进行非法和反动言论散播的行为。同时,消除僵尸用户粉丝行为干扰,对服务提供商来说也更有益于准确把握用户群体特征。克服了人工识别滞后性的缺陷,可以实时的禁止僵尸用户对雇主用户的粉丝行为。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种社交网络僵尸用户检测方法,其特征在于,所述方法包括:
提取被检测用户在设定时间段之内所发布的条目和信息;
根据僵尸用户行为属性和特征对所述条目和信息进行分析,将符合僵尸用户行为属性和特征的所述被检测用户分类为疑似僵尸用户;
对所述疑似僵尸用户,根据所述条目和信息进行语义分析,对符合僵尸用户语义特征的所述疑似僵尸用户分类为僵尸用户;
所述根据僵尸用户行为属性和特征对所述条目和信息进行分析,包括:
锁定目标用户;
将与所述目标用户相关联的用户行为作为所述僵尸用户行为属性和特征;
将与多个所述目标用户相关的用户行为组合,生成决策表;所述决策表中包括多个所述目标用户的所有排列组合;
将所述条目和信息分别与决策表中信息比对,进行分析。
2.如权利要求1所述的方法,其特征在于,所述提取被检测用户在设定时间段之内所发布的条目和信息,包括:
将被检测用户在设定时间段内发布的条目和信息整合成用户序列;其中,包括用户主动发布条目和信息以及与目标用户相关的操作两类;所述用户主动发布条目和信息用所述被检测用户的用户名标注,所述与目标用户相关的操作用所述目标用户的用户名标注。
3.如权利要求1所述的方法,其特征在于,所述根据僵尸用户行为属性和特征对所述条目和信息进行分析的步骤包括:粗糙集法、模糊集法、决策树法、邻近算法、支持向量机法、价值流程图法、贝叶斯分类算法或神经网络法。
4.如权利要求1所述的方法,其特征在于,所述根据所述条目和信息进行语义分析,包括:
提取所述条目和信息中的语言,分析所述语言与目标用户发布内容主题是否相关;或者,分析所述语言是否为纯表情语言或者简单的重复性语言。
5.如权利要求1所述的方法,其特征在于,所述根据所述条目和信息进行语义分析包括:对所述条目和信息进行文本相似度分析、机器学习分析、关键词匹配分析或人工智能语义分析。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
分别对所述疑似僵尸用户和僵尸用户采取限制措施。
7.一种社交网络僵尸用户检测装置,其特征在于,所述装置包括用户行为采集单元、粗粒度处理单元和细粒度处理单元,其中,
所述用户行为采集单元,用于提取被检测用户在设定时间段之内所发布的条目和信息;
所述粗粒度处理单元,用于根据僵尸用户行为属性和特征对所述条目和信息进行分析,将符合僵尸用户行为属性和特征的所述被检测用户分类为疑似僵尸用户;
所述细粒度处理单元,用于对所述疑似僵尸用户,根据所述条目和信息进行语义分析,对符合僵尸用户语义特征的所述疑似僵尸用户分类为僵尸用户;
所述粗粒度处理单元进一步包括目标客户子单元、决策表子单元和比对子单元,其中,
所述目标客户子单元,用于锁定目标用户;
所述决策表子单元,用于将与多个所述目标用户相关的用户行为组合,生成决策表;其中,与所述目标用户相关联的用户行为作为所述僵尸用户行为属性和特征;所述决策表中包括多个所述目标用户的所有排列组合;
所述比对子单元,用于将所述条目和信息分别与决策表中信息比对,进行分析。
8.如权利要求7所述的装置,其特征在于,所述装置还包括用户操作处理单元,用于分别对所述疑似僵尸用户和僵尸用户采取限制措施。
CN201210383204.9A 2012-10-10 2012-10-10 一种社交网络僵尸用户检测方法及装置 Expired - Fee Related CN102946331B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210383204.9A CN102946331B (zh) 2012-10-10 2012-10-10 一种社交网络僵尸用户检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210383204.9A CN102946331B (zh) 2012-10-10 2012-10-10 一种社交网络僵尸用户检测方法及装置

Publications (2)

Publication Number Publication Date
CN102946331A CN102946331A (zh) 2013-02-27
CN102946331B true CN102946331B (zh) 2016-01-20

Family

ID=47729240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210383204.9A Expired - Fee Related CN102946331B (zh) 2012-10-10 2012-10-10 一种社交网络僵尸用户检测方法及装置

Country Status (1)

Country Link
CN (1) CN102946331B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101343442B1 (ko) * 2013-05-24 2013-12-19 유창수 생명체의 라이프 싸이클(Life Cycle)개념을 적용한 인맥관리 및 오프라인 활동과 연계하는 소셜 네트워크 서비스(SNS) 제공방법 및 시스템
CN103457799B (zh) * 2013-09-03 2016-08-17 上海交通大学 基于关系图的微博僵尸用户检测方法
CN103559210B (zh) * 2013-10-10 2017-08-15 北京智谷睿拓技术服务有限公司 应用程序的排名欺诈检测方法和排名欺诈检测系统
CN104092601B (zh) * 2014-07-28 2017-12-05 北京微众文化传媒有限公司 社交网络账号的识别方法和装置
CN104199981A (zh) * 2014-09-24 2014-12-10 苏州大学 一种基于微博文本的个人和机构用户分类方法及系统
CN104866558B (zh) * 2015-05-18 2018-08-10 中国科学院计算技术研究所 一种社交网络账号映射模型训练方法及映射方法和系统
CN106685898B (zh) * 2015-11-09 2020-07-31 阿里巴巴集团控股有限公司 一种识别批量注册账号的方法和设备
CN107465648B (zh) * 2016-06-06 2020-09-04 腾讯科技(深圳)有限公司 异常设备的识别方法及装置
CN107194215B (zh) * 2017-05-05 2020-06-26 北京神州新桥科技有限公司 用户行为分析方法、装置、系统及机器可读存储介质
CN108076166A (zh) * 2017-08-04 2018-05-25 北京微应软件科技有限公司 在微信通讯录里清理僵尸粉的方法与装置
CN110278175B (zh) * 2018-03-14 2020-06-02 阿里巴巴集团控股有限公司 图结构模型训练、垃圾账户识别方法、装置以及设备
CN108471445B (zh) * 2018-04-02 2021-08-13 北京奇艺世纪科技有限公司 一种关注对象内容更新通知方法和装置
CN111047453A (zh) * 2019-12-04 2020-04-21 兰州交通大学 基于高阶张量分解大规模社交网络社区的检测方法及装置
CN112070458A (zh) * 2020-08-07 2020-12-11 新华三信息安全技术有限公司 一种账号识别方法及装置
CN112468885B (zh) * 2020-11-24 2023-04-07 北京达佳互联信息技术有限公司 一种任务处理方法、电子设备和存储介质
CN112738344B (zh) * 2020-12-28 2022-12-09 北京三快在线科技有限公司 一种识别用户身份的方法、装置、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102437936A (zh) * 2011-12-20 2012-05-02 东南大学 基于双过滤机制的高速网络僵尸报文的检测方法
CN102629904A (zh) * 2012-02-24 2012-08-08 安徽博约信息科技有限责任公司 一种网络水军的探测与判定方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102437936A (zh) * 2011-12-20 2012-05-02 东南大学 基于双过滤机制的高速网络僵尸报文的检测方法
CN102629904A (zh) * 2012-02-24 2012-08-08 安徽博约信息科技有限责任公司 一种网络水军的探测与判定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于行为特征的IRC僵尸网络检测方法研究;李超;《CNKI知网空间学位论文库》;20081231;47-48 *

Also Published As

Publication number Publication date
CN102946331A (zh) 2013-02-27

Similar Documents

Publication Publication Date Title
CN102946331B (zh) 一种社交网络僵尸用户检测方法及装置
Heidari et al. Using bert to extract topic-independent sentiment features for social media bot detection
Fornacciari et al. A holistic system for troll detection on Twitter
Kumar et al. Cyberbullying detection on social multimedia using soft computing techniques: a meta-analysis
Yu et al. A survey of prediction using social media
Li et al. Spotting fake reviews using positive-unlabeled learning
Nazir et al. Social media signal detection using tweets volume, hashtag, and sentiment analysis
Kumar et al. Multimedia social big data: Mining
Siddiqui et al. Bots and Gender Profiling on Twitter.
Wu et al. FairPlay: Detecting and deterring online customer misbehavior
Renda et al. Study to support an impact assessment of regulatory requirements for artificial intelligence in Europe
Soe et al. Automated detection of dark patterns in cookie banners: how to do it poorly and why it is hard to do it any other way
CN110880142A (zh) 一种风险实体获取方法及装置
Kawintiranon et al. Traditional and context-specific spam detection in low resource settings
Min et al. Detecting illegal online gambling (IOG) services in the mobile environment
Hisan et al. Artificial Intelligence for Human Life: A Critical Opinion from Medical Bioethics Perspective–Part I
Karbasian et al. Real-time inference of user types to assist with more inclusive and diverse social media activism campaigns
Silpa et al. Detection of Fake Online Reviews by using Machine Learning
CN111581533B (zh) 目标对象的状态识别方法、装置、电子设备和存储介质
Sarna et al. An approach to distinguish between the severity of bullying in messages in social media
Sakib et al. Automated detection of sockpuppet accounts in wikipedia
Dinesh et al. Product Reviews on Opinion Mining using NLP Techniques
KR20200108937A (ko) 가짜 뉴스 판단 시스템, 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
Bliss Analyzing temporal patterns in phishing email topics
Kalin et al. Fake News Detection on Social Networks–a Brief Overview of Methods and Approaches

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160120

Termination date: 20201010

CF01 Termination of patent right due to non-payment of annual fee