CN102571484A - 一种检测网络水军以及找到网络水军的方法 - Google Patents
一种检测网络水军以及找到网络水军的方法 Download PDFInfo
- Publication number
- CN102571484A CN102571484A CN201110418586XA CN201110418586A CN102571484A CN 102571484 A CN102571484 A CN 102571484A CN 201110418586X A CN201110418586X A CN 201110418586XA CN 201110418586 A CN201110418586 A CN 201110418586A CN 102571484 A CN102571484 A CN 102571484A
- Authority
- CN
- China
- Prior art keywords
- account number
- robot
- account
- microblogging
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种检测网络水军以及找到网络水军的方法,首先建立蜜罐帐号;通过帐号管理模块对所有蜜罐帐号进行统一筹划,确定蜜罐帐号的发帖和关注策略;从收集的帐号中检测机器人帐号;帐号特征模块对帐号特征向量进行描述,这个向量包括多维;帐号检测模块对收集的帐号,根据帐号特征向量符合机器人帐号特性的多少来检测网络水军;利用检测出来的机器人帐号找到更多的机器人帐号和水军。本发明能够从社交网络中找到更多的机器人帐号或者水军帐号,确定水军军团分布。
Description
技术领域
本发明涉及一种社交网络,具体地说,涉及的是一种检测网络水军以及找到网络水军的方法。
背景技术
如今社会,网络已经成为人们信息传播和资源共享的重要途径,对社会的生产活动产生了很大的影响。人们通过网络获取信息的方式更为快捷、经济和开放,大大方便了人们日常工作和生活,节约了成本。同时,网络也已经发展为一种虚拟的社会形态。
社交网络,主要类似微博,是一个基于用户关系的信息分享、传播以及获取的平台。在科技发达的今天,人们可以随时随地的看微博,发微博,获取最新的信息。但是信息的真实性,却并不像想象中那么高。
水军,是指在网络中大量灌水的人员。在楼主发微博之后,为了获得最广大网名的注意,就需要大量的人员来回复或者转发其微博。而这个工作常常需要成百上千的人来共同完成,于是经常会利用水军来完成这个任务。一旦大规模的水军在网络中发帖造势,很容易控制舆论导向,使得虚假信息到处传播,危害社会稳定。
发明内容
本发明要解决的问题是提供一种检测网络中存在的水军的方法,并基于此,找出这些水军,以便于发现并控制虚假信息的传播,从而可以尽量维护网络社会的真实和稳定性。
本发明一个目的是提供一种检测网络水军的方法,具体包括:
第一步,帐号特征模块对帐号特征向量进行描述,这个向量包括多维;
第二步,帐号检测模块对收集的帐号,根据帐号特征向量符合机器人帐号特性的多少来检测网络水军。
上述步骤中,用R表示机器人特征显著性,帐号的特征描述向量有多个维度,第i个维度有一个权值a[i],被判断满足该维度条件的帐号会获得a[i]的权值加成,即R=R+a[i],当最终权值R>Rmax,则该帐号为机器人帐号。a[i]与Rmax的值将在下面给出。
进一步的,所述帐号特征模块,其中帐号特征描述向量维度包括:
向量维度1:帐号的关注人数是否异常;
向量维度2:关注人数与粉丝数的比值是否异常;
向量维度3:帐号所发原创微博的文字内容是否为抄袭所得;
向量维度4:帐号所发图片内容是否为抄袭所得;
向量维度5:帐号转发微博是否不带评论;
向量维度6:帐号是否发广告和垃圾信息;
向量维度7:帐号所发评论是否为抄袭;
向量维度8:帐号发帖内容的是否相似度高;
向量维度9:帐号发帖频率是否异常。
向量维度10:帐号发帖间隔是否异常。
进一步的,所述帐号检测模块检测网络水军,具体流程如下:
1)向量维度1:帐号的关注人数异常。如果关注人数Nforward>FMAX,FMAX=300。则判断满足机器人特征,R=R+a[1],a[1]=5;
2)向量维度2:关注人数与粉丝数的比值异常。如果关注人数与粉丝数的比值K>Kmax=5,或者K<Kmin=0.2。则判断满足机器人特征,R=R+a[2],a[2]=3;
3)向量维度3:帐号所发原创微博的文字内容为抄袭所得。从帐号微博中选一句话出来进行搜索,把所有搜索出来的原创微博进行一种聚类。每一类中微博发布时间Wtime最小的微博可以认为是原创微博,而对于其余微博,如果相似度L>Lmax,则认为是抄袭微博。获得除本帐号以外所有被认为抄袭了微博的帐号ID,转到1)步。Lmax=90%。如果该帐号微博相似度L>Lmax,,则判断满足机器人特征,R=R+a[3],a[3]=4;
4)向量维度4:帐号所发图片内容为抄袭所得。通过图像处理技术判断图片中如果否有他人logo或者相互重叠的logo,则判断满足机器人特征,R=R+a[4],a[4]=4;
5)向量维度5:帐号转发微博不带评论。不加评论的概率超过P>Pmax=95%,则判断满足机器人特征,R=R+a[5],a[5]=2;
6)向量维度6:帐号发广告和垃圾信息。可以通过语义识别判断出帐号的评论是否为广告。对于有链接的回复可以获取其网址,打开网址。通过一定方法判断该回复是不是在为这个网站打广告。如果判断成功,则判断满足机器人特征,R=R+a[6],a[6]=10;
7)向量维度7:帐号所发评论为抄袭。对被该帐号转发和评论的原微博的所有回复进行分析。首先对回复进行聚类,从而每一类中评论时间Rtime最小的回复认定为原创回复。回复与原创微博的相似度RS>RSmax的认为是抄袭回复。对除本帐号以外的所有RS>RSmax=90%的ID,转到1)步。如果本帐号RS>RSmax,则判断满足机器人特征,R=R+a[7],a[7]=4;
8)向量维度8:帐号发帖内容的相似度高。遍历帐号所有微博,使用聚类,如果某一类中微博数量N>Nmax=50,则判断满足机器人特征,R=R+a[8],a[8]=4;
9)向量维度9:帐号发帖频率异常;
遍历帐号所有微博,获取其发表时间,如果在任何一段时间内(至少1分钟)发帖频率F>Fmax=6条/min,则判断满足机器人特征,R=R+a[9],a[9]=3;
10)向量维度10:帐号发帖间隔异常;
遍历帐号所有微博,获取其发表时间,发帖时间规律性RE>REmax=10,则判断满足机器人特征,R=R+a[10];RE的获取方法为:把所有微博时间做差,然后以秒为单位,若出现连续5以及以上个时间,这一组数字的方差小于1,则RE=RE+1,RE初值为0,a[10]=3;
当R>Rmax时,认为该帐号为机器人帐号,即为网络水军,Rmax=10。
本发明另一目的是提供一种找到网络水军的方法,该方法通过建立自己的蜜罐帐号,从而吸引到可能的机器人帐号,而从机器人帐号入手,则更容易找到最终的网络水军。
本发明所述找到网络水军的方法包括如下步骤:
第一步、建立蜜罐帐号;
所述建立蜜罐帐号的所有操作都是人工手动操作,包括:
(1)注册微博帐号。
(2)设计了一种帐号信息向量,这个向量包括多维。每个维度就是一个信息,例如:昵称,头像,年龄,职业,性别,爱好等。每个维度之间都有一定的联系。
(3)最后需要给蜜罐帐号设置微博的使用习惯。
第二步、通过帐号管理模块对所有蜜罐帐号进行统一筹划,确定蜜罐帐号的发帖和关注策略;
所述蜜罐帐号发帖策略向量包括多维,每个维度是一种策略。比如:蜜罐帐号的发帖时间、蜜罐帐号的发帖内容、蜜罐帐号的发帖方式。而蜜罐帐号的发帖方式下又包括三个维度,即转发、原创和评论。
所述蜜罐帐号关注策略,包括蜜罐帐号利用关注来吸引反关注,通过发私信求关注获得更高的反关注率。最后在蜜罐工作了一段时间以后,要适当清理微博和关注,以免微博和关注太多导致机器人特征过于明显。
第三步、从收集的帐号中检测机器人帐号,即网络水军。
帐号特征模块对帐号特征向量进行描述,这个向量包括多维;
帐号检测模块对收集的帐号,根据帐号特征向量符合机器人帐号特性的多少来检测网络水军。
第四步,利用检测出来的机器人帐号找到更多的机器人帐号和水军
所述的利用检测出来的机器人帐号找到更多的机器人帐号和水军,具体为:
①在获得大量机器人帐号以后,可以遍历每个帐号的所有微博,储存转播和评论该帐号微博的所有帐号的ID。则对于该机器人帐号来说,如果某帐号的出现次数Nid与该机器人帐号微博总数N的比值Nid/N>10%,那么跳到帐号检测模块对该ID进行操作。
②对于所有机器人帐号获得它们的关注信息和评论信息。存储所有该帐号评论和转发的ID。如果同一ID出现的次数Mid>Mmax=1%,则对该ID转到帐号检测模块操作。
③作一个关系拓扑图。令转发,评论和专注为正面操作。如果A对B有正面的操作,A与B之间画一条有向的箭头。如果评论、转发数量的和为NP,那么把NP叫做亲密度。把NP作为这个箭头的权值。在接下来的操作中只考虑权值超过NPmin=100的箭头。
④如果出现超过NFP=10个点同时指向了一点A,则遍历A所有粉丝,对的得到的ID转到帐号检测模块,确定更多的机器人帐号。
⑤如果点B指向超过NFR=10个机器人帐号,则认为点B帐号为水军帐号,ID加入特别帐号ID集合和机器人帐号ID集合。跳到①。
⑥对于特别帐号ID集合里的ID,遍历该ID所有执行正面操作的帐号,对这些帐号的ID跳转到帐号检测模块进行操作。
⑦当拓扑图不能继续变大的时候停止。机器人帐号ID集合与特别帐号ID集合的并集构成水军帐号ID集合。对水军帐号的拓扑图进行聚类,找出水军军团。
本发明能够从社交网络中找到更多的机器人帐号或者水军帐号,确定水军军团分布。根据这些水军账号,可以发现并控制虚假信息的传播,从而可以尽量维护网络社会的真实和稳定性。
附图说明
图1为手动建立帐号的流程图。
图2为检测机器人帐号的流程图。
图3为通过机器人帐号找到水军的流程图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例以本发明技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例提供一种在微博中找出水军的方法,该方法分为四个部分:
一、建立蜜罐帐号;
二、确定蜜罐帐号的发帖和关注策略;
三、检测可能的机器人帐号;
四、找到可能的水军。
如图1所示,为手动建立帐号的流程,建立蜜罐帐号的所有操作都是人工手动操作,主要包括以下步骤:首先注册微博。
设计了一种帐号信息向量,这个向量包括多维。每个维度就是一个信息,例如:昵称,头像,年龄,职业,性别,爱好等。每个维度之间都有一定的联系。
最后需要给蜜罐帐号设置微博的使用习惯。
通过帐号管理模块确定帐号的发帖策略需要对所有蜜罐帐号进行统一筹划。蜜罐帐号发帖策略向量包括多维,每个维度是一种策略。比如:蜜罐帐号的发帖时间、蜜罐帐号的发帖内容、蜜罐帐号的发帖方式。而蜜罐帐号的发帖方式下又包括三个维度,即转发、原创和评论。
蜜罐帐号还需要利用关注来吸引反关注,可以通过发私信求关注获得更高的反关注率。最后在蜜罐工作了一段时间以后,要适当清理微博和关注,以免微博和关注太多导致机器人特征过于明显。
本实施例中,手动建立一些帐号,比如10个,ID之间没有任何关联。
本实施例中,给每个ID都取一个昵称,每个ID的昵称在一定程度上反应了该ID的微博的风格。为每个ID都寻找一个与昵称对应的图片作为头像。只需要风格相近,能够被人接受。
本实施例中,为每个ID设置使用习惯,因为使用习惯不同会造成网页代码不同。
以下步骤均为帐号管理模块通过程序实现,无需人工干预:
本实施例中,每天每个帐号都自动发一定量的微博,时间尽量分散,无规律;
本实施例中,发帖的内容与帐号名有关,但是不一定所有微博都要跟帐号有关,可以通过转发和抄袭少量热门搞笑微博来吸引关注,图片,视频,音乐等微博都要有,这样显得微博质量比较高;
本实施例中,发帖方式有转发和原创,比例、内容根据需要调整;
本实施例中,每天关注一定数量的人,可以在关注的同时发私信请求反关注;
在以上几个步骤进行了一段时间以后,删去评论和转发量为0的微博。同时删除对未相互关注的关注对象的关注。
通过长时间的实验以后,蜜罐帐号已经收集到了不少信息,得到了不少关注和评论,而其中很可能存在机器人帐号。通过遍历分析所有粉丝和分析所有蜜罐帐号微博收到的评论,可以得到大量嫌疑帐号。最终根据帐号符合机器人帐号特性的多少来检测是否为网络水军。
因为现有网络中,一部分机器人帐号就是水军,或者正在被水军培养,机器人帐号可能本身就是水军,或者与水军有着一些联系。根据这个原则,通过分析机器人帐号的社交圈来找到更多的机器人和水军。
如图2所示,下面描述了一种检测水军的方法。
本实施例中,通过帐号特征模块设计了一种帐号特征描述向量,这个向量包括多维,这些维度包括:关注人数众多、关注人数与粉丝数比值很大、微博抄袭嫌疑过大、发布带他人水印的图片、转发微博但不带评论、评论发布广告信息、抄袭他人评论、评论语句有限、活动时间集中等。
本实施例中,首先用R表示机器人特征显著性。下述条目为帐号特征模块中的账户特征描述向量,这个向量有多个维度。第i个维度有一个权值a[i],被判断满足该维度条件的帐号会获得a[i]的权值加成,即R=R+a[i],认为当最终权值R>Rmax以后将被判定为机器人帐号。a[i]与Rmax的值将在下面给出。
从蜜罐帐号的粉丝和蜜罐帐号微博收到的评论和转发中获得帐号ID然后进行判断。
1)向量维度1:帐号的关注人数异常。如果关注人数Nforward>FMAX,FMAX=300。则判断满足机器人特征,R=R+a[1],a[1]=5;
2)向量维度2:关注人数与粉丝数的比值异常。如果关注人数与粉丝数的比值K>Kmax=5,或者K<Kmin=0.2。则判断满足机器人特征,R=R+a[2],a[2]=3;
3)向量维度3:帐号所发原创微博的文字内容为抄袭所得。从帐号微博中选一句话出来进行搜索,把所有搜索出来的原创微博进行一种聚类。每一类中时间微博发布时间Wtime最小的微博可以认为是原创微博,而对于其余微博,如果相似度L>Lmax,则认为是抄袭微博。获得除本帐号以外所有被认为抄袭了微博的帐号ID,转到1)步。Lmax=90%。如果该帐号微博相似度L>Lmax,,则判断满足机器人特征,R=R+a[3],a[3]=4;
4)向量维度4:帐号所发图片内容为抄袭所得。通过图像处理技术判断图片中如果否有他人logo或者相互重叠的logo,则判断满足机器人特征,R=R+a[4],a[4]=4;
5)向量维度5:帐号转发微博不带评论。不加评论的概率超过P>Pmax=95%,则判断满足机器人特征,R=R+a[5],a[5]=2;
6)向量维度6:帐号发广告和垃圾信息。可以通过语义识别判断出帐号的评论是否为广告。对于有链接的回复可以获取其网址,打开网址。通过一定方法判断该回复是不是在为这个网站打广告。如果判断成功,则判断满足机器人特征,R=R+a[6],a[6]=10;
7)向量维度7:帐号所发评论为抄袭。对被该帐号转发和评论的原微博的所有回复进行分析。首先对回复进行聚类,从而每一类中评论时间Rtime最小的回复认定为原创回复。回复与原创微博的相似度RS>RSmax的认为是抄袭回复。对除本帐号以外的所有RS>RSmax的ID,转到1)步。如果本帐号RS>RSmax,则判断满足机器人特征,R=R+a[7],a[7]=4;
8)向量维度8:帐号发帖内容的相似度高。遍历帐号所有微博,使用聚类,如果某一类中微博数量N>Nmax=50,则判断满足机器人特征,R=R+a[8],a[8]=4;
9)向量维度9:帐号发帖时间段异常。遍历帐号所有微博,获取其发表时间,如果在任何一段时间内(至少1分钟)发帖频率F>Fmax=6条/min,则判断满足机器人特征,R=R+a[9],a[9]=3;
10)向量维度10:帐号发帖间隔异常;
遍历帐号所有微博,获取其发表时间,发帖时间规律性RE>REmax=10,则判断满足机器人特征,R=R+a[10];RE的获取方法为:把所有微博时间做差,然后以秒为单位,若出现连续5以及以上个时间,这一组数字的方差小于1,则RE=RE+1,RE初值为0,a[10]=3;
当R>Rmax时,认为该帐号为机器人帐号,即为网络水军,Rmax=10。
如图3所示,接下来利用这些机器人帐号找到更多的机器人帐号和水军。
所述的利用检测出来的机器人帐号找到更多的机器人帐号和水军,具体为:
①在获得大量机器人帐号以后,可以遍历每个帐号的所有微博,储存转播和评论该帐号微博的所有帐号的ID。则对于该机器人帐号来说,如果某帐号的出现次数Nid与该机器人帐号微博总数N的比值Nid/N>10%,那么跳到帐号检测模块对该ID进行操作。
②对于所有机器人帐号获得它们的关注信息和评论信息。存储所有该帐号评论和转发的ID。如果同一ID出现的次数Mid>Mmax=1%,则对该ID转到帐号检测模块操作。
③作一个关系拓扑图。令转发,评论和专注为正面操作。如果A对B有正面的操作,A与B之间画一条有向的箭头。如果评论、转发数量的和为NP,那么把NP叫做亲密度。把NP作为这个箭头的权值。在接下来的操作中只考虑权值超过NPmin=100的箭头。
④如果出现超过NFP=10个点同时指向了一点A,则遍历A所有粉丝,对的得到的ID转到帐号检测模块,确定更多的机器人帐号。
⑤如果点B指向超过NFR=10个机器人帐号,则认为点B帐号为水军帐号,ID加入特别帐号ID集合和机器人帐号ID集合。跳到①。
⑥对于特别帐号ID集合里的ID,遍历该ID所有执行正面操作的帐号,对这些帐号的ID跳转到帐号检测模块进行操作。
⑦当拓扑图不能继续变大的时候停止。机器人帐号ID集合与特别帐号ID集合的并集构成水军帐号ID集合。对水军帐号的拓扑图进行聚类,找出水军军团。
本发明方法还可以适用于其他社交网络,比如TWITTER,其实施跟微博实施例基本相同的,具体过程不再详细说明。
本发明上述实施例中参数是根据实验的结果进行选取的,即根据人工标注的机器人账户作为学习基准,通过测试不同参数组合达到的识别率,选取了上述识别率较优对应的一组参数,当然,根据实际的需要,对上述参数进行适当调整也是可以实现本发明的目的。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (8)
1.一种检测网络水军的方法,其特征在于具体包括:
第一步,帐号特征模块对帐号特征向量进行描述,这个向量包括多维;
第二步,帐号检测模块对收集的帐号,根据帐号特征向量符合机器人帐号特性的多少来检测网络水军;
上述步骤中,用R表示机器人特征显著性,帐号的特征描述向量有多个维度,第i个维度有一个权值a[i],被判断满足该维度条件的帐号会获得a[i]的权值加成,即R=R+a[i],当最终权值R>Rmax,则该帐号为机器人帐号。
2.根据权利要求1所述的一种检测网络水军的方法,其特征在于:所述帐号特征模块,其中帐号特征描述向量维度包括:
向量维度1:帐号的关注人数是否异常;
向量维度2:关注人数与粉丝数的比值是否异常;
向量维度3:帐号所发原创微博的文字内容是否为抄袭所得;
向量维度4:帐号所发图片内容是否为抄袭所得;
向量维度5:帐号转发微博是否不带评论;
向量维度6:帐号是否发广告和垃圾信息;
向量维度7:帐号所发评论是否为抄袭;
向量维度8:帐号发帖内容的是否相似度高;
向量维度9:帐号发帖频率是否异常;
向量维度10:帐号发帖间隔是否异常。
3.根据权利要求1或2所述的一种检测网络水军的方法,其特征在于:所述帐号检测模块检测网络水军,具体流程如下:
1)向量维度1:帐号的关注人数异常;
如果关注人数Nforward>FMAX,FMAX=300,则判断满足机器人特征,R=R+a[1],a[1]=5;
2)向量维度2:关注人数与粉丝数的比值异常;
如果关注人数与粉丝数的比值K>Kmax=5,或者K<Kmin=0.2,则判断满足机器人特征,R=R+a[2],a[2]=3;
3)向量维度3:帐号所发原创微博的文字内容为抄袭所得;
从帐号微博中选一句话出来进行搜索,把所有搜索出来的原创微博进行一种聚类,每一类中微博发布时间Wtime最小的微博是原创微博,而对于其余微博,如果相似度L>Lmax,则是抄袭微博;获得除本帐号以外所有被认为抄袭了微博的帐号ID,转到1)步,Lmax=90%;如果该帐号微博相似度L>Lmax,则判断满足机器人特征,R=R+a[3],a[3]=4;
4)向量维度4:帐号所发图片内容为抄袭所得;
通过图像处理技术判断图片中如果否有他人logo或者相互重叠的logo,则判断满足机器人特征,R=R+a[4],a[4]=4;
5)向量维度5:帐号转发微博不带评论;
不加评论的概率超过P>Pmax=95%,则判断满足机器人特征,R=R+a[5],a[5]=2;
6)向量维度6:帐号发广告和垃圾信息;
通过语义识别判断出帐号的评论是否为广告,对于有链接的回复获取其网址,打开网址,判断该回复是不是在为这个网站打广告,如果判断成功,则判断满足机器人特征,R=R+a[6],a[6]=10;
7)向量维度7:帐号所发评论为抄袭;
对被该帐号转发和评论的原微博的所有回复进行分析,首先对回复进行聚类,从而每一类中评论时间Rtime最小的回复认定为原创回复,回复与原创微博的相似度RS>RSmax的认为是抄袭回复,对除本帐号以外的所有RS>RSmax的ID,转到1)步,如果本帐号RS>RSmax=90%,则判断满足机器人特征,R=R+a[7],a[7]=4;
8)向量维度8:帐号发帖内容的相似度高;
遍历帐号所有微博,使用聚类,如果某一类中微博数量N>Nmax=50,则判断满足机器人特征,R=R+a[8],a[8]=4;
9)向量维度9:帐号发帖频率异常;
遍历帐号所有微博,获取其发表时间,如果在任何至少1分钟时间内发帖频率F>Fmax=6条/min,则判断满足机器人特征,R=R+a[9],a[9]=3;
10)向量维度10:帐号发帖间隔异常;
遍历帐号所有微博,获取其发表时间,发帖时间规律性RE>REmax=10,则判断满足机器人特征,R=R+a[10];RE的获取方法为:把所有微博时间做差,然后以秒为单位,若出现连续5以及以上个时间,这一组数字的方差小于1,则RE=RE+1,RE初值为0,a[10]=3;
当R>Rmax时,认为该帐号为机器人帐号,即为网络水军,Rmax=10。
4.一种采用权利要求1-3任一项所述方法的找到网络水军的方法,其特征在于包括如下步骤:
第一步、建立蜜罐帐号;
第二步、通过帐号管理模块对所有蜜罐帐号进行统一筹划,确定蜜罐帐号的发帖和关注策略;
第三步、从收集的帐号中检测机器人帐号,即网络水军;
帐号特征模块对帐号特征向量进行描述,这个向量包括多维;
帐号检测模块对收集的帐号,根据帐号特征向量符合机器人帐号特性的多少来检测网络水军;
第四步,利用检测出来的机器人帐号找到更多的机器人帐号和水军。
5.根据权利要求4所述的找到网络水军的方法,其特征在于:所述的利用检测出来的机器人帐号找到更多的机器人帐号和水军,具体为:
①在获得大量机器人帐号以后,遍历每个帐号的所有微博,储存转播和评论该帐号微博的所有帐号的ID,则对于该机器人帐号来说,如果某帐号的出现次数Nid与该机器人帐号微博总数N的比值Nid/N>10%,那么跳到帐号检测模块对该ID进行操作;
②对于所有机器人帐号获得它们的关注信息和评论信息,存储所有该帐号评论和转发的ID,如果同一ID出现的次数Mid>Mmax=1%,则对该ID转到帐号检测模块操作;
③作一个关系拓扑图,令转发,评论和专注为正面操作,如果A对B有正面的操作,A与B之间画一条有向的箭头;如果评论、转发数量的和为NP,那么把NP叫做亲密度,把NP作为这个箭头的权值,在接下来的操作中只考虑权值超过NPmin=100的箭头;
④如果出现超过NFP=10个点同时指向了一点A,则遍历A所有粉丝,对的得到的ID转到帐号检测模块,确定更多的机器人帐号;
⑤如果点B指向超过NFR=10个机器人帐号,则认为点B帐号为水军帐号,ID加入特别帐号ID集合和机器人帐号ID集合,跳到①;
⑥对于特别帐号ID集合里的ID,遍历该ID所有执行正面操作的帐号,对这些帐号的ID跳转到帐号检测模块进行操作;
⑦当拓扑图不能继续变大的时候停止,机器人帐号ID集合与特别帐号ID集合的并集构成水军帐号ID集合,对水军帐号的拓扑图进行聚类,找出水军军团。
6.根据权利要求4或5所述的找到网络水军的方法,其特征在于:所述建立蜜罐帐号的所有操作都是人工手动操作,包括:
(1)注册微博帐号;
(2)设计一种帐号信息向量,这个向量包括多维,每个维度就是一个信息,每个维度之间都有联系;
(3)最后需要给蜜罐帐号设置微博的使用习惯。
7.根据权利要求4或5所述的找到网络水军的方法,其特征在于:所述蜜罐帐号发帖策略向量包括多维,每个维度是一种策略,包括:蜜罐帐号的发帖时间、蜜罐帐号的发帖内容、蜜罐帐号的发帖方式;而蜜罐帐号的发帖方式下又包括三个维度,即转发、原创和评论。
8.根据权利要求4或5所述的找到网络水军的方法,其特征在于:所述蜜罐帐号关注策略,包括蜜罐帐号利用关注来吸引反关注,通过发私信求关注获得更高的反关注率;最后在蜜罐工作了一段时间以后,要清理微博和关注,以免微博和关注太多导致机器人特征过于明显。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110418586.XA CN102571484B (zh) | 2011-12-14 | 2011-12-14 | 一种检测网络水军以及找到网络水军的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110418586.XA CN102571484B (zh) | 2011-12-14 | 2011-12-14 | 一种检测网络水军以及找到网络水军的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102571484A true CN102571484A (zh) | 2012-07-11 |
CN102571484B CN102571484B (zh) | 2014-08-27 |
Family
ID=46416004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110418586.XA Expired - Fee Related CN102571484B (zh) | 2011-12-14 | 2011-12-14 | 一种检测网络水军以及找到网络水军的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102571484B (zh) |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103095499A (zh) * | 2013-01-17 | 2013-05-08 | 上海交通大学 | 一种在微博平台中捕获水军的方法 |
CN103198161A (zh) * | 2013-04-28 | 2013-07-10 | 中国科学院计算技术研究所 | 微博水军识别方法与设备 |
CN103200182A (zh) * | 2013-03-13 | 2013-07-10 | 珠海市君天电子科技有限公司 | 一种标识传播虚假广告的微博营销账号的方法 |
CN103440454A (zh) * | 2013-08-01 | 2013-12-11 | 上海交通大学 | 一种基于搜索引擎关键词的主动式蜜罐检测方法 |
CN103577987A (zh) * | 2012-07-20 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 一种风险用户的识别方法和装置 |
CN103581355A (zh) * | 2012-08-02 | 2014-02-12 | 北京千橡网景科技发展有限公司 | 用户行为异常处理方法和设备 |
CN103577991A (zh) * | 2012-08-03 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 一种用户的识别方法和装置 |
CN103617235A (zh) * | 2013-11-26 | 2014-03-05 | 中国科学院信息工程研究所 | 一种基于粒子群算法的网络水军账号识别方法及系统 |
CN103795592A (zh) * | 2014-01-21 | 2014-05-14 | 中国科学院信息工程研究所 | 网络水军的检测方法及装置 |
CN103838759A (zh) * | 2012-11-23 | 2014-06-04 | 阿里巴巴集团控股有限公司 | 基于sns环境的非正常行为过滤方法及装置 |
CN103905532A (zh) * | 2014-03-13 | 2014-07-02 | 微梦创科网络科技(中国)有限公司 | 微博营销账号的识别方法及系统 |
CN103955714A (zh) * | 2014-04-09 | 2014-07-30 | 中国科学院信息工程研究所 | 基于水军检测模型构建方法和系统及水军检测方法 |
CN104063515A (zh) * | 2014-07-14 | 2014-09-24 | 福州大学 | 一种基于机器学习的社交网络垃圾消息过滤方法 |
CN104123328A (zh) * | 2013-04-28 | 2014-10-29 | 北京千橡网景科技发展有限公司 | 用于在网站中抑制垃圾评论的方法和设备 |
CN104253809A (zh) * | 2013-06-29 | 2014-12-31 | 北京新媒传信科技有限公司 | 一种检测网络中内容的方法和系统 |
CN104901847A (zh) * | 2015-05-27 | 2015-09-09 | 国家计算机网络与信息安全管理中心 | 一种社交网络僵尸账号检测方法及装置 |
CN106095813A (zh) * | 2016-05-31 | 2016-11-09 | 北京奇艺世纪科技有限公司 | 一种用户标识识别方法和装置 |
CN106156546A (zh) * | 2016-07-29 | 2016-11-23 | 苏州商信宝信息科技有限公司 | 一种针对社交网络原创内容盗用的信息提示方法 |
CN107330081A (zh) * | 2017-07-03 | 2017-11-07 | 深圳市比量科技传媒有限公司 | 一种信息特征提取方法 |
CN107332931A (zh) * | 2017-08-07 | 2017-11-07 | 合肥工业大学 | 机器型论坛水军的识别方法及装置 |
CN107659647A (zh) * | 2017-09-26 | 2018-02-02 | 精硕科技(北京)股份有限公司 | 水帖识别方法和装置 |
CN107798649A (zh) * | 2017-09-05 | 2018-03-13 | 北京五八信息技术有限公司 | 图片的识别方法和装置 |
CN107835113A (zh) * | 2017-07-05 | 2018-03-23 | 中山大学 | 一种基于网络映射的社交网络中异常用户检测方法 |
CN108418825A (zh) * | 2018-03-16 | 2018-08-17 | 阿里巴巴集团控股有限公司 | 风险模型训练、垃圾账号检测方法、装置以及设备 |
CN108763319A (zh) * | 2018-04-28 | 2018-11-06 | 中国科学院自动化研究所 | 融合用户行为和文本信息的社交机器人检测方法和系统 |
CN109255024A (zh) * | 2017-07-12 | 2019-01-22 | 车伯乐(北京)信息科技有限公司 | 一种异常用户同党的搜索方法,装置,及系统 |
CN109413439A (zh) * | 2018-09-30 | 2019-03-01 | 武汉斗鱼网络科技有限公司 | 一种确定嫌疑用户的方法及相关设备 |
CN109472027A (zh) * | 2018-10-31 | 2019-03-15 | 北京邮电大学 | 一种基于博文相似性的社交机器人检测系统及方法 |
CN110210945A (zh) * | 2019-06-05 | 2019-09-06 | 重庆菜鸽途讯科技有限公司 | 一种商业系统 |
CN111191139A (zh) * | 2020-01-02 | 2020-05-22 | 湖南映客互娱网络信息有限公司 | 一种基于特征模型的刷子检测方法与系统 |
CN111428116A (zh) * | 2020-06-08 | 2020-07-17 | 四川大学 | 一种基于深度神经网络的微博社交机器人检测方法 |
CN112800304A (zh) * | 2021-01-08 | 2021-05-14 | 上海海事大学 | 一种基于聚类的微博水军团体检测方法 |
CN112861128A (zh) * | 2021-01-21 | 2021-05-28 | 微梦创科网络科技(中国)有限公司 | 一种批量识别机器账号的方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101616101A (zh) * | 2008-06-26 | 2009-12-30 | 阿里巴巴集团控股有限公司 | 一种用户信息过滤方法及装置 |
US20110184575A1 (en) * | 2010-01-25 | 2011-07-28 | Yohei Kawamoto | Analysis server, and method of analyzing data |
CN102200987A (zh) * | 2011-01-27 | 2011-09-28 | 北京开心人信息技术有限公司 | 一种基于用户账号行为分析的查找马甲账号的方法及系统 |
CN102202037A (zh) * | 2010-03-24 | 2011-09-28 | 北京创世网赢高科技有限公司 | 一种信息发布系统 |
-
2011
- 2011-12-14 CN CN201110418586.XA patent/CN102571484B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101616101A (zh) * | 2008-06-26 | 2009-12-30 | 阿里巴巴集团控股有限公司 | 一种用户信息过滤方法及装置 |
US20110184575A1 (en) * | 2010-01-25 | 2011-07-28 | Yohei Kawamoto | Analysis server, and method of analyzing data |
CN102202037A (zh) * | 2010-03-24 | 2011-09-28 | 北京创世网赢高科技有限公司 | 一种信息发布系统 |
CN102200987A (zh) * | 2011-01-27 | 2011-09-28 | 北京开心人信息技术有限公司 | 一种基于用户账号行为分析的查找马甲账号的方法及系统 |
Cited By (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577987A (zh) * | 2012-07-20 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 一种风险用户的识别方法和装置 |
CN103581355A (zh) * | 2012-08-02 | 2014-02-12 | 北京千橡网景科技发展有限公司 | 用户行为异常处理方法和设备 |
CN103577991A (zh) * | 2012-08-03 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 一种用户的识别方法和装置 |
CN110009372A (zh) * | 2012-08-03 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 一种用户风险识别方法和装置 |
CN103838759B (zh) * | 2012-11-23 | 2017-04-26 | 阿里巴巴集团控股有限公司 | 基于sns环境的非正常行为过滤方法及装置 |
CN103838759A (zh) * | 2012-11-23 | 2014-06-04 | 阿里巴巴集团控股有限公司 | 基于sns环境的非正常行为过滤方法及装置 |
CN103095499A (zh) * | 2013-01-17 | 2013-05-08 | 上海交通大学 | 一种在微博平台中捕获水军的方法 |
CN103095499B (zh) * | 2013-01-17 | 2016-05-04 | 上海交通大学 | 一种在微博平台中捕获水军的方法 |
CN103200182A (zh) * | 2013-03-13 | 2013-07-10 | 珠海市君天电子科技有限公司 | 一种标识传播虚假广告的微博营销账号的方法 |
CN103200182B (zh) * | 2013-03-13 | 2016-01-27 | 珠海市君天电子科技有限公司 | 一种标识传播虚假广告的微博营销账号的方法 |
CN103198161B (zh) * | 2013-04-28 | 2018-09-07 | 中国科学院计算技术研究所 | 微博水军识别方法与设备 |
CN103198161A (zh) * | 2013-04-28 | 2013-07-10 | 中国科学院计算技术研究所 | 微博水军识别方法与设备 |
CN104123328A (zh) * | 2013-04-28 | 2014-10-29 | 北京千橡网景科技发展有限公司 | 用于在网站中抑制垃圾评论的方法和设备 |
CN104253809B (zh) * | 2013-06-29 | 2017-08-04 | 北京新媒传信科技有限公司 | 一种检测网络中内容的方法和系统 |
CN104253809A (zh) * | 2013-06-29 | 2014-12-31 | 北京新媒传信科技有限公司 | 一种检测网络中内容的方法和系统 |
CN103440454B (zh) * | 2013-08-01 | 2016-04-06 | 上海交通大学 | 一种基于搜索引擎关键词的主动式蜜罐检测方法 |
CN103440454A (zh) * | 2013-08-01 | 2013-12-11 | 上海交通大学 | 一种基于搜索引擎关键词的主动式蜜罐检测方法 |
CN103617235A (zh) * | 2013-11-26 | 2014-03-05 | 中国科学院信息工程研究所 | 一种基于粒子群算法的网络水军账号识别方法及系统 |
CN103617235B (zh) * | 2013-11-26 | 2017-01-25 | 中国科学院信息工程研究所 | 一种基于粒子群算法的网络水军账号识别方法及系统 |
CN103795592A (zh) * | 2014-01-21 | 2014-05-14 | 中国科学院信息工程研究所 | 网络水军的检测方法及装置 |
CN103795592B (zh) * | 2014-01-21 | 2017-01-25 | 中国科学院信息工程研究所 | 网络水军的检测方法及装置 |
CN103905532B (zh) * | 2014-03-13 | 2017-11-03 | 微梦创科网络科技(中国)有限公司 | 微博营销账号的识别方法及系统 |
CN103905532A (zh) * | 2014-03-13 | 2014-07-02 | 微梦创科网络科技(中国)有限公司 | 微博营销账号的识别方法及系统 |
CN103955714A (zh) * | 2014-04-09 | 2014-07-30 | 中国科学院信息工程研究所 | 基于水军检测模型构建方法和系统及水军检测方法 |
CN104063515A (zh) * | 2014-07-14 | 2014-09-24 | 福州大学 | 一种基于机器学习的社交网络垃圾消息过滤方法 |
CN104901847A (zh) * | 2015-05-27 | 2015-09-09 | 国家计算机网络与信息安全管理中心 | 一种社交网络僵尸账号检测方法及装置 |
CN104901847B (zh) * | 2015-05-27 | 2018-10-30 | 国家计算机网络与信息安全管理中心 | 一种社交网络僵尸账号检测方法及装置 |
CN106095813A (zh) * | 2016-05-31 | 2016-11-09 | 北京奇艺世纪科技有限公司 | 一种用户标识识别方法和装置 |
CN106156546A (zh) * | 2016-07-29 | 2016-11-23 | 苏州商信宝信息科技有限公司 | 一种针对社交网络原创内容盗用的信息提示方法 |
CN107330081A (zh) * | 2017-07-03 | 2017-11-07 | 深圳市比量科技传媒有限公司 | 一种信息特征提取方法 |
CN107835113A (zh) * | 2017-07-05 | 2018-03-23 | 中山大学 | 一种基于网络映射的社交网络中异常用户检测方法 |
CN107835113B (zh) * | 2017-07-05 | 2020-09-08 | 中山大学 | 一种基于网络映射的社交网络中异常用户检测方法 |
CN109255024A (zh) * | 2017-07-12 | 2019-01-22 | 车伯乐(北京)信息科技有限公司 | 一种异常用户同党的搜索方法,装置,及系统 |
CN107332931A (zh) * | 2017-08-07 | 2017-11-07 | 合肥工业大学 | 机器型论坛水军的识别方法及装置 |
CN107798649A (zh) * | 2017-09-05 | 2018-03-13 | 北京五八信息技术有限公司 | 图片的识别方法和装置 |
CN107659647A (zh) * | 2017-09-26 | 2018-02-02 | 精硕科技(北京)股份有限公司 | 水帖识别方法和装置 |
CN108418825A (zh) * | 2018-03-16 | 2018-08-17 | 阿里巴巴集团控股有限公司 | 风险模型训练、垃圾账号检测方法、装置以及设备 |
CN108763319A (zh) * | 2018-04-28 | 2018-11-06 | 中国科学院自动化研究所 | 融合用户行为和文本信息的社交机器人检测方法和系统 |
CN108763319B (zh) * | 2018-04-28 | 2022-02-08 | 中国科学院自动化研究所 | 融合用户行为和文本信息的社交机器人检测方法和系统 |
CN109413439A (zh) * | 2018-09-30 | 2019-03-01 | 武汉斗鱼网络科技有限公司 | 一种确定嫌疑用户的方法及相关设备 |
CN109413439B (zh) * | 2018-09-30 | 2021-04-23 | 武汉斗鱼网络科技有限公司 | 一种确定嫌疑用户的方法及相关设备 |
CN109472027A (zh) * | 2018-10-31 | 2019-03-15 | 北京邮电大学 | 一种基于博文相似性的社交机器人检测系统及方法 |
CN110210945A (zh) * | 2019-06-05 | 2019-09-06 | 重庆菜鸽途讯科技有限公司 | 一种商业系统 |
CN111191139A (zh) * | 2020-01-02 | 2020-05-22 | 湖南映客互娱网络信息有限公司 | 一种基于特征模型的刷子检测方法与系统 |
CN111428116A (zh) * | 2020-06-08 | 2020-07-17 | 四川大学 | 一种基于深度神经网络的微博社交机器人检测方法 |
CN111428116B (zh) * | 2020-06-08 | 2021-01-12 | 四川大学 | 一种基于深度神经网络的微博社交机器人检测方法 |
CN112800304A (zh) * | 2021-01-08 | 2021-05-14 | 上海海事大学 | 一种基于聚类的微博水军团体检测方法 |
CN112861128A (zh) * | 2021-01-21 | 2021-05-28 | 微梦创科网络科技(中国)有限公司 | 一种批量识别机器账号的方法及系统 |
CN112861128B (zh) * | 2021-01-21 | 2024-06-18 | 微梦创科网络科技(中国)有限公司 | 一种批量识别机器账号的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102571484B (zh) | 2014-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102571484B (zh) | 一种检测网络水军以及找到网络水军的方法 | |
CN103116605B (zh) | 一种基于监测子网的微博热点事件实时检测方法及系统 | |
CN103092950B (zh) | 一种网络舆情地理位置实时监控系统和方法 | |
CN101957834B (zh) | 一种基于用户特征进行内容推荐的方法与设备 | |
US20130117261A1 (en) | Context Sensitive Transient Connections | |
CN103049538B (zh) | 一种基于位置服务的活动信息聚合搜索与互动方法及系统 | |
CN102646248B (zh) | 一种广告发布方法及系统 | |
CN104573016A (zh) | 一种基于行业的垂直舆情分析系统及方法 | |
CN107230103A (zh) | 一种精准营销系统 | |
RU2014110398A (ru) | Показатели эффективности кампании в средствах социального общения | |
KR20160079863A (ko) | 소셜 데이터 네트워크에서의 사용자의 거동 세그먼트화를 위한 시스템 및 방법 | |
CN106126519B (zh) | 媒体信息的展示方法及服务器 | |
CN103678531A (zh) | 好友推荐方法和装置 | |
CN103116611A (zh) | 社交网络意见领袖识别方法 | |
US9641556B1 (en) | Apparatus and method for identifying constituents in a social network | |
CN109615437A (zh) | 销售获客跟踪管理方法 | |
Cao et al. | Behavioral detection of spam URL sharing: posting patterns versus click patterns | |
Tamine et al. | Social media-based collaborative information access: Analysis of online crisis-related twitter conversations | |
CN101968810A (zh) | 基于树形数据结构展示好友间交互内容的方法与系统 | |
Liu et al. | Detecting collusive spamming activities in community question answering | |
CN201957051U (zh) | 一种社交网站中用户向好友推荐好友的系统 | |
CN107463551A (zh) | 社交网络人际关系的分析方法及装置 | |
CN103365845B (zh) | 一种微博中的搜索方法及系统 | |
CN103312584A (zh) | 一种在网络社区中发布信息的方法与设备 | |
CN103838749B (zh) | 一种对分享信息进行相应操作的方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140827 Termination date: 20201214 |
|
CF01 | Termination of patent right due to non-payment of annual fee |