CN103095499B - 一种在微博平台中捕获水军的方法 - Google Patents

一种在微博平台中捕获水军的方法 Download PDF

Info

Publication number
CN103095499B
CN103095499B CN201310017802.9A CN201310017802A CN103095499B CN 103095499 B CN103095499 B CN 103095499B CN 201310017802 A CN201310017802 A CN 201310017802A CN 103095499 B CN103095499 B CN 103095499B
Authority
CN
China
Prior art keywords
user
microblogging
threshold value
waterborne troops
waterborne
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310017802.9A
Other languages
English (en)
Other versions
CN103095499A (zh
Inventor
陈凯
周曲
周异
林成峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201310017802.9A priority Critical patent/CN103095499B/zh
Publication of CN103095499A publication Critical patent/CN103095499A/zh
Application granted granted Critical
Publication of CN103095499B publication Critical patent/CN103095499B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供了一种在微博平台中捕获水军的方法,包括如下步骤:第一步,通过新微博热门话题或者名人微博的转发列表,辅以人工判断,获得初始水军样本S;第二步,获取所有样本水军的粉丝列表L,按照预先设定的阈值,过滤得到和样本中多个水军关系密切的用户列表L’;第三步,获取这些用户的微博发布特征信息;第四步,利用第三步获得的信息,逐个判断用户是否具有水军的特点;第五步,将新得到的水军加入到样本中,之后选择重复步骤二到步骤四的迭代过程。

Description

一种在微博平台中捕获水军的方法
技术领域
本发明涉及互联网技术领域的社交网络水军捕获方法,具体地,涉及一种在微博平台中捕获水军的方法。
背景技术
随着互联网技术的发展,社交网络的发展如火如荼,逐渐成为网民日常生活中的重要部分。社交网络带来了全新的低成本宣传平台,于是,一种被称为“水军”的用户出现了,他们通过发布特定主题的信息,达到宣传、控制舆论等目的。如何在海量的社交网络用户中检测并且捕捉到这些水军成为了维护社交网络服务质量的一个关键问题。
在众多类型的社交网络中,微博由于其单向关注、内容简洁、高实时性和多终端移动性的特点成异军突起。因此在微博平台上水军现象尤为严重。这也使得微博平台上的反水军机制成为了一个难题。
经检索,申请号为201110418586.X、公开号为102571484A的中国发明专利,该发明公开了一种检测网络水军以及找到网络水军的方法,首先建立蜜罐帐号;通过帐号管理模块对所有蜜罐帐号进行统一筹划,确定蜜罐帐号的发帖和关注策略;从收集的帐号中检测机器人帐号;帐号特征模块对帐号特征向量进行描述,这个向量包括多维;帐号检测模块对收集的帐号,根据帐号特征向量符合机器人帐号特性的多少来检测网络水军;利用检测出来的机器人帐号找到更多的机器人帐号和水军。相比较,本发明不是通过设立蜜罐账号来吸引水军,而是通过搜集信息然后过滤的方法来找到水军,更加的主动、快速、有效。
检索中还发现,申请号为201210050176.9、公开号为102629904A的中国发明专利,该发明公开了一种网络水军的探测与判定方法,包括用户行为采集,用户行为统计和网络水军分类器训练三个模块,其流程为:用户行为采集——用户行为统计——网络水军预测——网络水军判定。该发明通过获取用户行为样本后对用户行为进行统计,再使用机器学习的方法建立预测模型,最后对网络水军进行预测。相比较,本发明不需要建立机器学习模型,更加简单和快速。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种在微博平台中捕获水军的方法。根据少量的初始水军样本,通过分析他们的社会关系网,在尽可能减少人工判断干预的情况下捕获其他的水军。
为实现上述的目的,本发明包括如下步骤:
第一步,通过新微博热门话题或者名人微博的转发列表等途径,获取嫌疑用户。选取三个特征值的阈值(参与率的阈值Ma、平均重复度的阈值Mb、转发重复度峰值的阈值Mr),然后利用反复的过滤—抽样验证的方法调整并确定阈值。利用该阈值过滤嫌疑用户,并且通过人工观察用户是否具有水军的行为特征(例如反复转发同一条微博等),获得初始水军样本S;Ma、Mb、Mr含义分别为:对于确定的微博列表,单个用户参与转发的微博数量占总微博数量的比例,即参与率阈值Ma;用户的总转发次数和用户参与的微博数量的比例(即用户对单条微博的平均转发次数),即平均重复度阈值Mb;用户重复转发单条微博的次数的最大值,即转发重复度峰值阈值Mr
第二步,获取所有样本水军的粉丝列表L,按照预先设定的密切度阈值Mc(即在水军样本中关注的用户数量或者数量占总数的比例)过滤得到和样本中多个水军关系密切的用户列表L’。
第三步,获取这些用户的微博发布特征信息,包括用户的所有微博中转发的微博的数量Cr和用户转发的源微博Cs的数量。
第四步,利用第三步获得的信息,计算用户的平均重复特征值(平均每条微博重复转发的次数)和重复转发次数的峰值。然后利用第一步设定的平均重复度的阈值Mb和转发重复度峰值的阈值Mr进行过滤,将两个特征值都超过阈值的用户判定为水军。
第五步,将新得到的水军加入到样本中,之后可以选择重复步骤二到步骤四的迭代过程。
上述第一步获取初始水军样本具体流程如下:
1)选定特定热门话题(或者某个微博名人),获取相关微博列表(对微博名人来说就是他的微博列表)。
2)抓取这些微博的转发列表,统计其中涉及的用户和每个用户的转发次数等信息。
3)选定过滤用的三个特征值的阈值:参与率的阈值Ma(0~100%)与平均重复度的阈值Mb(大于等于1),转发重复度峰值的阈值Mr;从步骤2)得到的用户中选出三个特征值即参与率、平均重复度、转发重复度峰值超过所设定的阈值的所有用户作为初始的水军样本S。
上述阈值设定方法:首先按照经验值设定三个特征的阈值,过滤一遍得到结果,对结果进行小量抽样验证,计算准确率。然后根据结果调整阈值,再过滤,再抽样,反复调整多次使抽样结果最佳,就可以确定阈值。
上述第二步获得与水军样本关系密切用户的具体流程如下:
1)设定密切度的阈值Mc,即单个用户关注的水军数量。
2)计算每个用户(与水军样本)的密切度,按照1)中设定的阈值进行过滤,获得超过阈值的用户。
上述第四步,由第三步获得的数据,计算用户对每条源微博的平均转发数量以及重复转发的次数的峰值。如果超过第一步中设定的重复度阈值Mb和重复度峰值阈值Mr,则判定用户为水军用户。
与现有技术相比,本发明具有如下的有益效果:
本发明通过设定用户行为特征的阈值、进行比较过滤来判断水军,不需要建立机器学习模型,更加简单和快速。面对日益严重的微博水军现象,利用本发明,可以针对特定的用户群体的微博、热门微博、甚至特定事件的相关微博,发掘出其中的水军,与传统的水军检测方法(例如假设蜜罐被动捕获)相比更加积极主动,具有更高的针对性。采用阈值过滤的方法更加易于操作,也易于根据实际情况进行调整。此外,本发明允许多次迭代更新,可以通过已知水军的社会关系网络来抓取更多的水军,扩大了水军捕捉的范围,效果更好。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明总体流程的示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,本实施例提供一种在微博平台中捕获水军的方法,假设需要对某一个微博上的热门争议事件进行分析,挖掘出参与其中的水军。可以通过以下步骤进行:
1)收集与事件有关的微博,抓取每条微博的前5000条转发记录。
2)统计参与了转发的用户,记录他们参与转发的微博数量、对每条源微博的平均转发次数、对单条微博的最高转发次数。
3)按照设定的参与度阈值Ma(例如参与总数5%的微博的转发)、重复度阈值Mb(例如5次每条)、重复度峰值阈值Mr(例如10次)(这些阈值的初始值依靠经验值设定,并且通过反复的过滤-抽样验证-调整后确定),将所有参与转发的微博数量大于5条、对每条源微博的平均转发次数大于5次每条、对单条微博的最高转发次数大于10次的用户加入到初始水军样本S。
4)抓取S中每个水军的粉丝列表,综合得到粉丝列表L;
5)从L中选出同时关注S中超过密切度阈值Mc个水军的用户,得到水军嫌疑列表L’。Mc的初始值依靠经验值设定,并且通过反复的过滤-抽样验证-调整后确定。
6)获取L’中每个用户转发的微博的数量Cr和对应的源微博的数量Cs,以及他们对单条微博的转发次数的最大值,并且利用Cr和Cs计算得到平均转发次数。
7)从L’中选出平均转发次数超过阈值Mb(5次每条)、单条转发次数最大值超过Mr(10次)的的用户,即为得到的水军用户S’。
8)将步骤7)得到的水军用户S’一并加入水军样本S中,重复步骤4)到步骤7),迭代找到更多的水军。
利用以上步骤就可以挖掘出参与该争议事件的水军。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (5)

1.一种在微博平台中捕获水军的方法,其特征在于包括如下步骤:
第一步,通过新微博热门话题或者名人微博的转发列表,获取嫌疑用户,选取三个特征值的阈值即参与率的阈值Ma、平均重复度的阈值Mb、转发重复度峰值的阈值Mr,利用该阈值过滤嫌疑用户,并且通过人工观察用户是否具有水军的行为特征,获得初始水军样本S;阈值Ma、Mb、Mr含义分别为:对于确定的微博列表,单个用户参与转发的微博数量占总微博数量的比例,即参与率阈值Ma;用户的总转发次数和用户参与的微博数量的比例,即平均重复度阈值Mb;用户重复转发单条微博的次数的最大值,即转发重复度峰值阈值Mr
第二步,获取所有样本水军的粉丝列表L,按照预先设定的阈值Mc过滤得到和样本中多个水军关系密切的用户列表L’,其中Mc即密切度阈值Mc,有两种取法:单个用户关注的水军数量或单个用户关注的水军数量占水军样本总数的比例;
第三步,获取用户列表L’中用户的微博发布特征信息,包括用户的所有微博中转发的微博的数量Cr和用户转发的源微博Cs的数量;
第四步,利用第三步获得的信息,计算用户的平均重复特征值即平均每条微博重复转发的次数和重复转发次数的峰值,然后利用第一步设定的平均重复度的阈值Mb和转发重复度峰值的阈值Mr进行过滤,将两个特征值都超过阈值的用户判定为水军;
第五步,将新得到的水军加入到样本中,之后选择重复步骤二到步骤四的迭代过程。
2.根据权利要求1所述的在微博平台中捕获水军的方法,其特征在于,上述第一步获取初始水军样本具体如下:
1)选定特定热门话题或者某个微博名人,获取相关微博列表;
2)抓取这些微博的转发列表,统计其中涉及的用户和每个用户的转发次数;
3)选定过滤用的三个特征值的阈值:参与率的阈值Ma与平均重复度的阈值Mb,Ma为0~100%,Mb大于等于1,转发重复度峰值阈值Mr;从步骤2)得到的用户中选出三个特征值即参与率、平均重复度、转发重复度峰值超过所设定的阈值的所有用户作为初始的水军样本S。
3.根据权利要求1或2所述的在微博平台中捕获水军的方法,其特征在于,上述阈值设定方法:首先按照经验值设定三个特征的阈值,过滤一遍得到结果,对结果进行小量抽样验证,计算准确率;然后根据结果调整阈值,再过滤,再抽样,反复调整多次使抽样结果最佳,确定阈值。
4.根据权利要求1所述的在微博平台中捕获水军的方法,其特征在于,上述第二步获得与水军样本关系密切用户的具体如下:
1)设定密切度阈值Mc,有两种取法:单个用户关注的水军数量或者单个用户关注的水军数量占水军样本总数的比例;
2)计算每个用户与水军样本的密切度,按照设定的阈值Mc进行过滤,获得三个特征值都超过阈值的用户。
5.根据权利要求2或4所述的在微博平台中捕获水军的方法,其特征在于,上述第四步,由第三步获得的数据,计算用户对每条源微博的平均转发数量以及重复转发的次数的峰值,如果超过第一步中设定的平均重复度阈值Mb和重复度峰值阈值Mr,则判定用户为水军用户。
CN201310017802.9A 2013-01-17 2013-01-17 一种在微博平台中捕获水军的方法 Expired - Fee Related CN103095499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310017802.9A CN103095499B (zh) 2013-01-17 2013-01-17 一种在微博平台中捕获水军的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310017802.9A CN103095499B (zh) 2013-01-17 2013-01-17 一种在微博平台中捕获水军的方法

Publications (2)

Publication Number Publication Date
CN103095499A CN103095499A (zh) 2013-05-08
CN103095499B true CN103095499B (zh) 2016-05-04

Family

ID=48207659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310017802.9A Expired - Fee Related CN103095499B (zh) 2013-01-17 2013-01-17 一种在微博平台中捕获水军的方法

Country Status (1)

Country Link
CN (1) CN103095499B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617235B (zh) * 2013-11-26 2017-01-25 中国科学院信息工程研究所 一种基于粒子群算法的网络水军账号识别方法及系统
CN103825879A (zh) * 2013-11-29 2014-05-28 中国科学院信息工程研究所 社交僵尸网络的检测方法及装置
CN103986645B (zh) * 2014-05-27 2017-03-15 小米科技有限责任公司 消息处理方法及装置
CN107423819B (zh) * 2016-05-24 2021-08-24 阿里巴巴集团控股有限公司 一种知识库构建方法及装置
CN105956184B (zh) * 2016-06-01 2017-05-31 西安交通大学 一种微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法
CN107332931A (zh) * 2017-08-07 2017-11-07 合肥工业大学 机器型论坛水军的识别方法及装置
CN107895010A (zh) * 2017-11-13 2018-04-10 华东师范大学 一种基于网络点赞检测网络水军的方法
CN113342762B (zh) * 2021-08-06 2021-10-29 深圳市思特克电子技术开发有限公司 针对商户好友的共享消息的智能处理方法及相关装置
CN113806616B (zh) * 2021-08-16 2023-08-22 北京智慧星光信息技术有限公司 微博用户识别方法、系统、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102200987A (zh) * 2011-01-27 2011-09-28 北京开心人信息技术有限公司 一种基于用户账号行为分析的查找马甲账号的方法及系统
CN102315952A (zh) * 2010-06-29 2012-01-11 百度在线网络技术(北京)有限公司 一种用于社区网络中检测垃圾帖子的方法与设备
CN102571484A (zh) * 2011-12-14 2012-07-11 上海交通大学 一种检测网络水军以及找到网络水军的方法
CN102629904A (zh) * 2012-02-24 2012-08-08 安徽博约信息科技有限责任公司 一种网络水军的探测与判定方法
CN102724182A (zh) * 2012-05-30 2012-10-10 北京像素软件科技股份有限公司 异常客户端的识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201118589A (en) * 2009-06-09 2011-06-01 Ebh Entpr Inc Methods, apparatus and software for analyzing the content of micro-blog messages

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102315952A (zh) * 2010-06-29 2012-01-11 百度在线网络技术(北京)有限公司 一种用于社区网络中检测垃圾帖子的方法与设备
CN102200987A (zh) * 2011-01-27 2011-09-28 北京开心人信息技术有限公司 一种基于用户账号行为分析的查找马甲账号的方法及系统
CN102571484A (zh) * 2011-12-14 2012-07-11 上海交通大学 一种检测网络水军以及找到网络水军的方法
CN102629904A (zh) * 2012-02-24 2012-08-08 安徽博约信息科技有限责任公司 一种网络水军的探测与判定方法
CN102724182A (zh) * 2012-05-30 2012-10-10 北京像素软件科技股份有限公司 异常客户端的识别方法

Also Published As

Publication number Publication date
CN103095499A (zh) 2013-05-08

Similar Documents

Publication Publication Date Title
CN103095499B (zh) 一种在微博平台中捕获水军的方法
Scellato et al. Socio-spatial properties of online location-based social networks
Liu et al. Leveraging local h-index to identify and rank influential spreaders in networks
Rowe et al. Automated social hierarchy detection through email network analysis
Cheng et al. An epidemic model of rumor diffusion in online social networks
CN103368917B (zh) 一种网络虚拟用户的风险控制方法及系统
CN103177380A (zh) 结合用户群与预投放的广告投放效果的优化方法和装置
Ahmed et al. Time-based sampling of social network activity graphs
Rezvanian et al. Sampling social networks using shortest paths
CN103024017A (zh) 一种社交网络重要目标及社区群体识别方法
CN112257063A (zh) 一种基于合作博弈论的联邦学习中后门攻击的检测方法
Su et al. An information propagation model considering incomplete reading behavior in microblog
CN103179198B (zh) 基于多关系网络的话题影响力个体挖掘方法
CN106682212A (zh) 一种基于用户移动行为的社会关系分类方法与装置
CN107895010A (zh) 一种基于网络点赞检测网络水军的方法
CN105488211A (zh) 基于特征分析的用户群确定方法
CN103366009B (zh) 一种基于自适应聚类的图书推荐方法
Jiang et al. A uniform framework for community detection via influence maximization in social networks
CN103150697A (zh) 确定客户流失的方法及装置
CN105512301A (zh) 基于社交内容的用户分组方法
CN107515889A (zh) 一种微博话题实时监测方法与装置
Song et al. Real-time anomaly traffic monitoring based on dynamic k-NN cumulative-distance abnormal detection algorithm
Bródka A method for group extraction and analysis in multilayer social networks
CN107481154A (zh) 社交网络人际关系的分析方法及装置
Rossetti et al. Community-centric analysis of user engagement in skype social network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160504

Termination date: 20200117