CN103095499A - 一种在微博平台中捕获水军的方法 - Google Patents
一种在微博平台中捕获水军的方法 Download PDFInfo
- Publication number
- CN103095499A CN103095499A CN2013100178029A CN201310017802A CN103095499A CN 103095499 A CN103095499 A CN 103095499A CN 2013100178029 A CN2013100178029 A CN 2013100178029A CN 201310017802 A CN201310017802 A CN 201310017802A CN 103095499 A CN103095499 A CN 103095499A
- Authority
- CN
- China
- Prior art keywords
- user
- microblogging
- threshold value
- waterborne troops
- multiplicity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种在微博平台中捕获水军的方法,包括如下步骤:第一步,通过新微博热门话题或者名人微博的转发列表,辅以人工判断,获得初始水军样本S;第二步,获取所有样本水军的粉丝列表L,按照预先设定的阈值,过滤得到和样本中多个水军关系密切的用户列表L’;第三步,获取这些用户的微博发布特征信息;第四步,利用第三步获得的信息,逐个判断用户是否具有水军的特点;第五步,将新得到的水军加入到样本中,之后选择重复步骤二到步骤四的迭代过程。
Description
技术领域
本发明涉及互联网技术领域的社交网络水军捕获方法,具体地,涉及一种在微博平台中捕获水军的方法。
背景技术
随着互联网技术的发展,社交网络的发展如火如荼,逐渐成为网民日常生活中的重要部分。社交网络带来了全新的低成本宣传平台,于是,一种被称为“水军”的用户出现了,他们通过发布特定主题的信息,达到宣传、控制舆论等目的。如何在海量的社交网络用户中检测并且捕捉到这些水军成为了维护社交网络服务质量的一个关键问题。
在众多类型的社交网络中,微博由于其单向关注、内容简洁、高实时性和多终端移动性的特点成异军突起。因此在微博平台上水军现象尤为严重。这也使得微博平台上的反水军机制成为了一个难题。
经检索,申请号为201110418586.X、公开号为102571484A的中国发明专利,该发明公开了一种检测网络水军以及找到网络水军的方法,首先建立蜜罐帐号;通过帐号管理模块对所有蜜罐帐号进行统一筹划,确定蜜罐帐号的发帖和关注策略;从收集的帐号中检测机器人帐号;帐号特征模块对帐号特征向量进行描述,这个向量包括多维;帐号检测模块对收集的帐号,根据帐号特征向量符合机器人帐号特性的多少来检测网络水军;利用检测出来的机器人帐号找到更多的机器人帐号和水军。相比较,本发明不是通过设立蜜罐账号来吸引水军,而是通过搜集信息然后过滤的方法来找到水军,更加的主动、快速、有效。
检索中还发现,申请号为201210050176.9、公开号为102629904A的中国发明专利,该发明公开了一种网络水军的探测与判定方法,包括用户行为采集,用户行为统计和网络水军分类器训练三个模块,其流程为:用户行为采集——用户行为统计——网络水军预测——网络水军判定。该发明通过获取用户行为样本后对用户行为进行统计,再使用机器学习的方法建立预测模型,最后对网络水军进行预测。相比较,本发明不需要建立机器学习模型,更加简单和快速。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种在微博平台中捕获水军的方法。根据少量的初始水军样本,通过分析他们的社会关系网,在尽可能减少人工判断干预的情况下捕获其他的水军。
为实现上述的目的,本发明包括如下步骤:
第一步,通过新微博热门话题或者名人微博的转发列表等途径,获取嫌疑用户。选取三个特征值的阈值(参与率的阈值Ma、平均重复度的阈值Mb、转发重复度峰值的阈值Mr),然后利用反复的过滤—抽样验证的方法调整并确定阈值。利用该阈值过滤嫌疑用户,并且通过人工观察用户是否具有水军的行为特征(例如反复转发同一条微博等),获得初始水军样本S;Ma、Mb、Mr含义分别为:对于确定的微博列表,单个用户参与转发的微博数量占总微博数量的比例,即参与率阈值Ma;用户的总转发次数和用户参与的微博数量的比例(即用户对单条微博的平均转发次数),即平均重复度阈值Mb;用户重复转发单条微博的次数的最大值,即转发重复度峰值阈值Mr。
第二步,获取所有样本水军的粉丝列表L,按照预先设定的密切度阈值Mc(即在水军样本中关注的用户数量或者数量占总数的比例)过滤得到和样本中多个水军关系密切的用户列表L’。
第三步,获取这些用户的微博发布特征信息,包括用户的所有微博中转发的微博的数量Cr和用户转发的源微博Cs的数量。
第四步,利用第三步获得的信息,计算用户的平均重复特征值(平均每条微博重复转发的次数)和重复转发次数的峰值。然后利用第一步设定的平均重复度的阈值Mb和转发重复度峰值的阈值Mr进行过滤,将两个特征值都超过阈值的用户判定为水军。
第五步,将新得到的水军加入到样本中,之后可以选择重复步骤二到步骤四的迭代过程。
上述第一步获取初始水军样本具体流程如下:
1)选定特定热门话题(或者某个微博名人),获取相关微博列表(对微博名人来说就是他的微博列表)。
2)抓取这些微博的转发列表,统计其中涉及的用户和每个用户的转发次数等信息。
3)选定过滤用的三个特征值的阈值:参与率的阈值Ma(0~100%)与平均重复度的阈值Mb(大于等于1),转发重复度峰值的阈值Mr;从步骤2)得到的用户中选出三个特征值即参与率、平均重复度、转发重复度峰值超过所设定的阈值的所有用户作为初始的水军样本S。
上述阈值设定方法:首先按照经验值设定三个特征的阈值,过滤一遍得到结果,对结果进行小量抽样验证,计算准确率。然后根据结果调整阈值,再过滤,再抽样,反复调整多次使抽样结果最佳,就可以确定阈值。
上述第二步获得与水军样本关系密切用户的具体流程如下:
1)设定密切度的阈值Mc,即单个用户关注的水军数量。
2)计算每个用户(与水军样本)的密切度,按照1)中设定的阈值进行过滤,获得超过阈值的用户。
上述第四步,由第三步获得的数据,计算用户对每条源微博的平均转发数量以及重复转发的次数的峰值。如果超过第一步中设定的重复度阈值Mb和重复度峰值阈值Mr,则判定用户为水军用户。
与现有技术相比,本发明具有如下的有益效果:
本发明通过设定用户行为特征的阈值、进行比较过滤来判断水军,不需要建立机器学习模型,更加简单和快速。面对日益严重的微博水军现象,利用本发明,可以针对特定的用户群体的微博、热门微博、甚至特定事件的相关微博,发掘出其中的水军,与传统的水军检测方法(例如假设蜜罐被动捕获)相比更加积极主动,具有更高的针对性。采用阈值过滤的方法更加易于操作,也易于根据实际情况进行调整。此外,本发明允许多次迭代更新,可以通过已知水军的社会关系网络来抓取更多的水军,扩大了水军捕捉的范围,效果更好。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明总体流程的示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,本实施例提供一种在微博平台中捕获水军的方法,假设需要对某一个微博上的热门争议事件进行分析,挖掘出参与其中的水军。可以通过以下步骤进行:
1)收集与事件有关的微博,抓取每条微博的前5000条转发记录。
2)统计参与了转发的用户,记录他们参与转发的微博数量、对每条源微博的平均转发次数、对单条微博的最高转发次数。
3)按照设定的参与度阈值Ma(例如参与总数5%的微博的转发)、重复度阈值Mb(例如5次每条)、重复度峰值阈值Mr(例如10次)(这些阈值的初始值依靠经验值设定,并且通过反复的过滤-抽样验证-调整后确定),将所有参与转发的微博数量大于5条、对每条源微博的平均转发次数大于5次每条、对单条微博的最高转发次数大于10次的用户加入到初始水军样本S。
4)抓取S中每个水军的粉丝列表,综合得到粉丝列表L;
5)从L中选出同时关注S中超过密切度阈值Mc个水军的用户,得到水军嫌疑列表L’。Mc的初始值依靠经验值设定,并且通过反复的过滤-抽样验证-调整后确定。
6)获取L’中每个用户转发的微博的数量Cr和对应的源微博的数量Cs,以及他们对单条微博的转发次数的最大值,并且利用Cr和Cs计算得到平均转发次数。
7)从L’中选出平均转发次数超过阈值Mb(5次每条)、单条转发次数最大值超过Mr(10次)的的用户,即为得到的水军用户S’。
8)将步骤7)得到的水军用户S’一并加入水军样本S中,重复步骤4)到步骤7),迭代找到更多的水军。
利用以上步骤就可以挖掘出参与该争议事件的水军。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (5)
1.一种在微博平台中捕获水军的方法,其特征在于包括如下步骤:
第一步,通过新微博热门话题或者名人微博的转发列表,获取嫌疑用户,选取三个特征值的阈值即参与率的阈值Ma、平均重复度的阈值Mb、转发重复度峰值的阈值Mr,利用该阈值过滤嫌疑用户,并且通过人工观察用户是否具有水军的行为特征,获得初始水军样本S;阈值Ma、Mb、Mr含义分别为:对于确定的微博列表,单个用户参与转发的微博数量占总微博数量的比例,即参与率阈值Ma;用户的总转发次数和用户参与的微博数量的比例,即平均重复度阈值Mb;用户重复转发单条微博的次数的最大值,即转发重复度峰值阈值Mr;
第二步,获取所有样本水军的粉丝列表L,按照预先设定的阈值Mc即在水军样本中关注的用户数量或者数量占总数的比例,过滤得到和样本中多个水军关系密切的用户列表L’;
第三步,获取这些用户的微博发布特征信息,包括用户的所有微博中转发的微博的数量Cr和用户转发的源微博Cs的数量;
第四步,利用第三步获得的信息,计算用户的平均重复特征值即平均每条微博重复转发的次数和重复转发次数的峰值,然后利用第一步设定的平均重复度的阈值Mb和转发重复度峰值的阈值Mr进行过滤,将两个特征值都超过阈值的用户判定为水军;
第五步,将新得到的水军加入到样本中,之后选择重复步骤二到步骤四的迭代过程。
2.根据权利要求1所述的在微博平台中捕获水军的方法,其特征在于,上述第一步获取初始水军样本具体如下:
1)选定特定热门话题或者某个微博名人,获取相关微博列表;
2)抓取这些微博的转发列表,统计其中涉及的用户和每个用户的转发次数;
3)选定过滤用的三个特征值的阈值:参与率的阈值Ma与平均重复度的阈值Mb,Ma为0~100%,Mb大于等于1,转发重复度峰值阈值Mr;从步骤2)得到的用户中选出三个特征值即参与率、平均重复度、转发重复度峰值超过所设定的阈值的所有用户作为初始的水军样本S。
3.根据权利要求1或2所述的在微博平台中捕获水军的方法,其特征在于,上述阈值设定方法:首先按照经验值设定三个特征的阈值,过滤一遍得到结果,对结果进行小量抽样验证,计算准确率;然后根据结果调整阈值,再过滤,再抽样,反复调整多次使抽样结果最佳,确定阈值。
4.根据权利要求1所述的在微博平台中捕获水军的方法,其特征在于,上述第二步获得与水军样本关系密切用户的具体如下:
1)设定密切度阈值Mc,有两种取法:单个用户关注的水军数量或者单个用户关注的水军数量占水军样本总数的比例;
2)计算每个用户与水军样本的密切度,按照设定的阈值Mc进行过滤,获得三个特征值都超过阈值的用户。
5.根据权利要求2或4所述的在微博平台中捕获水军的方法,其特征在于,上述第四步,由第三步获得的数据,计算用户对每条源微博的平均转发数量以及重复转发的次数的峰值,如果超过第一步中设定的平均重复度阈值Mb和重复度峰值阈值Mr,则判定用户为水军用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310017802.9A CN103095499B (zh) | 2013-01-17 | 2013-01-17 | 一种在微博平台中捕获水军的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310017802.9A CN103095499B (zh) | 2013-01-17 | 2013-01-17 | 一种在微博平台中捕获水军的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103095499A true CN103095499A (zh) | 2013-05-08 |
CN103095499B CN103095499B (zh) | 2016-05-04 |
Family
ID=48207659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310017802.9A Expired - Fee Related CN103095499B (zh) | 2013-01-17 | 2013-01-17 | 一种在微博平台中捕获水军的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103095499B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617235A (zh) * | 2013-11-26 | 2014-03-05 | 中国科学院信息工程研究所 | 一种基于粒子群算法的网络水军账号识别方法及系统 |
CN103825879A (zh) * | 2013-11-29 | 2014-05-28 | 中国科学院信息工程研究所 | 社交僵尸网络的检测方法及装置 |
CN103986645A (zh) * | 2014-05-27 | 2014-08-13 | 小米科技有限责任公司 | 消息处理方法及装置 |
CN105956184A (zh) * | 2016-06-01 | 2016-09-21 | 西安交通大学 | 一种微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法 |
CN107332931A (zh) * | 2017-08-07 | 2017-11-07 | 合肥工业大学 | 机器型论坛水军的识别方法及装置 |
CN107423819A (zh) * | 2016-05-24 | 2017-12-01 | 阿里巴巴集团控股有限公司 | 一种知识库构建方法及装置 |
CN107895010A (zh) * | 2017-11-13 | 2018-04-10 | 华东师范大学 | 一种基于网络点赞检测网络水军的方法 |
CN113342762A (zh) * | 2021-08-06 | 2021-09-03 | 深圳市思特克电子技术开发有限公司 | 针对商户好友的共享消息的智能处理方法及相关装置 |
CN113806616A (zh) * | 2021-08-16 | 2021-12-17 | 北京智慧星光信息技术有限公司 | 微博用户识别方法、系统、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100312769A1 (en) * | 2009-06-09 | 2010-12-09 | Bailey Edward J | Methods, apparatus and software for analyzing the content of micro-blog messages |
CN102200987A (zh) * | 2011-01-27 | 2011-09-28 | 北京开心人信息技术有限公司 | 一种基于用户账号行为分析的查找马甲账号的方法及系统 |
CN102315952A (zh) * | 2010-06-29 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 一种用于社区网络中检测垃圾帖子的方法与设备 |
CN102571484A (zh) * | 2011-12-14 | 2012-07-11 | 上海交通大学 | 一种检测网络水军以及找到网络水军的方法 |
CN102629904A (zh) * | 2012-02-24 | 2012-08-08 | 安徽博约信息科技有限责任公司 | 一种网络水军的探测与判定方法 |
CN102724182A (zh) * | 2012-05-30 | 2012-10-10 | 北京像素软件科技股份有限公司 | 异常客户端的识别方法 |
-
2013
- 2013-01-17 CN CN201310017802.9A patent/CN103095499B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100312769A1 (en) * | 2009-06-09 | 2010-12-09 | Bailey Edward J | Methods, apparatus and software for analyzing the content of micro-blog messages |
CN102315952A (zh) * | 2010-06-29 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 一种用于社区网络中检测垃圾帖子的方法与设备 |
CN102200987A (zh) * | 2011-01-27 | 2011-09-28 | 北京开心人信息技术有限公司 | 一种基于用户账号行为分析的查找马甲账号的方法及系统 |
CN102571484A (zh) * | 2011-12-14 | 2012-07-11 | 上海交通大学 | 一种检测网络水军以及找到网络水军的方法 |
CN102629904A (zh) * | 2012-02-24 | 2012-08-08 | 安徽博约信息科技有限责任公司 | 一种网络水军的探测与判定方法 |
CN102724182A (zh) * | 2012-05-30 | 2012-10-10 | 北京像素软件科技股份有限公司 | 异常客户端的识别方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617235A (zh) * | 2013-11-26 | 2014-03-05 | 中国科学院信息工程研究所 | 一种基于粒子群算法的网络水军账号识别方法及系统 |
CN103617235B (zh) * | 2013-11-26 | 2017-01-25 | 中国科学院信息工程研究所 | 一种基于粒子群算法的网络水军账号识别方法及系统 |
CN103825879A (zh) * | 2013-11-29 | 2014-05-28 | 中国科学院信息工程研究所 | 社交僵尸网络的检测方法及装置 |
CN103986645A (zh) * | 2014-05-27 | 2014-08-13 | 小米科技有限责任公司 | 消息处理方法及装置 |
CN103986645B (zh) * | 2014-05-27 | 2017-03-15 | 小米科技有限责任公司 | 消息处理方法及装置 |
CN107423819A (zh) * | 2016-05-24 | 2017-12-01 | 阿里巴巴集团控股有限公司 | 一种知识库构建方法及装置 |
CN105956184A (zh) * | 2016-06-01 | 2016-09-21 | 西安交通大学 | 一种微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法 |
CN107332931A (zh) * | 2017-08-07 | 2017-11-07 | 合肥工业大学 | 机器型论坛水军的识别方法及装置 |
CN107895010A (zh) * | 2017-11-13 | 2018-04-10 | 华东师范大学 | 一种基于网络点赞检测网络水军的方法 |
CN113342762A (zh) * | 2021-08-06 | 2021-09-03 | 深圳市思特克电子技术开发有限公司 | 针对商户好友的共享消息的智能处理方法及相关装置 |
CN113806616A (zh) * | 2021-08-16 | 2021-12-17 | 北京智慧星光信息技术有限公司 | 微博用户识别方法、系统、电子设备及存储介质 |
CN113806616B (zh) * | 2021-08-16 | 2023-08-22 | 北京智慧星光信息技术有限公司 | 微博用户识别方法、系统、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103095499B (zh) | 2016-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103095499A (zh) | 一种在微博平台中捕获水军的方法 | |
CN105429956B (zh) | 基于p2p动态云的恶意软件检测系统及方法 | |
CN106790050B (zh) | 一种异常流量检测方法及检测系统 | |
CN106657160B (zh) | 面向大流量基于可信度的网络恶意行为检测方法 | |
Liu et al. | Pay Me and I'll Follow You: Detection of Crowdturfing Following Activities in Microblog Environment. | |
CN106341703A (zh) | 弹幕处理方法及装置 | |
CN104539471B (zh) | 带宽计量方法、装置和计算机设备 | |
KR20110116562A (ko) | 대규모 다중 사용자 온라인 롤플레잉 게임에서 봇을 검출하는 방법 및 시스템 | |
CN105450434A (zh) | 一种基于流量图的互联网流量分析方法 | |
CN103258039B (zh) | 一种微博伪造信息的检测方法 | |
CN107515889A (zh) | 一种微博话题实时监测方法与装置 | |
CN102571487A (zh) | 基于多数据源分布式的僵尸网络规模测量及追踪方法 | |
CN104065535B (zh) | 一种网络评价方法及装置 | |
CN105512301A (zh) | 基于社交内容的用户分组方法 | |
Qin et al. | Monitoring abnormal network traffic based on blind source separation approach | |
CN103139206B (zh) | 一种僵尸主机的检测方法及装置 | |
CN107481154A (zh) | 社交网络人际关系的分析方法及装置 | |
CN104573096A (zh) | 一种挖掘目标微博用户的方法 | |
CN107766737A (zh) | 一种数据库审计方法 | |
Xu et al. | A novel trust model based on probability and statistics for peer to peer networks | |
Zhang et al. | What scale of audience a campaign can reach in what price on twitter? | |
Lei et al. | Optimizing traffic classification using hybrid feature selection | |
CN104199828B (zh) | 一种基于事务日志数据的社会网络构建方法 | |
TWI666568B (zh) | 在Netflow上以會話型式之P2P殭屍網路偵測方法 | |
Jain et al. | Temporal analysis of user behavior and topic evolution on Twitter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160504 Termination date: 20200117 |