CN109213858A - 一种网络水军的自动识别方法及系统 - Google Patents
一种网络水军的自动识别方法及系统 Download PDFInfo
- Publication number
- CN109213858A CN109213858A CN201710463010.2A CN201710463010A CN109213858A CN 109213858 A CN109213858 A CN 109213858A CN 201710463010 A CN201710463010 A CN 201710463010A CN 109213858 A CN109213858 A CN 109213858A
- Authority
- CN
- China
- Prior art keywords
- comment
- account
- information
- message
- deleted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012544 monitoring process Methods 0.000 claims description 13
- 210000000056 organ Anatomy 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 4
- 230000008520 organization Effects 0.000 claims description 3
- 210000003813 thumb Anatomy 0.000 claims description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 3
- 238000012549 training Methods 0.000 abstract description 4
- 238000013480 data collection Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 235000014510 cooky Nutrition 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明提供一种网络水军的自动识别方法及系统,该方法步骤包括:1)采集社交网络中认证账号的消息信息以及每条消息下的评论信息;2)监测上述每条消息下的每条评论信息是否被删除,若是则读取该评论信息对应账号的历史被删评论数;3)若上述账号的历史被删评论数满足预设条件,则该账号为网络水军。该方法及系统不仅免去了人工标注工作及模型训练,而且能够快速有效的识别社交网络中的网络水军,即当一个账号的评论信息的历史被删评论数满足预设条件,则判定该账号为网络水军。同时该方法及系统适用于多个社交网络,并且能够跨平台运行。
Description
技术领域
本发明涉及社交网络的网络水军识别领域,尤其涉及一种网络水军的自动识别方法及系统,以实现更加自动、精确地识别社交网络中的网络水军。
背景技术
随着社交网络相关应用的快速发展,人们越来越多地将活动转移到社交网络中。社交网络通常包括国外的Facebook、Google+、Twitter等和国内的新浪微博、腾讯微博、人人网等。但是目前社交网络存在大量的网络水军,社交网络的网络水军通常对网络信息传播推波助澜,或是恶意抨击一些社交网络账号。他们由政治利益、商业利益驱动,为达到如影响网络民意、扰乱网络环境等不正当目的,通过操纵软件机器人或水军账号在互联网中制造、传播虚假意见和垃圾信息。这些行为严重影响了社交网络用户体验,并且还带来了严重的安全问题。
现有的社交网络中网络水军识别方法主要是使用社交网络的消息内容。比较简单的基于内容的网络水军检测方法(K.Lee,J.Caverlee,and S.Webb.Uncovering socialspammers:social honeypots+machine learning.In Proceedings of SIGIR,2010)是将其作为一个监督学习问题。这些方法从社交网络的消息内容中提取有效的文本特征来建立一个分类器。给定一个新用户,分类器输出一个分类标签,以判断该新用户是否是网络水军。然而,这些方法通常需要大量的标注数据(这些数据通常都是人工标注),因而耗时耗力。并且人工标注的数据集规模较小,这就为社交网络中网络水军的检测带来了巨大的挑战。
发明内容
由于以往的社交网络的网络水军识别方法大多将其作为一个分类问题,需要利用大量的标注数据集。而标注数据需要耗费大量的人力,且标注数据集规模一般较小,训练出的模型泛化能力较弱。
基于此,本发明的目的是提供一种网络水军的自动识别方法及系统,该方法及系统不需要人工标注数据集,避免耗时耗力的标注工作,且不需要进行模型训练,同时能够快速有效的识别社交网络中的网络水军。
针对上述不足,本发明所采用的技术方案为:
一种网络水军的自动识别方法,其步骤包括:
1)采集社交网络中认证账号的消息信息以及每条消息下的评论信息;
2)监测上述每条消息下的每条评论信息是否被删除,若是则读取该评论信息对应账号的历史被删评论数;
3)若上述账号的历史被删评论数满足预设条件,则该账号为网络水军。
进一步地,步骤1)包括以下步骤:
1-1)社交网络用户模拟登录;
1-2)获取社交网络中认证账号列表,并采集每个认证账号的消息信息;
1-3)获取消息列表,并采集每条消息下的评论信息。
进一步地,步骤1)中所述认证账号是指被社交网络官方认证的的账号;且认证账号的类型包括政府机构账号、国际组织账号、新闻媒体账号、个人账号。
进一步地,步骤1)中所述消息信息包括但不限于消息url、消息内容、消息发布时间、消息评论数、消息转发数、消息点赞数;所述评论信息包括但不限于评论url、评论内容、评论时间、评论用户。
进一步地,步骤1)中所述消息信息的发布时间若超出一个月,则删除该消息信息。
进一步地,步骤2)具体为:获取每条消息下评论信息的评论列表,监测评论列表中每条评论信息的被删除情况;若该评论信息被删除,则读取该评论信息对应账号的历史被删评论数。
进一步地,步骤3)中所述预设条件包括:
1)Da>=10;其中Da表示账号的历史被删评论总数;
2)Da/Na>=0.2;其中Na表示账号的评论总数;
3)账号的首条历史被删评论与其最新被删评论的发布时间间隔大于一周。
一种网络水军的自动识别系统,包括数据采集模块和水军识别模块;
所述数据采集模块用于采集社交网络中认证账号的消息信息以及每条消息下的评论信息;
所述水军识别模块用于对上述消息信息以及每条消息下的评论信息进行监测和判别。
进一步地,该系统还包括数据存储模块,用于对上述消息信息以及每条消息下的评论信息进行存储。
进一步地,所述水军识别模块包括评论监测模块和水军判别模块;
所述评论监测模块用于监测上述每条消息下的每条评论信息是否被删除,若是则读取该评论信息对应账号的历史被删评论数;
所述水军识别模块用于判定上述账号的历史被删评论数是否满足预设条件,若是则该账号为网络水军。
传统的网络水军识别方法一般利用机器学习的监督学习方法,需要大量的标注数据集进行模型训练。且数据集通常需要耗费大量人力进行标注。而本发明提供一种网络水军的自动识别方法及系统,其优点主要体现在:
1、该方法及系统免去了人工标注工作,且不需要进行模型训练。
2、该方法及系统能够快速有效的识别社交网络中的网络水军,即当一个账号的评论信息的历史被删评论数满足预设条件,则判定该账号为网络水军。
3、该方法及系统适用于多个社交网络,并且能够跨平台运行。
附图说明
图1为本发明提供的一种网络水军的自动识别系统框架图。
图2为本发明提供的一种网络水军的自动识别方法流程图。
具体实施方式
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
本发明提供一种网络水军的自动识别方法及系统,请参考图1,该系统包括数据采集模块、数据存储模块和水军识别模块;
所述数据采集模块用于采集社交网络中认证账号的消息信息以及每条消息下的评论信息;
所述数据存储模块用于对上述消息信息以及每条消息下的评论信息进行存储;
所述水军识别模块用于对上述消息信息以及每条消息下的评论信息进行监测和判别。
其中所述水军识别模块又包括评论监测模块和水军判别模块;所述评论监测模块用于监测上述每条消息下的每条评论信息是否被删除,若是则读取该评论信息对应账号的历史被删评论数;所述水军识别模块用于判定上述账号的历史被删评论数是否满足预设条件,若是则该账号为网络水军。
本发明方法主要包括两部分:
1)采集社交网络中认证账号下的用户消息:利用模拟Ajax技术,模拟用户访问社交网络的方式,设计实现社交网络用户消息的采集及存储,如图1所示的数据采集部分和数据存储部分,通过采集获取到社交网络中的部分认证账号的消息信息,并且获取每条消息下的评论信息。其中所述认证账号是指被社交网络官方认证的账号(每一个账号对应一个用户),通常被认证账号的头像右下角附带有加V的标志;所述用户消息是指用户在社交网络上发布的信息,具体包含消息内容、消息发布者、消息发布时间等。
2)识别社交网络中的网络水军:利用评论监测模块实时监测每条消息下的评论信息,通过与已有评论比对,监测评论被删除情况。同一社交网络用户的被删评论数满足预设条件,则判定其为网络水军。
下面举一具体实施例来解释说明本发明,请参考图1及图2,该方法的具体步骤包括:
1、采集社交网络中认证账号下的用户消息,具体可分为3个步骤:
a)用户模拟登录。通过表单模拟登录,登录后保存Cookie信息到登录池。新线程通过Cookie信息来恢复登录。
b)数据获取。完成社交网络用户模拟登陆后,通过网关处Http请求记录结合Chrome Ajax网络请求日志,抽取Ajax行为模板,在用户模拟登录基础上,根据模板采集特定目标的社交网络网页内容。
c)网页内容解析与抽取。对获取的网页内容解析提取,获取该用户的消息信息以及每条消息下的评论信息。
2、识别社交网络中的网络水军:,具体可分为5个步骤:
a)识别社交网络认证账号:即搜集经过社交网络认证的账号。例如经过Twitter认证的蓝V账号“Donald J.Trump”。
所述认证账号必须满足两个条件:1)账号必须是现实世界中存在的政府机构账号、组织账号、媒体账号、个人账号等;2)账号必须经过社交网络认证。其中,认证账号的类型分为政府机构账号、国际组织账号、新闻媒体账号、个人账号。
b)利用数据采集模块,采集搜集的认证账号的消息信息并将其存储到消息信息数据库中。所述消息信息至少包含消息url、消息内容、消息发布时间、消息评论数、消息转发数、消息点赞数。
c)获取消息列表,利用数据采集模块采集每一条消息下的评论信息并将其存储到评论信息数据库中。所述评论信息至少包含评论url、评论内容、评论时间、评论用户。
d)获取每一条消息下评论信息的评论列表,利用评论监测模块监测评论列表中每一条评论信息的存在情况,即监测其是否被删除。如果评论信息被删除,则读取该评论信息对应用户的账号的历史被删评论数,即该账号的历史被删评论数同时满足以下3个预设条件,则判定该账号为网络水军。在该实施例中,所述3个预设条件是根据多次实验结果得到的最佳条件,该预设条件如下:
1)Da>=w,w=10;其中Da表示账号的历史被删评论总数。
2)Da/Na>=v,v=0.2;其中Na表示账号的评论总数。
3)账号的首条被删评论与其最新被删评论的发布时间间隔大于一周。
e)重复步骤c)和d),直到每条消息的发布时间超出有效时间,则删除消息信息。其中消息有效时间设定为一个月。
以上实施仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
Claims (10)
1.一种网络水军的自动识别方法,其步骤包括:
1)采集社交网络中认证账号的消息信息以及每条消息下的评论信息;
2)监测上述每条消息下的每条评论信息是否被删除,若是则读取该评论信息对应账号的历史被删评论数;
3)若上述账号的历史被删评论数满足预设条件,则该账号为网络水军。
2.如权利要求1所述的方法,其特征在于,步骤1)包括以下步骤:
1-1)社交网络用户模拟登录;
1-2)获取社交网络中认证账号列表,并采集每个认证账号的消息信息;
1-3)获取消息列表,并采集每条消息下的评论信息。
3.如权利要求1所述的方法,其特征在于,步骤1)中所述认证账号是指被社交网络官方认证的的账号;且认证账号的类型包括政府机构账号、国际组织账号、新闻媒体账号、个人账号。
4.如权利要求1所述的方法,其特征在于,步骤1)中所述消息信息包括但不限于消息url、消息内容、消息发布时间、消息评论数、消息转发数、消息点赞数;所述评论信息包括但不限于评论url、评论内容、评论时间、评论用户。
5.如权利要求1所述的方法,其特征在于,步骤1)中所述消息信息的发布时间若超出一个月,则删除该消息信息。
6.如权利要求1所述的方法,其特征在于,步骤2)具体为:获取每条消息下评论信息的评论列表,监测评论列表中每条评论信息的被删除情况;若该评论信息被删除,则读取该评论信息对应账号的历史被删评论数。
7.如权利要求1所述的方法,其特征在于,步骤3)中所述预设条件包括:
1)Da>=10;其中Da表示账号的历史被删评论总数;
2)Da/Na>=0.2;其中Na表示账号的评论总数;
3)账号的首条历史被删评论与其最新被删评论的发布时间间隔大于一周。
8.一种网络水军的自动识别系统,包括数据采集模块和水军识别模块;
所述数据采集模块用于采集社交网络中认证账号的消息信息以及每条消息下的评论信息;
所述水军识别模块用于对上述消息信息以及每条消息下的评论信息进行监测和判别。
9.如权利要求8所述的系统,其特征在于,该系统还包括数据存储模块,用于对上述消息信息以及每条消息下的评论信息进行存储。
10.如权利要求8所述的系统,其特征在于,所述水军识别模块包括评论监测模块和水军判别模块;
所述评论监测模块用于监测上述每条消息下的每条评论信息是否被删除,若是则读取该评论信息对应账号的历史被删评论数;
所述水军识别模块用于判定上述账号的历史被删评论数是否满足预设条件,若是则该账号为网络水军。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710463010.2A CN109213858B (zh) | 2017-06-19 | 2017-06-19 | 一种网络水军的自动识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710463010.2A CN109213858B (zh) | 2017-06-19 | 2017-06-19 | 一种网络水军的自动识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109213858A true CN109213858A (zh) | 2019-01-15 |
CN109213858B CN109213858B (zh) | 2021-07-27 |
Family
ID=64960560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710463010.2A Active CN109213858B (zh) | 2017-06-19 | 2017-06-19 | 一种网络水军的自动识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109213858B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458182A (zh) * | 2019-06-24 | 2019-11-15 | 中国科学院信息工程研究所 | 基于相似子图匹配的在线马甲检测方法 |
CN110727763A (zh) * | 2019-10-09 | 2020-01-24 | 南京邮电大学 | 一种社交媒体传播中的特殊族群识别方法 |
CN111274491A (zh) * | 2020-01-15 | 2020-06-12 | 杭州电子科技大学 | 一种基于图注意力网络的社交机器人识别方法 |
CN113239674A (zh) * | 2021-06-15 | 2021-08-10 | 中国银行股份有限公司 | 用户评论管理方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070245304A1 (en) * | 2006-04-13 | 2007-10-18 | Sap Ag | Systems and methods for processing non-functional commentary of computer source code |
CN105683947A (zh) * | 2016-01-11 | 2016-06-15 | 程强 | 餐饮评论分析方法及系统 |
-
2017
- 2017-06-19 CN CN201710463010.2A patent/CN109213858B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070245304A1 (en) * | 2006-04-13 | 2007-10-18 | Sap Ag | Systems and methods for processing non-functional commentary of computer source code |
CN105683947A (zh) * | 2016-01-11 | 2016-06-15 | 程强 | 餐饮评论分析方法及系统 |
Non-Patent Citations (1)
Title |
---|
陈桂茸,蔡皖东,王蓉等: "一种网络论坛水军账号快速检测算法", 《湖南大学学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458182A (zh) * | 2019-06-24 | 2019-11-15 | 中国科学院信息工程研究所 | 基于相似子图匹配的在线马甲检测方法 |
CN110727763A (zh) * | 2019-10-09 | 2020-01-24 | 南京邮电大学 | 一种社交媒体传播中的特殊族群识别方法 |
CN110727763B (zh) * | 2019-10-09 | 2022-10-14 | 南京邮电大学 | 一种社交媒体传播中的特殊族群识别方法 |
CN111274491A (zh) * | 2020-01-15 | 2020-06-12 | 杭州电子科技大学 | 一种基于图注意力网络的社交机器人识别方法 |
CN113239674A (zh) * | 2021-06-15 | 2021-08-10 | 中国银行股份有限公司 | 用户评论管理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109213858B (zh) | 2021-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Edwards et al. | Panning for gold: Automatically analysing online social engineering attack surfaces | |
US20190007440A1 (en) | Dark web monitoring, analysis and alert system and method | |
CN109213858A (zh) | 一种网络水军的自动识别方法及系统 | |
CN106453061B (zh) | 一种识别网络诈骗行为的方法及系统 | |
CN110519150B (zh) | 邮件检测方法、装置、设备、系统及计算机可读存储介质 | |
US20150113651A1 (en) | Spammer group extraction apparatus and method | |
Lee et al. | Detecting collective attention spam | |
CN108337153A (zh) | 一种邮件的监控方法、系统与装置 | |
Zilberman et al. | Analyzing group communication for preventing data leakage via email | |
CN111147518B (zh) | 一种基于攻防对抗的电子邮件系统安全评价方法及装置 | |
CN109067637A (zh) | 网络信息安全意识教育方法及装置、存储介质 | |
Chandramouli | Emerging social media threats: Technology and policy perspectives | |
Cresci et al. | A Fake Follower Story: improving fake accounts detection on Twitter | |
Thieltges et al. | Effects of social bots in the iran-debate on twitter | |
CN110457601B (zh) | 社交账号的识别方法和装置、存储介质及电子装置 | |
Chen et al. | FakeBuster: a robust fake account detection by activity analysis | |
CN107742068A (zh) | 一种智能设备的多源隐式身份认证系统及方法 | |
CN114036264A (zh) | 一种基于小样本学习的电子邮件作者身份归属识别方法 | |
Ruediger | Bots, social networks and politics in Brazil: a study on illegitimate interferences with the public debate on the web, risks to the democracy and the 2018 elections | |
Narayanan et al. | IronSense: towards the identification of fake user-profiles on twitter using machine learning | |
CN106886916A (zh) | 声誉管理系统及方法 | |
CN201867830U (zh) | 一种识别考生身份和非接触式ic卡式准考证的装置 | |
Lu et al. | A method of SNS topic models extraction based on self-adaptively LDA modeling | |
Yue et al. | Social media users send promotional links to strangers: legitimate promotion or security vulnerability? | |
Yang et al. | Detecting bots in follower markets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |