CN109213858B - 一种网络水军的自动识别方法及系统 - Google Patents

一种网络水军的自动识别方法及系统 Download PDF

Info

Publication number
CN109213858B
CN109213858B CN201710463010.2A CN201710463010A CN109213858B CN 109213858 B CN109213858 B CN 109213858B CN 201710463010 A CN201710463010 A CN 201710463010A CN 109213858 B CN109213858 B CN 109213858B
Authority
CN
China
Prior art keywords
comment
account
message
information
deleted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710463010.2A
Other languages
English (en)
Other versions
CN109213858A (zh
Inventor
梁棋
沙灜
李锐
邱泳钦
王斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201710463010.2A priority Critical patent/CN109213858B/zh
Publication of CN109213858A publication Critical patent/CN109213858A/zh
Application granted granted Critical
Publication of CN109213858B publication Critical patent/CN109213858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种网络水军的自动识别方法及系统,该方法步骤包括:1)采集社交网络中认证账号的消息信息以及每条消息下的评论信息;2)监测上述每条消息下的每条评论信息是否被删除,若是则读取该评论信息对应账号的历史被删评论数;3)若上述账号的历史被删评论数满足预设条件,则该账号为网络水军。该方法及系统不仅免去了人工标注工作及模型训练,而且能够快速有效的识别社交网络中的网络水军,即当一个账号的评论信息的历史被删评论数满足预设条件,则判定该账号为网络水军。同时该方法及系统适用于多个社交网络,并且能够跨平台运行。

Description

一种网络水军的自动识别方法及系统
技术领域
本发明涉及社交网络的网络水军识别领域,尤其涉及一种网络水军的自动识别方法及系统,以实现更加自动、精确地识别社交网络中的网络水军。
背景技术
随着社交网络相关应用的快速发展,人们越来越多地将活动转移到社交网络中。社交网络通常包括国外的Facebook、Google+、Twitter等和国内的新浪微博、腾讯微博、人人网等。但是目前社交网络存在大量的网络水军,社交网络的网络水军通常对网络信息传播推波助澜,或是恶意抨击一些社交网络账号。他们由政治利益、商业利益驱动,为达到如影响网络民意、扰乱网络环境等不正当目的,通过操纵软件机器人或水军账号在互联网中制造、传播虚假意见和垃圾信息。这些行为严重影响了社交网络用户体验,并且还带来了严重的安全问题。
现有的社交网络中网络水军识别方法主要是使用社交网络的消息内容。比较简单的基于内容的网络水军检测方法(K.Lee,J.Caverlee,and S.Webb.Uncovering socialspammers:social honeypots+machine learning.In Proceedings of SIGIR,2010)是将其作为一个监督学习问题。这些方法从社交网络的消息内容中提取有效的文本特征来建立一个分类器。给定一个新用户,分类器输出一个分类标签,以判断该新用户是否是网络水军。然而,这些方法通常需要大量的标注数据(这些数据通常都是人工标注),因而耗时耗力。并且人工标注的数据集规模较小,这就为社交网络中网络水军的检测带来了巨大的挑战。
发明内容
由于以往的社交网络的网络水军识别方法大多将其作为一个分类问题,需要利用大量的标注数据集。而标注数据需要耗费大量的人力,且标注数据集规模一般较小,训练出的模型泛化能力较弱。
基于此,本发明的目的是提供一种网络水军的自动识别方法及系统,该方法及系统不需要人工标注数据集,避免耗时耗力的标注工作,且不需要进行模型训练,同时能够快速有效的识别社交网络中的网络水军。
针对上述不足,本发明所采用的技术方案为:
一种网络水军的自动识别方法,其步骤包括:
1)采集社交网络中认证账号的消息信息以及每条消息下的评论信息;
2)监测上述每条消息下的每条评论信息是否被删除,若是则读取该评论信息对应账号的历史被删评论数;
3)若上述账号的历史被删评论数满足预设条件,则该账号为网络水军。
进一步地,步骤1)包括以下步骤:
1-1)社交网络用户模拟登录;
1-2)获取社交网络中认证账号列表,并采集每个认证账号的消息信息;
1-3)获取消息列表,并采集每条消息下的评论信息。
进一步地,步骤1)中所述认证账号是指被社交网络官方认证的的账号;且认证账号的类型包括政府机构账号、国际组织账号、新闻媒体账号、个人账号。
进一步地,步骤1)中所述消息信息包括但不限于消息url、消息内容、消息发布时间、消息评论数、消息转发数、消息点赞数;所述评论信息包括但不限于评论url、评论内容、评论时间、评论用户。
进一步地,步骤1)中所述消息信息的发布时间若超出一个月,则删除该消息信息。
进一步地,步骤2)具体为:获取每条消息下评论信息的评论列表,监测评论列表中每条评论信息的被删除情况;若该评论信息被删除,则读取该评论信息对应账号的历史被删评论数。
进一步地,步骤3)中所述预设条件包括:
1)Da>=10;其中Da表示账号的历史被删评论总数;
2)Da/Na>=0.2;其中Na表示账号的评论总数;
3)账号的首条历史被删评论与其最新被删评论的发布时间间隔大于一周。
一种网络水军的自动识别系统,包括数据采集模块和水军识别模块;
所述数据采集模块用于采集社交网络中认证账号的消息信息以及每条消息下的评论信息;
所述水军识别模块用于对上述消息信息以及每条消息下的评论信息进行监测和判别。
进一步地,该系统还包括数据存储模块,用于对上述消息信息以及每条消息下的评论信息进行存储。
进一步地,所述水军识别模块包括评论监测模块和水军判别模块;
所述评论监测模块用于监测上述每条消息下的每条评论信息是否被删除,若是则读取该评论信息对应账号的历史被删评论数;
所述水军识别模块用于判定上述账号的历史被删评论数是否满足预设条件,若是则该账号为网络水军。
传统的网络水军识别方法一般利用机器学习的监督学习方法,需要大量的标注数据集进行模型训练。且数据集通常需要耗费大量人力进行标注。而本发明提供一种网络水军的自动识别方法及系统,其优点主要体现在:
1、该方法及系统免去了人工标注工作,且不需要进行模型训练。
2、该方法及系统能够快速有效的识别社交网络中的网络水军,即当一个账号的评论信息的历史被删评论数满足预设条件,则判定该账号为网络水军。
3、该方法及系统适用于多个社交网络,并且能够跨平台运行。
附图说明
图1为本发明提供的一种网络水军的自动识别系统框架图。
图2为本发明提供的一种网络水军的自动识别方法流程图。
具体实施方式
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
本发明提供一种网络水军的自动识别方法及系统,请参考图1,该系统包括数据采集模块、数据存储模块和水军识别模块;
所述数据采集模块用于采集社交网络中认证账号的消息信息以及每条消息下的评论信息;
所述数据存储模块用于对上述消息信息以及每条消息下的评论信息进行存储;
所述水军识别模块用于对上述消息信息以及每条消息下的评论信息进行监测和判别。
其中所述水军识别模块又包括评论监测模块和水军判别模块;所述评论监测模块用于监测上述每条消息下的每条评论信息是否被删除,若是则读取该评论信息对应账号的历史被删评论数;所述水军识别模块用于判定上述账号的历史被删评论数是否满足预设条件,若是则该账号为网络水军。
本发明方法主要包括两部分:
1)采集社交网络中认证账号下的用户消息:利用模拟Ajax技术,模拟用户访问社交网络的方式,设计实现社交网络用户消息的采集及存储,如图1所示的数据采集部分和数据存储部分,通过采集获取到社交网络中的部分认证账号的消息信息,并且获取每条消息下的评论信息。其中所述认证账号是指被社交网络官方认证的账号(每一个账号对应一个用户),通常被认证账号的头像右下角附带有加V的标志;所述用户消息是指用户在社交网络上发布的信息,具体包含消息内容、消息发布者、消息发布时间等。
2)识别社交网络中的网络水军:利用评论监测模块实时监测每条消息下的评论信息,通过与已有评论比对,监测评论被删除情况。同一社交网络用户的被删评论数满足预设条件,则判定其为网络水军。
下面举一具体实施例来解释说明本发明,请参考图1及图2,该方法的具体步骤包括:
1、采集社交网络中认证账号下的用户消息,具体可分为3个步骤:
a)用户模拟登录。通过表单模拟登录,登录后保存Cookie信息到登录池。新线程通过Cookie信息来恢复登录。
b)数据获取。完成社交网络用户模拟登陆后,通过网关处Http请求记录结合Chrome Ajax网络请求日志,抽取Ajax行为模板,在用户模拟登录基础上,根据模板采集特定目标的社交网络网页内容。
c)网页内容解析与抽取。对获取的网页内容解析提取,获取该用户的消息信息以及每条消息下的评论信息。
2、识别社交网络中的网络水军:,具体可分为5个步骤:
a)识别社交网络认证账号:即搜集经过社交网络认证的账号。例如经过Twitter认证的蓝V账号“Donald J.Trump”。
所述认证账号必须满足两个条件:1)账号必须是现实世界中存在的政府机构账号、组织账号、媒体账号、个人账号等;2)账号必须经过社交网络认证。其中,认证账号的类型分为政府机构账号、国际组织账号、新闻媒体账号、个人账号。
b)利用数据采集模块,采集搜集的认证账号的消息信息并将其存储到消息信息数据库中。所述消息信息至少包含消息url、消息内容、消息发布时间、消息评论数、消息转发数、消息点赞数。
c)获取消息列表,利用数据采集模块采集每一条消息下的评论信息并将其存储到评论信息数据库中。所述评论信息至少包含评论url、评论内容、评论时间、评论用户。
d)获取每一条消息下评论信息的评论列表,利用评论监测模块监测评论列表中每一条评论信息的存在情况,即监测其是否被删除。如果评论信息被删除,则读取该评论信息对应用户的账号的历史被删评论数,即该账号的历史被删评论数同时满足以下3个预设条件,则判定该账号为网络水军。在该实施例中,所述3个预设条件是根据多次实验结果得到的最佳条件,该预设条件如下:
1)Da>=w,w=10;其中Da表示账号的历史被删评论总数。
2)Da/Na>=v,v=0.2;其中Na表示账号的评论总数。
3)账号的首条被删评论与其最新被删评论的发布时间间隔大于一周。
e)重复步骤c)和d),直到每条消息的发布时间超出有效时间,则删除消息信息。其中消息有效时间设定为一个月。
以上实施仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (9)

1.一种网络水军的自动识别方法,其步骤包括:
1)采集社交网络中认证账号的消息信息以及每条消息下的评论信息;
2)监测上述每条消息下的每条评论信息是否被删除,若是则读取该评论信息对应账号的历史被删评论数;
3)若上述账号的历史被删评论数满足预设条件,则该账号为网络水军。
2.如权利要求1所述的方法,其特征在于,步骤1)包括以下步骤:
1-1)社交网络用户模拟登录;
1-2)获取社交网络中认证账号列表,并采集每个认证账号的消息信息;
1-3)获取消息列表,并采集每条消息下的评论信息。
3.如权利要求1所述的方法,其特征在于,步骤1)中所述认证账号是指被社交网络官方认证的账号;且认证账号的类型包括政府机构账号、国际组织账号、新闻媒体账号或个人账号。
4.如权利要求1所述的方法,其特征在于,步骤1)中所述消息信息包括消息url、消息内容、消息发布时间、消息评论数、消息转发数和/或消息点赞数;所述评论信息包括评论url、评论内容、评论时间和/或评论用户。
5.如权利要求1所述的方法,其特征在于,步骤1)中所述消息信息的发布时间若超出一个月,则删除该消息信息。
6.如权利要求1所述的方法,其特征在于,步骤2)具体为:获取每条消息下评论信息的评论列表,监测评论列表中每条评论信息的被删除情况;若该评论信息被删除,则读取该评论信息对应账号的历史被删评论数。
7.如权利要求1所述的方法,其特征在于,步骤3)中所述预设条件包括:
1)Da>=10;其中Da表示账号的历史被删评论总数;
2)Da/Na>=0.2;其中Na表示账号的评论总数;
3)账号的首条历史被删评论与其最新被删评论的发布时间间隔大于一周。
8.一种网络水军的自动识别系统,包括数据采集模块和水军识别模块;
所述数据采集模块用于采集社交网络中认证账号的消息信息以及每条消息下的评论信息;
所述水军识别模块用于对上述消息信息以及每条消息下的评论信息进行监测和判别,所述水军识别模块包括评论监测模块和水军判别模块;
所述评论监测模块用于监测上述每条消息下的每条评论信息是否被删除,若是则读取该评论信息对应账号的历史被删评论数;
所述水军识别模块用于判定上述账号的历史被删评论数是否满足预设条件,若是则该账号为网络水军。
9.如权利要求8所述的系统,其特征在于,该系统还包括数据存储模块,用于对上述消息信息以及每条消息下的评论信息进行存储。
CN201710463010.2A 2017-06-19 2017-06-19 一种网络水军的自动识别方法及系统 Active CN109213858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710463010.2A CN109213858B (zh) 2017-06-19 2017-06-19 一种网络水军的自动识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710463010.2A CN109213858B (zh) 2017-06-19 2017-06-19 一种网络水军的自动识别方法及系统

Publications (2)

Publication Number Publication Date
CN109213858A CN109213858A (zh) 2019-01-15
CN109213858B true CN109213858B (zh) 2021-07-27

Family

ID=64960560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710463010.2A Active CN109213858B (zh) 2017-06-19 2017-06-19 一种网络水军的自动识别方法及系统

Country Status (1)

Country Link
CN (1) CN109213858B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458182A (zh) * 2019-06-24 2019-11-15 中国科学院信息工程研究所 基于相似子图匹配的在线马甲检测方法
CN110727763B (zh) * 2019-10-09 2022-10-14 南京邮电大学 一种社交媒体传播中的特殊族群识别方法
CN111274491B (zh) * 2020-01-15 2021-04-06 杭州电子科技大学 一种基于图注意力网络的社交机器人识别方法
CN113239674A (zh) * 2021-06-15 2021-08-10 中国银行股份有限公司 用户评论管理方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105683947A (zh) * 2016-01-11 2016-06-15 程强 餐饮评论分析方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7853924B2 (en) * 2006-04-13 2010-12-14 Sap Ag Systems and methods for processing non-functional commentary of computer source code

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105683947A (zh) * 2016-01-11 2016-06-15 程强 餐饮评论分析方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种网络论坛水军账号快速检测算法;陈桂茸,蔡皖东,王蓉等;《湖南大学学报》;20150430;114-120 *

Also Published As

Publication number Publication date
CN109213858A (zh) 2019-01-15

Similar Documents

Publication Publication Date Title
CN109213858B (zh) 一种网络水军的自动识别方法及系统
CN110399925B (zh) 账号的风险识别方法、装置及存储介质
Shi et al. Detecting malicious social bots based on clickstream sequences
KR100723867B1 (ko) 피싱웹페이지 차단 장치 및 방법
CN102629904B (zh) 一种网络水军的探测与判定方法
ES2732824T3 (es) Sistemas y procedimientos para la detección de spam utilizando histogramas de caracteres
CN104601556A (zh) 一种面向web的攻击检测方法及系统
CN104040963A (zh) 用于使用字符串的频谱进行垃圾邮件检测的系统和方法
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
TWI710922B (zh) 行為標記模型訓練系統及方法
CN104951542A (zh) 识别社交短文本类别的方法、分类模型训练方法及装置
EP2863592A1 (en) Spammer group extraction apparatus and method
CN108337153A (zh) 一种邮件的监控方法、系统与装置
CN103856442A (zh) 一种黑链检测方法、装置和系统
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
CN104202291A (zh) 基于多因素综合评定方法的反钓鱼方法
CN104852916A (zh) 一种基于社会工程学的网页验证码识别方法及系统
CN112818131A (zh) 一种威胁情报的图谱构建方法、系统及存储介质
CN115941322B (zh) 基于人工智能的攻击检测方法、装置、设备及存储介质
CN110602184A (zh) 一种对网站中作弊行为的监测处理方法及装置
US20130151526A1 (en) Sns trap collection system and url collection method by the same
CN109413047A (zh) 行为模拟的判定方法、系统、服务器及存储介质
Kubicek et al. Checking Websites' GDPR Consent Compliance for Marketing Emails
CN108921185A (zh) 一种基于图像识别的货架促销信息识别方法、装置和系统
CN103902906A (zh) 基于应用图标的移动终端恶意代码检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant