CN109213858A

CN109213858A - 一种网络水军的自动识别方法及系统

Info

Publication number: CN109213858A
Application number: CN201710463010.2A
Authority: CN
Inventors: 梁棋; 沙灜; 李锐; 邱泳钦; 王斌
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2017-06-19
Filing date: 2017-06-19
Publication date: 2019-01-15
Anticipated expiration: 2037-06-19
Also published as: CN109213858B

Abstract

本发明提供一种网络水军的自动识别方法及系统，该方法步骤包括：1)采集社交网络中认证账号的消息信息以及每条消息下的评论信息；2)监测上述每条消息下的每条评论信息是否被删除，若是则读取该评论信息对应账号的历史被删评论数；3)若上述账号的历史被删评论数满足预设条件，则该账号为网络水军。该方法及系统不仅免去了人工标注工作及模型训练，而且能够快速有效的识别社交网络中的网络水军，即当一个账号的评论信息的历史被删评论数满足预设条件，则判定该账号为网络水军。同时该方法及系统适用于多个社交网络，并且能够跨平台运行。

Description

一种网络水军的自动识别方法及系统

技术领域

本发明涉及社交网络的网络水军识别领域，尤其涉及一种网络水军的自动识别方法及系统，以实现更加自动、精确地识别社交网络中的网络水军。

背景技术

随着社交网络相关应用的快速发展，人们越来越多地将活动转移到社交网络中。社交网络通常包括国外的Facebook、Google+、Twitter等和国内的新浪微博、腾讯微博、人人网等。但是目前社交网络存在大量的网络水军，社交网络的网络水军通常对网络信息传播推波助澜，或是恶意抨击一些社交网络账号。他们由政治利益、商业利益驱动，为达到如影响网络民意、扰乱网络环境等不正当目的，通过操纵软件机器人或水军账号在互联网中制造、传播虚假意见和垃圾信息。这些行为严重影响了社交网络用户体验，并且还带来了严重的安全问题。

现有的社交网络中网络水军识别方法主要是使用社交网络的消息内容。比较简单的基于内容的网络水军检测方法(K.Lee,J.Caverlee,and S.Webb.Uncovering socialspammers:social honeypots+machine learning.In Proceedings of SIGIR,2010)是将其作为一个监督学习问题。这些方法从社交网络的消息内容中提取有效的文本特征来建立一个分类器。给定一个新用户，分类器输出一个分类标签，以判断该新用户是否是网络水军。然而，这些方法通常需要大量的标注数据(这些数据通常都是人工标注)，因而耗时耗力。并且人工标注的数据集规模较小，这就为社交网络中网络水军的检测带来了巨大的挑战。

发明内容

由于以往的社交网络的网络水军识别方法大多将其作为一个分类问题，需要利用大量的标注数据集。而标注数据需要耗费大量的人力，且标注数据集规模一般较小，训练出的模型泛化能力较弱。

基于此，本发明的目的是提供一种网络水军的自动识别方法及系统，该方法及系统不需要人工标注数据集，避免耗时耗力的标注工作，且不需要进行模型训练，同时能够快速有效的识别社交网络中的网络水军。

针对上述不足，本发明所采用的技术方案为：

一种网络水军的自动识别方法，其步骤包括：

1)采集社交网络中认证账号的消息信息以及每条消息下的评论信息；

2)监测上述每条消息下的每条评论信息是否被删除，若是则读取该评论信息对应账号的历史被删评论数；

3)若上述账号的历史被删评论数满足预设条件，则该账号为网络水军。

进一步地，步骤1)包括以下步骤：

1-1)社交网络用户模拟登录；

1-2)获取社交网络中认证账号列表，并采集每个认证账号的消息信息；

1-3)获取消息列表，并采集每条消息下的评论信息。

进一步地，步骤1)中所述认证账号是指被社交网络官方认证的的账号；且认证账号的类型包括政府机构账号、国际组织账号、新闻媒体账号、个人账号。

进一步地，步骤1)中所述消息信息包括但不限于消息url、消息内容、消息发布时间、消息评论数、消息转发数、消息点赞数；所述评论信息包括但不限于评论url、评论内容、评论时间、评论用户。

进一步地，步骤1)中所述消息信息的发布时间若超出一个月，则删除该消息信息。

进一步地，步骤2)具体为：获取每条消息下评论信息的评论列表，监测评论列表中每条评论信息的被删除情况；若该评论信息被删除，则读取该评论信息对应账号的历史被删评论数。

进一步地，步骤3)中所述预设条件包括：

1)Da>＝10；其中Da表示账号的历史被删评论总数；

2)Da/Na>＝0.2；其中Na表示账号的评论总数；

3)账号的首条历史被删评论与其最新被删评论的发布时间间隔大于一周。

一种网络水军的自动识别系统，包括数据采集模块和水军识别模块；

所述数据采集模块用于采集社交网络中认证账号的消息信息以及每条消息下的评论信息；

所述水军识别模块用于对上述消息信息以及每条消息下的评论信息进行监测和判别。

进一步地，该系统还包括数据存储模块，用于对上述消息信息以及每条消息下的评论信息进行存储。

进一步地，所述水军识别模块包括评论监测模块和水军判别模块；

所述评论监测模块用于监测上述每条消息下的每条评论信息是否被删除，若是则读取该评论信息对应账号的历史被删评论数；

所述水军识别模块用于判定上述账号的历史被删评论数是否满足预设条件，若是则该账号为网络水军。

传统的网络水军识别方法一般利用机器学习的监督学习方法，需要大量的标注数据集进行模型训练。且数据集通常需要耗费大量人力进行标注。而本发明提供一种网络水军的自动识别方法及系统，其优点主要体现在：

1、该方法及系统免去了人工标注工作，且不需要进行模型训练。

2、该方法及系统能够快速有效的识别社交网络中的网络水军，即当一个账号的评论信息的历史被删评论数满足预设条件，则判定该账号为网络水军。

3、该方法及系统适用于多个社交网络，并且能够跨平台运行。

附图说明

图1为本发明提供的一种网络水军的自动识别系统框架图。

图2为本发明提供的一种网络水军的自动识别方法流程图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本发明提供一种网络水军的自动识别方法及系统，请参考图1，该系统包括数据采集模块、数据存储模块和水军识别模块；

所述数据存储模块用于对上述消息信息以及每条消息下的评论信息进行存储；

其中所述水军识别模块又包括评论监测模块和水军判别模块；所述评论监测模块用于监测上述每条消息下的每条评论信息是否被删除，若是则读取该评论信息对应账号的历史被删评论数；所述水军识别模块用于判定上述账号的历史被删评论数是否满足预设条件，若是则该账号为网络水军。

本发明方法主要包括两部分：

1)采集社交网络中认证账号下的用户消息：利用模拟Ajax技术，模拟用户访问社交网络的方式，设计实现社交网络用户消息的采集及存储，如图1所示的数据采集部分和数据存储部分，通过采集获取到社交网络中的部分认证账号的消息信息，并且获取每条消息下的评论信息。其中所述认证账号是指被社交网络官方认证的账号(每一个账号对应一个用户)，通常被认证账号的头像右下角附带有加V的标志；所述用户消息是指用户在社交网络上发布的信息，具体包含消息内容、消息发布者、消息发布时间等。

2)识别社交网络中的网络水军：利用评论监测模块实时监测每条消息下的评论信息，通过与已有评论比对，监测评论被删除情况。同一社交网络用户的被删评论数满足预设条件，则判定其为网络水军。

下面举一具体实施例来解释说明本发明，请参考图1及图2，该方法的具体步骤包括：

1、采集社交网络中认证账号下的用户消息，具体可分为3个步骤：

a)用户模拟登录。通过表单模拟登录，登录后保存Cookie信息到登录池。新线程通过Cookie信息来恢复登录。

b)数据获取。完成社交网络用户模拟登陆后，通过网关处Http请求记录结合Chrome Ajax网络请求日志，抽取Ajax行为模板，在用户模拟登录基础上，根据模板采集特定目标的社交网络网页内容。

c)网页内容解析与抽取。对获取的网页内容解析提取，获取该用户的消息信息以及每条消息下的评论信息。

2、识别社交网络中的网络水军:，具体可分为5个步骤：

a)识别社交网络认证账号：即搜集经过社交网络认证的账号。例如经过Twitter认证的蓝V账号“Donald J.Trump”。

所述认证账号必须满足两个条件：1)账号必须是现实世界中存在的政府机构账号、组织账号、媒体账号、个人账号等；2)账号必须经过社交网络认证。其中，认证账号的类型分为政府机构账号、国际组织账号、新闻媒体账号、个人账号。

b)利用数据采集模块，采集搜集的认证账号的消息信息并将其存储到消息信息数据库中。所述消息信息至少包含消息url、消息内容、消息发布时间、消息评论数、消息转发数、消息点赞数。

c)获取消息列表，利用数据采集模块采集每一条消息下的评论信息并将其存储到评论信息数据库中。所述评论信息至少包含评论url、评论内容、评论时间、评论用户。

d)获取每一条消息下评论信息的评论列表，利用评论监测模块监测评论列表中每一条评论信息的存在情况，即监测其是否被删除。如果评论信息被删除，则读取该评论信息对应用户的账号的历史被删评论数，即该账号的历史被删评论数同时满足以下3个预设条件，则判定该账号为网络水军。在该实施例中，所述3个预设条件是根据多次实验结果得到的最佳条件，该预设条件如下：

1)Da>＝w，w＝10；其中Da表示账号的历史被删评论总数。

2)Da/Na>＝v,v＝0.2；其中Na表示账号的评论总数。

3)账号的首条被删评论与其最新被删评论的发布时间间隔大于一周。

e)重复步骤c)和d)，直到每条消息的发布时间超出有效时间，则删除消息信息。其中消息有效时间设定为一个月。

以上实施仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种网络水军的自动识别方法，其步骤包括：

2.如权利要求1所述的方法，其特征在于，步骤1)包括以下步骤：

1-1)社交网络用户模拟登录；

1-3)获取消息列表，并采集每条消息下的评论信息。

3.如权利要求1所述的方法，其特征在于，步骤1)中所述认证账号是指被社交网络官方认证的的账号；且认证账号的类型包括政府机构账号、国际组织账号、新闻媒体账号、个人账号。

4.如权利要求1所述的方法，其特征在于，步骤1)中所述消息信息包括但不限于消息url、消息内容、消息发布时间、消息评论数、消息转发数、消息点赞数；所述评论信息包括但不限于评论url、评论内容、评论时间、评论用户。

5.如权利要求1所述的方法，其特征在于，步骤1)中所述消息信息的发布时间若超出一个月，则删除该消息信息。

6.如权利要求1所述的方法，其特征在于，步骤2)具体为：获取每条消息下评论信息的评论列表，监测评论列表中每条评论信息的被删除情况；若该评论信息被删除，则读取该评论信息对应账号的历史被删评论数。

7.如权利要求1所述的方法，其特征在于，步骤3)中所述预设条件包括：

1)Da>＝10；其中Da表示账号的历史被删评论总数；

2)Da/Na>＝0.2；其中Na表示账号的评论总数；

8.一种网络水军的自动识别系统，包括数据采集模块和水军识别模块；

9.如权利要求8所述的系统，其特征在于，该系统还包括数据存储模块，用于对上述消息信息以及每条消息下的评论信息进行存储。

10.如权利要求8所述的系统，其特征在于，所述水军识别模块包括评论监测模块和水军判别模块；