CN103778186B

CN103778186B - 一种“网络马甲”的检测方法

Info

Publication number: CN103778186B
Application number: CN201310746568.3A
Authority: CN
Inventors: 卜湛; 伍之昂; 曹杰; 李秀怡; 方昌健; 刘英卓
Original assignee: Nanjing University of Finance and Economics
Current assignee: Nanjing University of Finance and Economics
Priority date: 2013-12-31
Filing date: 2013-12-31
Publication date: 2016-08-10
Anticipated expiration: 2033-12-31
Also published as: CN103778186A

Abstract

本发明公开一种基于“相似观点”网络和文章作者鉴定技术的“网络马甲”的检测方法，该方法包含三个阶段：首先根据虚拟社会用户的交互信息构建“相似观点”网络；然后根据用户的写作风格对“相似观点”网络进行裁剪；最后利用社区发现算法对裁剪后的“马甲”网络进行社区划分，处于同一个社区的ID被看作是某个人的“网络马甲”。该方法具有以下优势：它遵循了“网络马甲”社区的实际意义；可以被应用于实时的网络环境下检测“网络马甲”；增加了社区发现的有效性。本发明主要应用于虚拟空间的舆情分析、“网络马甲”检测等诸多领域。

Description

一种“网络马甲”的检测方法

技术领域

本发明属于Web挖掘领域，涉及一种虚拟空间“网络马甲”智能探测技术，具体的说是一种基于“相似观点”网络和文章作者鉴定技术的“网络马甲”的检测方法。

背景技术

网络社区中，一些用户使用多个用户名或将自己伪装成其他用户（通常被称为“网络马甲”）与其他用户沟通。一些网络社区的成员，为了迷惑大众，利用一些人造的“网络马甲”，伪装成不同的用户，对某个产品或某个人的工作大肆赞扬或否定。更有甚者，制造某个网络谣言，然后利用不同的网络“马甲”大肆传播。

长期以来，“网络马甲”检测技术的相关文献少之甚少，一些相关工作可以被应用于检测“网络马甲”。这些相关大多集中于文章作者身份鉴定技术和社会网络分析方法。

在传统的文章作者鉴定模型中，很多分析方法被采纳。其中两种最普遍的技术是基于统计学分析和基于机器学习方法。在20世纪，文章鉴定技术被应用于区别莎士比亚、马克.吐温以及培根文学大师的作品。在这些领域中，Mostteller和Wallace做出了最基本的研究工作。他们使用文章作者鉴定技术准确的将12篇有争议的联邦党文集进行了分类。最近几年，这一方法也被频繁应用于在线文集的作者鉴定。De Vel等人基于网络邮件作者的身份鉴定进行了大量实验分析。他们的研究为基于互联网媒体的文章作者身份鉴定提供了重要研究基础。Zheng等人将De Vel等人的工作进一步扩展，他们对英文和中文网络论坛消息的研究中，加入了多位空间的考量。

这些工作在某些应用中取得了一定的成果，但是它们主要集中于对一定数量文章的鉴定。现实的网络社区中充斥的着大量的网络用户和文本信息。基于一定数量的文章的传统的文章作者鉴定技术在这样的虚拟空间中可能不够适用。一些学者提出了采用社区划分算法来解决虚拟空间下的“网络马甲”检测。由于网络中同一个社区中的用户可能具备相同的兴趣、职业和爱好；因此他们的“网络马甲”应该出现在同一个网络“社区”中。Zeng等人的工作为这一领域的研究开辟了研究基础。Du等人提出了ComTector技术来发现大规模社交网络的网络社区。为了发现社交网络的讨论话题，McCallum等人提出了Author–Recipient-Topic模型。Tian等人提出了基于OLAP的归类策略来根据属性相似性对网络用户进行分类，这样处于统一社区的用户具备形似的属性。Zhao等人提出了一种基于话题的社区发现算法，其结合了社会对象聚类和边界分析技术。

上述基于社区发现算法的技术不能够被直接应用户“网络马甲”检测，这是因为他们混淆了“网络马甲”社区的实际含义。实际人，某个人的多个“网络马甲”彼此之间很少有交互，而是经常回复其他相同的ID。此外，相同个人的“网络马甲”应该具有相似的写作风格，并且对同一个话题应该具备相似的观点。为了更加直观的说明之一问题，首先看一个简单的网络社区用户交互实例（见图1（a））。图1（a）展示了一个深度为4的讨论主线的树形结构。方形区域的标识展示了发出有效评论的网络用户与其他用户的交互情况。可见，该帖子P首先吸引了三个用户（A、C和D）对其直接回复；在第二层，五个用户（A、B、D、E和G）一共发出了8条评论；在三层，又有五个用户（A、B、D、E和F）一共发出了7条评论；在最后一层，用户C给予了用户G最后一个条评论。在每个用户回复上，用+ or –分别表示支持/反对的态度。图1（b）表示基于传统用户交互模型（无向稠密网络）生成的交互网络，其包含7个节点和9条边。每条边界上的权值表示用户之间的交互次数。图1（c）表示基于次交互网络进行社区发现后的社区结构。尽管社区内的用户在论坛中交互频繁，但是他们的观点并不一致。在图1（c）左边的社区中，用户B同用户A的观点极为相左，这两个ID不太可能为来自同一个用户的“网络马甲”。图1.4（d）展示我们期望得到的社区划分结果。其中同一个社区中的ID对对待同一个话题具有相似的观点。在此基础上，再分析不同ID的写作风格，假设相同社区中的ID具有相似的写作风格，那么处于同一个社区的ID可被看为某个人的“网络马甲”。

图1中的简单例子，为准确发现“网络马甲”提供了一个很好的思路，在进一步讨论之前，需要首先回答下述几个问题：

1）网络模型。由于某个人的多个“网络马甲”彼此之间不会交流频繁，传统的网络模型（无向稠密网络）采用用户间的交互次数来衡量网络连接边的权值对于“网络马甲”检测算法可能并不适用，因此，我们需要提出一种更加准确的用户交互模型。

2）相似性。两个ID之间的相似性包含两层意思：首先，它们对待同一个话题的观点应该是相似的；再者，两个ID的写作风格也应该是相似的。

发明内容

针对传统方法的缺点，本发明的目的是提供一种基于“相似观点”网络和文章作者鉴定技术的“网络马甲”的检测方法。该方法具有三个优势：1）它遵循了“网络马甲”社区的实际意义；2）可以被应用于实时的网络环境下检测“网络马甲”；3）它增加了社区发现的有效性。

本发明的目的是通过以下技术方案来实现的：

一种“网络马甲”的检测方法，其特征在于：该方法包含三个阶段：首先根据虚拟社会用户的交互信息构建“相似观点”网络；然后根据用户的写作风格对“相似观点”网络进行裁剪；最后利用社区发现算法对裁剪后的“马甲”网络进行社区划分，处于同一个社区的ID被看作是某个人的“网络马甲”；具体实施步骤如下：

1）利用给定的网络社区用户交互数据构建“相似观点”网络；

2）从“相似观点”网络中选择节点对, 从语料数据库提取这两个ID发表的所有评论，构建两个样本集；调用T检验，判断两个评论样本集是否存在显著性差异；如果两个样本没有显著性差异，将节点对边界保留；否则, 将节点对边界裁剪；

3）利用社区发现算法，对裁剪后的“马甲”网络进行社区划分；根据划分的结果，处于同一个社区的用户ID即为某个人的“网络马甲”。

本发明，步骤1）中，对于两个用户和，如果他们存在相似的兴趣、并且对参与讨论的话题有相似的观点，则认定他们是“好友”关系，可以构建“相似观点”网络模型，即将整个虚拟社会网络看成一个图,其中图中的每个节点表示网络社区中的注册用户；任意两个节点的边界表示用户之间的某种社会关系，网络社区中的社会关系是根据用户间的评论或留言建立的；设表示用户对用户的评论次数，（）表示用户和用户对某一话题的态度一致性；如果用户和用户满足，并且，其中,，那么和之间存在一条无向边，且边上的权值。

虚拟社会网络包括四种类型的特征：文本特征、句法特征、结构特征和特殊内容特征；文本特征包括基于字符的词汇特征、词汇丰富性特征和文字长度频率特征；句法特征包括虚词、标点符号和词性特征；结构特征代表作者组织一段文字的方式；特殊内容特征包括与特定主题相关的特殊文字或字符。

步骤3）中，社区发现算法提取的“马甲”网络具有全局稀疏，局部稠密的特点；其节点也存在明显的“群落”结构，即同一个“群落”中的节点连接紧密，“群落”间的节点连接稀疏。

本发明最后利用经典的社区发现算法（CNM、FUC、LPA或FPMQA）对“马甲”网络进行社区划分。划分后的社区成员即为某个用户的“网络马甲”。

本发明基于“相似观点”网络和文章作者鉴定技术的“网络马甲”检测方法，具有三个优势：1）它遵循了“网络马甲”社区的实际意义；2）可以被应用于实时的网络环境下检测“网络马甲”；3）它增加了社区发现的有效性。

本发明适用于虚拟空间的舆情分析、“网络马甲”检测等诸多领域。

附图说明

图1为“网络马甲”社区ID交互特点分析图。

具体实施方式

一种“网络马甲”的检测方法，该方法包含三个阶段：首先根据虚拟社会用户的交互信息构建“相似观点”网络；然后根据用户的写作风格对“相似观点”网络进行裁剪；最后利用社区发现算法对裁剪后的“马甲”网络进行社区划分，处于同一个社区的ID被看作是某个人的“网络马甲”；实施步骤如下：

具体包括以下几方面内容：

1.用户和用户的态度一致性定义

（1）

其中，表示被用户和用户共同回复的所有话题集合；表示被用户和用户共同回复的关于话题所有其他用户集合；是用户集合的规模；表示用户对用户基于话题的态度；是一个由参数x和y决定的判定函数，其满足：

（2）

介于0和1之间，其值越大，表明用户和用户对于他们共同回复的话题/其他用户的观点一致性越高。

2.“相似观点”网络模型

将整个虚拟社会网络看成一个图,其中图中的每个节点表示网络社区中的注册用户；任意俩个节点的边界表示用户之间的某种社会关系，网络社区中的社会关系是根据用户间的评论或留言建立的。设表示用户对用户的评论次数。如果用户和用户满足，，并且，其中,，那么和之间存在一条无向边，且边权值。这里用阈值来限制ID间的相互回复次数。如前面所示，一个人的多个“网络马甲”之间比交流不会频繁。

3.基于T检验的边界裁剪

从“相似观点”网络中选择节点对, 从语料数据库提取这两个ID发表的所有评论，构建两个样本集：

（3）

（4）

其中表示标准化的特征向量，通过在某个评论中统计虚词和特殊内容词汇的使用频率求得。

(a) 假设无效假设为，即两个样本没有显著性差异, 则备择假设为；

(b) 给定显著性水平,和样本容量,；

(c) 配对样本t检验统计量为：

（5）

其中，（6）

(d) 如果, 接受无效假设。也就是说, 两个样本没有显著性差异，将节点对边界保留。否则, 拒绝，将节点对边界裁剪。

4.基于社区发现算法（FUC算法）的“网络马甲”智能提取

阶段一：

(a) 初始化“马甲”网络为N个社团，即每个节点就是一个独立的社团。初始的模块性=0；

(b) 对于每个独立的节点i，我们考察其所有的邻居社团，选择具有最大模块度增益的社团对（），将节点i合并到相应的社团中；

(c) 对网络中的所有其他社团，都采取上述类似的合并，直到网络的模块度不再增加。

阶段二：

构建一个新的网络，新网络中的每个节点为阶段一结束后的各个社团。新网络中节点与节点之间的权值是阶段一中社团与社团之间相连边的权值和。

重复迭代执行这两个阶段，直到网络的整体模块度不再增加，算法结束。

FUC算法中，一个重要的步骤，是将独立的节点合并到与之相连的具有最大模块度增益的邻居社团。其增益可根据下述方法计算：

（7）

其中，表示社区内部所有边界上的权值和，表示社区与外部相连的所有边界上的权值和，表示与节点相连的所有边界上的权值和，表示社区中所有和节点相连的边界上的权值和，表示网络中所有边界上的权值和。

步骤3：利用FUC算法，对裁剪后的“马甲”网络进行社区划分。根据划分的结果，处于同一个社区的用户ID即为某个人的“网络马甲”。

下面基于真实的网络社区用户交互数据构建一些实验验证“网络马甲”检测算法的有效性。主要应用两个真实的用户交互数据：

天涯论坛：天涯社区自1999年3月创立以来，以其开放、包容、充满人文关怀的特色受到了全球华人网民的推崇，经过十余年的发展，已经成为以论坛、博客、微博为基础交流方式，综合提供个人空间、企业空间、购物街、无线客户端、分类信息、来吧、问答等一系列功能服务，并以人文情感为特色的综合性虚拟社区和大型网络社交平台。截至2013年3月，天涯论坛共有超过7900万注册用户。在线用户常在100-120万之间。用户可以就某个热门话题进行自由讨论，即某个用户发帖，其他用户回帖，这就形成一种交互机制。我们抓取并分析用户的交互网络数据，构建相应的用户交互网络。

淘宝网络：淘宝网是亚太最大的网络零售商圈，致力打造全球领先网络零售商圈，由阿里巴巴集团在2003年5月10日投资创立。淘宝网现在业务跨越C2C（个人对个人）、B2C（商家对个人）两大部分。截止2010年12月31日，淘宝网注册会员超3.7亿人，覆盖了中国绝大部分网购人群；2011年交易额为6100.8亿元，占中国网购市场80%的份额。比2010年增长66%。2012年11月11日，淘宝单日交易额191亿元。淘宝网中，用户可以对每个商品进行评论，以表达对商品的满意程度。我们基于淘宝网络上的若干商品，抓取用户的评论数据，构建相应的网络。

为了抓取上述两个网络中的“网络马甲”，我们首先构建“相似观点”网络。我们这里选择的天涯论坛用户交互数据子集包含539个用户和4951条评论（用户平均评论数为9.19）；对于淘宝网，我们选择的商品评论数据包含980个用户和9845条评论（用户平均评论数为10.05）。由于两个数据集的用户平均回复数为大约为10，构建“相似观点”网络时，我们将阈值默认设置为10。采用表1中的写作风格特征集和显著性水平为0.5，对“相似观点”网络进行基于T检验的边界裁剪。最后，我们采用FUC算法对裁剪后得到的“马甲”网络进行社区划分。

表 1 为中文虚词和基于天涯论坛和淘宝网的特殊内容特征。

表1

我们选取的天涯论坛用户交互数据来自于“国际观察”板块。利用我们的“网络马甲”检测算法，我们共获得94个“马甲”社区，社区的平均规模为4.381。网络社区结构的模块度为0.7245，这表明网络具有明显的社区结构。网络中存在很多孤立的ID对，这些ID对可能是来自同一个人的“网络马甲”；网络中也存在规模相对较大的社区，这些ID可能来自与同一个组织的“网络马甲”。对于淘宝网，来自127家网络商铺评论数据构建的“马甲”网络。从中，我们共发现了158个社区，其社区的模块度为0.621。社区的平均规模为5.644，最小规模为2，最大规模达到了52。这反映出了淘宝上的“网络马甲”更倾向于“集团作战”。究其原因，由于淘宝上的买家是受到自身利益驱动的，为了让顾客相信自己所卖的商品物有所值，他们可能会雇专门的网络“水军”对自己的商品大加赞扬，从而更容易吸引顾客的眼球。

为了验证我们发现的“网络马甲”社区的有效性，我们可以对这些社区成员的发帖和评论进行人为的分析，做出主观的判断。同时，我们可以从一些潜在的线索来判断这些IDs是否为“网络马甲”：

a)登录IP：查看两个ID的是否具有相似的登录IP地址（例如，IP地址的前三位一致）；

b)ID昵称：查看两个ID是否具有相似昵称或单词拼写（例如，一个ID为“孤独求虐”，另一个ID为“孤独求虐2”，两个ID极为相似）；

c)ID头像：查看连个ID是否具有相似的头像；

d)注册时间：查看两个ID的注册时间是否相近；

e)最后登录时间：某个人的“网络马甲”一般都会随着主ID同时出现某个帖子的讨论中，我们可以查看两个ID的最后登录时间是否接近。

故而，如果检测出的两个ID满足上诉三个或更多的特征，我们有理由相信我们检测的ID对作为“网络马甲”是准确的。为了验证我们的判断，我们向每个检测出的ID对发出了一篇问卷调查，大部分的回馈证实了我们的判断。例如，从语料数据库中调出五个ID的评论信息。在2011年12月17日，一个叫作“Selinazp”的ID发表了一篇关于“中国海军强大”的帖子¹，几分钟后，另一个叫作“furisa”的ID回复了该帖子，并对“Selinazp”的观点进行了疯狂的反驳。然后，“Wangfir”和“Bowisn”两个ID在很短时间内加入到该帖子的讨论，对“furisa”展开了一番攻击。紧接着，“Tomwar”和“Joinfish”也加入该帖子，对作者表示支持。不久以后，Joinfish又单独发表了一个帖子，称为“中国海军的力量投送”²。然后Wangfir、Bowisn 和 Selinazp分别回复了该帖子，并表达了相似的支持态度。这四个ID的行为惊人的同步，此外，Wangfir、Bowisn和Joinfish的注册时间竟然在同一天。我们分析这四个ID的写作风格，我们发现这四个ID发表的评论对于虚词的使用高度相似。故而，我们有理由相信Wangfir、Bowisn和Joinfish可能是来自同一个人的“网络马甲”，该用户的主ID为“Selinazp”。

故而，我们方法的准确率定义为，其中表示“马甲”网络的边数，表示正确检测的ID对。实际上，我们方法的准确性很大程度上依赖于“马甲”网络的网络结构，而者又依赖于显著性因子。所以，我们算法的准确性依赖于T检验的显著性水平。我们进行如下的讨论。采用相同的用户交互数据，我们将显著性水平依次由0.005提升到0.25进行一系列实验。当提高以后，算法的准确率下降了，但是发现的“网络马甲”社区的平均规模提高了。这表明，我们发现的“网络马甲”可能是来自于同一个组织的“马甲”。在低显著性水平下发现的“网络马甲”可能来之于某一个人。基于不同的引用，我们需要选择性的设置假设检验的显著性水平。

Claims

1.一种“网络马甲”的检测方法，其特征在于：该方法包含三个阶段：首先根据虚拟社会用户的交互信息构建“相似观点”网络；然后根据用户的写作风格对“相似观点”网络进行裁剪；最后利用社区发现算法对裁剪后的“马甲”网络进行社区划分，处于同一个社区的ID被看作是某个人的“网络马甲”；具体实施步骤如下：

2.根据权利要求1所述的“网络马甲”的检测方法，其特征在于：步骤1）中，对于两个用户和，如果他们存在相似的兴趣、并且对参与讨论的话题有相似的观点，则认定他们是“好友”关系，可以构建“相似观点”网络模型，即将整个虚拟社会网络看成一个图,其中图中的每个节点表示网络社区中的注册用户；任意两个节点的边界表示用户之间的某种社会关系，网络社区中的社会关系是根据用户间的评论或留言建立的；设表示用户对用户的评论次数，（）表示用户和用户对某一话题的态度一致性；如果用户和用户满足，并且，其中,，那么和之间存在一条无向边，且边上的权值。

3.根据权利要求2所述的“网络马甲”的检测方法，其特征在于：虚拟社会网络包括四种类型的特征：文本特征、句法特征、结构特征和特殊内容特征；文本特征包括基于字符的词汇特征、词汇丰富性特征和文字长度频率特征；句法特征包括虚词、标点符号和词性特征；结构特征代表作者组织一段文字的方式；特殊内容特征包括与特定主题相关的特殊文字或字符。

4.根据权利要求1所述的“网络马甲”的检测方法，其特征在于：步骤3）中，社区发现算法提取的“马甲”网络具有全局稀疏，局部稠密的特点；其节点也存在明显的“群落”结构，即同一个“群落”中的节点连接紧密，“群落”间的节点连接稀疏。