CN109978020A

CN109978020A - 一种基于多维特征的社交网络账号马甲身份辨识方法

Info

Publication number: CN109978020A
Application number: CN201910171331.4A
Authority: CN
Inventors: 王中元; 祁梦军; 何政; 傅佑铭
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2019-07-05
Anticipated expiration: 2039-03-07
Also published as: CN109978020B

Abstract

本发明公开了一种基于多维特征的社交网络账号马甲身份辨识方法，首先将社交网络中各个账号所有发言内容汇总成一个文本，采用TF‑IDF模型生成词向量；选取账号发言的时间信息，将一天划分为多个时间段，生成发言时间频率分布向量；以发言的被点赞数、被转载数和被评论数的均值，生成发言互动向量。然后分別以词向量，时间分布向量和互动向量作为输入，采用支持向量机初次训练模型，分别得到三个单特征在验证集上的预测精度，再根据此精确度确定权值，连接词向量、时间分布向量和互动向量，作为最终的输入，再次训练支持向量机模型。最后输入多个未知标签账号的数据，经过预处理，用训练好的支持向量机模型预测账号之间是否存在马甲关系。

Description

一种基于多维特征的社交网络账号马甲身份辨识方法

技术领域

本发明属于社交媒体数据处理技术领域，涉及一种社交网络账号身份辨识方法，具体一种涉及基于多维特征的社交网络账号马甲身份辨识方法。

背景技术

目前社交网络已广泛普及，全球最大的社交网站facebook月活跃用户数已突破16.5亿，新浪微博、QQ月活跃用户分别突破了3.9亿、8.5亿，社交网络的迅速发展为人们的生活提供了巨大的便捷。社交网络每天有大规模数据产生，如推文内容、网评信息、签到信息、照片等。随着“云计算”和“大数据”技术的不断深入，众多研究机构、高校、互联网公司开始广泛搜集这些碎片化信息，通过对这些大规模数据的建模分析，了解用户多维度的画像，如购物习惯、兴趣爱好等，以此进行广告精准投放或者好友推荐等,带来巨大的商业价值。

社交网络中，同一人拥有多个账号的情况十分常见。某人在同一网站注册多个账号时，常用的账号为主账号，而其余账号称为马甲账号，简称马甲。马甲功能中有很大一部分是负面的，比如，利用不同账号为自己所开的讨论刻意提升人气；在主账号已有固定的朋友圈或形成固定形态时，使用马甲反对甚至诋毁他人或发表另类见解；注册成千上万个账号来发布不良信息、散布谣言、炒作或者通过买卖等级较高的马甲账号进行商业获益等等。这样的行为既浪费网络资源，又影响网络的安全性和公平性。当用户在社交网络中发表不和谐言论，如造谣、诽谤他人、宣传不良思想等危害民众甚至国家安全的状况发生时，将社交网络中属于同一人的马甲账号进行同一性认定，有利于协助相关部门打击犯罪行为。

目前基于语言风格进行文本挖掘识别作者身份的研究工作受到广泛关注，但缺少针对网络账号的马甲关系识别方面的研究。由于网络中的账号相关信息少、噪音大，真实用户信息难以获取，使得对社交网络中账号马甲关系的标注十分困难，现有研究中缺少能够有效验证其所提出辨识方法准确性的权威数据与方法。少量研究者提出了以用户名和社交关系相似性的账号马甲关系辨识的方法，但由于具有马甲账号的用户，其用户命名会刻意规避与主账号名的相似性，另外朋友圈也会刻意保持不一致性，因此使得运用这两种属性的算法识别率不高。也有研究者提出了基于网络语言风格和账号关系的方法，但社交网络平台账号之间的回复信息难以获取。比较而言，社交空间中用户发言的时间、点赞数、评论数、转载数等信息较易获取，而且它们具有很重要的标识价值。

发明内容

为了对社交网络马甲账号进行辨识，本发明开拓性地提供了一种基于多维特征的社交网络账号马甲身份辨识方法，该方法对社交网路账号产生的数据进行分类，考虑账号发言的文本内容，发言时间分布情况，互动信息，提取特征向量，采用支持向量机算法，对具有马甲关系和不具马甲关系的账号进行分类，在保证计算效率的同时，获得了较高的识别率。

本发明所采用的技术方案是：一种基于多维特征的社交网络账号马甲身份辨识方法，其特征在于，包括以下步骤：

步骤1：选取原始社交网络平台账号生成的数据，清除掉发言内容少于预设值的账号，并将数据集拆分为训练集和测试集；

步骤2：分别提取每个账号的发言内容，分别连接成文档，用TF-IDF模型生成用户文档词向量；

步骤3：提取每个账号每次的发言时间，将一天划分为M个时段，统计每个账号发言内容在每个时段的分布频率，生成发言时间分布频率向量；

步骤4：提取每个账号每条发言的被评论数、被点赞数和被转载数，分别求均值，生成发言互动特征向量；

步骤5：分别以用户文档词向量、发言时间分布频率向量，发言互动特征向量作为输入初次训练支持向量机模型；

步骤6：根据步骤5训练的支持向量机模型在测试集上的测试精确度确定权值，连接步骤2-步骤4得到的用户文档词向量、发言时间分布频率向量，发言互动特征向量，得到账号完整的特征向量；

步骤7：两两连接账号完整的特征向量，具有马甲关系的记标签为1，不具有马甲关系的记标签为-1，得到训练特征向量集合；

步骤8：以完整的训练特征向量作为输入，再次训练支持向量机模型，获得训练好的支持向量机模型；

步骤9：输入多个账号的原始数据，转到步骤2-步骤4，生成用户文档词向量、发言时间分布频率向量，发言互动特征向量，再转到步骤6，然后执行步骤7中两两连接待识别用户的完整特征向量；

步骤10：通过步骤8训练好的支持向量机模型预测账号之间是否具有马甲关系，最后输出识别结果和相应的概率值。

本发明具有以下优点和积极效果：

1)本发明根据用户在社交平台发言的语法、时间和互动习惯，综合三方面的特征属性，保证了识别的精确度。

2)本发明方法能有效地识别出具有马甲关系的账号，对于打击利用网络马甲虚拟身份的犯罪活动具有重要应用价值。

附图说明

图1本发明实施例的流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明提出了基于多维特征的社交网络账号马甲身份辨识方法，包括特征提取和模型训练两个过程。在特征提取过程中，将社交网络中各个账号所有发言内容汇成一个文本，采用TF-IDF模型生成词向量；选取发言时间，将一天划分为多个时间段，生成发言时间分布向量；以发言的被点赞数、被转载数和被评论数的均值生成发言互动向量。在模型训练过程中，分別以词向量，时间分布向量和互动向量作为输入，采用支持向量机初训练模型，分别得到单特征在验证集上的预测精确度，再根据初训练的预测精度确定权值，连接词向量、时间分布向量和互动向量，作为最终模型的输入。

请见图1，本发明提供的一种基于多维特征的社交网络账号马甲身份辨识方法，包括以下步骤：

本实施例采用TF-IDF模型生成用户文档词向量dv，其公式表示为：

dv＝(dv₁,dv₂,...,dv_n)；

其中，v表示一个文本的特征向量，v_i为文本中第i个特征项的权重；dv(w,d)为词w在文本d中的权重，tf(w,d)为词w在文本d中的词频，N为训练文档总数，n_i为训练集中出现词w的文本数。

例如在微博平台，提取每个账号的所有博文内容，逐条连接成一个文档。用中科院的分词工具，采取精确模式对文档进行分词，然后分别统计每个文档的词频，过滤掉低频词汇。计算完所有文档的词频后，再计算每个词的IDF值，最后分别生成每个文档的词序列值，对每个序列进行降序排序，取前K生成词向量。

发言时间分布频率向量，首先将一天分为M个时段，统计账号在每个时段发言的频率，即各个时段的发言数量与该账号发言总数量的比值，用如下式子表示：

vt＝(vt₁,vt₂,...,vt_M)；

其中,vt表示一个账号发言时间的频率分布向量，vt_i为账号在第i个时间段发言的频率值。

本实施例中，先获取每个账号每条发言内容的时间点，只保留时间，不考虑日期，再将一天划分为M个时段，比如划分为4个时段，0-6,6-12,12-18,18-24，接着统计其发言内容在每个时段的分布频率。

本实施例采用如下公式计算账号发言互动特征向量：

其中，vi表示一个账号的互动特征向量，为账号发言被转载的平均值，为账号发言被评论的平均值，为账号发言被点赞的平均值。

这里之所以分别初次训练模型，是为了确定后续连接特征值的权重。

本实施例中，账号完整的特征向量v为：

v＝α·vd+β·vt+λ·vi；

其中，vd表示账号用户文档词向量，vt为账号发言时间分布频率向量，vi为账号发言互动特征向量，α、β、λ分别为相应的权值，α+β+λ＝1。

具体的操作如下，用三种特征值训练好的模型，分别在测试集上验证精确度，累加精确度，以各自的精确度与累加值的比值作为权值连接特征值。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于多维特征的社交网络账号马甲身份辨识方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多维特征的社交网络账号马甲身份辨识方法，其特征在于，步骤2中采用TF-IDF模型生成用户文档词向量dv，其公式表示为：

dv＝(dv₁,dv₂,...,dv_n)；

3.根据权利要求1所述的基于多维特征的社交网络账号马甲身份辨识方法，其特征在于，步骤3中所述发言时间分布频率向量，首先将一天分为M个时段，统计账号在每个时段发言的频率，即各个时段的发言数量与该账号发言总数量的比值，用如下式子表示：

vt＝(vt₁,vt₂,...,vt_M)；

4.根据权利要求1所述的基于多维特征的社交网络账号马甲身份辨识方法，其特征在于，步骤4中采用如下公式计算账号发言互动特征向量：

5.根据权利要求1所述的基于多维特征的社交网络账号马甲身份辨识方法，其特征在于，步骤6中账号完整的特征向量v为：

v＝α·vd+β·vt+λ·vi；

6.根据权利要求1-5任意一项所述的基于多维特征的社交网络账号马甲身份辨识方法，其特征在于，步骤6的具体实现过程是：用三种特征值训练好的模型，分别在测试集上验证精确度，累加精确度，以各自的精确度与累加值的比值作为权值连接特征值。