CN111382366A

CN111382366A - 基于语言和非语言特征的社交网络用户识别方法及装置

Info

Publication number: CN111382366A
Application number: CN202010139426.0A
Authority: CN
Inventors: 胡峰; 禹航; 刘立; 李子杨; 林智敏; 李相鹏
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2020-07-07
Anticipated expiration: 2040-03-03
Also published as: CN111382366B

Abstract

本发明涉及自然语言处理、网络安全、社交网络、信息提取领域，尤其涉及一种基于语言和非语言特征的社交网络用户识别方法及装置，方法包括收集社交网络用户账号的评论文本，将不同的用户账号两两组合，得到社交网络马甲识别训练集；基于社交网络马甲识别训练集，从中提取语言和非语言的特征，将语言和非语言特征进行横向拼接；使用SVM模型对数据集进行训练，得到马甲识别模型，利用特征选择技术贪心算法选择最优的特征组合；将提取实时的两个用户的最优的特征组合，并将该特征组合输入SVM模型，即可识别出这两个用户账户是否为同一个用户操纵；本发明适用于任何的社交网络平台，模型简单、高效，对于识别马甲账号也有较高的准确率。

Description

基于语言和非语言特征的社交网络用户识别方法及装置

技术领域

本发明涉及自然语言处理、网络安全、社交网络、信息提取领域，尤其涉及一种基于语言和非语言特征的社交网络用户识别方法及装置。

背景技术

目前，在线社交平台已经成为我们日常生活的重要组成部分，社交网络的快速发展，也暴露了许多的安全问题。其中，有一部分的用户通过社交平台发送垃圾邮件，传播虚假信息，控制社会舆论，欺诈等。导致他们平台被封号。而他们为了继续在社交平台活动，就会创建一个或多个马甲账号，以便继续发布垃圾邮件信息。而在社交平台注册一个新的账号是非常容易的。因此，快速、准确地识别马甲账号是非常有价值地。而对于现在很多社交平台识别马甲账号主要是依靠IP地址，或者依靠人为的分析来进行识别。这样效率大大的降低。而对于侵入用户的私人信息也是不允许的。所以对社交网络用户进行马甲识别能够保证网络安全，提升识别效率和准确度，这也是一个非常迫切的任务。

发明内容

为了提高马甲识别的准确率，保证社交网络安全，本发明提出一种基于语言和非语言特征的社交网络用户识别方法及装置，所述方法包括：

S1、收集社交网络用户账号的评论文本，进行数据清洗，之后将不同的用户账号两两组合，得到社交网络马甲识别训练集；

S2、基于社交网络马甲识别训练集，从中提取语言和非语言的特征，将语言特征和非语言特征进行横向拼接将基于语言的特征和基于非语言的特征进行自适应特征选择结合；

S3、引入SVM模型，使用该模型对数据集进行训练，得到最终的基于语言和非语言特征马甲识别模型，利用特征选择技术贪心算法选择最优的特征组合；

S4、将提取实时的两个用户的最优的特征组合，并将该特征组合输入SVM模型，即可识别出这两个用户账户是否为同一个用户操纵。

进一步的，用户的语言特征获取过程包括：

获取每个用户的每个评论文本进行训练，并将每个词转换为word2vec表示；

之后将每个账户中提取出的关键词word2vec进行纵向拼接，计算出每个账号拼接后关键词的word2vec的相似度；

将计算得到的关键词的word2vec的相似度以及文本的长度、情感词个数作为用户的语言特征。

进一步的，用户的非语言特征包括用户的活跃时间、用户的评论数目、用户的互动次数以及用户的上线次数。

进一步的，将语言特征和非语言特征进行横向拼接包括采用逻辑回归算法的线性加权，训练语言特征和非语言特征的权重矩阵，自适应地选择语言特征和非语言特征的权重，表示为：

Y＝W₁×N+W₂×M；

其中，Y表示语言特征和非语言相结合的特征矩阵；W₁为语言特征的权重矩阵；N为语言特征矩阵；W₂为非语言特征矩阵；M为非语言特征矩阵。

进一步的，利用特征选择技术贪心算法选择最优的特征组合包括：

S401、从所有特征中选取准确率最高的特征，并将该特征存放在最优的特征组合中；

S402、从剩下的特征中选取特征与最优的特征组合进行组合；

S403、挑选出进行组合后准确率最高的特征，若该组合的准确率大于组合之前的准确率，则将该特征选入最优的特征组合并返回步骤S402；若该组合的准确率小于组合之前的准确率则结束，输出最优的特征组合。

本发明还提供一种基于语言和非语言特征的社交网络用户识别装置，包括数据获取模块、语言特征获取模块、非语言特征获取模块、特征拼接模块、特征选择模块以及实时预测模块，其中：

数据获取模块，用于获取用户数据，包括语言特征数据和非语言特征数据；

语言特征获取模块，用于根据用户的语言特征数据提取语言特征，其中语言特征数据包括用户评论的文本数据；

非语言特征获取模块，用于根据用户的非语言特征数据提取用户的非语言特征，其中非语言特征数据包括用户的活跃时间、用户的评论数目、用户的互动次数以及用户的上线次数；

特征拼接模块，用于将用户的语言特征和非语言特征凭借在一起；

特征选择模块，用于从用户的所有特征中挑选出最佳的特征；

实时预测模块，用于根据两个用户的最优的特征组合判断该两个用户账号是否为同一个用户操纵。

本发明适用于任何的社交网络平台，模型简单、高效，对于识别马甲账号也有较高的准确率。

附图说明

图1是本发明实施例提供的一种基于语言和非语言特征的社交网络用户马甲账号识别方法流程示意图；

图2是本发明实施例提供的一种基于语言和非语言特征的社交网络用户马甲账号识别方法特征选择技术示意图；

图3为本发明实施例中模型训练部分流程示意图；

图4为本发明实施例中实时数据预测部分流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于语言和非语言特征的社交网络用户识别方法，如图1，包括以下步骤：

S4、将提取实时的两个用户的最优的特征组合，并将该特征组合输入SVM模型，即识别出这两个用户账户是否为同一个用户操纵。

在本实施例中主要分为两个部分，模型训练部分和实时数据预测部分：

(一)模型训练部分

如图3，模型训练部分主要包括社交账号数据集收集、数据预处理、提取语言特征和非语言特征、训练权重系数进行向量横向拼接、利用机器学习算法训练模型、获得最优组合特征以及获得马甲识别模型。

在本实施例中，收集来自英文维基百科社交网络的公开数据集，在一般情况下，马甲用户都会刻意地伪造自己的个人介绍页面，所以为防止马甲用户刻意的伪造信息，收集包括600余组用户账号在评论区发言的文本。得到社交网络评论文本后，进行数据清洗，去除标点符号和其他无用的语言符号，为后续提取特征，减少噪声干扰，提高实验的精确度有很大的作用。

在得到清洗后的社交网络评论文本数据，包括去除无用字符和干扰信息，包括‘：’，‘:’，‘\n’，‘’等操作，然后将不同用户账号进行两两拼接，构建为马甲识别训练数据集。

在得到训练数据集后，对数据集进行语言特征提取，语言特征包括每个用户的每个评论文本中的长度，情感词个数，关键词相似度等，使用Rake算法将一篇文档分成若干分句，然后对于每一个分句，使用停用词作为分隔符将分句分为若干短语，最后将短语作为最终提取出的关键词的候选词；将所有文本数据进行训练，每个候选词转化为word2vec表示；之后将每个账户中提取出的关键词word2vec进行纵向拼接，使用余弦相似度计算出每个账号拼接后关键词的word2vec的相似度值、文本长度、情感词个数，其中关键词的word2vec的相似度值为两个词之间的余弦相似度，得到基于语言的特征。

在得到训练数据集后，对数据集进行非语言特征提取，得到非语言特征。由于普通用户在登录账号时，每一天都有固定的作息时间，可能某一个用户账号经常在晚上使用，而对于马甲账号则规律较少，所以需提取登陆时间作为非语言特征；为了保持活跃度，马甲用户经常每天都会在很多讨论区留言，相比较普通用户他们更喜欢浏览的方式，所以需提取每天平均的评论条数作为非语言特征；马甲用户相比较普通用户，更加喜欢输入短的文本，如一个单词和几个单词组成一句话，所以需提取文本的长度和平均每一条文本长度作为非语言特征。

对于马甲账号来说，为了避免被社交网络识别出。它们通常会伪装自己的语言特征，尽量避免多个账号之间写作风格相类似。相比较语言特征容易伪装的特点，非语言特征更多的是账号的网络行为，对于马甲用户来说则不容易伪装。所以我们在对语言特征和非语言特征进行横向拼接的时候，考虑到语言特征容易伪装的特点，需要对模型进行自适应性特征选择。采用逻辑回归算法的线性加权思路，假设语言特征向量n＝{n₁，n₂，n₃}，n₁、n₂、n₃分别表示某一个语言特征；非语言特征向量M＝{m₁，m₂，m₃，m₄}，m₁、m₂、m₃、m₄分别表示某一个非语言特征；初始化权重矩阵W₁＝{w_1,1，w_1,2，w_1,3}，w_1,1、w_1,2、w_1,3分别为语言特征n₁、n₂、n₃对应的权重；W₂＝{w_2,1，w_2,2，w_2,3，w_2,4}，w_2,1、w_2,2、w_2,3、w_2,4分别为非语言特征m₁、m₂、m₃、m₄对应的权重；根据逻辑回归公式Y＝W₁×N+W₂×M，训练模型，通过迭代更新权重，更加充分全面的马甲识别数据集特征。

最后引入支持向量机模型，进行模型训练，然后使用贪心算法的思想选择最优特征组合，如图2，假设有五个特征f₁、f₂、f₃、f₄、f₅，{f₂}和其余四个特征组相比较，准确率最高为0.83，将f₂加入到最优特征组合里面，得到目前的最优特征组合为{f₂}，然后将剩下的四个特征分别与f₂组合，其中{f₂，f₃}的组合得到的准确率最高为0.85，将f₃加入最优特征组合，得到目前的最优特征组合为{f₂，f₃}，重复上一步类似的计算，其中其中{f₂，f₃，f₄}的组合准确率最高为0.84，但是低于上一步组合{f₂，f₃}的准确率，算法终止，最终得到的最优特征组合为{f₂，f₃}。后使用基于语言和非语言特征马甲识别模型对社交网络进行实时马甲识别。

(二)实时数据预测部分

在通过(一)获得马甲识别模型之后，开始对实时数据进行预测，如图4，包括获取实时的社交网络账号数据、进行实时数据预处理(与训练部分一直)、根据训练部分得到的最优组合特征提取实时数据的语言特征和非语言特征、使用训练好的权重系数将特征向量进行横向拼接，此时加载训练好的马甲识别模型，将拼接好的向量输入马甲识别模型，即可进行马甲识别。

通过实验发现，准确度达到了85％的精度，达到了令人满意精度，对于识别马甲账号非常有帮助。

本发明还提出一种基于语言和非语言特征的社交网络用户识别装置，包括数据获取模块、语言特征获取模块、非语言特征获取模块、特征拼接模块、特征选择模块以及实时预测模块，其中：

进一步的，语言特征获取模块包括关键词相似度计算单元、文本长度检测单元以及情感词数量检测单元，关键词相似度计算单元包括文本数据训练子单元、关键词提取子单元、拼接单元以及相似度计算单元，其中：

文本数据训练子单元，用于将用户评论的文本数据的每个词转换为word2vec表示；

关键词提取子单元，用于从word2vec表示的文本数据中提取关键词；

拼接单元，用于将提取的关键词进行纵向拼接；

相似度计算单元，用于计算每个关键词word2vec表示的相似性；

文本长度检测单元，用于检测用户每次评论的文本数据的长度；

情感词数量检测单元，用于检测用户每次评论的文本数据中情感词出现的次数。

进一步的，特征拼接模块将语言特征和非语言特征进行拼接的过程表示为：

Y＝W₁×N+W₂×M；

进一步的，特征选择模块挑选特征的过程包括：

S402、从剩下的特征中选取特征与最优的特征组合进行组合；

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于语言和非语言特征的社交网络用户识别方法，其特征在于，包括以下步骤：

S2、基于社交网络马甲识别训练集，从中提取语言和非语言的特征，将语言特征和非语言特征进行横向拼接；

2.根据权利要求1所述的基于语言和非语言特征的社交网络用户识别方法，其特征在于，用户的语言特征获取过程包括：

之后将每个账户中提取出的关键词word2vec进行纵向拼接，使用余弦相似度计算方法计算出每个账号拼接后关键词的word2vec的相似度；

3.根据权利要求1所述的基于语言和非语言特征的社交网络用户识别方法，其特征在于，用户的非语言特征包括用户的活跃时间、用户的评论数目、用户的互动次数以及用户的上线次数。

4.根据权利要求1所述的基于语言和非语言特征的社交网络用户识别方法，其特征在于，将语言特征和非语言特征进行横向拼接包括采用逻辑回归算法的线性加权，训练语言特征和非语言特征的权重矩阵，自适应地选择语言特征和非语言特征的权重，表示为：

Y＝W₁×N+W₂×M；

其中，Y表示语言和非语言相结合的特征矩阵；W₁为语言特征的权重矩阵；N为语言特征矩阵；W₂为非语言特征矩阵；M为非语言特征矩阵。

5.根据权利要求1所述的基于语言和非语言特征的社交网络用户识别方法，其特征在于，利用特征选择技术贪心算法选择最优的特征组合包括：

S401、从所有特征中选取能够使SVM模型取得最高准确率的特征，并将该特征存放在最优的特征组合中；

S402、从剩下的特征中选取特征与最优的特征组合进行组合；

6.基于语言和非语言特征的社交网络用户识别装置，其特征在于，包括数据获取模块、语言特征获取模块、非语言特征获取模块、特征拼接模块、特征选择模块以及实时预测模块，其中：

语言特征获取模块，用于根据用户的语言特征数据提取语言特征，其中语言特征数据包括用户评论的文本数据、文本的长度、情感词个数；

7.根据权利要求1所述的基于语言和非语言特征的社交网络用户识别方法，其特征在于，语言特征获取模块包括关键词相似度计算单元、文本长度检测单元以及情感词数量检测单元，关键词相似度计算单元包括文本数据训练子单元、关键词提取子单元、拼接单元以及相似度计算单元，其中：

拼接单元，用于将提取的关键词进行纵向拼接；

8.根据权利要求1所述的基于语言和非语言特征的社交网络用户识别方法，其特征在于，特征拼接模块将语言特征和非语言特征进行拼接的过程表示为：

Y＝W₁×N+W₂×M；

9.根据权利要求1所述的基于语言和非语言特征的社交网络用户识别方法，其特征在于，特征选择模块挑选特征的过程包括：

S402、从剩下的特征中选取特征与最优的特征组合进行组合；