CN113422761A

CN113422761A - 基于对抗学习的恶意社交用户检测方法

Info

Publication number: CN113422761A
Application number: CN202110651797.1A
Authority: CN
Inventors: 张琳杰; 朱笑岩; 马建峰
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-21
Anticipated expiration: 2041-06-11
Also published as: CN113422761B

Abstract

本发明公开了一种基于对抗学习的恶意社交用户检测方法，主要解决现有恶意社交用户检测方法精度低、稳定性和可靠性差的问题。其方案包括：1)采集数据，建立不同的数据库；2)根据用户与数据库的关联，构建不同的特征图谱；3)根据用户所有发布内容的社交数据节点所对应的特征图谱，计算不同的特征偏好；4)生成训练样本集和测试样本集；5)构建神经网络；6)将训练样本的不同的特征偏好作为输入，对神经网络进行训练；7)将测试样本输入到训练好的神经网络中，得到检测结果。本发明综合考虑了内容特征偏好，关注特征偏好，传播特征偏好，提高了检测精度、稳定性和可靠性，可用于舆论分析、社区发现、虚假新闻检测、社交网络营销。

Description

基于对抗学习的恶意社交用户检测方法

技术领域

本发明属于网络安全技术领域，更进一步涉及一种恶意社交用户检测方法，可用于舆论分析、社区发现、虚假新闻检测、社交网络营销。

背景技术

由于社交网络的开放性和拥有丰富用户的数据信息，社交网络中出现了海量的恶意社交用户。恶意社交用户执行各种恶意活动，传播各种恶意信息，例如虚假新闻、散布广告和钓鱼网站。恶意社交用户通过模拟正常社交用户浏览痕迹，和其他正常社交用户进行互动，例如虚假评论，发送恶意私信，恶意互粉，恶意点赞，恶意回答问题，恶意添加好友，以试图干扰舆论和窃取正常社交用户的个人隐私，影响了正常社交用户在社交平台的体验。恶意社交用户检测是在社会网络分析中智能识别恶意社交用户而进行的信息处理技术。现在的恶意社交用户检测方法多以用户静态特征为主，恶意社交用户能够通过更全面更智能的技术手段进行伪装，使其更难以被检测。另外，恶意社交用户检测所用的数据中有噪声干扰的存在。嵌入学习过程中的过拟合问题也经常被忽略，这些会影响恶意社交用户检测模型的稳定性和可靠性。恶意社交用户检测相关研究不仅能够推动网络科学和信息科学理论上的发展，而且具有巨大的实际应用价值。譬如应用于舆论分析，阻挡恶意社交用户对某些敏感的社会或政治话题的炒作，防止公众对信息产生误解和曲解，恢复由于恶意社交用户频繁刷单导致其无法显示正常排名的热门搜索列表。在社区发现应用中，恶意社交用户的多少可以成为网络社区划分的优劣的一个明确的衡量评价指标。恶意社交用户检测可以作为虚假新闻检测应用的一环，凸显在特定发布的信息影响力差异，比较出与正常社交用户的发布的内容不同。在社交网络营销应用中，如果能及时制止恶意社交用户通过转发大量向导性文章来引导用户的判断，会提升社交网络平台的受欢迎程度。

中国人民解放军战略支援部队信息工程大学在其申请的专利文献“一种社交网络垃圾用户检测方法”(专利申请号201910218144.7，申请公开号CN 110110079 A)中公开了一种社交网络垃圾用户检测方法。该方法的实施步骤是：第一步，根据待检测用户的个人账户信息，提取待检测用户的行为特征；第二步，根据所述行为特征，利用预先构建的垃圾用户行为模型判断所述待检测用户是否为疑似垃圾用户；第三步，若所述待检测用户为疑似垃圾用户，则按照预设内容特征提取规则提取所述待检测用户的内容特征；第四步，根据所述内容特征，利用预先构建的垃圾用户内容模型确定所述待检测用户的垃圾文章比例；第五步，若所述待检测用户的垃圾文章比例大于预设阈值，则确定所述待检测用户为垃圾用户。该方法由于学习模型的线性特性和学习模型的单一性，检测不出恶意社交用户与正常社交用户的显著显式和隐式偏好差异，导致检测精度降低和表示能力不佳。

西安电子科技大学在其申请的专利文献“社交网络异常用户检测方法、系统、介质、设备、终端”(专利申请号202011226262.1，申请公开号CN 112445957 A)中公开了一种社交网络异常用户检测方法。该方法的实施步骤是：第一步，对爬取的社交网络数据进行预处理，构建社交网络邻接矩阵、社交网络属性矩阵和社交网络邻接属性矩阵；第二步，基于社交网络属性矩阵和社交网络邻接属性矩阵，利用自编码结构的深度神经网络模型得到社交网络用户低维表征矩阵，同时更新社交网络中每位用户的异常值；第三步，通过异常值评估社交网络中每位用户的异常程度，完成社交网络中异常用户的检测和识别。该方法采用的神经网络是自编码模型，由于在对抗性扰动中易受影响，即使是小的对抗性扰动也会导致神经网络错误地以高置信度预测目标，导致神经网络鲁棒性不高，从而降低恶意社交用户检测的稳定性和可靠性。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于对抗学习的恶意社交用户检测方法，以准确表示恶意社交用户特征所反映的显式和隐式偏好，提高对恶意社交用户的检测精度、检测的稳定性和可靠性。

实现本发明目的的方案是：

建立用户数据库、内容数据库、关注数据库、传播数据库，构建内容特征图谱、关注特征图谱、传播特征图谱，计算内容特征偏好、关注特征偏好、传播特征偏好，构建基于对抗学习的恶意社交用户神经网络检测模型以获得恶意社交用户检测的检测标签值。

为实现上述目的，本发明基于对抗学习的恶意社交用户检测方法，其特征在于，包括如下：

A)采集数据，建立不同的数据库：

A1)采集社交网络平台中社交数据，对采集的社交数据进行预处理，根据社交数据的发布者的基本信息，建立由用户社交数据节点组成的用户数据库ι；

A2)根据社交数据的发布内容，建立由内容社交数据节点ζ_n组成的内容数据库ζ；根据社交数据的发布者的关注链，建立由关注社交数据节点ξ_n组成的关注数据库ξ；根据社交数据的转发链、评论链、点赞链，建立由传播社交数据节点

组成的传播数据库

B)根据用户与数据库的关联，构建不同的特征图谱：

B1)获取用户数据库中参与社交数据发布的用户i；

B2)根据用户的发布内容在内容数据库中查找用户所对应的内容社交数据节点ζ_nj，根据用户间的关注关系在关注数据库中查找用户所对应的关注社交数据节点ξ_nj，根据用户所涉及的转发，评论，点赞关系在传播数据库中查找用户所对应的传播社交数据节点

利用特征嵌入方法，分别构建内容特征图谱α_i、关注特征图谱β_i、传播特征图谱γ_i；

C)根据用户所有发布内容的社交数据节点所对应的特征图谱，计算不同的特征偏好：

C1)统计用户发布的所有内容，得到用户所有发布内容的社交数据节点；

C2)分别根据社交数据节点所对应的内容特征图谱α_i、关注特征图谱β_i、传播特征图谱γ_i，利用偏好建模方法，分别计算内容特征偏好φ_i、关注特征偏好

传播特征偏好ψ_i；

D)从社交网络所有用户中，随机选取1000个用户，组成训练样本集，获取训练样本的内容特征偏好，关注特征偏好，传播特征偏好；从除去训练样本集的社交网络中剩余所有用户中，随机选取500个用户，组成测试样本集，获取测试样本的内容特征偏好，关注特征偏好，传播特征偏好；

E)构建依次由采样层，卷积层，池化层，隐藏层，全连接层级联组成的神经网络，并选择集成器作为全连接层的判别函数，选择对抗训练损失作为该网络的训练误差；

F)训练神经网络：

设置初始学习率为η₁，最大迭代轮次数为500，将训练样本集分为h批次输入到神经网络中，利用损失优化方法对其进行训练，直到网络的损失函数收敛或者达到最大迭代轮次数，得到训练好的神经网络；

G)将测试样本集中的每个样本内容特征偏好，关注特征偏好，传播特征偏好输入到已经训练好的神经网络中，得到测试样本集中检测标签值Q；

H)设定检测阈值P，将得到的检测标签值Q与检测阈值P进行比较，得到最终恶意社交用户检测结果：

若P＞Q，则认为该用户不是恶意用户；

若P≤Q，则认为该用户是恶意用户。

本发明与现有技术相比，具有以下优点：

第一，本发明由于利用偏好建模方法得到内容特征偏好、关注特征偏好、传播特征偏好，发现正常社交用户和恶意社交用户在特征偏好模式上的显著差异，有效地解决了数据异构性和语义复杂性的问题，减少数据不平衡对检测产生的偏倚，提高检测的精度；

第二，本发明由于选择集成器作为全连接层的判别函数，扩展局部卷积结构的感受野，学习特征偏好之间的依赖关系，增加神经网络的表示能力，提高了检测的可靠性；

第三，本发明由于选择对抗训练损失作为该网络的训练误差，可使神经网络适应误分类的异常情况，减少了数据噪声的影响，且不需要预先设置领域知识，有助于增强神经网络的泛化能力，提高检测的稳定性。

附图说明

图1为本发明的实现流程图；

图2为用本发明和现有检测方法分别在两个数据集上的进行恶意社交用户检测结果的仿真图。

具体实施方式

下面结合附图对本发明的实施例和效果做进一步详细的描述。

参照图1，本实例的实现包括如下步骤：

步骤1，采集数据，建立不同的数据库。

1.1)采集社交网络平台中社交数据，对采集的社交数据依次进行数据清洗、数据变换和数据规范的预处理，得到预处理后的社交数据：

本实例采取但不限于用置零法进行数据清洗，用平滑聚集法进行数据变换，用统一法进行数据规范，即先将采集的社交数据的无效值和缺失值设置为零，再通过平滑聚集处理将设置好的社交数据转换成适用于社交数据挖掘的形式，再将转换后的社交数据转换为统一格式的社交数据；

1.2)根据预处理后的社交数据的发布者的基本信息，建立由用户社交数据节点组成的用户数据库ι；

1.3)根据预处理后的社交数据的发布内容，建立由内容社交数据节点ζ_n组成的内容数据库ζ；

1.4)根据预处理后的社交数据的发布者的关注链，建立由关注社交数据节点ξ_n组成的关注数据库ξ；

1.5)根据预处理后的社交数据的转发链、评论链、点赞链，建立由传播社交数据节点

组成的传播数据库

步骤2，根据用户与不同数据库的关联，构建不同的特征图谱。

2.1)获取用户数据库中参与社交数据发布的用户i；

2.2)根据用户的发布内容在内容数据库中查找用户所对应的内容社交数据节点

利用特征嵌入方法，构建内容特征图谱α_i，公式如下：

其中，σ表示特征图谱函数，

表示链接三元组，

表示与内容社交数据节点

有链接关系的内容社交数据节点，W₁表示前置变换矩阵，W₂表示后置变换矩阵；

2.3)根据用户间的关注关系在关注数据库中查找用户所对应的关注社交数据节点ξ_nj，利用特征嵌入方法，构建关注特征图谱β_i，公式如下：

其中，ξ_nk表示与关注社交数据节点ξ_nj有链接关系的关注社交数据节点；

2.4)根据用户所涉及的转发，评论，点赞关系在传播数据库中查找用户所对应的传播社交数据节点

利用特征嵌入方法，构建传播特征图谱γ_i，公式如下：

其中，

表示与传播社交数据节点

有链接关系的传播社交数据节点。

步骤3，根据用户所有发布内容的社交数据节点所对应的特征图谱，计算不同的特征偏好。

3.1)统计用户发布的所有内容，得到用户所有发布内容的社交数据节点；

3.2)根据社交数据节点所对应的内容特征图谱α_i，利用偏好建模方法，计算内容特征偏好φ_i，实现如下：

根据内容特征图谱α_i，计算内容显式偏好：

根据内容显式偏好

计算内容特征偏好：

其中，ω₁,ω₂分别表示两个数值不同的权重参数，χ₁,χ2分别表示两个数值不同的偏置参数，tanh(·)表示非线性变换函数；

3.3)根据社交数据节点所对应的关注特征图谱β_i，利用偏好建模方法计算关注特征偏好

实现如下：

根据关注特征图谱β_i，计算关注显式偏好：

根据关注显式偏好

计算关注特征偏好：

3.4)根据社交数据节点所对应的传播特征图谱γ_i，利用偏好建模方法计算传播特征偏好ψ_i，实现如下：

根据传播特征图谱γ_i，计算传播显式偏好：

根据传播显式偏好

计算传播特征偏好：

步骤4，生成训练样本集和测试样本集，获取其的特征偏好。

4.1)从社交网络所有用户中，随机选取1000个用户，组成训练样本集，按照步骤1至步骤3，获取训练样本的内容特征偏好，关注特征偏好，传播特征偏好；

4.2)从除去训练样本集的社交网络中剩余所有用户中，随机选取500个用户，组成测试样本集，按照步骤1至步骤3，获取测试样本的内容特征偏好，关注特征偏好，传播特征偏好。

本实例采取但不限于回溯法则选取用户组成训练样本集和测试样本集，即以深度优先的方式来选取样本，按选优条件向前搜索，如发现先选取的用户达不到要求，就退回一步重新选择。

步骤5，构建神经网络。

将采样层，卷积层，池化层，隐藏层，全连接层依次级联组成神经网络，并选择集成器作为全连接层的判别函数，选择对抗训练损失作为该网络的训练误差；

上述各层结构、功能与参数设置如下：

所述采样层：采用从上至下的16个采样子层级联组成，用以对3.2)中内容特征偏好φ_i，3.3)中关注特征偏好

中传播特征偏好ψ_i利用双线性插值法进行采样运算，得到内容采样向量

关注采样向量

传播采样向量

所述卷积层：采用从上至下的128个卷积子层级联组成，用以对内容采样向量

关注采样向量

传播采样向量

进行卷积运算，得到内容卷积向量b_φi，关注卷积向量

传播卷积向量

每个卷积子层的卷积核大小为3，步长为1，修正参数为0.2。本实例采取但不限于窗口卷积法进行卷积运算，即对内容采样向量

关注采样向量

传播采样向量

提取其局部的特征，进行窗口长度为1的窗口卷积运算，得到内容卷积向量

关注卷积向量

传播卷积向量

所述池化层：采用从上至下的16个池化子层级联组成，用以对内容卷积向量

关注卷积向量

传播卷积向量

进行均值池化运算，得到内容池化向量

关注池化向量

传播池化向量

本实例采取但不限于序位池化法进行均值池化运算，即对内容卷积向量

关注卷积向量

传播卷积向量

在池化域内按照激活值序位进行序位池化运算，得到内容池化向量

关注池化向量

传播池化向量

所述隐藏层：采用从上至下的6个隐藏子层级联组成，用以对内容池化向量

关注池化向量

传播池化向量

进行映射计算，得到隐藏向量：

其中，ν表示隐藏层激活函数，○表示隐藏层的计算函数哈达玛积。

所述全连接层：用以计算h批次的检测标签值f_h：

其中，l()表示全连接层激活函数，g()表示参数函数，m_h表示h批次权重向量，θ表示目标参数，λ表示损失参数，r_h-1表示h-1批次训练样本的训练误差。

步骤6，训练神经网络。

6.1)设置初始学习率为η₁，最大迭代轮次数为500；

6.2)将训练样本集分为h批次输入到神经网络中，利用损失优化方法对其进行训练：

6.2.1)将训练样本集分为h批次输入到步骤5中设计的神经网络中，得到训练样本集中h批次检测标签值f_h；

6.2.2)根据检测标签值f_h，计算h批次训练样本的训练误差r_h：

其中，l()表示全连接层激活函数，g()表示参数函数，θ表示目标参数，

表示不同映射排列的隐藏向量；

6.2.3)根据当前批次的训练误差r_h和学习率η_h计算训练样本集的神经网络中卷积核参数的梯度值，根据得到的梯度值更新卷积核参数，完成一次训练；

本实例取且不限于梯度下降法更新卷积核参数，即指沿着梯度方向对参数进行更新以求解神经网络收敛的最优解；

6.2.4)判断训练样本的训练误差r_h是否不再下降：

若是，则停止对该网络训练，得到训练好的神经网络；

否则，执行6.2.5)；

6.2.5)判断训练轮次数是否达到最大训练轮次数500：

若是，停止对该网络的训练，得到训练好的神经网络；

否则，将训练轮次数增加1，将批次增加1，返回6.2.1)。

步骤7，对测试样本集进行检测，得到恶意社交用户检测结果。

7.1)将测试样本集中的每个样本内容特征偏好，关注特征偏好，传播特征偏好输入到已经训练好的神经网络中，得到测试样本集中检测标签值Q；

7.2)根据数据不平衡理论，设定检测阈值P，本实例取但不限于P＝0.5；

7.3)将检测标签值Q与检测阈值P进行比较，得到最终恶意社交用户检测结果；

若P＞Q，则认为该用户不是恶意社交用户；

若P≤Q，则认为该用户是恶意社交用户。

下面结合仿真实验，对本发明的效果做进一步的说明。

1.仿真实验条件：

本发明的仿真实验的运行环境是：处理器为Intel(R)Core(TM)i3-9100CPU@3.60GHz，内存为8.00GB，硬盘为929G，操作系统为Windows 10，编程环境为Python 3.8，编程软件为PyCharm Community Edition 2020.2.3x64。

仿真所使用的数据集为Apontador数据集和weibo数据集。Apontador数据集是由巴西著名的基于位置的社交网络采集而来的平衡数据集，其包含三类恶意社交用户,分别是产品营销广告发布者、发布内容与话题标签信息不符的内容污染者、攻击谩骂不良言论发布者。每条记录包含59个特征字段和两个分类字段。微博数据集是通过网络爬虫工具获得的数据集，爬取了每个用户的基本信息和200条发布内容以及每条的转发、点赞、评论。

2.仿真内容及其结果分析：

仿真实验1：比较本发明与现有2种检测方法的恶意社交用户检测精度。

使用的现有检测方法有以下2种：

1、根据计算取决于一组随机变量的集合的树的集成，最终结果由所有树投票产出的随机森林模型方法。

2、根据合适的参数分布的概率密度和概率分布模型，在观测到数据之后，计算后验分布以更新对参数分布的认知的贝叶斯模型方法。

仿真过程如下：

首先，使用本发明和上述现有检测2种方法，分别从Apontador数据集和weibo数据集中采集数据建立不同的数据库，根据用户与数据库的关联，构建不同的特征图谱，根据用户所有发布内容的社交数据节点所对应的特征图谱，计算不同的特征偏好，对不同的特征偏好利用各方法进行恶意社交用户检测，得到检测标签值；

其次，将各方法的检测标签值与检测阈值进行比较，得到是否为恶意社交用户的结果，根据结果统计恶意社交用户的数量Y、总可供检测的用户数量Z和候选恶意社交用户的数量R；再分别计算准确率

和召回率

根据准确率和召回率的计算结果，计算F1得分

其中λ为平衡参数，取值为0.5，F1得分的高低可表示恶意社交用户检测精度的高低；

最后，比较各方法的F1得分，结果如图2所示，其中横轴表示不同方法，纵轴表示F1得分。

由图2可以看出，本发明标示的柱状图对应的F1得分位于现有2种方法标示的柱状图对应的F1得分的上方，即本发明的F1得分是3种方法中最高的，表明本发明的恶意社交用户检测精度高于现有的2种方法。

仿真实验2：比较本发明与现有2种正则化方法的恶意社交用户检测准确率和准确率差异程度。

使用的现有方法有以下2种：

1、根据试图减小权重矩阵的L2范数的范数正则化方法。

2、根据在实际数据点上应用小的随机扰动来生成人工数据点的局部分布平滑正则化方法。

仿真过程如下：

首先，使用本发明和上述现有2种正则化方法，分别根据Apontador数据集和weibo数据集中，采集数据建立不同的数据库，根据用户与数据库的关联，构建不同的特征图谱，根据用户所有发布内容的社交数据节点所对应的特征图谱，计算不同的特征偏好，并将其分别输入到本发明中构建的神经网络，采用不同的正则化方法对其进行训练，得到3种方法的检测标签值；

其次，将各正则化方法的检测标签值与检测阈值进行比较，得到是否为恶意社交用户的结果，根据结果统计恶意社交用户的数量Y、总可供检测的用户数量Z计算准确率

根据两次实验准确率的差值计算准确率差异程度，准确率的高低可表示正则化方法的可靠性，准确率差异程度的大小可表示正则化方法的准确率的稳定性。

最后，比较各正则化方法的准确率和准确率差异程度，结果如表1所示,

表1各正则化方法的准确率和准确率差异程度

正则化方法	准确率％	准确率差异程度％
			范数正则化方法	71.83/74.48	2.65
局部分布平滑正则化方法	86.27/87.69	1.42
			本发明方法	90.00/89.24	0.76

由表1可以看出，现有2种正则化方法进行恶意社交用户的准确率较低，本发明方法较高，表明本发明的正则化方法的可靠性高于现有的2种正则化方法。现有2种正则化方法进行恶意社交用户的准确率差异程度较大，本发明方法较小，表明本发明的正则化方法的稳定性高于现有的2种正则化方法。