CN113422761A - 基于对抗学习的恶意社交用户检测方法 - Google Patents

基于对抗学习的恶意社交用户检测方法 Download PDF

Info

Publication number
CN113422761A
CN113422761A CN202110651797.1A CN202110651797A CN113422761A CN 113422761 A CN113422761 A CN 113422761A CN 202110651797 A CN202110651797 A CN 202110651797A CN 113422761 A CN113422761 A CN 113422761A
Authority
CN
China
Prior art keywords
content
social
user
feature
social data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110651797.1A
Other languages
English (en)
Other versions
CN113422761B (zh
Inventor
张琳杰
朱笑岩
马建峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110651797.1A priority Critical patent/CN113422761B/zh
Publication of CN113422761A publication Critical patent/CN113422761A/zh
Application granted granted Critical
Publication of CN113422761B publication Critical patent/CN113422761B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于对抗学习的恶意社交用户检测方法,主要解决现有恶意社交用户检测方法精度低、稳定性和可靠性差的问题。其方案包括:1)采集数据,建立不同的数据库;2)根据用户与数据库的关联,构建不同的特征图谱;3)根据用户所有发布内容的社交数据节点所对应的特征图谱,计算不同的特征偏好;4)生成训练样本集和测试样本集;5)构建神经网络;6)将训练样本的不同的特征偏好作为输入,对神经网络进行训练;7)将测试样本输入到训练好的神经网络中,得到检测结果。本发明综合考虑了内容特征偏好,关注特征偏好,传播特征偏好,提高了检测精度、稳定性和可靠性,可用于舆论分析、社区发现、虚假新闻检测、社交网络营销。

Description

基于对抗学习的恶意社交用户检测方法
技术领域
本发明属于网络安全技术领域,更进一步涉及一种恶意社交用户检测方法,可用于舆论分析、社区发现、虚假新闻检测、社交网络营销。
背景技术
由于社交网络的开放性和拥有丰富用户的数据信息,社交网络中出现了海量的恶意社交用户。恶意社交用户执行各种恶意活动,传播各种恶意信息,例如虚假新闻、散布广告和钓鱼网站。恶意社交用户通过模拟正常社交用户浏览痕迹,和其他正常社交用户进行互动,例如虚假评论,发送恶意私信,恶意互粉,恶意点赞,恶意回答问题,恶意添加好友,以试图干扰舆论和窃取正常社交用户的个人隐私,影响了正常社交用户在社交平台的体验。恶意社交用户检测是在社会网络分析中智能识别恶意社交用户而进行的信息处理技术。现在的恶意社交用户检测方法多以用户静态特征为主,恶意社交用户能够通过更全面更智能的技术手段进行伪装,使其更难以被检测。另外,恶意社交用户检测所用的数据中有噪声干扰的存在。嵌入学习过程中的过拟合问题也经常被忽略,这些会影响恶意社交用户检测模型的稳定性和可靠性。恶意社交用户检测相关研究不仅能够推动网络科学和信息科学理论上的发展,而且具有巨大的实际应用价值。譬如应用于舆论分析,阻挡恶意社交用户对某些敏感的社会或政治话题的炒作,防止公众对信息产生误解和曲解,恢复由于恶意社交用户频繁刷单导致其无法显示正常排名的热门搜索列表。在社区发现应用中,恶意社交用户的多少可以成为网络社区划分的优劣的一个明确的衡量评价指标。恶意社交用户检测可以作为虚假新闻检测应用的一环,凸显在特定发布的信息影响力差异,比较出与正常社交用户的发布的内容不同。在社交网络营销应用中,如果能及时制止恶意社交用户通过转发大量向导性文章来引导用户的判断,会提升社交网络平台的受欢迎程度。
中国人民解放军战略支援部队信息工程大学在其申请的专利文献“一种社交网络垃圾用户检测方法”(专利申请号201910218144.7,申请公开号CN 110110079 A)中公开了一种社交网络垃圾用户检测方法。该方法的实施步骤是:第一步,根据待检测用户的个人账户信息,提取待检测用户的行为特征;第二步,根据所述行为特征,利用预先构建的垃圾用户行为模型判断所述待检测用户是否为疑似垃圾用户;第三步,若所述待检测用户为疑似垃圾用户,则按照预设内容特征提取规则提取所述待检测用户的内容特征;第四步,根据所述内容特征,利用预先构建的垃圾用户内容模型确定所述待检测用户的垃圾文章比例;第五步,若所述待检测用户的垃圾文章比例大于预设阈值,则确定所述待检测用户为垃圾用户。该方法由于学习模型的线性特性和学习模型的单一性,检测不出恶意社交用户与正常社交用户的显著显式和隐式偏好差异,导致检测精度降低和表示能力不佳。
西安电子科技大学在其申请的专利文献“社交网络异常用户检测方法、系统、介质、设备、终端”(专利申请号202011226262.1,申请公开号CN 112445957 A)中公开了一种社交网络异常用户检测方法。该方法的实施步骤是:第一步,对爬取的社交网络数据进行预处理,构建社交网络邻接矩阵、社交网络属性矩阵和社交网络邻接属性矩阵;第二步,基于社交网络属性矩阵和社交网络邻接属性矩阵,利用自编码结构的深度神经网络模型得到社交网络用户低维表征矩阵,同时更新社交网络中每位用户的异常值;第三步,通过异常值评估社交网络中每位用户的异常程度,完成社交网络中异常用户的检测和识别。该方法采用的神经网络是自编码模型,由于在对抗性扰动中易受影响,即使是小的对抗性扰动也会导致神经网络错误地以高置信度预测目标,导致神经网络鲁棒性不高,从而降低恶意社交用户检测的稳定性和可靠性。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于对抗学习的恶意社交用户检测方法,以准确表示恶意社交用户特征所反映的显式和隐式偏好,提高对恶意社交用户的检测精度、检测的稳定性和可靠性。
实现本发明目的的方案是:
建立用户数据库、内容数据库、关注数据库、传播数据库,构建内容特征图谱、关注特征图谱、传播特征图谱,计算内容特征偏好、关注特征偏好、传播特征偏好,构建基于对抗学习的恶意社交用户神经网络检测模型以获得恶意社交用户检测的检测标签值。
为实现上述目的,本发明基于对抗学习的恶意社交用户检测方法,其特征在于,包括如下:
A)采集数据,建立不同的数据库:
A1)采集社交网络平台中社交数据,对采集的社交数据进行预处理,根据社交数据的发布者的基本信息,建立由用户社交数据节点组成的用户数据库ι;
A2)根据社交数据的发布内容,建立由内容社交数据节点ζn组成的内容数据库ζ;根据社交数据的发布者的关注链,建立由关注社交数据节点ξn组成的关注数据库ξ;根据社交数据的转发链、评论链、点赞链,建立由传播社交数据节点
Figure BDA0003111780760000032
组成的传播数据库
Figure BDA0003111780760000033
B)根据用户与数据库的关联,构建不同的特征图谱:
B1)获取用户数据库中参与社交数据发布的用户i;
B2)根据用户的发布内容在内容数据库中查找用户所对应的内容社交数据节点ζnj,根据用户间的关注关系在关注数据库中查找用户所对应的关注社交数据节点ξnj,根据用户所涉及的转发,评论,点赞关系在传播数据库中查找用户所对应的传播社交数据节点
Figure BDA0003111780760000034
利用特征嵌入方法,分别构建内容特征图谱αi、关注特征图谱βi、传播特征图谱γi
C)根据用户所有发布内容的社交数据节点所对应的特征图谱,计算不同的特征偏好:
C1)统计用户发布的所有内容,得到用户所有发布内容的社交数据节点;
C2)分别根据社交数据节点所对应的内容特征图谱αi、关注特征图谱βi、传播特征图谱γi,利用偏好建模方法,分别计算内容特征偏好φi、关注特征偏好
Figure BDA0003111780760000031
传播特征偏好ψi
D)从社交网络所有用户中,随机选取1000个用户,组成训练样本集,获取训练样本的内容特征偏好,关注特征偏好,传播特征偏好;从除去训练样本集的社交网络中剩余所有用户中,随机选取500个用户,组成测试样本集,获取测试样本的内容特征偏好,关注特征偏好,传播特征偏好;
E)构建依次由采样层,卷积层,池化层,隐藏层,全连接层级联组成的神经网络,并选择集成器作为全连接层的判别函数,选择对抗训练损失作为该网络的训练误差;
F)训练神经网络:
设置初始学习率为η1,最大迭代轮次数为500,将训练样本集分为h批次输入到神经网络中,利用损失优化方法对其进行训练,直到网络的损失函数收敛或者达到最大迭代轮次数,得到训练好的神经网络;
G)将测试样本集中的每个样本内容特征偏好,关注特征偏好,传播特征偏好输入到已经训练好的神经网络中,得到测试样本集中检测标签值Q;
H)设定检测阈值P,将得到的检测标签值Q与检测阈值P进行比较,得到最终恶意社交用户检测结果:
若P>Q,则认为该用户不是恶意用户;
若P≤Q,则认为该用户是恶意用户。
本发明与现有技术相比,具有以下优点:
第一,本发明由于利用偏好建模方法得到内容特征偏好、关注特征偏好、传播特征偏好,发现正常社交用户和恶意社交用户在特征偏好模式上的显著差异,有效地解决了数据异构性和语义复杂性的问题,减少数据不平衡对检测产生的偏倚,提高检测的精度;
第二,本发明由于选择集成器作为全连接层的判别函数,扩展局部卷积结构的感受野,学习特征偏好之间的依赖关系,增加神经网络的表示能力,提高了检测的可靠性;
第三,本发明由于选择对抗训练损失作为该网络的训练误差,可使神经网络适应误分类的异常情况,减少了数据噪声的影响,且不需要预先设置领域知识,有助于增强神经网络的泛化能力,提高检测的稳定性。
附图说明
图1为本发明的实现流程图;
图2为用本发明和现有检测方法分别在两个数据集上的进行恶意社交用户检测结果的仿真图。
具体实施方式
下面结合附图对本发明的实施例和效果做进一步详细的描述。
参照图1,本实例的实现包括如下步骤:
步骤1,采集数据,建立不同的数据库。
1.1)采集社交网络平台中社交数据,对采集的社交数据依次进行数据清洗、数据变换和数据规范的预处理,得到预处理后的社交数据:
本实例采取但不限于用置零法进行数据清洗,用平滑聚集法进行数据变换,用统一法进行数据规范,即先将采集的社交数据的无效值和缺失值设置为零,再通过平滑聚集处理将设置好的社交数据转换成适用于社交数据挖掘的形式,再将转换后的社交数据转换为统一格式的社交数据;
1.2)根据预处理后的社交数据的发布者的基本信息,建立由用户社交数据节点组成的用户数据库ι;
1.3)根据预处理后的社交数据的发布内容,建立由内容社交数据节点ζn组成的内容数据库ζ;
1.4)根据预处理后的社交数据的发布者的关注链,建立由关注社交数据节点ξn组成的关注数据库ξ;
1.5)根据预处理后的社交数据的转发链、评论链、点赞链,建立由传播社交数据节点
Figure BDA0003111780760000056
组成的传播数据库
Figure BDA0003111780760000057
步骤2,根据用户与不同数据库的关联,构建不同的特征图谱。
2.1)获取用户数据库中参与社交数据发布的用户i;
2.2)根据用户的发布内容在内容数据库中查找用户所对应的内容社交数据节点
Figure BDA0003111780760000051
利用特征嵌入方法,构建内容特征图谱αi,公式如下:
Figure BDA0003111780760000052
其中,σ表示特征图谱函数,
Figure BDA0003111780760000053
表示链接三元组,
Figure BDA0003111780760000054
表示与内容社交数据节点
Figure BDA0003111780760000055
有链接关系的内容社交数据节点,W1表示前置变换矩阵,W2表示后置变换矩阵;
2.3)根据用户间的关注关系在关注数据库中查找用户所对应的关注社交数据节点ξnj,利用特征嵌入方法,构建关注特征图谱βi,公式如下:
Figure BDA0003111780760000061
其中,ξnk表示与关注社交数据节点ξnj有链接关系的关注社交数据节点;
2.4)根据用户所涉及的转发,评论,点赞关系在传播数据库中查找用户所对应的传播社交数据节点
Figure BDA00031117807600000612
利用特征嵌入方法,构建传播特征图谱γi,公式如下:
Figure BDA0003111780760000062
其中,
Figure BDA00031117807600000611
表示与传播社交数据节点
Figure BDA00031117807600000610
有链接关系的传播社交数据节点。
步骤3,根据用户所有发布内容的社交数据节点所对应的特征图谱,计算不同的特征偏好。
3.1)统计用户发布的所有内容,得到用户所有发布内容的社交数据节点;
3.2)根据社交数据节点所对应的内容特征图谱αi,利用偏好建模方法,计算内容特征偏好φi,实现如下:
根据内容特征图谱αi,计算内容显式偏好:
Figure BDA0003111780760000063
根据内容显式偏好
Figure BDA0003111780760000064
计算内容特征偏好:
Figure BDA0003111780760000065
其中,ω12分别表示两个数值不同的权重参数,χ1,χ2分别表示两个数值不同的偏置参数,tanh(·)表示非线性变换函数;
3.3)根据社交数据节点所对应的关注特征图谱βi,利用偏好建模方法计算关注特征偏好
Figure BDA0003111780760000066
实现如下:
根据关注特征图谱βi,计算关注显式偏好:
Figure BDA0003111780760000067
根据关注显式偏好
Figure BDA0003111780760000068
计算关注特征偏好:
Figure BDA0003111780760000069
3.4)根据社交数据节点所对应的传播特征图谱γi,利用偏好建模方法计算传播特征偏好ψi,实现如下:
根据传播特征图谱γi,计算传播显式偏好:
Figure BDA0003111780760000071
根据传播显式偏好
Figure BDA0003111780760000072
计算传播特征偏好:
Figure BDA0003111780760000073
步骤4,生成训练样本集和测试样本集,获取其的特征偏好。
4.1)从社交网络所有用户中,随机选取1000个用户,组成训练样本集,按照步骤1至步骤3,获取训练样本的内容特征偏好,关注特征偏好,传播特征偏好;
4.2)从除去训练样本集的社交网络中剩余所有用户中,随机选取500个用户,组成测试样本集,按照步骤1至步骤3,获取测试样本的内容特征偏好,关注特征偏好,传播特征偏好。
本实例采取但不限于回溯法则选取用户组成训练样本集和测试样本集,即以深度优先的方式来选取样本,按选优条件向前搜索,如发现先选取的用户达不到要求,就退回一步重新选择。
步骤5,构建神经网络。
将采样层,卷积层,池化层,隐藏层,全连接层依次级联组成神经网络,并选择集成器作为全连接层的判别函数,选择对抗训练损失作为该网络的训练误差;
上述各层结构、功能与参数设置如下:
所述采样层:采用从上至下的16个采样子层级联组成,用以对3.2)中内容特征偏好φi,3.3)中关注特征偏好
Figure BDA0003111780760000074
中传播特征偏好ψi利用双线性插值法进行采样运算,得到内容采样向量
Figure BDA0003111780760000075
关注采样向量
Figure BDA0003111780760000076
传播采样向量
Figure BDA0003111780760000077
所述卷积层:采用从上至下的128个卷积子层级联组成,用以对内容采样向量
Figure BDA0003111780760000078
关注采样向量
Figure BDA0003111780760000079
传播采样向量
Figure BDA00031117807600000710
进行卷积运算,得到内容卷积向量bφi,关注卷积向量
Figure BDA00031117807600000711
传播卷积向量
Figure BDA00031117807600000712
每个卷积子层的卷积核大小为3,步长为1,修正参数为0.2。本实例采取但不限于窗口卷积法进行卷积运算,即对内容采样向量
Figure BDA00031117807600000713
关注采样向量
Figure BDA0003111780760000081
传播采样向量
Figure BDA0003111780760000082
提取其局部的特征,进行窗口长度为1的窗口卷积运算,得到内容卷积向量
Figure BDA0003111780760000083
关注卷积向量
Figure BDA0003111780760000084
传播卷积向量
Figure BDA0003111780760000085
所述池化层:采用从上至下的16个池化子层级联组成,用以对内容卷积向量
Figure BDA0003111780760000086
关注卷积向量
Figure BDA0003111780760000087
传播卷积向量
Figure BDA0003111780760000088
进行均值池化运算,得到内容池化向量
Figure BDA0003111780760000089
关注池化向量
Figure BDA00031117807600000810
传播池化向量
Figure BDA00031117807600000811
本实例采取但不限于序位池化法进行均值池化运算,即对内容卷积向量
Figure BDA00031117807600000812
关注卷积向量
Figure BDA00031117807600000813
传播卷积向量
Figure BDA00031117807600000814
在池化域内按照激活值序位进行序位池化运算,得到内容池化向量
Figure BDA00031117807600000815
关注池化向量
Figure BDA00031117807600000816
传播池化向量
Figure BDA00031117807600000817
所述隐藏层:采用从上至下的6个隐藏子层级联组成,用以对内容池化向量
Figure BDA00031117807600000818
关注池化向量
Figure BDA00031117807600000819
传播池化向量
Figure BDA00031117807600000820
进行映射计算,得到隐藏向量:
Figure BDA00031117807600000821
其中,ν表示隐藏层激活函数,○表示隐藏层的计算函数哈达玛积。
所述全连接层:用以计算h批次的检测标签值fh
Figure BDA00031117807600000822
其中,l()表示全连接层激活函数,g()表示参数函数,mh表示h批次权重向量,θ表示目标参数,λ表示损失参数,rh-1表示h-1批次训练样本的训练误差。
步骤6,训练神经网络。
6.1)设置初始学习率为η1,最大迭代轮次数为500;
6.2)将训练样本集分为h批次输入到神经网络中,利用损失优化方法对其进行训练:
6.2.1)将训练样本集分为h批次输入到步骤5中设计的神经网络中,得到训练样本集中h批次检测标签值fh
6.2.2)根据检测标签值fh,计算h批次训练样本的训练误差rh
Figure BDA00031117807600000823
其中,l()表示全连接层激活函数,g()表示参数函数,θ表示目标参数,
Figure BDA0003111780760000091
表示不同映射排列的隐藏向量;
6.2.3)根据当前批次的训练误差rh和学习率ηh计算训练样本集的神经网络中卷积核参数的梯度值,根据得到的梯度值更新卷积核参数,完成一次训练;
本实例取且不限于梯度下降法更新卷积核参数,即指沿着梯度方向对参数进行更新以求解神经网络收敛的最优解;
6.2.4)判断训练样本的训练误差rh是否不再下降:
若是,则停止对该网络训练,得到训练好的神经网络;
否则,执行6.2.5);
6.2.5)判断训练轮次数是否达到最大训练轮次数500:
若是,停止对该网络的训练,得到训练好的神经网络;
否则,将训练轮次数增加1,将批次增加1,返回6.2.1)。
步骤7,对测试样本集进行检测,得到恶意社交用户检测结果。
7.1)将测试样本集中的每个样本内容特征偏好,关注特征偏好,传播特征偏好输入到已经训练好的神经网络中,得到测试样本集中检测标签值Q;
7.2)根据数据不平衡理论,设定检测阈值P,本实例取但不限于P=0.5;
7.3)将检测标签值Q与检测阈值P进行比较,得到最终恶意社交用户检测结果;
若P>Q,则认为该用户不是恶意社交用户;
若P≤Q,则认为该用户是恶意社交用户。
下面结合仿真实验,对本发明的效果做进一步的说明。
1.仿真实验条件:
本发明的仿真实验的运行环境是:处理器为Intel(R)Core(TM)i3-9100CPU@3.60GHz,内存为8.00GB,硬盘为929G,操作系统为Windows 10,编程环境为Python 3.8,编程软件为PyCharm Community Edition 2020.2.3x64。
仿真所使用的数据集为Apontador数据集和weibo数据集。Apontador数据集是由巴西著名的基于位置的社交网络采集而来的平衡数据集,其包含三类恶意社交用户,分别是产品营销广告发布者、发布内容与话题标签信息不符的内容污染者、攻击谩骂不良言论发布者。每条记录包含59个特征字段和两个分类字段。微博数据集是通过网络爬虫工具获得的数据集,爬取了每个用户的基本信息和200条发布内容以及每条的转发、点赞、评论。
2.仿真内容及其结果分析:
仿真实验1:比较本发明与现有2种检测方法的恶意社交用户检测精度。
使用的现有检测方法有以下2种:
1、根据计算取决于一组随机变量的集合的树的集成,最终结果由所有树投票产出的随机森林模型方法。
2、根据合适的参数分布的概率密度和概率分布模型,在观测到数据之后,计算后验分布以更新对参数分布的认知的贝叶斯模型方法。
仿真过程如下:
首先,使用本发明和上述现有检测2种方法,分别从Apontador数据集和weibo数据集中采集数据建立不同的数据库,根据用户与数据库的关联,构建不同的特征图谱,根据用户所有发布内容的社交数据节点所对应的特征图谱,计算不同的特征偏好,对不同的特征偏好利用各方法进行恶意社交用户检测,得到检测标签值;
其次,将各方法的检测标签值与检测阈值进行比较,得到是否为恶意社交用户的结果,根据结果统计恶意社交用户的数量Y、总可供检测的用户数量Z和候选恶意社交用户的数量R;再分别计算准确率
Figure BDA0003111780760000101
和召回率
Figure BDA0003111780760000102
根据准确率和召回率的计算结果,计算F1得分
Figure BDA0003111780760000103
其中λ为平衡参数,取值为0.5,F1得分的高低可表示恶意社交用户检测精度的高低;
最后,比较各方法的F1得分,结果如图2所示,其中横轴表示不同方法,纵轴表示F1得分。
由图2可以看出,本发明标示的柱状图对应的F1得分位于现有2种方法标示的柱状图对应的F1得分的上方,即本发明的F1得分是3种方法中最高的,表明本发明的恶意社交用户检测精度高于现有的2种方法。
仿真实验2:比较本发明与现有2种正则化方法的恶意社交用户检测准确率和准确率差异程度。
使用的现有方法有以下2种:
1、根据试图减小权重矩阵的L2范数的范数正则化方法。
2、根据在实际数据点上应用小的随机扰动来生成人工数据点的局部分布平滑正则化方法。
仿真过程如下:
首先,使用本发明和上述现有2种正则化方法,分别根据Apontador数据集和weibo数据集中,采集数据建立不同的数据库,根据用户与数据库的关联,构建不同的特征图谱,根据用户所有发布内容的社交数据节点所对应的特征图谱,计算不同的特征偏好,并将其分别输入到本发明中构建的神经网络,采用不同的正则化方法对其进行训练,得到3种方法的检测标签值;
其次,将各正则化方法的检测标签值与检测阈值进行比较,得到是否为恶意社交用户的结果,根据结果统计恶意社交用户的数量Y、总可供检测的用户数量Z计算准确率
Figure BDA0003111780760000111
根据两次实验准确率的差值计算准确率差异程度,准确率的高低可表示正则化方法的可靠性,准确率差异程度的大小可表示正则化方法的准确率的稳定性。
最后,比较各正则化方法的准确率和准确率差异程度,结果如表1所示,
表1各正则化方法的准确率和准确率差异程度
正则化方法 准确率% 准确率差异程度%
范数正则化方法 71.83/74.48 2.65
局部分布平滑正则化方法 86.27/87.69 1.42
本发明方法 90.00/89.24 0.76
由表1可以看出,现有2种正则化方法进行恶意社交用户的准确率较低,本发明方法较高,表明本发明的正则化方法的可靠性高于现有的2种正则化方法。现有2种正则化方法进行恶意社交用户的准确率差异程度较大,本发明方法较小,表明本发明的正则化方法的稳定性高于现有的2种正则化方法。

Claims (10)

1.一种基于对抗学习的恶意社交用户检测方法,其特征在于,包括:
A)采集数据,建立不同的数据库:
A1)采集社交网络平台中社交数据,对采集的社交数据进行预处理,根据社交数据的发布者的基本信息,建立由用户社交数据节点组成的用户数据库ι;
A2)根据社交数据的发布内容,建立由内容社交数据节点ζn组成的内容数据库ζ;根据社交数据的发布者的关注链,建立由关注社交数据节点ξn组成的关注数据库ξ;根据社交数据的转发链、评论链、点赞链,建立由传播社交数据节点
Figure FDA0003111780750000011
组成的传播数据库
Figure FDA0003111780750000012
B)根据用户与数据库的关联,构建不同的特征图谱:
B1)获取用户数据库中参与社交数据发布的用户i;
B2)根据用户的发布内容在内容数据库中查找用户所对应的内容社交数据节点
Figure FDA0003111780750000013
根据用户间的关注关系在关注数据库中查找用户所对应的关注社交数据节点
Figure FDA0003111780750000014
根据用户所涉及的转发,评论,点赞关系在传播数据库中查找用户所对应的传播社交数据节点
Figure FDA0003111780750000015
利用特征嵌入方法,分别构建内容特征图谱αi、关注特征图谱βi、传播特征图谱γi
C)根据用户所有发布内容的社交数据节点所对应的特征图谱,计算不同的特征偏好:
C1)统计用户发布的所有内容,得到用户所有发布内容的社交数据节点;
C2)分别根据社交数据节点所对应的内容特征图谱αi、关注特征图谱βi、传播特征图谱γi,利用偏好建模方法,分别计算内容特征偏好φi、关注特征偏好
Figure FDA0003111780750000016
传播特征偏好ψi
D)从社交网络所有用户中,随机选取1000个用户,组成训练样本集,获取训练样本的内容特征偏好,关注特征偏好,传播特征偏好;从除去训练样本集的社交网络中剩余所有用户中,随机选取500个用户,组成测试样本集,获取测试样本的内容特征偏好,关注特征偏好,传播特征偏好;
E)构建依次由采样层,卷积层,池化层,隐藏层,全连接层级联组成的神经网络,并选择集成器作为全连接层的判别函数,选择对抗训练损失作为该网络的训练误差;
F)训练神经网络:
设置初始学习率为η1,最大迭代轮次数为500,将训练样本集分为h批次输入到神经网络中,利用损失优化方法对其进行训练,直到网络的损失函数收敛或者达到最大迭代轮次数,得到训练好的神经网络;
G)将测试样本集中的每个样本内容特征偏好,关注特征偏好,传播特征偏好输入到已经训练好的神经网络中,得到测试样本集中检测标签值Q;
H)设定检测阈值P,将得到的检测标签值Q与检测阈值P进行比较,得到最终恶意社交用户检测结果:
若P>Q,则认为该用户不是恶意社交用户;
若P≤Q,则认为该用户是恶意社交用户。
2.根据权利要求1所述的方法,其特征在于,A1)中对采集的社交数据进行预处理,是对采集的社交数据依次进行数据清洗、数据变换和数据规范,得到预处理后的社交数据。
3.根据权利要求1所述的方法,其特征在于,B2)中利用特征嵌入方法,根据内容社交数据节点
Figure FDA0003111780750000021
构建内容特征图谱αi,公式如下:
Figure FDA0003111780750000022
其中,σ表示特征图谱函数,
Figure FDA0003111780750000023
表示链接三元组,
Figure FDA0003111780750000024
表示与内容社交数据节点
Figure FDA0003111780750000025
有链接关系的内容社交数据节点,W1表示前置变换矩阵,W2表示后置变换矩阵。
4.根据权利要求1所述的方法,其特征在于,B2)中利用特征嵌入方法,根据关注社交数据节点
Figure FDA0003111780750000026
构建关注特征图谱βi,公式如下:
Figure FDA0003111780750000027
其中,σ表示特征图谱函数,
Figure FDA0003111780750000028
表示链接三元组,
Figure FDA0003111780750000029
表示与关注社交数据节点
Figure FDA00031117807500000210
有链接关系的关注社交数据节点,W1表示前置变换矩阵,W2表示后置变换矩阵。
5.根据权利要求1所述的方法,其特征在于,B2)中利用特征嵌入方法,根据内容社交数据节点
Figure FDA0003111780750000031
构建传播特征图谱γi,公式如下:
Figure FDA0003111780750000032
其中,σ表示特征图谱函数,
Figure FDA0003111780750000033
表示链接三元组,
Figure FDA0003111780750000034
表示内容社交数据节点
Figure FDA0003111780750000035
与有链接关系的传播社交数据节点,W1表示前置变换矩阵,W2表示后置变换矩阵。
6.根据权利要求1所述的方法,其特征在于,C2)中,根据社交数据节点所对应的内容特征图谱αi,利用偏好建模方法计算内容特征偏好φi,实现如下:
根据内容特征图谱αi,计算内容显式偏好:
Figure FDA0003111780750000036
根据内容显式偏好
Figure FDA0003111780750000037
计算内容特征偏好:
Figure FDA0003111780750000038
其中,ω12分别表示两个数值不同的权重参数,χ12分别表示两个数值不同的偏置参数,tanh(·)表示非线性变换函数。
7.根据权利要求1所述的方法,其特征在于,C2)中根据社交数据节点所对应的关注特征图谱βi,利用偏好建模方法计算关注特征偏好
Figure FDA0003111780750000039
实现如下:
根据关注特征图谱βi,计算关注显式偏好:
Figure FDA00031117807500000310
根据关注显式偏好
Figure FDA00031117807500000312
计算关注特征偏好:
Figure FDA00031117807500000311
其中,ω12分别表示两个数值不同的权重参数,χ12分别表示两个数值不同的偏置参数,tanh(·)表示非线性变换函数。
8.根据权利要求1所述的方法,其特征在于,C2)中根据社交数据节点所对应的传播特征图谱γi,利用偏好建模方法计算传播特征偏好ψi,实现如下:
根据传播特征图谱γi,计算传播显式偏好:
Figure FDA0003111780750000041
根据传播显式偏好
Figure FDA00031117807500000412
计算传播特征偏好:
Figure FDA0003111780750000042
其中,ω12分别表示两个数值不同的权重参数,χ12分别表示两个数值不同的偏置参数,tanh(·)表示非线性变换函数。
9.根据权利要求1所述的方法,其特征在于,E)构建的神经网络,其各层结构、功能与参数设置如下:
所述采样层:采用从上至下的16个采样子层级联组成,用以对C2)中内容特征偏好φi,关注特征偏好
Figure FDA0003111780750000043
传播特征偏好ψi利用双线性插值法进行采样运算,得到内容采样向量
Figure FDA00031117807500000422
关注采样向量
Figure FDA0003111780750000044
传播采样向量
Figure FDA00031117807500000424
所述卷积层:采用从上至下的128个卷积子层级联组成,用以对内容采样向量
Figure FDA00031117807500000413
关注采样向量
Figure FDA0003111780750000045
传播采样向量
Figure FDA00031117807500000414
进行卷积运算,得到内容卷积向量
Figure FDA00031117807500000423
关注卷积向量
Figure FDA0003111780750000046
传播卷积向量
Figure FDA00031117807500000415
每个卷积子层的卷积核大小为3,步长为1,修正参数为0.2;
所述池化层:采用从上至下的16个池化子层级联组成,用以对内容卷积向量
Figure FDA00031117807500000416
关注卷积向量
Figure FDA0003111780750000047
传播卷积向量
Figure FDA00031117807500000418
进行最大池化运算,得到内容池化向量
Figure FDA00031117807500000417
关注池化向量
Figure FDA0003111780750000048
传播池化向量
Figure FDA00031117807500000419
所述隐藏层:采用从上至下的6个隐藏子层级联组成,用以对内容池化向量
Figure FDA00031117807500000421
关注池化向量
Figure FDA0003111780750000049
传播池化向量
Figure FDA00031117807500000420
进行映射计算,得到隐藏向量di
Figure FDA00031117807500000410
其中,ν表示隐藏层激活函数,
Figure FDA00031117807500000411
表示隐藏层的计算函数哈达玛积;
所述全连接层:用以计算h批次的检测标签值fh
Figure FDA0003111780750000051
其中,l()表示全连接层激活函数,g()表示参数函数,mh表示h批次权重向量,θ表示目标参数,λ表示损失参数,rh-1表示h-1批次训练样本的训练误差。
10.根据权利要求1所述的方法,其特征在于,F)中将训练样本集分为h批次输入到神经网络中,利用损失优化方法对其进行训练,实现如下:
F1)将训练样本集分为h批次输入到E)中设计的神经网络中,得到训练样本集中h批次检测标签值fh
F2)根据检测标签值fh,计算h批次训练样本的训练误差rh
Figure FDA0003111780750000052
其中,l()表示全连接层激活函数,g()表示参数函数,θ表示目标参数,
Figure FDA0003111780750000053
表示不同映射排列的隐藏向量;
F3)根据当前批次的训练误差rh和学习率ηh计算训练样本集的神经网络中卷积核参数的梯度值,根据得到的梯度值更新卷积核参数,完成一次训练;
F4)判断训练样本的训练误差rh是否不再下降:
若是,则停止对该网络训练,得到训练好的神经网络;
否则,执行F5);
F5)判断训练轮次数是否达到最大训练轮次数500:
若是,停止对该网络的训练,得到训练好的神经网络;
否则,将训练轮次数增加1,将批次增加1,返回F1)。
CN202110651797.1A 2021-06-11 2021-06-11 基于对抗学习的恶意社交用户检测方法 Active CN113422761B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110651797.1A CN113422761B (zh) 2021-06-11 2021-06-11 基于对抗学习的恶意社交用户检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110651797.1A CN113422761B (zh) 2021-06-11 2021-06-11 基于对抗学习的恶意社交用户检测方法

Publications (2)

Publication Number Publication Date
CN113422761A true CN113422761A (zh) 2021-09-21
CN113422761B CN113422761B (zh) 2023-02-10

Family

ID=77788413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110651797.1A Active CN113422761B (zh) 2021-06-11 2021-06-11 基于对抗学习的恶意社交用户检测方法

Country Status (1)

Country Link
CN (1) CN113422761B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114124437A (zh) * 2021-09-28 2022-03-01 西安电子科技大学 基于原型卷积网络的加密流量识别方法
CN114218457A (zh) * 2021-11-22 2022-03-22 西北工业大学 一种基于转发社交媒体用户表征的假新闻检测方法
CN115099888A (zh) * 2022-06-14 2022-09-23 中国矿业大学(北京) 一种基于注意力机制的用户评论有效性分析方法
CN117743698A (zh) * 2024-02-05 2024-03-22 青岛国实科技集团有限公司 基于ai大模型的网络恶意写手识别方法及系统
CN117788136A (zh) * 2023-11-24 2024-03-29 浙江孚临科技有限公司 一种基于区块链和舆情的金融风控系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110839031A (zh) * 2019-11-15 2020-02-25 中国人民解放军陆军工程大学 一种基于强化学习的恶意用户行为智能检测方法
CN111667339A (zh) * 2020-05-26 2020-09-15 吉林大学 一种基于改进递归神经网络的诽谤性恶意用户检测方法
WO2021089196A1 (en) * 2019-11-08 2021-05-14 Atos Information Technology GmbH Method for intrusion detection to detect malicious insider threat activities and system for intrusion detection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021089196A1 (en) * 2019-11-08 2021-05-14 Atos Information Technology GmbH Method for intrusion detection to detect malicious insider threat activities and system for intrusion detection
CN110839031A (zh) * 2019-11-15 2020-02-25 中国人民解放军陆军工程大学 一种基于强化学习的恶意用户行为智能检测方法
CN111667339A (zh) * 2020-05-26 2020-09-15 吉林大学 一种基于改进递归神经网络的诽谤性恶意用户检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张人之: "基于主动学习的社交网络恶意用户检测方法", 《计算机科学》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114124437A (zh) * 2021-09-28 2022-03-01 西安电子科技大学 基于原型卷积网络的加密流量识别方法
CN114218457A (zh) * 2021-11-22 2022-03-22 西北工业大学 一种基于转发社交媒体用户表征的假新闻检测方法
CN114218457B (zh) * 2021-11-22 2024-04-12 西北工业大学 一种基于转发社交媒体用户表征的假新闻检测方法
CN115099888A (zh) * 2022-06-14 2022-09-23 中国矿业大学(北京) 一种基于注意力机制的用户评论有效性分析方法
CN115099888B (zh) * 2022-06-14 2023-01-06 中国矿业大学(北京) 一种基于注意力机制的用户评论有效性分析方法
CN117788136A (zh) * 2023-11-24 2024-03-29 浙江孚临科技有限公司 一种基于区块链和舆情的金融风控系统
CN117743698A (zh) * 2024-02-05 2024-03-22 青岛国实科技集团有限公司 基于ai大模型的网络恶意写手识别方法及系统
CN117743698B (zh) * 2024-02-05 2024-05-24 青岛国实科技集团有限公司 基于ai大模型的网络恶意写手识别方法及系统

Also Published As

Publication number Publication date
CN113422761B (zh) 2023-02-10

Similar Documents

Publication Publication Date Title
CN113422761B (zh) 基于对抗学习的恶意社交用户检测方法
CN110457404B (zh) 基于复杂异质网络的社交媒体账户分类方法
CN104462592B (zh) 基于不确定语义的社交网用户行为关系推演系统及方法
CN107633444B (zh) 基于信息熵与模糊c均值聚类的推荐系统噪声过滤方法
CN105389505B (zh) 基于栈式稀疏自编码器的托攻击检测方法
CN107835113A (zh) 一种基于网络映射的社交网络中异常用户检测方法
CN112199608A (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN109672674A (zh) 一种网络威胁情报可信度识别方法
CN108647800B (zh) 一种基于节点嵌入的在线社交网络用户缺失属性预测方法
CN105719191A (zh) 多尺度空间下不确定行为语义的社交群体发现系统及方法
CN111191099B (zh) 一种基于社交媒体的用户活动类型识别方法
CN109949174A (zh) 一种异构社交网络用户实体锚链接识别方法
CN115688024A (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
Wang et al. Detecting shilling groups in online recommender systems based on graph convolutional network
CN113343077A (zh) 一种融合用户兴趣时序波动的个性化推荐方法及系统
Kumar et al. Fake news detection of Indian and United States election data using machine learning algorithm
CN111428151A (zh) 一种基于网络增速的虚假消息识别方法及其装置
Peng et al. Malicious URL recognition and detection using attention-based CNN-LSTM
CN117114105B (zh) 基于科研大数据信息的目标对象推荐方法和系统
CN114218457A (zh) 一种基于转发社交媒体用户表征的假新闻检测方法
He et al. Semi-supervised internet water army detection based on graph embedding
CN108153818B (zh) 一种基于大数据的聚类方法
CN110008975B (zh) 基于免疫危险理论的社交网络水军检测方法
CN110543601B (zh) 一种基于中智集的上下文感知兴趣点推荐方法及系统
CN111753151B (zh) 一种基于互联网用户行为的服务推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant