CN113422761A - 基于对抗学习的恶意社交用户检测方法 - Google Patents
基于对抗学习的恶意社交用户检测方法 Download PDFInfo
- Publication number
- CN113422761A CN113422761A CN202110651797.1A CN202110651797A CN113422761A CN 113422761 A CN113422761 A CN 113422761A CN 202110651797 A CN202110651797 A CN 202110651797A CN 113422761 A CN113422761 A CN 113422761A
- Authority
- CN
- China
- Prior art keywords
- content
- social
- user
- feature
- social data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 claims abstract description 89
- 238000012549 training Methods 0.000 claims abstract description 66
- 238000013528 artificial neural network Methods 0.000 claims abstract description 40
- 238000012360 testing method Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 54
- 230000006870 function Effects 0.000 claims description 28
- 238000011176 pooling Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 7
- 230000001902 propagating effect Effects 0.000 claims description 6
- 230000007480 spreading Effects 0.000 claims description 5
- 238000003892 spreading Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000013501 data transformation Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 3
- 238000010606 normalization Methods 0.000 claims 1
- 238000007781 pre-processing Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000004088 simulation Methods 0.000 description 10
- 230000002159 abnormal effect Effects 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001680 brushing effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 231100000719 pollutant Toxicity 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Hardware Design (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于对抗学习的恶意社交用户检测方法,主要解决现有恶意社交用户检测方法精度低、稳定性和可靠性差的问题。其方案包括:1)采集数据,建立不同的数据库;2)根据用户与数据库的关联,构建不同的特征图谱;3)根据用户所有发布内容的社交数据节点所对应的特征图谱,计算不同的特征偏好;4)生成训练样本集和测试样本集;5)构建神经网络;6)将训练样本的不同的特征偏好作为输入,对神经网络进行训练;7)将测试样本输入到训练好的神经网络中,得到检测结果。本发明综合考虑了内容特征偏好,关注特征偏好,传播特征偏好,提高了检测精度、稳定性和可靠性,可用于舆论分析、社区发现、虚假新闻检测、社交网络营销。
Description
技术领域
本发明属于网络安全技术领域,更进一步涉及一种恶意社交用户检测方法,可用于舆论分析、社区发现、虚假新闻检测、社交网络营销。
背景技术
由于社交网络的开放性和拥有丰富用户的数据信息,社交网络中出现了海量的恶意社交用户。恶意社交用户执行各种恶意活动,传播各种恶意信息,例如虚假新闻、散布广告和钓鱼网站。恶意社交用户通过模拟正常社交用户浏览痕迹,和其他正常社交用户进行互动,例如虚假评论,发送恶意私信,恶意互粉,恶意点赞,恶意回答问题,恶意添加好友,以试图干扰舆论和窃取正常社交用户的个人隐私,影响了正常社交用户在社交平台的体验。恶意社交用户检测是在社会网络分析中智能识别恶意社交用户而进行的信息处理技术。现在的恶意社交用户检测方法多以用户静态特征为主,恶意社交用户能够通过更全面更智能的技术手段进行伪装,使其更难以被检测。另外,恶意社交用户检测所用的数据中有噪声干扰的存在。嵌入学习过程中的过拟合问题也经常被忽略,这些会影响恶意社交用户检测模型的稳定性和可靠性。恶意社交用户检测相关研究不仅能够推动网络科学和信息科学理论上的发展,而且具有巨大的实际应用价值。譬如应用于舆论分析,阻挡恶意社交用户对某些敏感的社会或政治话题的炒作,防止公众对信息产生误解和曲解,恢复由于恶意社交用户频繁刷单导致其无法显示正常排名的热门搜索列表。在社区发现应用中,恶意社交用户的多少可以成为网络社区划分的优劣的一个明确的衡量评价指标。恶意社交用户检测可以作为虚假新闻检测应用的一环,凸显在特定发布的信息影响力差异,比较出与正常社交用户的发布的内容不同。在社交网络营销应用中,如果能及时制止恶意社交用户通过转发大量向导性文章来引导用户的判断,会提升社交网络平台的受欢迎程度。
中国人民解放军战略支援部队信息工程大学在其申请的专利文献“一种社交网络垃圾用户检测方法”(专利申请号201910218144.7,申请公开号CN 110110079 A)中公开了一种社交网络垃圾用户检测方法。该方法的实施步骤是:第一步,根据待检测用户的个人账户信息,提取待检测用户的行为特征;第二步,根据所述行为特征,利用预先构建的垃圾用户行为模型判断所述待检测用户是否为疑似垃圾用户;第三步,若所述待检测用户为疑似垃圾用户,则按照预设内容特征提取规则提取所述待检测用户的内容特征;第四步,根据所述内容特征,利用预先构建的垃圾用户内容模型确定所述待检测用户的垃圾文章比例;第五步,若所述待检测用户的垃圾文章比例大于预设阈值,则确定所述待检测用户为垃圾用户。该方法由于学习模型的线性特性和学习模型的单一性,检测不出恶意社交用户与正常社交用户的显著显式和隐式偏好差异,导致检测精度降低和表示能力不佳。
西安电子科技大学在其申请的专利文献“社交网络异常用户检测方法、系统、介质、设备、终端”(专利申请号202011226262.1,申请公开号CN 112445957 A)中公开了一种社交网络异常用户检测方法。该方法的实施步骤是:第一步,对爬取的社交网络数据进行预处理,构建社交网络邻接矩阵、社交网络属性矩阵和社交网络邻接属性矩阵;第二步,基于社交网络属性矩阵和社交网络邻接属性矩阵,利用自编码结构的深度神经网络模型得到社交网络用户低维表征矩阵,同时更新社交网络中每位用户的异常值;第三步,通过异常值评估社交网络中每位用户的异常程度,完成社交网络中异常用户的检测和识别。该方法采用的神经网络是自编码模型,由于在对抗性扰动中易受影响,即使是小的对抗性扰动也会导致神经网络错误地以高置信度预测目标,导致神经网络鲁棒性不高,从而降低恶意社交用户检测的稳定性和可靠性。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于对抗学习的恶意社交用户检测方法,以准确表示恶意社交用户特征所反映的显式和隐式偏好,提高对恶意社交用户的检测精度、检测的稳定性和可靠性。
实现本发明目的的方案是:
建立用户数据库、内容数据库、关注数据库、传播数据库,构建内容特征图谱、关注特征图谱、传播特征图谱,计算内容特征偏好、关注特征偏好、传播特征偏好,构建基于对抗学习的恶意社交用户神经网络检测模型以获得恶意社交用户检测的检测标签值。
为实现上述目的,本发明基于对抗学习的恶意社交用户检测方法,其特征在于,包括如下:
A)采集数据,建立不同的数据库:
A1)采集社交网络平台中社交数据,对采集的社交数据进行预处理,根据社交数据的发布者的基本信息,建立由用户社交数据节点组成的用户数据库ι;
A2)根据社交数据的发布内容,建立由内容社交数据节点ζn组成的内容数据库ζ;根据社交数据的发布者的关注链,建立由关注社交数据节点ξn组成的关注数据库ξ;根据社交数据的转发链、评论链、点赞链,建立由传播社交数据节点组成的传播数据库
B)根据用户与数据库的关联,构建不同的特征图谱:
B1)获取用户数据库中参与社交数据发布的用户i;
B2)根据用户的发布内容在内容数据库中查找用户所对应的内容社交数据节点ζnj,根据用户间的关注关系在关注数据库中查找用户所对应的关注社交数据节点ξnj,根据用户所涉及的转发,评论,点赞关系在传播数据库中查找用户所对应的传播社交数据节点利用特征嵌入方法,分别构建内容特征图谱αi、关注特征图谱βi、传播特征图谱γi;
C)根据用户所有发布内容的社交数据节点所对应的特征图谱,计算不同的特征偏好:
C1)统计用户发布的所有内容,得到用户所有发布内容的社交数据节点;
D)从社交网络所有用户中,随机选取1000个用户,组成训练样本集,获取训练样本的内容特征偏好,关注特征偏好,传播特征偏好;从除去训练样本集的社交网络中剩余所有用户中,随机选取500个用户,组成测试样本集,获取测试样本的内容特征偏好,关注特征偏好,传播特征偏好;
E)构建依次由采样层,卷积层,池化层,隐藏层,全连接层级联组成的神经网络,并选择集成器作为全连接层的判别函数,选择对抗训练损失作为该网络的训练误差;
F)训练神经网络:
设置初始学习率为η1,最大迭代轮次数为500,将训练样本集分为h批次输入到神经网络中,利用损失优化方法对其进行训练,直到网络的损失函数收敛或者达到最大迭代轮次数,得到训练好的神经网络;
G)将测试样本集中的每个样本内容特征偏好,关注特征偏好,传播特征偏好输入到已经训练好的神经网络中,得到测试样本集中检测标签值Q;
H)设定检测阈值P,将得到的检测标签值Q与检测阈值P进行比较,得到最终恶意社交用户检测结果:
若P>Q,则认为该用户不是恶意用户;
若P≤Q,则认为该用户是恶意用户。
本发明与现有技术相比,具有以下优点:
第一,本发明由于利用偏好建模方法得到内容特征偏好、关注特征偏好、传播特征偏好,发现正常社交用户和恶意社交用户在特征偏好模式上的显著差异,有效地解决了数据异构性和语义复杂性的问题,减少数据不平衡对检测产生的偏倚,提高检测的精度;
第二,本发明由于选择集成器作为全连接层的判别函数,扩展局部卷积结构的感受野,学习特征偏好之间的依赖关系,增加神经网络的表示能力,提高了检测的可靠性;
第三,本发明由于选择对抗训练损失作为该网络的训练误差,可使神经网络适应误分类的异常情况,减少了数据噪声的影响,且不需要预先设置领域知识,有助于增强神经网络的泛化能力,提高检测的稳定性。
附图说明
图1为本发明的实现流程图;
图2为用本发明和现有检测方法分别在两个数据集上的进行恶意社交用户检测结果的仿真图。
具体实施方式
下面结合附图对本发明的实施例和效果做进一步详细的描述。
参照图1,本实例的实现包括如下步骤:
步骤1,采集数据,建立不同的数据库。
1.1)采集社交网络平台中社交数据,对采集的社交数据依次进行数据清洗、数据变换和数据规范的预处理,得到预处理后的社交数据:
本实例采取但不限于用置零法进行数据清洗,用平滑聚集法进行数据变换,用统一法进行数据规范,即先将采集的社交数据的无效值和缺失值设置为零,再通过平滑聚集处理将设置好的社交数据转换成适用于社交数据挖掘的形式,再将转换后的社交数据转换为统一格式的社交数据;
1.2)根据预处理后的社交数据的发布者的基本信息,建立由用户社交数据节点组成的用户数据库ι;
1.3)根据预处理后的社交数据的发布内容,建立由内容社交数据节点ζn组成的内容数据库ζ;
1.4)根据预处理后的社交数据的发布者的关注链,建立由关注社交数据节点ξn组成的关注数据库ξ;
步骤2,根据用户与不同数据库的关联,构建不同的特征图谱。
2.1)获取用户数据库中参与社交数据发布的用户i;
2.3)根据用户间的关注关系在关注数据库中查找用户所对应的关注社交数据节点ξnj,利用特征嵌入方法,构建关注特征图谱βi,公式如下:
其中,ξnk表示与关注社交数据节点ξnj有链接关系的关注社交数据节点;
步骤3,根据用户所有发布内容的社交数据节点所对应的特征图谱,计算不同的特征偏好。
3.1)统计用户发布的所有内容,得到用户所有发布内容的社交数据节点;
3.2)根据社交数据节点所对应的内容特征图谱αi,利用偏好建模方法,计算内容特征偏好φi,实现如下:
其中,ω1,ω2分别表示两个数值不同的权重参数,χ1,χ2分别表示两个数值不同的偏置参数,tanh(·)表示非线性变换函数;
3.4)根据社交数据节点所对应的传播特征图谱γi,利用偏好建模方法计算传播特征偏好ψi,实现如下:
步骤4,生成训练样本集和测试样本集,获取其的特征偏好。
4.1)从社交网络所有用户中,随机选取1000个用户,组成训练样本集,按照步骤1至步骤3,获取训练样本的内容特征偏好,关注特征偏好,传播特征偏好;
4.2)从除去训练样本集的社交网络中剩余所有用户中,随机选取500个用户,组成测试样本集,按照步骤1至步骤3,获取测试样本的内容特征偏好,关注特征偏好,传播特征偏好。
本实例采取但不限于回溯法则选取用户组成训练样本集和测试样本集,即以深度优先的方式来选取样本,按选优条件向前搜索,如发现先选取的用户达不到要求,就退回一步重新选择。
步骤5,构建神经网络。
将采样层,卷积层,池化层,隐藏层,全连接层依次级联组成神经网络,并选择集成器作为全连接层的判别函数,选择对抗训练损失作为该网络的训练误差;
上述各层结构、功能与参数设置如下:
所述卷积层:采用从上至下的128个卷积子层级联组成,用以对内容采样向量关注采样向量传播采样向量进行卷积运算,得到内容卷积向量bφi,关注卷积向量传播卷积向量每个卷积子层的卷积核大小为3,步长为1,修正参数为0.2。本实例采取但不限于窗口卷积法进行卷积运算,即对内容采样向量关注采样向量传播采样向量提取其局部的特征,进行窗口长度为1的窗口卷积运算,得到内容卷积向量关注卷积向量传播卷积向量
所述池化层:采用从上至下的16个池化子层级联组成,用以对内容卷积向量关注卷积向量传播卷积向量进行均值池化运算,得到内容池化向量关注池化向量传播池化向量本实例采取但不限于序位池化法进行均值池化运算,即对内容卷积向量关注卷积向量传播卷积向量在池化域内按照激活值序位进行序位池化运算,得到内容池化向量关注池化向量传播池化向量
所述全连接层:用以计算h批次的检测标签值fh:
其中,l()表示全连接层激活函数,g()表示参数函数,mh表示h批次权重向量,θ表示目标参数,λ表示损失参数,rh-1表示h-1批次训练样本的训练误差。
步骤6,训练神经网络。
6.1)设置初始学习率为η1,最大迭代轮次数为500;
6.2)将训练样本集分为h批次输入到神经网络中,利用损失优化方法对其进行训练:
6.2.1)将训练样本集分为h批次输入到步骤5中设计的神经网络中,得到训练样本集中h批次检测标签值fh;
6.2.2)根据检测标签值fh,计算h批次训练样本的训练误差rh:
6.2.3)根据当前批次的训练误差rh和学习率ηh计算训练样本集的神经网络中卷积核参数的梯度值,根据得到的梯度值更新卷积核参数,完成一次训练;
本实例取且不限于梯度下降法更新卷积核参数,即指沿着梯度方向对参数进行更新以求解神经网络收敛的最优解;
6.2.4)判断训练样本的训练误差rh是否不再下降:
若是,则停止对该网络训练,得到训练好的神经网络;
否则,执行6.2.5);
6.2.5)判断训练轮次数是否达到最大训练轮次数500:
若是,停止对该网络的训练,得到训练好的神经网络;
否则,将训练轮次数增加1,将批次增加1,返回6.2.1)。
步骤7,对测试样本集进行检测,得到恶意社交用户检测结果。
7.1)将测试样本集中的每个样本内容特征偏好,关注特征偏好,传播特征偏好输入到已经训练好的神经网络中,得到测试样本集中检测标签值Q;
7.2)根据数据不平衡理论,设定检测阈值P,本实例取但不限于P=0.5;
7.3)将检测标签值Q与检测阈值P进行比较,得到最终恶意社交用户检测结果;
若P>Q,则认为该用户不是恶意社交用户;
若P≤Q,则认为该用户是恶意社交用户。
下面结合仿真实验,对本发明的效果做进一步的说明。
1.仿真实验条件:
本发明的仿真实验的运行环境是:处理器为Intel(R)Core(TM)i3-9100CPU@3.60GHz,内存为8.00GB,硬盘为929G,操作系统为Windows 10,编程环境为Python 3.8,编程软件为PyCharm Community Edition 2020.2.3x64。
仿真所使用的数据集为Apontador数据集和weibo数据集。Apontador数据集是由巴西著名的基于位置的社交网络采集而来的平衡数据集,其包含三类恶意社交用户,分别是产品营销广告发布者、发布内容与话题标签信息不符的内容污染者、攻击谩骂不良言论发布者。每条记录包含59个特征字段和两个分类字段。微博数据集是通过网络爬虫工具获得的数据集,爬取了每个用户的基本信息和200条发布内容以及每条的转发、点赞、评论。
2.仿真内容及其结果分析:
仿真实验1:比较本发明与现有2种检测方法的恶意社交用户检测精度。
使用的现有检测方法有以下2种:
1、根据计算取决于一组随机变量的集合的树的集成,最终结果由所有树投票产出的随机森林模型方法。
2、根据合适的参数分布的概率密度和概率分布模型,在观测到数据之后,计算后验分布以更新对参数分布的认知的贝叶斯模型方法。
仿真过程如下:
首先,使用本发明和上述现有检测2种方法,分别从Apontador数据集和weibo数据集中采集数据建立不同的数据库,根据用户与数据库的关联,构建不同的特征图谱,根据用户所有发布内容的社交数据节点所对应的特征图谱,计算不同的特征偏好,对不同的特征偏好利用各方法进行恶意社交用户检测,得到检测标签值;
其次,将各方法的检测标签值与检测阈值进行比较,得到是否为恶意社交用户的结果,根据结果统计恶意社交用户的数量Y、总可供检测的用户数量Z和候选恶意社交用户的数量R;再分别计算准确率和召回率根据准确率和召回率的计算结果,计算F1得分其中λ为平衡参数,取值为0.5,F1得分的高低可表示恶意社交用户检测精度的高低;
最后,比较各方法的F1得分,结果如图2所示,其中横轴表示不同方法,纵轴表示F1得分。
由图2可以看出,本发明标示的柱状图对应的F1得分位于现有2种方法标示的柱状图对应的F1得分的上方,即本发明的F1得分是3种方法中最高的,表明本发明的恶意社交用户检测精度高于现有的2种方法。
仿真实验2:比较本发明与现有2种正则化方法的恶意社交用户检测准确率和准确率差异程度。
使用的现有方法有以下2种:
1、根据试图减小权重矩阵的L2范数的范数正则化方法。
2、根据在实际数据点上应用小的随机扰动来生成人工数据点的局部分布平滑正则化方法。
仿真过程如下:
首先,使用本发明和上述现有2种正则化方法,分别根据Apontador数据集和weibo数据集中,采集数据建立不同的数据库,根据用户与数据库的关联,构建不同的特征图谱,根据用户所有发布内容的社交数据节点所对应的特征图谱,计算不同的特征偏好,并将其分别输入到本发明中构建的神经网络,采用不同的正则化方法对其进行训练,得到3种方法的检测标签值;
其次,将各正则化方法的检测标签值与检测阈值进行比较,得到是否为恶意社交用户的结果,根据结果统计恶意社交用户的数量Y、总可供检测的用户数量Z计算准确率根据两次实验准确率的差值计算准确率差异程度,准确率的高低可表示正则化方法的可靠性,准确率差异程度的大小可表示正则化方法的准确率的稳定性。
最后,比较各正则化方法的准确率和准确率差异程度,结果如表1所示,
表1各正则化方法的准确率和准确率差异程度
正则化方法 | 准确率% | 准确率差异程度% |
范数正则化方法 | 71.83/74.48 | 2.65 |
局部分布平滑正则化方法 | 86.27/87.69 | 1.42 |
本发明方法 | 90.00/89.24 | 0.76 |
由表1可以看出,现有2种正则化方法进行恶意社交用户的准确率较低,本发明方法较高,表明本发明的正则化方法的可靠性高于现有的2种正则化方法。现有2种正则化方法进行恶意社交用户的准确率差异程度较大,本发明方法较小,表明本发明的正则化方法的稳定性高于现有的2种正则化方法。
Claims (10)
1.一种基于对抗学习的恶意社交用户检测方法,其特征在于,包括:
A)采集数据,建立不同的数据库:
A1)采集社交网络平台中社交数据,对采集的社交数据进行预处理,根据社交数据的发布者的基本信息,建立由用户社交数据节点组成的用户数据库ι;
A2)根据社交数据的发布内容,建立由内容社交数据节点ζn组成的内容数据库ζ;根据社交数据的发布者的关注链,建立由关注社交数据节点ξn组成的关注数据库ξ;根据社交数据的转发链、评论链、点赞链,建立由传播社交数据节点组成的传播数据库
B)根据用户与数据库的关联,构建不同的特征图谱:
B1)获取用户数据库中参与社交数据发布的用户i;
B2)根据用户的发布内容在内容数据库中查找用户所对应的内容社交数据节点根据用户间的关注关系在关注数据库中查找用户所对应的关注社交数据节点根据用户所涉及的转发,评论,点赞关系在传播数据库中查找用户所对应的传播社交数据节点利用特征嵌入方法,分别构建内容特征图谱αi、关注特征图谱βi、传播特征图谱γi;
C)根据用户所有发布内容的社交数据节点所对应的特征图谱,计算不同的特征偏好:
C1)统计用户发布的所有内容,得到用户所有发布内容的社交数据节点;
D)从社交网络所有用户中,随机选取1000个用户,组成训练样本集,获取训练样本的内容特征偏好,关注特征偏好,传播特征偏好;从除去训练样本集的社交网络中剩余所有用户中,随机选取500个用户,组成测试样本集,获取测试样本的内容特征偏好,关注特征偏好,传播特征偏好;
E)构建依次由采样层,卷积层,池化层,隐藏层,全连接层级联组成的神经网络,并选择集成器作为全连接层的判别函数,选择对抗训练损失作为该网络的训练误差;
F)训练神经网络:
设置初始学习率为η1,最大迭代轮次数为500,将训练样本集分为h批次输入到神经网络中,利用损失优化方法对其进行训练,直到网络的损失函数收敛或者达到最大迭代轮次数,得到训练好的神经网络;
G)将测试样本集中的每个样本内容特征偏好,关注特征偏好,传播特征偏好输入到已经训练好的神经网络中,得到测试样本集中检测标签值Q;
H)设定检测阈值P,将得到的检测标签值Q与检测阈值P进行比较,得到最终恶意社交用户检测结果:
若P>Q,则认为该用户不是恶意社交用户;
若P≤Q,则认为该用户是恶意社交用户。
2.根据权利要求1所述的方法,其特征在于,A1)中对采集的社交数据进行预处理,是对采集的社交数据依次进行数据清洗、数据变换和数据规范,得到预处理后的社交数据。
9.根据权利要求1所述的方法,其特征在于,E)构建的神经网络,其各层结构、功能与参数设置如下:
所述卷积层:采用从上至下的128个卷积子层级联组成,用以对内容采样向量关注采样向量传播采样向量进行卷积运算,得到内容卷积向量关注卷积向量传播卷积向量每个卷积子层的卷积核大小为3,步长为1,修正参数为0.2;
所述全连接层:用以计算h批次的检测标签值fh:
其中,l()表示全连接层激活函数,g()表示参数函数,mh表示h批次权重向量,θ表示目标参数,λ表示损失参数,rh-1表示h-1批次训练样本的训练误差。
10.根据权利要求1所述的方法,其特征在于,F)中将训练样本集分为h批次输入到神经网络中,利用损失优化方法对其进行训练,实现如下:
F1)将训练样本集分为h批次输入到E)中设计的神经网络中,得到训练样本集中h批次检测标签值fh;
F2)根据检测标签值fh,计算h批次训练样本的训练误差rh:
F3)根据当前批次的训练误差rh和学习率ηh计算训练样本集的神经网络中卷积核参数的梯度值,根据得到的梯度值更新卷积核参数,完成一次训练;
F4)判断训练样本的训练误差rh是否不再下降:
若是,则停止对该网络训练,得到训练好的神经网络;
否则,执行F5);
F5)判断训练轮次数是否达到最大训练轮次数500:
若是,停止对该网络的训练,得到训练好的神经网络;
否则,将训练轮次数增加1,将批次增加1,返回F1)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110651797.1A CN113422761B (zh) | 2021-06-11 | 2021-06-11 | 基于对抗学习的恶意社交用户检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110651797.1A CN113422761B (zh) | 2021-06-11 | 2021-06-11 | 基于对抗学习的恶意社交用户检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113422761A true CN113422761A (zh) | 2021-09-21 |
CN113422761B CN113422761B (zh) | 2023-02-10 |
Family
ID=77788413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110651797.1A Active CN113422761B (zh) | 2021-06-11 | 2021-06-11 | 基于对抗学习的恶意社交用户检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113422761B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114124437A (zh) * | 2021-09-28 | 2022-03-01 | 西安电子科技大学 | 基于原型卷积网络的加密流量识别方法 |
CN114218457A (zh) * | 2021-11-22 | 2022-03-22 | 西北工业大学 | 一种基于转发社交媒体用户表征的假新闻检测方法 |
CN115099888A (zh) * | 2022-06-14 | 2022-09-23 | 中国矿业大学(北京) | 一种基于注意力机制的用户评论有效性分析方法 |
CN117743698A (zh) * | 2024-02-05 | 2024-03-22 | 青岛国实科技集团有限公司 | 基于ai大模型的网络恶意写手识别方法及系统 |
CN117788136A (zh) * | 2023-11-24 | 2024-03-29 | 浙江孚临科技有限公司 | 一种基于区块链和舆情的金融风控系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110839031A (zh) * | 2019-11-15 | 2020-02-25 | 中国人民解放军陆军工程大学 | 一种基于强化学习的恶意用户行为智能检测方法 |
CN111667339A (zh) * | 2020-05-26 | 2020-09-15 | 吉林大学 | 一种基于改进递归神经网络的诽谤性恶意用户检测方法 |
WO2021089196A1 (en) * | 2019-11-08 | 2021-05-14 | Atos Information Technology GmbH | Method for intrusion detection to detect malicious insider threat activities and system for intrusion detection |
-
2021
- 2021-06-11 CN CN202110651797.1A patent/CN113422761B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021089196A1 (en) * | 2019-11-08 | 2021-05-14 | Atos Information Technology GmbH | Method for intrusion detection to detect malicious insider threat activities and system for intrusion detection |
CN110839031A (zh) * | 2019-11-15 | 2020-02-25 | 中国人民解放军陆军工程大学 | 一种基于强化学习的恶意用户行为智能检测方法 |
CN111667339A (zh) * | 2020-05-26 | 2020-09-15 | 吉林大学 | 一种基于改进递归神经网络的诽谤性恶意用户检测方法 |
Non-Patent Citations (1)
Title |
---|
张人之: "基于主动学习的社交网络恶意用户检测方法", 《计算机科学》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114124437A (zh) * | 2021-09-28 | 2022-03-01 | 西安电子科技大学 | 基于原型卷积网络的加密流量识别方法 |
CN114218457A (zh) * | 2021-11-22 | 2022-03-22 | 西北工业大学 | 一种基于转发社交媒体用户表征的假新闻检测方法 |
CN114218457B (zh) * | 2021-11-22 | 2024-04-12 | 西北工业大学 | 一种基于转发社交媒体用户表征的假新闻检测方法 |
CN115099888A (zh) * | 2022-06-14 | 2022-09-23 | 中国矿业大学(北京) | 一种基于注意力机制的用户评论有效性分析方法 |
CN115099888B (zh) * | 2022-06-14 | 2023-01-06 | 中国矿业大学(北京) | 一种基于注意力机制的用户评论有效性分析方法 |
CN117788136A (zh) * | 2023-11-24 | 2024-03-29 | 浙江孚临科技有限公司 | 一种基于区块链和舆情的金融风控系统 |
CN117743698A (zh) * | 2024-02-05 | 2024-03-22 | 青岛国实科技集团有限公司 | 基于ai大模型的网络恶意写手识别方法及系统 |
CN117743698B (zh) * | 2024-02-05 | 2024-05-24 | 青岛国实科技集团有限公司 | 基于ai大模型的网络恶意写手识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113422761B (zh) | 2023-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113422761B (zh) | 基于对抗学习的恶意社交用户检测方法 | |
CN110457404B (zh) | 基于复杂异质网络的社交媒体账户分类方法 | |
CN104462592B (zh) | 基于不确定语义的社交网用户行为关系推演系统及方法 | |
CN107633444B (zh) | 基于信息熵与模糊c均值聚类的推荐系统噪声过滤方法 | |
CN105389505B (zh) | 基于栈式稀疏自编码器的托攻击检测方法 | |
CN107835113A (zh) | 一种基于网络映射的社交网络中异常用户检测方法 | |
CN112199608A (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN109672674A (zh) | 一种网络威胁情报可信度识别方法 | |
CN108647800B (zh) | 一种基于节点嵌入的在线社交网络用户缺失属性预测方法 | |
CN105719191A (zh) | 多尺度空间下不确定行为语义的社交群体发现系统及方法 | |
CN111191099B (zh) | 一种基于社交媒体的用户活动类型识别方法 | |
CN109949174A (zh) | 一种异构社交网络用户实体锚链接识别方法 | |
CN115688024A (zh) | 基于用户内容特征和行为特征的网络异常用户预测方法 | |
Wang et al. | Detecting shilling groups in online recommender systems based on graph convolutional network | |
CN113343077A (zh) | 一种融合用户兴趣时序波动的个性化推荐方法及系统 | |
Kumar et al. | Fake news detection of Indian and United States election data using machine learning algorithm | |
CN111428151A (zh) | 一种基于网络增速的虚假消息识别方法及其装置 | |
Peng et al. | Malicious URL recognition and detection using attention-based CNN-LSTM | |
CN117114105B (zh) | 基于科研大数据信息的目标对象推荐方法和系统 | |
CN114218457A (zh) | 一种基于转发社交媒体用户表征的假新闻检测方法 | |
He et al. | Semi-supervised internet water army detection based on graph embedding | |
CN108153818B (zh) | 一种基于大数据的聚类方法 | |
CN110008975B (zh) | 基于免疫危险理论的社交网络水军检测方法 | |
CN110543601B (zh) | 一种基于中智集的上下文感知兴趣点推荐方法及系统 | |
CN111753151B (zh) | 一种基于互联网用户行为的服务推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |