CN114301626A - 基于同质性预测的有向社交网络虚假用户检测方法 - Google Patents

基于同质性预测的有向社交网络虚假用户检测方法 Download PDF

Info

Publication number
CN114301626A
CN114301626A CN202111424645.4A CN202111424645A CN114301626A CN 114301626 A CN114301626 A CN 114301626A CN 202111424645 A CN202111424645 A CN 202111424645A CN 114301626 A CN114301626 A CN 114301626A
Authority
CN
China
Prior art keywords
edge
potential function
node
homogeneity
social network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111424645.4A
Other languages
English (en)
Other versions
CN114301626B (zh
Inventor
刘粉林
卢昊宇
巩道福
李震宇
谭磊
杨忠信
杨春芳
李艳
刘峰
刘宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Original Assignee
Information Engineering University of PLA Strategic Support Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN202111424645.4A priority Critical patent/CN114301626B/zh
Publication of CN114301626A publication Critical patent/CN114301626A/zh
Application granted granted Critical
Publication of CN114301626B publication Critical patent/CN114301626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于同质性预测的有向社交网络虚假用户检测方法,包括:首先将有向社交网络中每个节点的标签与一个二元随机变量相关联,并通过成对马尔可夫随机场对所有变量的联合分布进行建模;所述联合分布为节点势函数和边势函数的乘积;所述边势函数由双向边势函数和单向边势函数组成;而后基于给定的训练集,使用LBP来估计节点的后验概率分布以进行分类或排序,从而检测出有向社交网络的虚假用户;并且在LBP迭代期间,分别为边的每个良性尾部节点和每个Sybil头部节点维护一对修正因子。本发明的边势函数自适应地调节了用于估计同质性的边权重,且纳入方向敏感机制,以更好地捕捉关注者和被关注者之间的非对称相互作用。

Description

基于同质性预测的有向社交网络虚假用户检测方法
技术领域
本发明属于网络安全技术领域,尤其涉及一种基于同质性预测的有向社交网络虚假用户检测方法。
背景技术
虽然在社交网络中有着巨大的影响力网络名人追随者众多,但并非所有这些追随者都是屏幕另一边的真实人类。据报道,9%-15%的活跃Twitter用户是机器人。社交网络中的恶意攻击者通过创建和控制此类机器人或Sybil,进行垃圾邮件、网络钓鱼诈骗、引荐流量或操纵舆论,从而引发一系列安全问题和信任危机。
为了对抗社交网络中的这种乱象,多种Sybil检测方法应运而生。其中,基于特征的和基于结构的方法是主流。基于特征的方法使用目标用户的各种信息,如用户资料、IP地址以及各种行为和内容特征来检测Sybil。而基于结构的方法仅利用社交图的全局结构,其检测依赖于利用实体之间的相互关系(例如,Facebook上的“朋友”关系或Twitter上的“关注-被关注”关系)。因此,近年来基于结构的方法以其相对轻量的算法设计和良好的可移植性而被广泛应用。
基于结构的方法通常从训练集中的一些已经标记为“Sybil”或“良性用户”的节点开始,沿着节点之间的社交关系迭代地传播节点的影响、信任度或声誉,直到整个网络收集到足够的信息进行标签预测。大多数基于结构的方法可以分为基于随机游走(RW)的和基于环路信任传播(LBP)的方法。不计空间和时间效率,基于LBP的方法总体上准确率优于基于RW的方法,因为它们可以同时利用标记的良性用户和Sybil两方面的数据,并且其非线性特性赋予了对标签噪声的鲁棒性。理论上,基于结构的Sybil检测方法的一个基本假设是良性社区和Sybil社区之间是稀疏连接的,因此节点之间的关系整体上也遵循同质性,即相邻节点倾向于共享相同的标签。
然而,现有的基于LBP的方法存在以下问题:
1)现有方法假设全局边权重(e.g.,GANG[文献1:Binghui Wang,Neil ZhenqiangGong,and Hao Fu.2017.GANG:Detecting fraudulent users in online socialnetworks via guilt-by-association on directed graphs.In 2017IEEEInternational Conference on Data Mining(ICDM).IEEE,465–474.])或预定义权重(e.g.,SybilSCAR-D[文献2:Binghui Wang,Le Zhang,and Neil ZhenqiangGong.2017.SybilSCAR:Sybil detection in online social networks via local rulebased propagation.In IEEE INFOCOM 2017-IEEE Conference on ComputerCommunications.IEEE,1–9.])作为节点之间的同质强度,而这种假设要么忽略了边的局部同质差异,要么无法表征行为节点模式。一个明显的例子是,同样都是良性用户,但两人可能有不同的关注偏好,因此与之相关边的同质性也不同。
2)现有方法主要是为无向(对称)社交图模型设计的,而许多现实世界的平台,如Twitter,通过“关注”、“转发”或“点赞”这些不对称的关系建立网络。直接应用这些方法不能充分利用边信息,甚至由于单向边的在良性和Sybil社区之间的稀疏性不显著而导致失效。文献1针对有向图设计了基于LBP的方法,但在消息传递过程中,其边势函数仍然为有向的一对节点之间的互相传递相同的值。
发明内容
本发明针对现有基于LBP的方法忽略了边的局部同质差异、无法表征行为节点模式以及不能充分利用边信息的问题,提出一种基于同质性预测的有向社交网络虚假用户检测方法。
为了实现上述目的,本发明采用以下技术方案:
一种基于同质性预测的有向社交网络虚假用户检测方法,包括:
首先将有向社交网络中每个节点的标签与一个二元随机变量相关联,并通过成对马尔可夫随机场对所有变量的联合分布进行建模;所述联合分布为节点势函数和边势函数的乘积;所述边势函数由双向边势函数和单向边势函数组成;
而后基于给定的训练集,使用LBP来估计节点的后验概率分布以进行分类或排序,从而检测出有向社交网络的虚假用户;并且在LBP迭代期间,分别为边的每个良性尾部节点和每个Sybil头部节点维护一对修正因子。
进一步地,所述双向边势函数为:
Figure BDA0003377795380000031
式中,
Figure BDA0003377795380000032
其中,
Figure BDA0003377795380000033
表示双向边势函数;xu、xv分别表示与节点u和v标签相对应的二元随机变量;wo表示同质强度;ET表示训练集T的边集;cbt(u)、csh(v)分别表示节点u和v的修正因子。
进一步地,所述单向边势函为:
Figure BDA0003377795380000034
Figure BDA0003377795380000035
其中
Figure BDA0003377795380000036
表示单向边势函数;xt、xh分别表示与节点t和h标签相对应的二元随机变量;wo表示同质强度;cbt(t)、csh(h)分别表示节点t和h的修正因子;wst、wbh分别表示:
wst
Figure BDA0003377795380000037
wbh
Figure BDA0003377795380000038
进一步地,所述修正因子为:
Figure BDA0003377795380000041
Figure BDA0003377795380000042
其中,Nout(t)表示节点t的出边邻居集;Nin(t)、Nin(h)分别表示节点t和h的入边邻居集;post(·)是从上次迭代计算的后验概率分布。
与现有技术相比,本发明具有的有益效果:
本发明提出了一种基于同质性预测的有向社交网络虚假用户检测方法,首先将社交网络中每个节点的标签与一个二元随机变量相关联,并通过成对马尔可夫随机场(pMRF)对所有变量的联合分布进行建模;而后基于给定的训练集,使用LBP来估计节点的后验概率分布以进行分类或排序。通过边势函数的独特设计控制有向边上的信任传播来适应有向图,该设计集成了节点的关注偏好和边的方向性。具体来说,边势函数自适应地调节了用于估计同质性的边权重,该权重将随着置信度传播而迭代更新;此外,本发明的边势函数纳入方向敏感机制,以更好地捕捉关注者和被关注者之间的非对称相互作用。
并且分析和评估了本发明方法在不同条件下的性能,包括不同的参数设置、攻击稀疏性和标签噪声。实验表明,收敛性、准确性和鲁棒性在合成社交网络上都表现良好。进一步的评估将本发明方法在大规模Twitter数据集上与多种先进方法进行比较。结果表明,在分类和排名结果方面,本发明方法的AUC明显优于现有方法。
附图说明
图1为本发明实施例一种基于同质性预测的有向社交网络虚假用户检测方法的基本流程图;
图2为Sybil攻击模型示意图;
图3为预测具有良性尾部或Sybil头部的关注和被关注行为示例图;
图4为不同攻击边数下的分类准确率折线图;
图5为模型参数的影响折线图;
图6为不同参数配置下的检测性能折线图;
图7为不同方法的AUC柱状图;
图8为前80K正响应节点的每10K间隔中的Sybil比例折线图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的解释说明:
如图1所示,一种基于同质性预测的有向社交网络虚假用户检测方法,包括:
首先将有向社交网络中每个节点的标签与一个二元随机变量相关联,并通过成对马尔可夫随机场对所有变量的联合分布进行建模;所述联合分布为节点势函数和边势函数的乘积;所述边势函数由双向边势函数和单向边势函数组成;
而后基于给定的训练集,使用LBP来估计节点的后验概率分布以进行分类或排序,从而检测出有向社交网络的虚假用户;并且在LBP迭代期间,分别为边的每个良性尾部节点和每个Sybil头部节点维护一对修正因子。
具体地,基于结构的虚假用户检测通常指仅使用社交图结构数据进行虚假用户检测。我们将社交图建模为G(V,E),其中我们将每个用户作为节点u∈V,将用户u和v之间的有向关系作为有向边(u,v)。例如,在Twitter上“关注”、“转推”或在Facebook上发送好友请求可以被视为形成从一个用户到另一个用户的直接关系。我们将边分为单向边(例如,图2中的(b1,b2))和双向边(例如,图2中的(b1,s1))。请注意,我们区别对待传入邻居、传出邻居和双向邻居。
G中的每个节点都应该被标记为Sybil(即虚假用户)或良性,而我们只知道一部分节点的信息,即由一些标记的Sybil和良性节点组成的标记训练集T={Ls,Lb}。基于结构的Sybil检测的目标是用训练集T预测那些剩余的未标记节点。
图2显示了社交网络中的Sybil攻击,一个在社交网络中被Sybil攻击的良性社区,其中b1,b2是被s1,s2攻击的妥协节点,离群节点b3只有指向良性社区的出边。通常Sybil社区和良性社区是G的相对稠密的子图,我们称其为Sybil区域和良性区域。并且希望良性和Sybil用户是稀疏连接的。换言之,如果良性和Sybil区域之间的边密度相对它们之间的边小,那么这种相对的稀疏性可以通过两个相邻节点共享相同的标签的趋势进行量化,即同质性。但值得注意的是,有效的Sybil攻击可以显着削弱同质性(例如,图2中的节点s1)。表1包含了本发明所用到的符号含义。
表1:本发明符号
Figure BDA0003377795380000051
Figure BDA0003377795380000061
为更详细地阐述本发明的改进所在,简要介绍基于LBP的Sybil检测模型。在本节中,我们简要回顾基于LBP的方法的基本组成部分,这些方法首先将社交图建模为成对马尔可夫随机场(pMRF),而后通过环路信任传播(LBP)算法学习节点的后验概率。
a.将社交图建模为pMRF
我们将每个节点u∈V对应一个二进制随机变量xu,其状态可以是-1或1,分别对应节点标签是良性或是Sybil。pMRF将所有二元随机变量x={xu}u∈V的联合概率分布建模为P(x)。该联合分布可分解为一系列一元和二元势函数的乘法:
Figure BDA0003377795380000062
其中
Figure BDA0003377795380000063
是用于概率归一化的配分因子。节点势函数φv(xv)和边势函数
Figure BDA0003377795380000064
包含了关于节点和边的先验知识。节点势函数φv(xv)基本上刻画了节点xv的先验分布。例如,如果v已经确定是Sybil了,那么就给v指定一个接近1(并非1,因为假设存在了标签噪声)的概率qv,例如,φv(xv=1)=qvv(xv=-1)=1-qv。但如果我们对v的标签一无所知,那就索性设φv(xv=1)=0.5。边势函数
Figure BDA0003377795380000065
部分地反映了xu和xv的联合分布。例如,在最初版本的基于LBP的检测方法中
Figure BDA0003377795380000066
编码了u和v的耦合强度。具体来讲,当xuxv=1时(即xu和xv状态相同时),
Figure BDA0003377795380000067
取一个预定义的,大小在0.5到1之间的同质性强度wuv,该值的大小表示xu与xv取值相同的概率。类似地,当xuxv=-1时,
Figure BDA0003377795380000071
应当取值xu和xv的异质性强度,即1-wuv
原始版本的LBP方法有以下对势函数的正式表述:
Figure BDA0003377795380000072
Figure BDA0003377795380000073
通过根据关于边和节点的先验知识设置适当的pMRF参数(例如wuv,qv,v∈T),然后利用LBP算法来估计未标记节点∑x∈V\uP(xu)作为其后验分布P(xu=S|xT),记为pu,由此我们可以获得节点成为Sybil进行分类或排序的概率估计。
b.通过LBP算法学习pMRF的边缘分布
信任传播是相邻变量节点迭代交换消息的过程。经过足够的迭代次数,这些消息交换收敛后,可估计所有变量的边缘概率。pMRF上的LBP算法可以概括为以下两步,即更新消息直到收敛,然后为每个节点计算信任,即后验概率。
1.在迭代中从u发送到v的消息是:
Figure BDA0003377795380000074
它总结了从u接收到的消息,同时涵盖了节点u和边(u,v)的先验信息。当
Figure BDA0003377795380000075
Figure BDA0003377795380000076
之间的差异可以忽略不计时,消息传递过程停止。
2.对于每个节点u,边缘概率分布可以通过从其邻居接收到的所有收敛消息的聚合来估计:
Figure BDA0003377795380000077
其中
Figure BDA0003377795380000078
是关于xv状态的累加,用于概率归一化。
本发明的一种基于同质性预测的有向社交网络虚假用户检测方法(简称为SybilHP)基于LBP框架推导出更精细的建模以适应有向社交图。首先,我们介绍在有向图中关于同质性的一些直觉,并将这些直觉量化为条件概率作为合理参数的初值估计。其次,我们提出了在信念传播过程中自适应调整这些参数的修正因子。最后,我们将这些估计合并到一个新的边势函数中,并展示SybilHP的完整算法。
3.1重述同质性和边势参数的初始估计
在本节中,我们将介绍SybilHP对与双向边和单向边关联的节点对的刻画。对于双向边(u,v),遵循公式3中定义的原始
Figure BDA0003377795380000081
设计,我们还采用表示同质强度的单个参数wo来描述节点的共生关系。毕竟,相互关注的关系自然意味着节点之间具有较强的同质性。此外,如果训练集T有足够多的紧密链接的标记节点,并且它们张成G的一个联通子图,表示为GT=(VT,ET),那么就可以通过邻居节点中有相同标签的邻居的比例来估计
Figure BDA0003377795380000082
的合理同质强度wo
Figure BDA0003377795380000083
对于单向节点(t,h),其中t是尾部,h是头部,此时公式3中定义的
Figure BDA0003377795380000084
不再适用。因为在不对称关系中,t的不同状态应对h的状态预测产生不同影响,反之亦然。因此我们考虑条件概率分布P(xh|xt)和P(xt|xh)来捕捉这些不对称关系:
首先,它们可以部分反映xt,xh的联合分布,因为P(xh|xt)∝P(xt,xh)和P(xt|xh)∝P(xt,xh)。此外,BP让变量相互传递消息以交换他们对彼此的信念,因此在边上有两种消息:从关注者t到被关注者h的消息,以及从被关注者h到关注者t的消息,两者分别对应了P(xh|xt)和P(xt|xh)。
具体来说,我们对这些分布有以下初值预测。首先是当给定尾节点状态时,预测头节点状态:
P(xh|xt=1):如果给定的t是一个关注了h的Sybil,那么很难推断h的状态,因为在Twitter上发起关注关系(以及大多数基于“关注”的社交网络)不需要双向认证。然而,由于大多数Sybil是集群控制的,我们假设这些Sybil共享相似的“关注模式”。如果训练集T在其张成的子图GT=(VT,ET)中有足够多的连接相对稠密的标记节点,那么我们可以通过计算与另一个Sybil链接的Sybil的出边的比例来估计P(xh=1|xt=1):
Figure BDA0003377795380000091
将其记作wst,其中'st'表示Sybil尾节点,即某条边的尾部节点是Sybil时,对该边的同质性强度估计。
P(xh|xt=-1):对于良性t,我们有很大把握说h也是良性的,其置信度与wo定义的同质强度一样高(即P(xh=1|xt=-1)≈wo),因为人类用户天生具有分辨Sybil的能力,会更倾向于关注良性节点。
另一方面,给定头部状态时的尾节点预测如下:
P(xt|xh=-1):如果给定的良性h被未知的t关注,由于与P(xh|xt=1)中类似的原因,我们无法对其关注者给出明确的估计。我们同样寄期望于一个连接较为稠密的训练集:
Figure BDA0003377795380000092
并将此记为wbh,'bh'表示良性头部,即某条边的头部节点是良性时,对该边的同质性强度估计。
P(xt|xh=1):如果sybilh被未知t关注,那么我们有与wo相同的把握说t也是Sybil,即P(xt=1|xh=1)≈wo。因为大多数Sybil几乎不会被人类用户主动关注。
P(xh|xt)和P(xt|xh)的所有这些初始值汇总在表1中。
表2:P(xh|xt)和P(xt|xh)的初值
Figure BDA0003377795380000093
在接下来的部分中,通过设计更精细的势函数来进一步改进消息传递过程中的这些初始预测。
3.2边势参数修正系数
为了根据节点的偏好进一步校正我们在上一节中定义的参数,在LBP迭代期间,我们为每个良性尾部t维护一个修正因子cbt(t),为每个Sybil头部节点h维护个修正因子csh(h)。
Figure BDA0003377795380000101
Figure BDA0003377795380000102
其中Nout(t)是t的出边邻居集,Nin(h)是h的入边邻居集。请注意,这里的计数包括了双向邻居。post(·)是从上次迭代计算的后验概率分布。
图3展示了预测具有良性尾部或Sybil头部的关注和被关注行为。根据其记录,良性尾部t可能会受到另一次Sybil攻击的影响。相应地,Sybil头部h也可以以很小的代价再吸引一个良性用户。修正因子cbt(t)衡量良性用户t抵抗Sybil攻击的能力。这个想法来自如图3所示的观察:如果良性用户已经关注了一定数量的Sybils,那么有很大的把握说他/她会再次关注。类似地,csh(h)衡量Sybilh诱导良性用户妥协的能力。在LBP的每次迭代中,cbt(t)和csh(h)将被更新并用于调整边势函数中的参数。在下一节中,我们将对边势函数中的参数实施校正,以根据节点的特征调整信任传播的强度。
3.3重新定义势函数
最后,我们将3.1和3.2得出的结果整合到我们的边势函数设计中。
如3.1中所述,对于双向边,我们使用修正因子修改的强度wo
Figure BDA0003377795380000103
校正因子设计的动机之一是出于典型的用户行为,即“回关(followback)”[followback]。“出于礼貌或好奇而回关”是大多数妥协边产生的原因。校正因子用于削弱对“糊涂”的良性节点的基于同质性的推理,并增强对“精巧”的Sybil节点的基于异质性的推理。
对于单向边(t,h),考虑到LBP算法中的消息传递是双向的,我们根据表2中的条件概率估计使我们的潜在函数对方向敏感。具体来说,我们把t对h的推断[BP],即P(h∣t)作为t传递给h的消息。相应地,从h到t的推理消息为P(t∣h)。然后我们引入修正因子来适应节点的特性。
具体地,我们有如下单项边(有向边)势函数。
当从尾部t向有向边的头部h发送消息时,我们有基于P(h|t)的
Figure BDA0003377795380000111
Figure BDA0003377795380000112
基于P(t|h)的从头部h到t的消息
Figure BDA0003377795380000113
Figure BDA0003377795380000114
综上所述,我们有以下方向敏感的边势函数设计:
Figure BDA0003377795380000115
pMRF模型集成了提出的
Figure BDA0003377795380000116
以及LBP算法,最终构成SybilHP,该算法返回图G中每个节点是Sybil的后验概率,用于进一步的分类或排序任务。算法1为SybilHP的伪代码。
Figure BDA0003377795380000117
Figure BDA0003377795380000121
为验证本发明效果,进行如下实验:
4.1实验设置
数据集描述:
1)含合成Sybil有向社交网络Pokec:
由于实验需要具含有各种比例攻击边的社交网络,我们基于真实的社交图图(即directed-Pokec[文献3:Jure Leskovec and Andrej Krevl.2014.SNAP Datasets:Stanford Large Network Dataset Collection.http://snap.stanford.edu/data.])生成合成社交图。具体地,我们从Pokec中提取一个包含10,000个节点和90,065条边的连通子图作为良性区域,然后我们将良性区域的副本作为Sybil区域,并在两个区域之间随机添加(双向、单向)攻击边。如果不特别指定,以下实验基于在两个区域之间加1000条单向攻击边和500条双向攻击边。我们保留100个Sybil和100个良性用户作为训练集并在整个社交图上进行测试。
2)含有真实Sybil的推特数据集:
我们从文献4[Haewoon Kwak,Changhyun Lee,Hosung Park,and SueMoon.2010.What isTwitter,a social network or a news media?.In Proceedings ofthe 19th international conference on World wide web.591–600.]中提取了一个具有269,640个节点和6,818,501条边的Twitter关注-被关注图,并从文献2中获得了真实标签。其中178377为良性,91263为Sybil。我们从中分出9000个Sybil和17000个良性用户(约10%)作为训练集,并在整体社交图上进行测试。
对比方法:我们将SybilHP与基于有向图的方法GANG(包括矩阵版本和基本版本)(文献1)以及其他两种基于LBP的方法SybilSCAR(文献2)和SybilBelief(文献5NeilZhenqiang Gong,Mario Frank,and Prateek Mittal.2014.Sybilbelief:Asemi-supervised learning approach for structure-based sybil detection.IEEETransactions on Information Forensics and Security 9,6(2014),976–987.)进行比较。对于这些基于无向图的方法,我们通过仅默认保留那些双向边将我们的有向图转换为无向图,注意,这会导致许多节点变得孤立并且无法参与LBP过程。
参数设置:对于SybilHP,我们将节点为Sybil、良性和未标记的先验概率分别设置为0.9、0.1和0.5,这也是GANG、SybilSCAR和SybilBelief的作者建议的;为Twitter数据分配wo=0.99,wst=0.75,wbh=0.75,并设置LBP迭代次数iter=5。对于GANG,设置
Figure BDA0003377795380000131
(即同质强度w=0.51),按照作者关于适配Twitter的建议设定参数。值得注意的是,我们还为4.2.2中的Twitter数据集采用了具有优化参数(w=0.63)的基本版本的GANG。也按照原文推荐的配置设置了SybilSCAR和SybilBelief的参数。
作为一种可实施方式,我们在Python 3.8中实现了SybilHP。为了进行适当的对比实验,我们还将GANG、SybilSCAR、SybilBelief的原始C++代码(来自作者)移植到Python。
4.2实验结果
4.2.1评估SybilHP
我们首先简要评估SybilHP在不同条件下的性能,包括攻击边密度、噪声标签和参数设置。
攻击边的影响:我们以2:1的比例添加不同数量的单向攻击边、双向边(妥协边)。图4中显示了随着攻击边数量的增加,检测准确率下降,at表示单向攻击边的数量,bi表示双向攻击边的数量。这里我们省略了召回率和准确率,因为这两个指标与准确率表现几乎完全相同。我们在这里只展示SybilHP和GANG的原因与此相同,调参后各种方法之间的性能差异可以忽略不计,在同一图中绘制会造成混叠。
标签噪声的影响:在包含错误标记的训练集的情况下,基于LBP的方法对标签噪声具固有的鲁棒性。图5显示了训练集中不同比例的错误标签对召回率的影响,我们发现与SybilSCAR和GANG相比,SybilBelief和SybilHP对标签噪声表现出更强的鲁棒性,这可能是因为它们的非线性带来的优势。
模型参数的影响:SybilHP具有三个可调参数wo、wbh和wst。我们通过对有向Twitter数据集进行变量控制来评估这些参数的不同配置。图6显示了当我们改变其中一个参数时检测性能的变化。请注意,精度、召回率和准确率的绝对大小不具对比参考意义,因为其他参数是固定的。
我们观察到存一些在精度和召回率之间有很好的权衡的参数选择,它们与我们在3.1中的估计的基本一致(例如,wbh≈0.75)。
4.2.2真实推特数据集对比实验
整体分类和排序性能:由于基于LBP的检测方法估计每个节点的后验概率,我们可以按节点是Sybil的后验概率按降序对节点进行排序。表3显示了与其他三种先进的Sybil检测方法相比的整体分类性能。我们将接收器操作特征曲线下的面积(AUC)作为排名的评估指标,它可以解释为在测试数据集中随机采样的Sybil节点排名高于随机采样的良性节点的概率。结果表明SybilHP显著优于所有比较的方法,图7显示了AUC与其他三种方法相比的整体排名性能。
表3分类效能
方法 精确率PR 召回率RC 准确率ACC
SYBILBELIEF 0.873 0.501 0.806
SYBILSCAR 0.905 0.508 0.815
GANG_MATRIX 0.798 0.425 0.769
GANG_BASIC 0.757 0.808 0.847
SYBILHP 0.908 0.797 0.904
排名靠前的节点中的Sybil节点:由于节点的排名可以作为优先级列表,由系统或人工进行进一步的检查和验证,因此排名靠前的节点的准确性很重要,因为将只考虑他们可以节约对其他大多数节点额外的人工检测成本。因此,我们进一步比较了前90K正响应节点的不同部分中Sybil的比例。具体来说,我们将top-80K节点(因为数据集只包含91K的Sybil)分成10个区间,并计算每个区间的Sybil数量。图8显示了在每个10K间隔中检测到的Sybils的分布。对于GANG_matrix、SybilSCAR和SybilBelief,我们可以观察到在间隔50k-60k处明显下降,而本发明SybilHP在此区间继续发挥其优势。
综上,本发明提出的SybilHP,一种基于同质性预测的有向社交网络虚假用户检测方法,该方法针对具有自适应同质预测的有向社交网络进行了优化。所提出的方法具有一种基于MRF的新边势函数,它将迭代边权重估计纳入LBP,并通过方向敏感的势函数设计赋予在边上传递的消息具有方向性。我们使用大型Twitter数据集将SybilHP与最先进的基于结构的检测方法进行比较,结果表明SybilHP具有卓越的性能。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于同质性预测的有向社交网络虚假用户检测方法,其特征在于,包括:
首先将有向社交网络中每个节点的标签与一个二元随机变量相关联,并通过成对马尔可夫随机场对所有变量的联合分布进行建模;所述联合分布为节点势函数和边势函数的乘积;所述边势函数由双向边势函数和单向边势函数组成;
而后基于给定的训练集,使用LBP来估计节点的后验概率分布以进行分类或排序,从而检测出有向社交网络的虚假用户;并且在LBP迭代期间,分别为边的每个良性尾部节点和每个Sybil头部节点维护一对修正因子。
2.根据权利要求1所述的基于同质性预测的有向社交网络虚假用户检测方法,其特征在于,所述双向边势函数为:
Figure FDA0003377795370000011
式中,
Figure FDA0003377795370000012
其中,
Figure FDA0003377795370000013
表示双向边势函数;xu、xv分别表示与节点u和v标签相对应的二元随机变量;wo表示同质强度;ET表示训练集T的边集;cbt(u)、csh(v)分别表示节点u和v的修正因子。
3.根据权利要求2所述的基于同质性预测的有向社交网络虚假用户检测方法,其特征在于,所述单向边势函为:
Figure FDA0003377795370000014
Figure FDA0003377795370000015
其中
Figure FDA0003377795370000021
表示单向边势函数;xt、xh分别表示与节点t和h标签相对应的二元随机变量;wo表示同质强度;cbt(t)、csh(h)分别表示节点t和h的修正因子;wst、wbh分别表示:
wst
Figure FDA0003377795370000022
wbh
Figure FDA0003377795370000023
4.根据权利要求3所述的基于同质性预测的有向社交网络虚假用户检测方法,其特征在于,所述修正因子为:
Figure FDA0003377795370000024
Figure FDA0003377795370000025
其中,Nout(t)表示节点t的出边邻居集;Nin(t)、Nin(h)分别表示节点t和h的入边邻居集;post(·)是从上次迭代计算的后验概率分布。
CN202111424645.4A 2021-11-26 2021-11-26 基于同质性预测的有向社交网络虚假用户检测方法 Active CN114301626B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111424645.4A CN114301626B (zh) 2021-11-26 2021-11-26 基于同质性预测的有向社交网络虚假用户检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111424645.4A CN114301626B (zh) 2021-11-26 2021-11-26 基于同质性预测的有向社交网络虚假用户检测方法

Publications (2)

Publication Number Publication Date
CN114301626A true CN114301626A (zh) 2022-04-08
CN114301626B CN114301626B (zh) 2023-05-12

Family

ID=80965946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111424645.4A Active CN114301626B (zh) 2021-11-26 2021-11-26 基于同质性预测的有向社交网络虚假用户检测方法

Country Status (1)

Country Link
CN (1) CN114301626B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140317736A1 (en) * 2013-04-23 2014-10-23 Telefonica Digital Espana, S.L.U. Method and system for detecting fake accounts in online social networks
CN109472712A (zh) * 2018-10-12 2019-03-15 天津大学 一种基于结构特征强化的高效马尔可夫随机场社团发现方法
CN111259962A (zh) * 2020-01-17 2020-06-09 中南大学 一种针对时序社交数据的Sybil账号检测方法
CN111800421A (zh) * 2020-07-06 2020-10-20 东北大学 一种基于隐马尔科夫模型的车联网入侵检测系统
CN112839025A (zh) * 2020-11-26 2021-05-25 北京航空航天大学 基于节点关注和转发特征的Sybil攻击检测方法和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140317736A1 (en) * 2013-04-23 2014-10-23 Telefonica Digital Espana, S.L.U. Method and system for detecting fake accounts in online social networks
CN109472712A (zh) * 2018-10-12 2019-03-15 天津大学 一种基于结构特征强化的高效马尔可夫随机场社团发现方法
CN111259962A (zh) * 2020-01-17 2020-06-09 中南大学 一种针对时序社交数据的Sybil账号检测方法
CN111800421A (zh) * 2020-07-06 2020-10-20 东北大学 一种基于隐马尔科夫模型的车联网入侵检测系统
CN112839025A (zh) * 2020-11-26 2021-05-25 北京航空航天大学 基于节点关注和转发特征的Sybil攻击检测方法和电子设备

Also Published As

Publication number Publication date
CN114301626B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
Zhou et al. Deeplink: A deep learning approach for user identity linkage
US20200356858A1 (en) System and method for machine learning architecture with privacy-preserving node embeddings
CN106649659B (zh) 一种面向社交网络的链接预测系统及方法
Myers et al. On the convexity of latent social network inference
CN110334742B (zh) 一种用于文档分类的基于强化学习的通过添加虚假节点的图对抗样本生成方法
Huang et al. Resilient routing mechanism for wireless sensor networks with deep learning link reliability prediction
Keikha et al. Influence maximization across heterogeneous interconnected networks based on deep learning
US20150188941A1 (en) Method and system for predicting victim users and detecting fake user accounts in online social networks
Ahmed et al. Sampling-based algorithm for link prediction in temporal networks
CN111787000B (zh) 网络安全评估方法及电子设备
Belenguer et al. A review of federated learning in intrusion detection systems for iot
Ambareesh et al. HRDSS-WMSN: a multi-objective function for optimal routing protocol in wireless multimedia sensor networks using hybrid red deer salp swarm algorithm
CN110322003B (zh) 一种用于文档分类的基于梯度的通过添加虚假节点的图对抗样本生成方法
Usman et al. Toward trust based protocols in a pervasive and mobile computing environment: A survey
US20210329026A1 (en) Reconstructing missing complex networks against adversarial interventions
CN115660147A (zh) 一种基于传播路径间与传播路径内影响力建模的信息传播预测方法及系统
Li et al. A detection mechanism on malicious nodes in IoT
CN104484365B (zh) 一种多源异构在线社会网络中网络主体之间社会关系的预测方法与系统
Ninu An intrusion detection system using exponential Henry gas solubility optimization based deep neuro fuzzy network in MANET
Ma et al. Iterative expectation maximization for reliable social sensing with information flows
Rohini et al. Intrusion detection system with an ensemble learning and feature selection framework for IoT networks
Shen et al. Quantal Response Equilibrium‐Based Strategies for Intrusion Detection in WSNs
Yao et al. Beware of what you share: Inferring user locations in Venmo
CN116628911A (zh) 基于图神经网络的信任评估方法
CN116595467A (zh) 一种基于动态加权图卷积的异常用户检测方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant