CN113724035B - 一种基于特征学习和图推理的恶意用户检测方法 - Google Patents

一种基于特征学习和图推理的恶意用户检测方法 Download PDF

Info

Publication number
CN113724035B
CN113724035B CN202110861596.4A CN202110861596A CN113724035B CN 113724035 B CN113724035 B CN 113724035B CN 202110861596 A CN202110861596 A CN 202110861596A CN 113724035 B CN113724035 B CN 113724035B
Authority
CN
China
Prior art keywords
commodity
graph
user
node
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110861596.4A
Other languages
English (en)
Other versions
CN113724035A (zh
Inventor
曹杰
郭翔
丁达
陈蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202110861596.4A priority Critical patent/CN113724035B/zh
Publication of CN113724035A publication Critical patent/CN113724035A/zh
Application granted granted Critical
Publication of CN113724035B publication Critical patent/CN113724035B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Finance (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于特征学习和图推理的恶意用户检测方法,首先根据用户序列来衡量产品的可疑度,然后根据产品的可疑度间接衡量每个用户的可疑度,接着从产品可疑度的角度,提出相关的新特征并结合筛选出的适用于这类新型特征的恶意用户;另一方面,提出同构图假设,构建用户‑用户图,融合图神经网络的特征学习和成对马尔可夫的标签传播方法,建立统一的目标函数进行迭代优化,进行图节点的特征学习和节点标签推理,从而完成恶意用户检测。

Description

一种基于特征学习和图推理的恶意用户检测方法
技术领域
本发明涉及恶意用户检测技术领域,主要涉及一种基于特征学习和图推理的恶意用户检测方法。
背景技术
近年来,网络上出现了一种新型的恶意用户,他们通过合作的方式绕过现有恶意用户检测系统,与传统的恶意用户不同的是,这些恶意用户明显更加的“聪明”,具体来说,他们不仅对目标电影电视进行发表评论,但也偶尔评论分目标商品,这使得其看起来像一个正常人的行为,从而规避了现有恶意用户的检测系统,这些恶意用户影响着消费者的决策,如何检测这些新型恶意用户,通常有两种研究思路,一种是将其视为单一的恶意用户检测,另一种是将其视为恶意用户群组检测。如果将其看成单一的恶意用户检测:以前研究集中在评论内容,评论行为以及评论,频率和产品之间的关系,这些方法都是基于用户个人行为表现出的异常现象,但是这种现有基于单体定义的特征,无法捕获这类恶意用户,因其看起来像“人”的行为,使得很多现有特征无法高度区分正常人和恶意用户,故而需要对现有特征进行讨论。另一方面,相比较单体的恶意用户检测,基于群组的恶意用户检测似乎更容易解决这个问题,对于群组的恶意用户检测通常分为两个步骤,第一步是从这些恶意用户中发现候选群组,第二步是评论这些候选群组的可疑度,从而发现恶意用户群组,对于第一步,现有发现候选群组的方法大多数是基于频繁项集(FIM)技术,但是这种方法只能找到紧密连接的水军群组,即群组中每个水军都必须评论所有指定的目标商品,还有一些其他发现群组的方法,例如Leman等人提出了FRAUDEAGLE框架,他采用基于信念传播(MRF)的推理算法,该算法仅依靠评论者与产品之间的网络效应来对评论者进行排名。在第二步中,与前面的基于单个恶意用户检测相似,是通过测量每个组的预定义特征来确定是否为恶意用户群组,从而生成其可疑度。大多数的恶意群体检测的算法都是基于以下假设:水军评论者对所有指定的目标商品评论。难以适用于检测这种新出现的恶意用户。
发明内容
发明目的:针对上述背景技术中存在的问题,本发明提供了一种基于特征学习和图推理的恶意用户检测方法,解决现有恶意用户检测方案难以检测恶意用户通过合作的方式对指定的目标商品进行评论的问题。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于特征学习和图推理的恶意用户检测方法,包括以下步骤:
步骤S1、构建基础特征;
基于用户的评论时间、评论内容、评论ID、所评论的商品信息和用户完成的投票打分事项,筛选出若干特征,用于区分恶意用户和普通用户;
步骤S2、基于若干预定义假设,度量商品的可疑度,在商品视角下构建新的区分特征;
设定U代表用户集合U={u1,u2…un},其中n代表用户的数目,ui代表第i个用户,P代表商品集合P={p1,p2…pm},其中m代表商品的数目,pj代表第j个商品,采用D代表商品的用户序列的集合D={d1,d2…d2},设定变量aij,表示在商品i成为目标商品的前提下,商品j成为目标商品的可疑度;
根据恶意用户和正常用户在商品使用上呈现的分布特点,进行预定义假设如下:
假设1:当一种商品与另一种商品具有达到预设阈值的相同用户序列数量时,则该种商品则被定义为高可疑度目标商品;
假设2:高可疑度目标商品与多个商品具有部分相同的用户序列,且该相同用户序列数量达到预设阈值;
基于上述假设1可得:
基于假设2找出基于高可疑度商品分布的商品性质如下:
ai=argmaxE(ai)
其中E表示数学期望,aij表示在第i个商品成为高可疑度目标商品的前提下,第j个商品成为高可疑度目标商品的可疑度;完成商品可疑度度量后,根据以下假设,构建新的区分特征:
假设3:用户在多个高可疑度目标商品下评论时更有可能是恶意用户;
假设4:用户评论的商品可疑度越高,该用户为恶意用户的概率越大;
设定第i个用户ui所评论的商品的可疑度分布为ui={sp1,sp2…spk},基于假设3,采用字符PSU表示公化结果如下:
基于上述假设4,定义ASU如下:
步骤S3、融合图神经网络和成对马尔可夫检测模型,并在GMMM的理论框架下,建立特征学习和标签分布推理的统一目标函数,将二分类任务转化为图节点的分类任务。
进一步地,所述步骤S3中,首先提出假设5:当一个用户和另一用户拥有相同数量的高可疑度目标商品时,二者具备相似标签;
基于上述同构图假设,构建图结构;其中每一个节点表示一个用户,当用户与用户之间拥有相同数目的高可疑度商品时,则两者之间具备边关系;否则二者之间无边关系;
将所述图结构G定义为:G=(V,E,XV),其中V代表图中顶点的集合,即用户集合,E代表图中边的集合,即用户之间的关系集合,XV表示图中所有节点的特征的集合;给定若干带有标签yL的节点预测剩余节点U=V\L所属标签;
通过条件随机场将图中节点的联合分布建模为:
其中Yv代表图中节点标签的集合,z(Xv)表示图中节点结合的势能函数;(i,j)表示为图G中的一条边,ψi,j(yi,yj,XV)为定义在所述边上的势能函数;将所述无标签节点的预测问题转化为推断问题,推断无标签节点的后验概率分布p(YU|YL,XV),采用pφ(YV|XV)表示定义在边上的势能函数,其中φ代表模型的参数;
采用优化ELBO近似替代优化最大似然估计logpφ(YL|XV),学习模型的参数φ如下:
其中qθ(YU|XV)是关于YU的任意分布;通过迭代求取E-Step和M-Step对ELBO进行优化,即将模型参数φ和θ进行优化;具体包括:
步骤S3.1、迭代求取M-Step,对参数φ进行优化;
固定模型参数qθ,最大化以下函数来更新pφ模型:
其中NB(n)是节点n的邻居节点集合;首先从qθ(YU|XV)中进行采样,当节点n是未标记的节点时,通过qθ(YU|XV)预测的标签作为真实标签,将上式简化为:
步骤S3.2、迭代求取E-Step,对参数θ进行优化;
固定模型参数pφ,更新变分参数qθ(YU|XV),接近真实的后验概率qθ(YU|XV);采用平均场方法估计qθ(YU|XV)分布如下:
其中,n代表未标记节点的索引;在变分推断中,所有节点的标签分布都是相互独立的,上式改写为:
从qθ(yNB(n)∩U|xv)中进行采样替代求解期望,因此:
其中代表对节点n的未标记邻居节点k,从qθ(yk|xV)中取样出预测标签yk,对节点n的邻居节点中已有标记的节点k,则使用真实的标签;
通过更新参数θ减少qθ(yk|XV)和的KL散度,优化目标如下:
利用标记数据对qθ(yn|xv)进行训练,采用基于监督学习的方式优化下面的目标函数:
其中yn是节点n的真实标签;
因此对参数θ进行优化整合为:
Oθ=Oθ,U+Oθ,L
最后采用交叉损失函数更新模型。
进一步地,所述学习模型的训练过程包括:
首先用带标签的数据训练q2;然后交替迭代,训练模型参数pφ和qθ;在M-step中,固定模型qθ的参数,先用qθ模型预测出未标记节点的标签,然后从所述标签分布中进行采样,输入到pφ中,根据交叉损失进行参数更新;在E-step中,固定模型pφ的参数,先用模型pφ预测出未标记节点的标签,然后从所述标签分布中进行采样,输入到模型qθ中,采用交叉损失函数更新模型。
进一步地,所述步骤S1中构建的基础特征包括:投票偏差,撰写最大评论数目,平均时间间隔,平均评论单词长度,平均投票数目,评论次数,评论突然出现可疑度,投票极端比例,投积极票比例,投消极票比例,评论第一次出现比例和评论者一天内最大评论次数。
有益效果:
本发明提供的基于特征学习和图推理的恶意用户检测方法,首先根据用户序列来衡量产品的可疑度,然后根据产品的可疑度间接衡量每个用户的可疑度,接着从产品可疑度的角度,提出相关的新特征并结合筛选出的适用于这类新型特征的恶意用户。另一方面,假设具有相同高度可以产品数量的用户相似来构建用户-用户图,最后融合图神经网络的特征学习和成对马尔可夫的标签传播方法,建立统一的目标函数进行迭代优化,进行图节点的特征学习和节点标签推理,从而完成水军检测。
附图说明
图1是本发明实施例中提取的各个基础特征对比图;
图2是本发明实施例中将水军检测任务转化为图节点分类任务的示意图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
本发明提供了一种基于特征学习和图推理的恶意用户检测方法,包括以下步骤:
步骤S1、构建基础特征;
基于用户的评论时间、评论内容、评论ID、所评论的商品信息和用户完成的投票打分事项,筛选出若干特征,用于区分恶意用户和普通用户。具体地,构建的基础特征包括:投票偏差,撰写最大评论数目,平均时间间隔,平均评论单词长度,平均投票数目,评论次数,评论突然出现可疑度,投票极端比例,投积极票比例,投消极票比例,评论第一次出现比例和评论者一天内最大评论次数。
步骤S2、基于若干预定义假设,度量商品的可疑度,在商品视角下构建新的区分特征;
设定U代表用户集合U={u1,u2…un},其中n代表用户的数目,ui代表第i个用户,P代表商品集合P={p1,p2…pm},其中m代表商品的数目,pj代表第j个商品,采用D代表商品的用户序列的集合D={d1,d2…d2},设定变量aij,表示在商品i成为目标商品的前提下,商品j成为目标商品的可疑度;
根据恶意用户和正常用户在商品使用上呈现的分布特点,进行预定义假设如下:
假设1:当一种商品与另一种商品具有达到预设阈值的相同用户序列数量时,则该种商品则被定义为高可疑度目标商品;
假设2:高可疑度目标商品与多个商品具有部分相同的用户序列,且该相同用户序列数量达到预设阈值;
基于上述假设1可得:
基于假设2找出基于高可疑度商品分布的商品性质如下:
ai=argmaxE(ai)
其中E表示数学期望,aij表示在第i个商品成为高可疑度目标商品的前提下,第j个商品成为高可疑度目标商品的可疑度;完成商品可疑度度量后,根据以下假设,构建新的区分特征:
假设3:用户在多个高可疑度目标商品下评论时更有可能是恶意用户;
假设4:用户评论的商品可疑度越高,该用户为恶意用户的概率越大;
设定第i个用户ui所评论的商品的可疑度分布为ui={sp1,sp2…spk},基于假设3,采用字符PSU表示公化结果如下:
基于上述假设4,定义ASU如下:
步骤S3、融合图神经网络和成对马尔可夫检测模型,并在GMMM的理论框架下,建立特征学习和标签分布推理的统一目标函数,将二分类任务转化为图节点的分类任务。
首先提出假设5:当一个用户和另一用户拥有相同数量的高可疑度目标商品时,二者具备相似标签;
基于上述同构图假设,构建图结构;其中每一个节点表示一个用户,当用户与用户之间拥有相同数目的高可疑度商品时,则两者之间具备边关系;否则二者之间无边关系;
将所述图结构G定义为:G=(V,E,XV),其中V代表图中顶点的集合,即用户集合,E代表图中边的集合,即用户之间的关系集合,XV表示图中所有节点的特征的集合;给定若干带有标签yL的节点预测剩余节点U=V\L所属标签;
通过条件随机场将图中节点的联合分布建模为:
其中Yv代表图中节点标签的集合,z(Xv)表示图中节点结合的势能函数;(i,j)表示为图G中的一条边,ψi,j(yi,yj,XV)为定义在所述边上的势能函数;将所述无标签节点的预测问题转化为推断问题,推断无标签节点的后验概率分布p(YU|YL,XV),采用pφ(YV|XV)表示定义在边上的势能函数,其中φ代表模型的参数;
采用优化ELBO近似替代优化最大似然估计logpφ(YL|XV),学习模型的参数φ如下:
其中qθ(YU|XV)是关于YU的任意分布;通过迭代求取E-Step和M-Step对ELBO进行优化,即将模型参数φ和θ进行优化;具体包括:
步骤S3.1、迭代求取M-Step,对参数φ进行优化;
固定模型参数qθ,最大化以下函数来更新pφ模型:
其中NB(n)是节点n的邻居节点集合;首先从qθ(YU|XV)中进行采样,当节点n是未标记的节点时,通过qθ(YU|XV)预测的标签作为真实标签,将上式简化为:
步骤S3.2、迭代求取E-Step,对参数θ进行优化;
固定模型参数pφ,更新变分参数qθ(YU|XV),接近真实的后验概率qθ(YU|XV);采用平均场方法估计qθ(YU|XV)分布如下:
其中,n代表未标记节点的索引;在变分推断中,所有节点的标签分布都是相互独立的,上式改写为:
从qθ(yNB(n)∩U|xv)中进行采样替代求解期望,因此:
其中代表对节点n的未标记邻居节点k,从qθ(yk|xV)中取样出预测标签yk,对节点n的邻居节点中已有标记的节点k,则使用真实的标签;
通过更新参数θ减少qθ(yk|XV)和的KL散度,优化目标如下:
利用标记数据对qθ(yn|xv)进行训练,采用基于监督学习的方式优化下面的目标函数:
其中yn是节点n的真实标签;
因此对参数θ进行优化整合为:
Oθ=Oθ,U+Oθ,L
由于图卷积在图上显示出了强大的特征提取能力,因此本研究也是基于两层的图卷积网络,分别代表pφ模型和qθ模型,如图2所示。首先采用A表示图中的连接矩阵,然后采用X(1)表示节点的特征向量,X(2)表示带标记数据的标签分布。因此pφ模型可以定义为:
首先采用节点的特征向量作为节点的初始特征向量:
然后,聚合邻居节点的特征和自身的特征,进而更新上一层的特征:
其中H(1)和H(2)分别代表第一层经过信息转化矩阵W(1)和第二层信息转化为矩阵W(2)激活后得到的特征向量,A=A+I,其中I表示单位矩阵且与A的维度一样,D是矩阵的度,σ代表的是Relu激活函数。
最终将节点最后一层特征,通过全连接神经网络和softmax函数:
y=softmax(W(3)H(2)+b(3))
其中qθ也是两层的图卷积神经网络,与pφ模型相似,主要的不同是模型中的随机生成的参数不同,输入的数据不同。
综上,学习模型的训练过程包括:
首先用带标签的数据训练qθ;然后交替迭代,训练模型参数pφ和qθ;在M-step中,固定模型qθ的参数,先用qθ模型预测出未标记节点的标签,然后从所述标签分布中进行采样,输入到pφ中,根据交叉损失进行参数更新;在E-step中,固定模型pφ的参数,先用模型pφ预测出未标记节点的标签,然后从所述标签分布中进行采样,输入到模型qθ中,采用交叉损失函数更新模型。
为了进一步证明本发明提供的恶意用户检测方法的有效性,在斯坦福大学公开的电视电影评论的恶意用户数据集上对比了五个基准模型,其中Movie_and_TV数据集如下表1所示:
表1 Movie_and_TV数据集
用户节点 正常用户 水军用户 商品节点 水军占比
123960 81600 42360 50052 0.342
本发明在公开的数据集上进行了实验,对比了4个基准模型,而由于是非平衡数据集,故而采用了精确率Precision和召回率recall这两个评价指标,如表2所示。首先,我们发现,我们的模型在精确率上不是最好,仅有0.343,仅比朴素贝叶斯算法好,而基于GCN模型的算法远超我们,但是我们的模型在召回率上却表现的十分优异,不仅是四个算法中最好的,同时达到了0.965这一较高的指标。而召回率表示,样本中正例有多少是被预测正确的,而本文中以恶意用户为正例,故而可证明我们的模型能够有效的识别出恶意用户。
表2实验结果对比图
Precision Recall
朴素贝叶斯 0.194 0.844
SPAGLE(2015) 0.344 0.885
GANAG(2017) 0.344 0.885
GCN(2018) 0.895 0.740
Ourmodel 0.343 0.965
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于特征学习和图推理的恶意用户检测方法,其特征在于,包括以下步骤:
步骤S1、构建基础特征;
基于用户的评论时间、评论内容、评论ID、所评论的商品信息和用户完成的投票打分事项,筛选出若干特征,用于区分恶意用户和普通用户;
步骤S2、基于若干预定义假设,度量商品的可疑度,在商品视角下构建新的区分特征;
设定U代表用户集合U={u1,u2…un},其中n代表用户的数目,ui代表第i个用户,P代表商品集合P={p1,p2…Pm},其中m代表商品的数目,pj代表第j个商品,采用D代表商品的用户序列的集合D={d1,d2…d2},设定变量aij,表示在商品i成为目标商品的前提下,商品j成为目标商品的可疑度;
根据恶意用户和正常用户在商品使用上呈现的分布特点,进行预定义假设如下:
假设1:当一种商品与另一种商品具有达到预设阈值的相同用户序列数量时,则该种商品则被定义为高可疑度目标商品;
假设2:高可疑度目标商品与多个商品具有部分相同的用户序列,且该相同用户序列数量达到预设阈值;
基于上述假设1可得:
基于假设2找出基于高可疑度商品分布的商品性质如下:
ai=argmaxE(ai)
其中E表示数学期望,aij表示在第i个商品成为高可疑度目标商品的前提下,第j个商品成为高可疑度目标商品的可疑度;完成商品可疑度度量后,根据以下假设,构建新的区分特征:
假设3:用户在多个高可疑度目标商品下评论时更有可能是恶意用户;
假设4:用户评论的商品可疑度越高,该用户为恶意用户的概率越大;
设定第i个用户ui所评论的商品的可疑度分布为ui={sp1,sp2…spk},基于假设3,采用字符PSU表示公化结果如下:
基于上述假设4,定义ASU如下:
步骤S3、融合图神经网络和成对马尔可夫检测模型,并在GMMM的理论框架下,建立特征学习和标签分布推理的统一目标函数,将二分类任务转化为图节点的分类任务。
2.根据权利要求1所述的一种基于特征学习和图推理的恶意用户检测方法,其特征在于,所述步骤S3中,首先提出假设5:当一个用户和另一用户拥有相同数量的高可疑度目标商品时,二者具备相似标签;
基于同构图假设,构建图结构;其中每一个节点表示一个用户,当用户与用户之间拥有相同数目的高可疑度商品时,则两者之间具备边关系;否则二者之间无边关系;
将所述图结构G定义为:G=(V,E,XV),其中V代表图中顶点的集合,即用户集合,E代表图中边的集合,即用户之间的关系集合,XV表示图中所有节点的特征的集合;给定若干带有标签yL的节点预测剩余节点U=V\L所属标签;
通过条件随机场将图中节点的联合分布建模为:
其中Yv代表图中节点标签的集合,z(Xv)表示图中节点结合的势能函数;(i,j)表示为图G中的一条边,ψi,j(yi,yj,XV)为定义在所述边上的势能函数;将无标签节点的预测问题转化为推断问题,推断无标签节点的后验概率分布p(YU|YL,XV),采用pφ(YV|XV)表示定义在边上的势能函数,其中φ代表模型的参数;
采用优化ELBO近似替代优化最大似然估计logpφ(YL|XV),学习模型的参数φ如下:
其中qθ(YU|XV)是关于YU的任意分布;通过迭代求取E-Step和M-Step对ELBO进行优化,即将模型参数φ和θ进行优化;具体包括:
步骤S3.1、迭代求取M-Step,对参数φ进行优化;
固定模型参数qθ,最大化以下函数来更新pφ模型:
其中NB(n)是节点n的邻居节点集合;首先从qθ(YU|XV)中进行采样,当节点n是未标记的节点时,通过qθ(YU|XV)预测的标签作为真实标签,将上式简化为:
步骤S3.2、迭代求取E-Step,对参数θ进行优化;
固定模型参数pφ,更新变分参数qθ(YU|XV),接近真实的后验概率qθ(YU|XV);采用平均场方法估计qθ(YU|XV)分布如下:
其中,n代表未标记节点的索引;在变分推断中,所有节点的标签分布都是相互独立的,上式改写为:
从qθ(yNB(n)∩U|xv)中进行采样替代求解期望,因此:
其中代表对节点n的未标记邻居节点k,从qθ(yk|XV)中取样出预测标签yk,对节点n的邻居节点中已有标记的节点k,则使用真实的标签;
通过更新参数θ减少qθ(yk|XV)和的KL散度,优化目标如下:
利用标记数据对qθ(yn|xv)进行训练,采用基于监督学习的方式优化下面的目标函数:
其中yn是节点n的真实标签;
因此对参数θ进行优化整合为:
Oθ=Oθ,U+Oθ,L
最后采用交叉损失函数更新模型。
3.根据权利要求2所述的一种基于特征学习和图推理的恶意用户检测方法,其特征在于,所述学习模型的训练过程包括:
首先用带标签的数据训练qθ;然后交替迭代,训练模型参数pφ和qθ;在M-step中,固定模型qθ的参数,先用qθ模型预测出未标记节点的标签,然后从所述标签分布中进行采样,输入到pφ中,根据交叉损失进行参数更新;在E-step中,固定模型pφ的参数,先用模型pφ预测出未标记节点的标签,然后从所述标签分布中进行采样,输入到模型qθ中,采用交叉损失函数更新模型。
4.根据权利要求1所述的一种基于特征学习和图推理的恶意用户检测方法,其特征在于,所述步骤S1中构建的基础特征包括:投票偏差,撰写最大评论数目,平均时间间隔,平均评论单词长度,平均投票数目,评论次数,评论突然出现可疑度,投票极端比例,投积极票比例,投消极票比例,评论第一次出现比例和评论者一天内最大评论次数。
CN202110861596.4A 2021-07-29 2021-07-29 一种基于特征学习和图推理的恶意用户检测方法 Active CN113724035B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110861596.4A CN113724035B (zh) 2021-07-29 2021-07-29 一种基于特征学习和图推理的恶意用户检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110861596.4A CN113724035B (zh) 2021-07-29 2021-07-29 一种基于特征学习和图推理的恶意用户检测方法

Publications (2)

Publication Number Publication Date
CN113724035A CN113724035A (zh) 2021-11-30
CN113724035B true CN113724035B (zh) 2023-10-17

Family

ID=78674244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110861596.4A Active CN113724035B (zh) 2021-07-29 2021-07-29 一种基于特征学习和图推理的恶意用户检测方法

Country Status (1)

Country Link
CN (1) CN113724035B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107085616A (zh) * 2017-05-31 2017-08-22 东南大学 Lbsn中一种基于多维属性挖掘的虚假评论可疑地点检测方法
CN109829733A (zh) * 2019-01-31 2019-05-31 重庆大学 一种基于购物行为序列数据的虚假评论检测系统和方法
CN111640033A (zh) * 2020-04-11 2020-09-08 中国人民解放军战略支援部队信息工程大学 一种网络水军的检测方法及装置
CN112070543A (zh) * 2020-09-10 2020-12-11 哈尔滨理工大学 一种电商网站中评论质量的检测方法
CN112417099A (zh) * 2020-11-20 2021-02-26 南京邮电大学 一种基于图注意力网络的欺诈用户检测模型构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10348752B2 (en) * 2017-05-03 2019-07-09 The United States Of America As Represented By The Secretary Of The Air Force System and article of manufacture to analyze twitter data to discover suspicious users and malicious content

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107085616A (zh) * 2017-05-31 2017-08-22 东南大学 Lbsn中一种基于多维属性挖掘的虚假评论可疑地点检测方法
CN109829733A (zh) * 2019-01-31 2019-05-31 重庆大学 一种基于购物行为序列数据的虚假评论检测系统和方法
CN111640033A (zh) * 2020-04-11 2020-09-08 中国人民解放军战略支援部队信息工程大学 一种网络水军的检测方法及装置
CN112070543A (zh) * 2020-09-10 2020-12-11 哈尔滨理工大学 一种电商网站中评论质量的检测方法
CN112417099A (zh) * 2020-11-20 2021-02-26 南京邮电大学 一种基于图注意力网络的欺诈用户检测模型构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于sketch数据结构与正则性分布的骨干网流量异常分析与识别;罗玲;殷保群;曹杰;;系统科学与数学(第01期);3-10 *
移动网络中恶意节点自动检测研究与仿真;张宗福;汤霖;杨国威;计算机仿真;第33卷(第7期);293-296 *

Also Published As

Publication number Publication date
CN113724035A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
Ray A quick review of machine learning algorithms
Zhang et al. An overview on restricted Boltzmann machines
Mohammadrezaei et al. Identifying fake accounts on social networks based on graph analysis and classification algorithms
CN107609063B (zh) 一种多标签分类的手机应用推荐系统及其方法
Jadhav et al. Comparative study of K-NN, naive Bayes and decision tree classification techniques
Audibert et al. Do deep neural networks contribute to multivariate time series anomaly detection?
Joy et al. Batch Bayesian optimization using multi-scale search
CN111125358A (zh) 一种基于超图的文本分类方法
Niu et al. A label-based evolutionary computing approach to dynamic community detection
CN113269647A (zh) 基于图的交易异常关联用户检测方法
Bibas et al. Deep pnml: Predictive normalized maximum likelihood for deep neural networks
Siddiqi et al. A new heuristic for the data clustering problem
Zhu et al. Anomaly detection with deep graph autoencoders on attributed networks
Nawara et al. Deploying different clustering techniques on a collaborative-based movie recommender
Mohanrasu et al. A COPRAS-based Approach to Multi-Label Feature Selection for Text Classification
Zhang et al. Relational intelligence recognition in online social networks—A survey
CN113724035B (zh) 一种基于特征学习和图推理的恶意用户检测方法
Wang et al. Identifying and evaluating anomalous structural change-based nodes in generalized dynamic social networks
Latouche et al. Bayesian methods for graph clustering
Rani et al. Analyzing impact of number of features on efficiency of hybrid model of lexicon and stack based ensemble classifier for twitter sentiment analysis using WEKA tool
CN116304518A (zh) 用于信息推荐的异质图卷积神经网络模型构建方法及系统
CN113779520B (zh) 基于多层属性分析的跨空间目标虚拟身份关联方法
Schelter Amnesia-a selection of machine learning models that can forget user data very fast
Stanhope et al. Group link prediction
Gärtner et al. A short tour of kernel methods for graphs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant