CN112417099A - 一种基于图注意力网络的欺诈用户检测模型构建方法 - Google Patents

一种基于图注意力网络的欺诈用户检测模型构建方法 Download PDF

Info

Publication number
CN112417099A
CN112417099A CN202011307898.9A CN202011307898A CN112417099A CN 112417099 A CN112417099 A CN 112417099A CN 202011307898 A CN202011307898 A CN 202011307898A CN 112417099 A CN112417099 A CN 112417099A
Authority
CN
China
Prior art keywords
user
network
matrix
graph
vertex
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011307898.9A
Other languages
English (en)
Other versions
CN112417099B (zh
Inventor
任勋益
黄家铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202011307898.9A priority Critical patent/CN112417099B/zh
Publication of CN112417099A publication Critical patent/CN112417099A/zh
Application granted granted Critical
Publication of CN112417099B publication Critical patent/CN112417099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图注意力网络的欺诈用户检测模型构建方法,该方法首先导入带标签的用户信息,分离出用户的文本内容;再将用户信息预处理后,使用多个特征表征用户行为特征和文本特征;然后导入用户的文本内容,在对文本内容预处理之后,计算用户评论的句嵌入之间的相似度;再以用户信息特征为顶点,评论相关度为边,构建一个用户‑用户网络;最后使用图卷积网络对用户‑用户网络进行学习,并在图卷积网络中使用注意力机制来自适应聚合邻居信息,经过反复训练后得到模型;本发明使用图注意力网络在用户‑用户网络上训练,深入挖掘用户在网络中的全局位置信息并自适应分配邻居权重,来提高模型检测的准确率和稳定性。

Description

一种基于图注意力网络的欺诈用户检测模型构建方法
技术领域
本发明涉及一种基于图注意力网络的欺诈用户检测模型构建方法,属于欺诈检测、自然语言处理、图神经网络、深度学习等交叉技术领域。
背景技术
互联网的开放性和众包任务的货币奖励刺激了大量的冒名用户写虚假评论和发布广告来干扰用户的判断。欺诈用户具有主观化和多样化的特点,因此人工识别较为困难,成本较高,准确率却不理想,所以业内流行解决方案有两种分别是基于规则、基于深度学习。
基于规则的方法主要是通过对用户的行为特征进行分析和学习,从中获取特征的分类规则,对用户进行分类。基于深度学习的方法就是通过人工标注部分样本构造训练数据集,使用深度学习算法从训练集中学习分类模型,最后利用分类模型对未知标签的样本进行类别预测,以此来实现用户的自动检测。
最近几年,在欺诈检测领域,深度学习方法主要关注评论内容特征和评论内容,所以使用的传统模型也主要是自然语言处理常用的卷积网络(convolutionneuralnetworks)CNN或者LSTM(long-short termmemory)网络等,对评论内容和评论内容特征进行学习生成检测模型,再用其模型来区分欺诈用户和普通用户。但是存在以下的缺点:(1)无法提取用户之间的关联信息和全局信息,即无法提取结构信息(2)噪音问题,大规模文本信息往往含有很多的无效信息(3)池化策略,不能自动选取具有贡献的用户特征组合(4)没有有效地利用用户行为特征。最近一年,业界提出新的解决方案,就是先构建用户与用户关系的无权无向图,然后使用图卷积网络对图进行学习。这样就能提取用户之间的结构信息,并学习全局信息,从而解决传统模型中缺点(1),但其无法解决传统模型中的缺点(2)(3)(4),并且由于图为无权无向图,所以无法更进一步提取结构信息。
发明内容
本发明主要提供了一种基于图注意力网络的欺诈用户检测模型构建方法,进一步提高对用户信息的提取能力,进而能挖掘到更多的隐藏信息,从而提高模型的分类效果。
技术方案:本发明的一种基于图注意力网络的欺诈用户检测模型构建方法包括以下步骤:
步骤1)将带标签的用户信息数据集进行分组,分离出用户评论文本内容,用于提取用户特征和文本内容特征。
步骤2)导入用户信息并进行预处理,用数个特征来描述用户的行为特征和文本特征,以此来表征用户的评论行为。
步骤3)导入步骤1)中所述分离出的用户评论文本内容,对文本内容进行预处理和预训练之后,用一个低维的向量来表达每个词,再把用户的评论文本内容映射到此向量空间中,获得一个维度相同的矩阵,然后计算评论同一款产品的用户评论之间的相似度平均值;
步骤4)构建用户-用户网络,该网络表示为一个带权无向图,其顶点为用户信息特征向量,其连接关系为只有评论同一款产品的用户之间才有边连接,其权重为用户评论之间的相似度平均值,这样就构成一个揭露用户之间内在联系的网络;
步骤5)在用户-用户网络中,所有顶点的特征向量组合成一个特征矩阵X,顶点之间的连接信息使用邻接矩阵A存储,网络中的顶点出入度信息使用度矩阵D存储;
步骤6)将包含用户信息的特征矩阵X和包含用户评论内容相似度的邻接矩阵A、包含顶点的数量关系的度矩阵D作为图注意力网络的输入,同时使用注意力机制聚合评论相同产品的用户信息,再结合边权重信息来学习新的特征并构建分类器,经过多次迭代训练生成检测欺诈用户的模型。
进一步的,所述步骤1)包括如下步骤:
11)将打好标签的用户信息数据集中的所有信息按照产品分组,生成一个包含产品id、评论用户id、评论文本内容的数据集。
进一步的,所述步骤2)包括如下步骤:
步骤21)对步骤1)中所述的用户信息数据集进行预处理,然后提取用户行为特征和文本特征,组成m维特征向量,若用户数据有r条,则m个特征的连接表示为{F1,F2,…,Fm},构成向量矩阵为Mr×m
步骤22)其中文本特征中的相似评论数量DSRN使用Simhash方法结合汉明距离来计算,通过统计汉明距离小于阈值的评论数目,从而得到相似评论数量;
步骤23)因为欺诈用户在评论中会使用大量的特殊符号来对抗基于自然语言处理的深度学习模型,所以需要使用特殊字符平均数量这一特征来检测欺诈用户。使用正则表达式匹配评论中特殊字符并统计数量再计算平均值得到特殊字符平均数量RSN。
步骤24)产品的提供者为了自身利益,会雇佣欺诈用户来发布好评,因此欺诈用户的积极评论比例会很高,所以计算积极评论比例来进一步提取欺诈用户特征。积极评论比例PR指评论者发布的所有评论中积极评论的占比。
进一步的,所述步骤22),包括以下步骤,
步骤221)首先使用Jieba对单独用户评论构成的评论集进行分词,得到有效的特征向量;
步骤222)然后使用TF-IDF来提取前20的关键字k并定义每个关键字的权重weight={wk1=40,....,wk20=2};
步骤223)再通过hash算法计算各个特征向量的hash值;在获取hash值的基础上,对所有特征向量进行加权W=hash×weight,若hash为1则和weight正相乘,为0则和weight负相乘;
步骤224)最后计算用户的评论之间的汉明距离,若汉明距离小于4则认定评论相似,再统计汉明距离小于阈值4的评论数目,得到相似评论数量DSRN。
进一步的,所述步骤3)包括如下步骤:
步骤31)使用步骤1)中的用户评论文本内容数据集,先对评论数据进行预处理,包括去除标点符号,对语句进行分词、去除字数小于5的评论等处理。最后使用Word2Vec词嵌入模型对评论内容进行预训练。
步骤32)将词嵌入到一个向量r={w1,w2,…,wn}空间中,即包含n个词语,第N个单词wN经过Word2Vec模型映射后得到一个维度n为200的特征向量E(wN)=[e(w1),e(w2),…,e(w200)],这样,评论r可以被表示为200×n的特征矩阵E(r)=[E(w1),E(w2),…,E(wn)],再创建一个200维的零向量Vec={vec1,vec2,…,vec200},对特征矩阵E(r)按行相加得到新的向量
Figure BDA0002788858900000031
Figure BDA0002788858900000032
使用零向量存放句子嵌入
Figure BDA0002788858900000033
其中|Words|为句子长度,然后使用余弦相似度计算用户i和用户j的评论之间相似度
Figure BDA0002788858900000034
Figure BDA0002788858900000041
其中|Veci|为Veci向量的长度。
进一步的,所述步骤4)包括如下步骤:
步骤41)构建用户-用户网络
Figure BDA0002788858900000047
顶点矩阵
Figure BDA0002788858900000048
是步骤21)中所述的向量矩阵Mr×m,其中
Figure BDA00027888589000000413
是用户的数目;ε是顶点之间的连接关系,对于任何一个
Figure BDA00027888589000000410
与其他顶点的关系,定义为只有评论相同产品的顶点才相互连接,用矩阵A|v|×|v|表示顶点连接关系;其权重值W|v|×|v|定义为若顶点之间无连接,则wi,j=0,如果存在连接,那么
Figure BDA0002788858900000042
其中K为用户i和用户j共同评论过的产品集合
进一步的,所述步骤5)包括如下步骤:
步骤51)根据步骤41)中所述的用户-用户网络
Figure BDA00027888589000000414
将其顶点矩阵
Figure BDA00027888589000000412
作为特征矩阵X;创建一个长度为|v|和维度为|v|且值全为零的度矩阵D,并将X相加生成x|v|的特征向量,然后Di,i=xi,最后得到度矩阵D;A|v|×|v|+W|v|×|v|为邻接矩阵A。
进一步的,所述步骤6)包括如下步骤:
步骤61)图注意力网络主要由图卷积网络层和图注意力层组成,核心为图卷积网络层,其能对图结构提取有效信息;使用两层图卷积网络层来汇总二阶邻居的用户信息;
第一层图卷积网络层汇总第一阶邻居的用户信息,若输入为m维顶点矩阵X,则输出n维顶点特征矩阵h′∈Rr×n如公式(1)(2):
Figure BDA0002788858900000043
Figure BDA0002788858900000044
其中,
Figure BDA0002788858900000045
是规范化对称邻接矩阵,D∈Rr×r为步骤51)中所述度矩阵D,A∈Rr×r为步骤51)中邻接矩阵A,X∈Rr×m为步骤51)中所述特征矩阵X,σ为激活函数;W0∈Rm×n为初始全连接层权重矩阵,使用随机的值来初始化;
第二层图卷积网络层汇总第二阶邻居的用户信息,输入为第一层图卷积网络层输出h′,输出m维顶点特征矩阵h″∈Rr×m如公式(3):
Figure BDA0002788858900000046
其中,W1∈Rn×k为第二层全连接权重矩阵,使用随机的值来初始化;
步骤62)在两层图卷积层之间加入图注意力层对邻居节点做聚合操作,实现了对不同邻居权重的自适应分配,从而大大提高图卷积网络模型的表达能力。
在第l层图卷积网络h矩阵所对应的特征向量为
Figure BDA0002788858900000051
Figure BDA0002788858900000052
d(l)表示顶点的特征长度,经过一个以注意力机制为核心的聚合操作之后,输出的是每个顶点新的特征向量
Figure BDA0002788858900000053
Figure BDA0002788858900000054
d(l+1)表示输出的特征向量的长度。假设所述的用户-用户网络
Figure BDA0002788858900000055
中心顶点为vi,前馈神经网络的权重参数为
Figure BDA0002788858900000056
为随机值,激活函数为LeakyReLU(负输入斜率α=0.2),权重系数αij计算如公式(4):
Figure BDA0002788858900000057
其中,
Figure BDA0002788858900000058
为顶点特征矩阵h的顶点vi的特征向量,
Figure BDA0002788858900000059
为顶点特征矩阵h的顶点vi的邻居vj的特征向量,Wi为第i层注意力层权重矩阵,||为拼接操作。完成上述权重系数的计算,按照注意力机制加权求和,顶点vi新的特征向量
Figure BDA00027888589000000510
如公式(5)所示:
Figure BDA00027888589000000511
其中,
Figure BDA00027888589000000512
为中心顶点vi更新后的特征向量。
步骤63)通过两层图注意力层前向传播,获得模型的输出h″,再通过一个softmax函数输出分类结果,如公式(6)所示。
y=softmax(h″) (6)
其中y为输出类标签的概率分布。当得到待检测用户为欺诈用户的概率大于该用户为普通用户的概率值时,即判断该用户为欺诈用户。
在得到y后,使用交叉熵loss来计算y与标签的损失值。得到损失值后,反向传播计算参数的梯度,然后使用Adam优化方法进行梯度更新模型。训练500次后,基于多特征的图注意力网络的打分平台欺诈用户检测模型构建完成。
有益效果:本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)通过融合用户行为特征和评论内容特征生成用户特征,解决传统模型没有有效地利用用户行为特征问题,并进一步提取用户的信息。
(2)通过构建用户-用户图,并使用图卷积网络模型提取用户之间的关联信息,解决传统模型无法提取结构信息的问题,深入挖掘用户在网络中的全局位置信息。(3)不直接使用文本内容进行学习,而是计算文本内容相似度,并仅将相似度作为次要因素来解决传统模型文本噪音问题,减轻噪音对于模型训练的影响。
(4)在图卷积网络中使用注意力机制,实现对不同邻居权重的自适应分配,解决传统模型不能自动选取具有贡献的用户特征组合的问题,从而大大提高了图卷积网络模型的准确率。
附图说明
图1是基于图注意力网络的欺诈用户检测模型构建方法流程。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例对本发明进行进一步详细说明:
一种基于图注意力网络的欺诈用户检测模型构建方法,包括以下步骤:
步骤1)将打好标签的用户信息数据集中的所有信息按照产品分组,生成一个字段为产品id、评论用户id、评论内容的数据集。
步骤2)导入用户信息并进行预处理,用数个特征来描述用户的行为特征和文本特征,以此来表征用户的评论行为。
步骤21)对步骤1)中的用户信息数据集进行处理,提取8个用户行为特征和4个文本特征,包括如下步骤表1和表2;
表1:基于用户行为特征
特征 描述 维度
AS 对产品的平均评分 1
MRN 最大评论数量 1
DN 连续发布评论的天数 1
RT 集中评论时间段 1
MDN 最大登录设备数量 1
PR 积极评论比例 1
TQD 时间分布 24
SQD 评分分布 5
表2:基于用户文本特征
特征 描述 维度
RL 评论文本平均长度 1
DSRN 相似评论数量 1
RSN 评论中特殊字符平均数量 1
PRR 特殊字符数量占评论平均比例 1
其中用户行为特征包括平均评分AS、最大评论数量MRN、连续发表评论的天数DN、集中评论时间段RT、日登录设备数量DN、积极评论比例PR、基于时间分布TQD、基于评分的分布SQD。其中用户文本特征包括评论文本平均长度RL、相似评论数量DSRN、评论中特殊字符平均数量RSN、特殊字符数量占评论平均比率PRR。每个用户对于特征有多个,特征值的个数即用户的数量,提取了39维特征,数据有r条,则12个特征的连接表示为{F1,F2,…,F12},构成向量矩阵为Mr×39
步骤22)因欺诈用户对产品常使用相似的评论,所以记录相似评论数量DSRN是有必要的。DSRN使用Simhash方法结合汉明距离来计算。首先使用jieba对用户评论构成的评论集进行分词,得到有效的特征向量。然后使用TF-IDF来提取前20的关键字k并定义每个关键字的权重weight={wk1=40,....,wk20=2},再通过hash算法计算各个特征向量的hash值。在获取hash值的基础上,对所有特征向量进行加权W=hash×weight,若hash为1则和weight正相乘,为0则和weight负相乘。最后计算用户的评论之间的汉明距离,若汉明距离小于4则认定评论相似,再统计汉明距离小于阈值4的评论数目,得到相似评论数量DSRN。
步骤23)因为欺诈用户在评论中使用大量的特殊符号来对抗基于自然语言处理的深度学习模型,所以需要使用特殊字符平均数量这一特征来检测欺诈用户。使用正则表达式匹配评论中特殊字符并统计数量再计算平均值得到特殊字符平均数量RSN。
步骤24)产品的提供者为了自身利益,会雇佣欺诈用户来发布好评,因此欺诈用户的积极评论比例会很高,所以计算积极评论比例来进一步提取欺诈用户特征。积极评论比例PR指评论者发布的所有评论中积极评论的占比。评论中给出的评分范围是1到5分,本专利将评分4到5分的评论视为积极评论。
步骤25)每个用户有8个行为特征和4个行为特征共12个用户信息特征,构成39维特征向量,假设用户有r个,则12个用户信息特征的连接表示为{F1,F2,…,F12},构成向量矩阵为Mr×39
步骤3)导入步骤1)中所述分离出的用户评论文本内容,对文本内容进行预处理和预训练之后,用一个低维的向量来表达每个词,再把用户的评论文本内容映射到此向量空间中,获得一个维度相同的矩阵,然后计算评论同一款产品的用户评论之间的相似度平均值;
步骤31)使用步骤1)中的用户评论文本内容数据集,先对评论数据进行预处理,包括去除标点符号,对语句进行分词、去除字数小于5的评论等处理。最后使用Word2Vec词嵌入模型对评论内容进行预训练。
步骤32)将词嵌入到一个向量r={w1,w2,…,wn}空间中,即包含n个词语,第N个单词wN经过Word2Vec模型映射后得到一个维度n为200的特征向量E(wN)=[e(w1),e(w2),…,e(w200)],这样,评论r可以被表示为200×n的特征矩阵E(r)=[E(w1),E(w2),…,E(wn)],再创建一个200维的零向量Vec={vec1,vec2,…,vec200},对特征矩阵E(r)按行相加得到新的向量
Figure BDA0002788858900000081
Figure BDA0002788858900000082
使用零向量存放句子嵌入
Figure BDA0002788858900000083
其中|Words|为句子长度,然后使用余弦相似度计算用户i和用户j的评论之间相似度
Figure BDA0002788858900000084
Figure BDA0002788858900000085
其中|Veci|为Veci向量的长度。
步骤4)构建用户-用户网络
Figure BDA0002788858900000086
顶点矩阵
Figure BDA0002788858900000087
是步骤25)的向量矩阵Mr×39,其中
Figure BDA0002788858900000088
是用户的数目。ε是顶点之间的连接关系,对于任何一个
Figure BDA0002788858900000089
与其他顶点的关系,定义为只有评论相同产品的顶点才相互连接,用矩阵A表示顶点连接关系,若存在连接ai,j=2,反之ai,j=1,ai,j∈A。其连接权重矩阵
Figure BDA00027888589000000810
定义为若顶点之间无连接,则wi,j=0,如果存在连接,那么
Figure BDA00027888589000000811
其中K为用户i和用户j共同评论过的产品集合。
步骤5)在用户-用户网络中,所有顶点的特征向量组合成一个特征矩阵X,顶点之间的连接信息使用邻接矩阵A存储,网络中的顶点出入度信息使用度矩阵D存储;
步骤51)根据步骤41)中所述的用户-用户网络
Figure BDA0002788858900000091
将其顶点矩阵
Figure BDA0002788858900000092
作为特征矩阵X;创建一个长度为|v|和维度为|v|且值全为零的度矩阵D,并将X相加生成x|v|的特征向量,然后Di,i=xi,最后得到度矩阵D;A|v|×|v|+W|v|×|v|为邻接矩阵A。
步骤6)将包含用户信息的特征矩阵X和包含用户评论内容相似度的邻接矩阵A、包含顶点的数量关系的度矩阵D作为图注意力网络的输入,同时使用注意力机制聚合评论相同产品的用户信息,再结合边权重信息来学习新的特征并构建分类器,经过多次迭代训练生成检测欺诈用户的模型。
步骤61)图注意力网络主要由图卷积层和图注意力层组成,核心为图卷积层,能对图结构提取有效信息。本发明使用两层图卷积层来汇总二阶邻居的特征X,并根据步骤51)的度矩阵D和邻接矩阵A进一步学习用户之间的结构特征,进而提高模型预测的准确度。
第一层图卷积网络层汇总第一阶邻居的用户信息,若输入为39维顶点特征矩阵X、度矩阵D和邻居矩阵A,经过图卷积网络层后输出10维顶点特征矩阵h′∈Rr×10如公式(1)(2):
Figure BDA0002788858900000093
Figure BDA0002788858900000094
其中,
Figure BDA0002788858900000095
是规范化对称邻接矩阵,D∈Rr×r为步骤51)中所述度矩阵D,A∈Rr×r为步骤51)中邻接矩阵A,X∈Rr×m为步骤51)中所述特征矩阵X,σ为激活函数;W0∈Rm×n为初始全连接层权重矩阵,使用随机的值[1,10]来初始化;
第二层图卷积网络层汇总第二阶邻居的用户信息,输入为第一层图卷积网络层输出h′、度矩阵D和邻居矩阵A,经过图卷积网络层后输出2维顶点特征矩阵h″∈Rr×2如公式(3):
Figure BDA0002788858900000096
其中,W1∈Rn×k为第二层全连接权重矩阵,使用随机的值[1,10]来初始化;
步骤62)在两层图卷积层之间加入图注意力层对邻居节点做聚合操作,实现了对不同邻居权重的自适应分配,从而大大提高图卷积网络模型的表达能力。
在第l层图卷积网络h矩阵所对应的特征向量为
Figure BDA0002788858900000101
Figure BDA0002788858900000102
d(l)表示顶点的特征长度,经过一个以注意力机制为核心的聚合操作之后,输出的是每个顶点新的特征向量
Figure BDA0002788858900000103
Figure BDA0002788858900000104
d(l+1)表示输出的特征向量的长度。假设图
Figure BDA0002788858900000105
中心顶点为vi,前馈神经网络的权重参数为
Figure BDA0002788858900000106
为随机值,激活函数为LeakyReLU(负输入斜率α=0.2),权重系数αij计算如公式(4):
Figure BDA0002788858900000107
其中,
Figure BDA0002788858900000108
为顶点特征矩阵h的顶点vi的特征向量,
Figure BDA0002788858900000109
为顶点特征矩阵h的顶点vi的邻居vj的特征向量,Wi为第i层注意力层权重矩阵,||为拼接操作。完成上述权重系数的计算,按照注意力机制加权求和,顶点vi新的特征向量
Figure BDA00027888589000001010
如公式(5):
Figure BDA00027888589000001011
其中,
Figure BDA00027888589000001012
为中心顶点vi更新后的特征向量。
步骤63)通过两层图注意力层前向传播,获得模型的输出h″,再通过一个softmax函数输出分类结果,如公式(6)所示。
y=softmax(h″) (6)
其中y为输出类标签的概率分布。当得到待检测用户为欺诈用户的概率大于该用户为普通用户的概率值时,即判断该用户为欺诈用户。
在得到y后,使用交叉熵loss来计算y与标签的损失值。得到损失值后,反向传播计算参数的梯度,后使用Adam优化方法进行梯度更新模型,其中Adam的学习率为0.1。训练500次后,基于图注意力网络的欺诈用户检测模型构建完成。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。

Claims (9)

1.一种基于图注意力网络的欺诈用户检测模型构建方法,其特征在于,包括以下步骤:
步骤1)将带标签的用户信息数据集进行分组,分离出用户评论文本内容,用于提取用户特征和文本内容特征;
步骤2)导入步骤1)中所述分组后的用户信息并进行预处理,用多个特征来描述用户的行为特征和文本特征,以此来表征用户的评论行为;
步骤3)导入步骤1)中所述分离出的用户评论文本内容,对文本内容进行预处理和预训练之后,用一个低维的向量来表达每个词,再把用户的评论文本内容映射到此向量空间中,获得一个维度相同的矩阵,然后计算评论同一款产品的用户评论之间的相似度平均值;
步骤4)构建用户-用户网络,该网络表示为一个带权无向图,其顶点为用户信息特征向量,其连接关系为只有评论同一款产品的用户之间才有边连接,其权重为用户评论之间的相似度平均值,这样就构成一个揭露用户之间内在联系的网络;
步骤5)在用户-用户网络中,所有顶点的特征向量组合成一个特征矩阵X,顶点之间的连接信息使用邻接矩阵A存储,网络中的顶点出入度信息使用度矩阵D存储;
步骤6)将包含用户信息的特征矩阵X和包含用户评论内容相似度的邻接矩阵A、包含顶点的数量关系的度矩阵D作为图注意力网络的输入,同时使用注意力机制聚合评论相同产品的用户信息,再结合边权重信息来学习新的特征并构建分类器,经过多次迭代训练生成检测欺诈用户的模型。
2.根据权利要求1所述的一种基于图注意力网络的欺诈用户检测模型构建方法,其特征在于,所述步骤1)包括如下步骤:
11)将打好标签的用户信息数据集中的所有信息按照产品分组,生成一个包含产品id、评论用户id、评论文本内容的数据集。
3.根据权利要求1所述的一种基于图注意力网络的欺诈用户检测模型构建方法,其特征在于,所述步骤2),包括如下步骤:
步骤21)对步骤1)中所述的用户信息数据集进行预处理,然后提取用户行为特征和文本特征,组成m维特征向量,若用户数据有r条,则m个特征的连接表示为{F1,F2,...,Fm},构成向量矩阵为Mr×m
步骤22)其中文本特征中的相似评论数量DSRN使用Simhash方法结合汉明距离来计算,通过统计汉明距离小于阈值的评论数目,从而得到相似评论数量;
步骤23)其中文本特征中的评论中特殊字符平均数量RSN使用正则表达式匹配评论特殊字符并统计数量;
步骤24)计算文本特征中的积极评论比例PR来进一步提取欺诈用户特征。
4.根据权利要求3所述的一种基于图注意力网络的欺诈用户检测模型构建方法,其特征在于,所述步骤22),包括以下步骤,
步骤221)首先使用Jieba对单独用户评论构成的评论集进行分词,得到有效的特征向量;
步骤222)然后使用TF-IDF来提取前20的关键字k并定义每个关键字的权重weight={wk1=40,....,wk20=2};
步骤223)再通过hash算法计算各个特征向量的hash值;在获取hash值的基础上,对所有特征向量进行加权W=hash×weight,若hash为1则和weight正相乘,为0则和weight负相乘;
步骤224)最后计算用户的评论之间的汉明距离,若汉明距离小于4则认定评论相似,再统计汉明距离小于阈值4的评论数目,得到相似评论数量DSRN。
5.根据权利要求1所述的一种基于图注意力网络的欺诈用户检测模型构建方法,其特征在于,所述步骤3),包括以下步骤:
步骤31)使用步骤11)中所述的用户评论文本内容数据集,对此数据集中的评论文本内容进行预处理后,用Word2Vec模型对用户评论文本内容预训练;
步骤32)将词嵌入到一个向量r={w1,w2,...,wn}空间中,即包含n个词语,第N个单词wN经过Word2Vec模型映射后得到一个维度n为200的特征向量E(wN)=[e(w1),e(w2),...,e(w200)],这样,评论r可以被表示为200×n的特征矩阵E(r)=[E(w1),E(w2),...,E(wn)],再创建一个200维的零向量Vec={vec1,vec2,...,vec200},对特征矩阵E(r)按行相加得到新的向量
Figure FDA0002788858890000021
Figure FDA0002788858890000022
使用零向量存放句子嵌入
Figure FDA0002788858890000023
其中|Words|为句子长度,然后使用余弦相似度计算用户i和用户j的评论之间相似度
Figure FDA0002788858890000024
Figure FDA0002788858890000031
其中|Veci|为Veci向量的长度。
6.根据权利要求5所述的一种基于图注意力网络的欺诈用户检测模型构建方法,其特征在于,所述步骤31)中,评论文本内容的预处理包括去除标点符号,对语句进行分词、去除字数小于5的评论。
7.根据权利要求1所述的一种基于图注意力网络的欺诈用户检测模型构建方法,其特征在于,所述步骤4),包括如下步骤:
步骤41)构建用户-用户网络
Figure FDA0002788858890000032
顶点矩阵v是步骤21)中所述的向量矩阵Mr×m,其中|v|=n是用户的数目;ε是顶点之间的连接关系,对于任何一个v∈v与其他顶点的关系,定义为只有评论相同产品的顶点才相互连接,用矩阵A|v|×|v|表示顶点连接关系;其权重值W|v|×|v|定义为若顶点之间无连接,则wi,j=0,如果存在连接,那么
Figure FDA0002788858890000033
其中K为用户i和用户j共同评论过的产品集合。
8.根据权利要求1所述的一种基于图注意力网络的欺诈用户检测模型构建方法,其特征在于,所述步骤5),包括如下步骤:
步骤51)根据步骤41)中所述的用户-用户网络
Figure FDA0002788858890000036
将其顶点矩阵v作为特征矩阵X;创建一个长度为|v|和维度为|v|且值全为零的度矩阵D,并将X相加生成x|v|的特征向量,然后Di,i=xi,最后得到度矩阵D;A|v|×|v|+W|v|×|v|为邻接矩阵A。
9.根据权利要求1所述的一种基于图注意力网络的欺诈用户检测模型构建方法,其特征在于,所述步骤6),包括如下步骤:
步骤61)图注意力网络主要由图卷积网络层和图注意力层组成,核心为图卷积网络层,其能对图结构提取有效信息;使用两层图卷积网络层来汇总二阶邻居的用户信息;
第一层图卷积网络层汇总第一阶邻居的用户信息,若输入为m维顶点矩阵X,则输出n维顶点特征矩阵h′∈Rr×n如公式(1)(2):
Figure FDA0002788858890000034
Figure FDA0002788858890000035
其中,
Figure FDA0002788858890000041
是规范化对称邻接矩阵,D∈Rr×r为步骤51)中所述度矩阵D,A∈Rr×r为步骤51)中邻接矩阵A,X∈Rr×m为步骤51)中所述特征矩阵X,σ为激活函数;W0∈Rm×n为初始全连接层权重矩阵,使用随机的值来初始化;
第二层图卷积网络层汇总第二阶邻居的用户信息,输入为第一层图卷积网络层输出h′,输出m维顶点特征矩阵h″∈Rr×m如公式(3):
Figure FDA0002788858890000042
其中,W1∈Rn×k为第二层全连接权重矩阵,使用随机的值来初始化;
步骤62)在两层图卷积网络层之间加入图注意力层对邻居节点做聚合操作,实现对不同邻居权重的自适应分配;
在第l层图卷积网络h矩阵所对应的特征向量为
Figure FDA0002788858890000043
Figure FDA0002788858890000044
d(l)表示顶点的特征长度,经过一个以注意力机制为核心的聚合操作之后,输出的是每个顶点新的特征向量
Figure FDA0002788858890000045
Figure FDA0002788858890000046
d(l+1)表示输出的特征向量的长度;假设所述的用户-用户网络
Figure FDA0002788858890000047
中心顶点为vi,前馈神经网络的权重参数为
Figure FDA0002788858890000048
为随机值,激活函数为LeakyReLU(负输入斜率α=0.2),权重系数αij计算如公式(4):
Figure FDA0002788858890000049
其中,
Figure FDA00027888588900000410
为顶点特征矩阵h的顶点vi的特征向量,
Figure FDA00027888588900000411
为顶点特征矩阵h的顶点vi的邻居vj的特征向量,Wi为第i层注意力层权重矩阵,||为拼接操作;完成上述权重系数的计算,按照注意力机制加权求和,顶点vi新的特征向量
Figure FDA00027888588900000412
如公式(5)所示:
Figure FDA00027888588900000413
其中,
Figure FDA00027888588900000414
为中心顶点vi更新后的特征向量;
步骤63)通过两层图注意力层前向传播,获得模型的输出h″,再通过一个softmax函数输出分类结果,如公式(6)所示,
y=softmax(h″) (6)
其中y为输出类标签的概率分布,当得到待检测用户为欺诈用户的概率大于该用户为普通用户的概率值时,即判断该用户为欺诈用户;
在得到y后,使用交叉熵loss来计算y与标签的损失值,得到损失值后,反向传播计算参数的梯度,然后使用Adam优化方法进行梯度更新模型;训练500次后,基于图注意力网络的欺诈用户检测模型构建完成。
CN202011307898.9A 2020-11-20 2020-11-20 一种基于图注意力网络的欺诈用户检测模型构建方法 Active CN112417099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011307898.9A CN112417099B (zh) 2020-11-20 2020-11-20 一种基于图注意力网络的欺诈用户检测模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011307898.9A CN112417099B (zh) 2020-11-20 2020-11-20 一种基于图注意力网络的欺诈用户检测模型构建方法

Publications (2)

Publication Number Publication Date
CN112417099A true CN112417099A (zh) 2021-02-26
CN112417099B CN112417099B (zh) 2022-10-04

Family

ID=74774726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011307898.9A Active CN112417099B (zh) 2020-11-20 2020-11-20 一种基于图注意力网络的欺诈用户检测模型构建方法

Country Status (1)

Country Link
CN (1) CN112417099B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011501A (zh) * 2021-03-22 2021-06-22 广东海启星海洋科技有限公司 基于图卷积神经网络进行台风水位预测的方法及装置
CN113177164A (zh) * 2021-05-13 2021-07-27 聂佼颖 基于大数据的多平台协同新媒体内容监控管理系统
CN113392334A (zh) * 2021-06-29 2021-09-14 长沙理工大学 冷启动环境下的虚假评论检测方法
CN113724035A (zh) * 2021-07-29 2021-11-30 河海大学 一种基于特征学习和图推理的恶意用户检测方法
CN114511332A (zh) * 2021-11-06 2022-05-17 南京财经大学 一种基于多层图卷积神经网络的电商反欺诈方法
CN115099888A (zh) * 2022-06-14 2022-09-23 中国矿业大学(北京) 一种基于注意力机制的用户评论有效性分析方法
CN115346125A (zh) * 2022-10-18 2022-11-15 南京金瀚途科技有限公司 一种基于深度学习的目标检测方法
CN116150341A (zh) * 2023-04-23 2023-05-23 之江实验室 理赔事件检测方法、计算机设备和存储介质
CN116993433A (zh) * 2023-07-14 2023-11-03 重庆邮电大学 一种基于大数据的互联网电商异常用户检测方法
CN117455518A (zh) * 2023-12-25 2024-01-26 连连银通电子支付有限公司 一种欺诈交易检测方法和装置
WO2024096814A1 (en) * 2022-11-01 2024-05-10 Grabtaxi Holdings Pte. Ltd. Method for detecting fraudulent users in a marketplace system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120137367A1 (en) * 2009-11-06 2012-05-31 Cataphora, Inc. Continuous anomaly detection based on behavior modeling and heterogeneous information analysis
CN109284506A (zh) * 2018-11-29 2019-01-29 重庆邮电大学 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN109670542A (zh) * 2018-12-11 2019-04-23 田刚 一种基于评论外部信息的虚假评论检测方法
CN110321436A (zh) * 2019-07-04 2019-10-11 中国人民解放军国防科技大学 一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120137367A1 (en) * 2009-11-06 2012-05-31 Cataphora, Inc. Continuous anomaly detection based on behavior modeling and heterogeneous information analysis
CN109284506A (zh) * 2018-11-29 2019-01-29 重庆邮电大学 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN109670542A (zh) * 2018-12-11 2019-04-23 田刚 一种基于评论外部信息的虚假评论检测方法
CN110321436A (zh) * 2019-07-04 2019-10-11 中国人民解放军国防科技大学 一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011501A (zh) * 2021-03-22 2021-06-22 广东海启星海洋科技有限公司 基于图卷积神经网络进行台风水位预测的方法及装置
CN113011501B (zh) * 2021-03-22 2022-05-24 广东海启星海洋科技有限公司 基于图卷积神经网络进行台风水位预测的方法及装置
CN113177164A (zh) * 2021-05-13 2021-07-27 聂佼颖 基于大数据的多平台协同新媒体内容监控管理系统
CN113392334A (zh) * 2021-06-29 2021-09-14 长沙理工大学 冷启动环境下的虚假评论检测方法
CN113392334B (zh) * 2021-06-29 2024-03-08 长沙理工大学 冷启动环境下的虚假评论检测方法
CN113724035A (zh) * 2021-07-29 2021-11-30 河海大学 一种基于特征学习和图推理的恶意用户检测方法
CN113724035B (zh) * 2021-07-29 2023-10-17 河海大学 一种基于特征学习和图推理的恶意用户检测方法
CN114511332A (zh) * 2021-11-06 2022-05-17 南京财经大学 一种基于多层图卷积神经网络的电商反欺诈方法
CN115099888B (zh) * 2022-06-14 2023-01-06 中国矿业大学(北京) 一种基于注意力机制的用户评论有效性分析方法
CN115099888A (zh) * 2022-06-14 2022-09-23 中国矿业大学(北京) 一种基于注意力机制的用户评论有效性分析方法
CN115346125A (zh) * 2022-10-18 2022-11-15 南京金瀚途科技有限公司 一种基于深度学习的目标检测方法
WO2024096814A1 (en) * 2022-11-01 2024-05-10 Grabtaxi Holdings Pte. Ltd. Method for detecting fraudulent users in a marketplace system
CN116150341A (zh) * 2023-04-23 2023-05-23 之江实验室 理赔事件检测方法、计算机设备和存储介质
CN116150341B (zh) * 2023-04-23 2023-07-18 之江实验室 理赔事件检测方法、计算机设备和存储介质
CN116993433A (zh) * 2023-07-14 2023-11-03 重庆邮电大学 一种基于大数据的互联网电商异常用户检测方法
CN117455518A (zh) * 2023-12-25 2024-01-26 连连银通电子支付有限公司 一种欺诈交易检测方法和装置
CN117455518B (zh) * 2023-12-25 2024-04-19 连连银通电子支付有限公司 一种欺诈交易检测方法和装置

Also Published As

Publication number Publication date
CN112417099B (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
CN112417099B (zh) 一种基于图注意力网络的欺诈用户检测模型构建方法
CN112084335B (zh) 一种基于信息融合的社交媒体用户账号分类方法
Vateekul et al. A study of sentiment analysis using deep learning techniques on Thai Twitter data
CN111753024B (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
CN110472042B (zh) 一种细粒度情感分类方法
CN111061843A (zh) 一种知识图谱引导的假新闻检测方法
CN111259140B (zh) 一种基于lstm多实体特征融合的虚假评论检测方法
CN112231562A (zh) 一种网络谣言识别方法及系统
CN112307351A (zh) 用户行为的模型训练、推荐方法、装置和设备
CN112905739B (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN112199608A (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN115688024B (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN113268675B (zh) 一种基于图注意力网络的社交媒体谣言检测方法和系统
CN112685541B (zh) 一种基于多任务学习的社交媒体谣言检测方法
CN105740382A (zh) 一种对短评论文本进行方面分类方法
CN111914553B (zh) 一种基于机器学习的金融信息负面主体判定的方法
Sohangir et al. Finding expert authors in financial forum using deep learning methods
CN116245110A (zh) 基于图注意力网络的多维度信息融合用户立场检测方法
CN114942974A (zh) 电商平台商品用户评价情感倾向分类方法
CN113516094B (zh) 一种用于为文档匹配评议专家的系统以及方法
Biswas et al. Sentiment analysis on user reaction for online food delivery services using bert model
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
CN113919440A (zh) 一种融合双重注意力机制和图卷积社交网络谣言检测系统
CN112434512A (zh) 一种结合上下文语境的新词确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant