CN112417099A

CN112417099A - 一种基于图注意力网络的欺诈用户检测模型构建方法

Info

Publication number: CN112417099A
Application number: CN202011307898.9A
Authority: CN
Inventors: 任勋益; 黄家铭
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-02-26
Anticipated expiration: 2040-11-20
Also published as: CN112417099B

Abstract

本发明公开了一种基于图注意力网络的欺诈用户检测模型构建方法，该方法首先导入带标签的用户信息，分离出用户的文本内容；再将用户信息预处理后，使用多个特征表征用户行为特征和文本特征；然后导入用户的文本内容，在对文本内容预处理之后，计算用户评论的句嵌入之间的相似度；再以用户信息特征为顶点，评论相关度为边，构建一个用户‑用户网络；最后使用图卷积网络对用户‑用户网络进行学习，并在图卷积网络中使用注意力机制来自适应聚合邻居信息，经过反复训练后得到模型；本发明使用图注意力网络在用户‑用户网络上训练，深入挖掘用户在网络中的全局位置信息并自适应分配邻居权重，来提高模型检测的准确率和稳定性。

Description

一种基于图注意力网络的欺诈用户检测模型构建方法

技术领域

本发明涉及一种基于图注意力网络的欺诈用户检测模型构建方法，属于欺诈检测、自然语言处理、图神经网络、深度学习等交叉技术领域。

背景技术

互联网的开放性和众包任务的货币奖励刺激了大量的冒名用户写虚假评论和发布广告来干扰用户的判断。欺诈用户具有主观化和多样化的特点，因此人工识别较为困难，成本较高，准确率却不理想，所以业内流行解决方案有两种分别是基于规则、基于深度学习。

基于规则的方法主要是通过对用户的行为特征进行分析和学习，从中获取特征的分类规则，对用户进行分类。基于深度学习的方法就是通过人工标注部分样本构造训练数据集，使用深度学习算法从训练集中学习分类模型，最后利用分类模型对未知标签的样本进行类别预测，以此来实现用户的自动检测。

最近几年，在欺诈检测领域，深度学习方法主要关注评论内容特征和评论内容，所以使用的传统模型也主要是自然语言处理常用的卷积网络(convolutionneuralnetworks)CNN或者LSTM(long-short termmemory)网络等，对评论内容和评论内容特征进行学习生成检测模型，再用其模型来区分欺诈用户和普通用户。但是存在以下的缺点：(1)无法提取用户之间的关联信息和全局信息，即无法提取结构信息(2)噪音问题，大规模文本信息往往含有很多的无效信息(3)池化策略，不能自动选取具有贡献的用户特征组合(4)没有有效地利用用户行为特征。最近一年，业界提出新的解决方案，就是先构建用户与用户关系的无权无向图，然后使用图卷积网络对图进行学习。这样就能提取用户之间的结构信息，并学习全局信息，从而解决传统模型中缺点(1)，但其无法解决传统模型中的缺点(2)(3)(4)，并且由于图为无权无向图，所以无法更进一步提取结构信息。

发明内容

本发明主要提供了一种基于图注意力网络的欺诈用户检测模型构建方法，进一步提高对用户信息的提取能力，进而能挖掘到更多的隐藏信息，从而提高模型的分类效果。

技术方案：本发明的一种基于图注意力网络的欺诈用户检测模型构建方法包括以下步骤：

步骤1)将带标签的用户信息数据集进行分组，分离出用户评论文本内容，用于提取用户特征和文本内容特征。

步骤2)导入用户信息并进行预处理，用数个特征来描述用户的行为特征和文本特征，以此来表征用户的评论行为。

步骤3)导入步骤1)中所述分离出的用户评论文本内容，对文本内容进行预处理和预训练之后，用一个低维的向量来表达每个词，再把用户的评论文本内容映射到此向量空间中，获得一个维度相同的矩阵，然后计算评论同一款产品的用户评论之间的相似度平均值；

步骤4)构建用户-用户网络，该网络表示为一个带权无向图，其顶点为用户信息特征向量，其连接关系为只有评论同一款产品的用户之间才有边连接，其权重为用户评论之间的相似度平均值，这样就构成一个揭露用户之间内在联系的网络；

步骤5)在用户-用户网络中，所有顶点的特征向量组合成一个特征矩阵X，顶点之间的连接信息使用邻接矩阵A存储，网络中的顶点出入度信息使用度矩阵D存储；

步骤6)将包含用户信息的特征矩阵X和包含用户评论内容相似度的邻接矩阵A、包含顶点的数量关系的度矩阵D作为图注意力网络的输入，同时使用注意力机制聚合评论相同产品的用户信息，再结合边权重信息来学习新的特征并构建分类器，经过多次迭代训练生成检测欺诈用户的模型。

进一步的，所述步骤1)包括如下步骤：

11)将打好标签的用户信息数据集中的所有信息按照产品分组，生成一个包含产品id、评论用户id、评论文本内容的数据集。

进一步的，所述步骤2)包括如下步骤：

步骤21)对步骤1)中所述的用户信息数据集进行预处理，然后提取用户行为特征和文本特征，组成m维特征向量，若用户数据有r条，则m个特征的连接表示为{F₁,F₂,…,F_m}，构成向量矩阵为M_r×m；

步骤22)其中文本特征中的相似评论数量DSRN使用Simhash方法结合汉明距离来计算，通过统计汉明距离小于阈值的评论数目，从而得到相似评论数量；

步骤23)因为欺诈用户在评论中会使用大量的特殊符号来对抗基于自然语言处理的深度学习模型，所以需要使用特殊字符平均数量这一特征来检测欺诈用户。使用正则表达式匹配评论中特殊字符并统计数量再计算平均值得到特殊字符平均数量RSN。

步骤24)产品的提供者为了自身利益，会雇佣欺诈用户来发布好评，因此欺诈用户的积极评论比例会很高，所以计算积极评论比例来进一步提取欺诈用户特征。积极评论比例PR指评论者发布的所有评论中积极评论的占比。

进一步的，所述步骤22)，包括以下步骤，

步骤221)首先使用Jieba对单独用户评论构成的评论集进行分词，得到有效的特征向量；

步骤222)然后使用TF-IDF来提取前20的关键字k并定义每个关键字的权重weight＝{w_k1＝40,....,w_k20＝2}；

步骤223)再通过hash算法计算各个特征向量的hash值；在获取hash值的基础上，对所有特征向量进行加权W＝hash×weight，若hash为1则和weight正相乘，为0则和weight负相乘；

步骤224)最后计算用户的评论之间的汉明距离，若汉明距离小于4则认定评论相似，再统计汉明距离小于阈值4的评论数目，得到相似评论数量DSRN。

进一步的，所述步骤3)包括如下步骤：

步骤31)使用步骤1)中的用户评论文本内容数据集，先对评论数据进行预处理，包括去除标点符号，对语句进行分词、去除字数小于5的评论等处理。最后使用Word2Vec词嵌入模型对评论内容进行预训练。

步骤32)将词嵌入到一个向量r＝{w₁,w₂,…,w_n}空间中，即包含n个词语，第N个单词w_N经过Word2Vec模型映射后得到一个维度n为200的特征向量E(w_N)＝[e(w₁),e(w₂),…,e(w₂₀₀)]，这样，评论r可以被表示为200×n的特征矩阵E(r)＝[E(w₁),E(w₂),…,E(w_n)]，再创建一个200维的零向量Vec＝{vec₁,vec₂,…,vec₂₀₀}，对特征矩阵E(r)按行相加得到新的向量

使用零向量存放句子嵌入

其中|Words|为句子长度,然后使用余弦相似度计算用户i和用户j的评论之间相似度

其中|Vec_i|为Vec_i向量的长度。

进一步的，所述步骤4)包括如下步骤：

步骤41)构建用户-用户网络

顶点矩阵

是步骤21)中所述的向量矩阵M_r×m，其中

是用户的数目；ε是顶点之间的连接关系，对于任何一个

与其他顶点的关系，定义为只有评论相同产品的顶点才相互连接，用矩阵A_|v|×|v|表示顶点连接关系；其权重值W_|v|×|v|定义为若顶点之间无连接，则w_i,j＝0，如果存在连接，那么

其中K为用户i和用户j共同评论过的产品集合

进一步的，所述步骤5)包括如下步骤：

步骤51)根据步骤41)中所述的用户-用户网络

将其顶点矩阵

作为特征矩阵X；创建一个长度为|v|和维度为|v|且值全为零的度矩阵D，并将X相加生成x_|v|的特征向量，然后D_i,i＝x_i，最后得到度矩阵D；A_|v|×|v|+W_|v|×|v|为邻接矩阵A。

进一步的，所述步骤6)包括如下步骤：

步骤61)图注意力网络主要由图卷积网络层和图注意力层组成，核心为图卷积网络层，其能对图结构提取有效信息；使用两层图卷积网络层来汇总二阶邻居的用户信息；

第一层图卷积网络层汇总第一阶邻居的用户信息，若输入为m维顶点矩阵X，则输出n维顶点特征矩阵h′∈R^r×n如公式(1)(2)：

其中，

是规范化对称邻接矩阵，D∈R^r×r为步骤51)中所述度矩阵D，A∈R^r×r为步骤51)中邻接矩阵A，X∈R^r×m为步骤51)中所述特征矩阵X，σ为激活函数；W₀∈R^m×n为初始全连接层权重矩阵,使用随机的值来初始化；

第二层图卷积网络层汇总第二阶邻居的用户信息，输入为第一层图卷积网络层输出h′，输出m维顶点特征矩阵h″∈R^r×m如公式(3):

其中，W₁∈R^n×k为第二层全连接权重矩阵，使用随机的值来初始化；

步骤62)在两层图卷积层之间加入图注意力层对邻居节点做聚合操作，实现了对不同邻居权重的自适应分配，从而大大提高图卷积网络模型的表达能力。

在第l层图卷积网络h矩阵所对应的特征向量为

d^(l)表示顶点的特征长度，经过一个以注意力机制为核心的聚合操作之后，输出的是每个顶点新的特征向量

d^(l+1)表示输出的特征向量的长度。假设所述的用户-用户网络

中心顶点为v_i，前馈神经网络的权重参数为

为随机值，激活函数为LeakyReLU(负输入斜率α＝0.2)，权重系数α_ij计算如公式(4)：

其中，

为顶点特征矩阵h的顶点v_i的特征向量，

为顶点特征矩阵h的顶点v_i的邻居v_j的特征向量，W_i为第i层注意力层权重矩阵，||为拼接操作。完成上述权重系数的计算，按照注意力机制加权求和，顶点v_i新的特征向量

如公式(5)所示：

其中，

为中心顶点v_i更新后的特征向量。

步骤63)通过两层图注意力层前向传播，获得模型的输出h″,再通过一个softmax函数输出分类结果，如公式(6)所示。

y＝softmax(h″) (6)

其中y为输出类标签的概率分布。当得到待检测用户为欺诈用户的概率大于该用户为普通用户的概率值时，即判断该用户为欺诈用户。

在得到y后，使用交叉熵loss来计算y与标签的损失值。得到损失值后，反向传播计算参数的梯度，然后使用Adam优化方法进行梯度更新模型。训练500次后，基于多特征的图注意力网络的打分平台欺诈用户检测模型构建完成。

有益效果：本发明采用以上技术方案与现有技术相比，具有以下技术效果：

(1)通过融合用户行为特征和评论内容特征生成用户特征，解决传统模型没有有效地利用用户行为特征问题，并进一步提取用户的信息。

(2)通过构建用户-用户图，并使用图卷积网络模型提取用户之间的关联信息，解决传统模型无法提取结构信息的问题，深入挖掘用户在网络中的全局位置信息。(3)不直接使用文本内容进行学习，而是计算文本内容相似度，并仅将相似度作为次要因素来解决传统模型文本噪音问题，减轻噪音对于模型训练的影响。

(4)在图卷积网络中使用注意力机制，实现对不同邻居权重的自适应分配，解决传统模型不能自动选取具有贡献的用户特征组合的问题，从而大大提高了图卷积网络模型的准确率。

附图说明

图1是基于图注意力网络的欺诈用户检测模型构建方法流程。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例对本发明进行进一步详细说明：

一种基于图注意力网络的欺诈用户检测模型构建方法，包括以下步骤：

步骤1)将打好标签的用户信息数据集中的所有信息按照产品分组，生成一个字段为产品id、评论用户id、评论内容的数据集。

步骤21)对步骤1)中的用户信息数据集进行处理，提取8个用户行为特征和4个文本特征，包括如下步骤表1和表2；

表1:基于用户行为特征

特征	描述	维度
			AS	对产品的平均评分	1
MRN	最大评论数量	1
			DN	连续发布评论的天数	1
RT	集中评论时间段	1
			MDN	最大登录设备数量	1
PR	积极评论比例	1
			TQD	时间分布	24
SQD	评分分布	5

表2:基于用户文本特征

特征	描述	维度
			RL	评论文本平均长度	1
DSRN	相似评论数量	1
			RSN	评论中特殊字符平均数量	1
PRR	特殊字符数量占评论平均比例	1

其中用户行为特征包括平均评分AS、最大评论数量MRN、连续发表评论的天数DN、集中评论时间段RT、日登录设备数量DN、积极评论比例PR、基于时间分布TQD、基于评分的分布SQD。其中用户文本特征包括评论文本平均长度RL、相似评论数量DSRN、评论中特殊字符平均数量RSN、特殊字符数量占评论平均比率PRR。每个用户对于特征有多个，特征值的个数即用户的数量，提取了39维特征，数据有r条，则12个特征的连接表示为{F₁,F₂,…,F₁₂}，构成向量矩阵为M_r×39。

步骤22)因欺诈用户对产品常使用相似的评论，所以记录相似评论数量DSRN是有必要的。DSRN使用Simhash方法结合汉明距离来计算。首先使用jieba对用户评论构成的评论集进行分词，得到有效的特征向量。然后使用TF-IDF来提取前20的关键字k并定义每个关键字的权重weight＝{w_k1＝40,....,w_k20＝2}，再通过hash算法计算各个特征向量的hash值。在获取hash值的基础上，对所有特征向量进行加权W＝hash×weight，若hash为1则和weight正相乘，为0则和weight负相乘。最后计算用户的评论之间的汉明距离，若汉明距离小于4则认定评论相似，再统计汉明距离小于阈值4的评论数目，得到相似评论数量DSRN。

步骤23)因为欺诈用户在评论中使用大量的特殊符号来对抗基于自然语言处理的深度学习模型，所以需要使用特殊字符平均数量这一特征来检测欺诈用户。使用正则表达式匹配评论中特殊字符并统计数量再计算平均值得到特殊字符平均数量RSN。

步骤24)产品的提供者为了自身利益，会雇佣欺诈用户来发布好评，因此欺诈用户的积极评论比例会很高，所以计算积极评论比例来进一步提取欺诈用户特征。积极评论比例PR指评论者发布的所有评论中积极评论的占比。评论中给出的评分范围是1到5分，本专利将评分4到5分的评论视为积极评论。

步骤25)每个用户有8个行为特征和4个行为特征共12个用户信息特征，构成39维特征向量，假设用户有r个，则12个用户信息特征的连接表示为{F₁,F₂,…,F₁₂}，构成向量矩阵为M_r×39。

使用零向量存放句子嵌入

其中|Vec_i|为Vec_i向量的长度。

步骤4)构建用户-用户网络

顶点矩阵

是步骤25)的向量矩阵M_r×39，其中

是用户的数目。ε是顶点之间的连接关系，对于任何一个

与其他顶点的关系，定义为只有评论相同产品的顶点才相互连接，用矩阵A表示顶点连接关系，若存在连接a_i,j＝2，反之a_i,j＝1，a_i,j∈A。其连接权重矩阵

定义为若顶点之间无连接，则w_i,j＝0，如果存在连接，那么

其中K为用户i和用户j共同评论过的产品集合。

步骤51)根据步骤41)中所述的用户-用户网络

将其顶点矩阵

步骤61)图注意力网络主要由图卷积层和图注意力层组成，核心为图卷积层，能对图结构提取有效信息。本发明使用两层图卷积层来汇总二阶邻居的特征X，并根据步骤51)的度矩阵D和邻接矩阵A进一步学习用户之间的结构特征，进而提高模型预测的准确度。

第一层图卷积网络层汇总第一阶邻居的用户信息，若输入为39维顶点特征矩阵X、度矩阵D和邻居矩阵A，经过图卷积网络层后输出10维顶点特征矩阵h′∈R^r×10如公式(1)(2)：

其中，

是规范化对称邻接矩阵，D∈R^r×r为步骤51)中所述度矩阵D，A∈R^r×r为步骤51)中邻接矩阵A，X∈R^r×m为步骤51)中所述特征矩阵X，σ为激活函数；W₀∈R^m×n为初始全连接层权重矩阵,使用随机的值[1,10]来初始化；

第二层图卷积网络层汇总第二阶邻居的用户信息，输入为第一层图卷积网络层输出h′、度矩阵D和邻居矩阵A，经过图卷积网络层后输出2维顶点特征矩阵h″∈R^r×2如公式(3):

其中，W₁∈R^n×k为第二层全连接权重矩阵，使用随机的值[1,10]来初始化；

在第l层图卷积网络h矩阵所对应的特征向量为

d^(l+1)表示输出的特征向量的长度。假设图

中心顶点为v_i，前馈神经网络的权重参数为

其中，

为顶点特征矩阵h的顶点v_i的特征向量，

如公式(5)：

其中，

为中心顶点v_i更新后的特征向量。

步骤63)通过两层图注意力层前向传播，获得模型的输出h″，再通过一个softmax函数输出分类结果，如公式(6)所示。

y＝softmax(h″) (6)

在得到y后，使用交叉熵loss来计算y与标签的损失值。得到损失值后，反向传播计算参数的梯度，后使用Adam优化方法进行梯度更新模型，其中Adam的学习率为0.1。训练500次后，基于图注意力网络的欺诈用户检测模型构建完成。

上述实施例仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和等同替换，这些对本发明权利要求进行改进和等同替换后的技术方案，均落入本发明的保护范围。

Claims

1.一种基于图注意力网络的欺诈用户检测模型构建方法，其特征在于，包括以下步骤：

步骤1)将带标签的用户信息数据集进行分组，分离出用户评论文本内容，用于提取用户特征和文本内容特征；

步骤2)导入步骤1)中所述分组后的用户信息并进行预处理，用多个特征来描述用户的行为特征和文本特征，以此来表征用户的评论行为；

2.根据权利要求1所述的一种基于图注意力网络的欺诈用户检测模型构建方法，其特征在于，所述步骤1)包括如下步骤：

3.根据权利要求1所述的一种基于图注意力网络的欺诈用户检测模型构建方法，其特征在于，所述步骤2)，包括如下步骤：

步骤21)对步骤1)中所述的用户信息数据集进行预处理，然后提取用户行为特征和文本特征，组成m维特征向量，若用户数据有r条，则m个特征的连接表示为{F₁，F₂，...，F_m}，构成向量矩阵为M_r×m；

步骤23)其中文本特征中的评论中特殊字符平均数量RSN使用正则表达式匹配评论特殊字符并统计数量；

步骤24)计算文本特征中的积极评论比例PR来进一步提取欺诈用户特征。

4.根据权利要求3所述的一种基于图注意力网络的欺诈用户检测模型构建方法，其特征在于，所述步骤22)，包括以下步骤，

步骤222)然后使用TF-IDF来提取前20的关键字k并定义每个关键字的权重weight＝{w_k1＝40，....，w_k20＝2}；

5.根据权利要求1所述的一种基于图注意力网络的欺诈用户检测模型构建方法，其特征在于，所述步骤3)，包括以下步骤：

步骤31)使用步骤11)中所述的用户评论文本内容数据集，对此数据集中的评论文本内容进行预处理后，用Word2Vec模型对用户评论文本内容预训练；

步骤32)将词嵌入到一个向量r＝{w₁，w₂，...，w_n}空间中，即包含n个词语，第N个单词w_N经过Word2Vec模型映射后得到一个维度n为200的特征向量E(w_N)＝[e(w₁)，e(w₂)，...，e(w₂₀₀)]，这样，评论r可以被表示为200×n的特征矩阵E(r)＝[E(w₁)，E(w₂)，...，E(w_n)]，再创建一个200维的零向量Vec＝{vec₁，vec₂，...，vec₂₀₀}，对特征矩阵E(r)按行相加得到新的向量

使用零向量存放句子嵌入

其中|Words|为句子长度，然后使用余弦相似度计算用户i和用户j的评论之间相似度

其中|Vec_i|为Vec_i向量的长度。

6.根据权利要求5所述的一种基于图注意力网络的欺诈用户检测模型构建方法，其特征在于，所述步骤31)中，评论文本内容的预处理包括去除标点符号，对语句进行分词、去除字数小于5的评论。

7.根据权利要求1所述的一种基于图注意力网络的欺诈用户检测模型构建方法，其特征在于，所述步骤4)，包括如下步骤：

步骤41)构建用户-用户网络

顶点矩阵v是步骤21)中所述的向量矩阵M_r×m，其中|v|＝n是用户的数目；ε是顶点之间的连接关系，对于任何一个v∈v与其他顶点的关系，定义为只有评论相同产品的顶点才相互连接，用矩阵A_|v|×|v|表示顶点连接关系；其权重值W_|v|×|v|定义为若顶点之间无连接，则w_i，j＝0，如果存在连接，那么