CN111260462A

CN111260462A - 一种基于异质关系网络注意力机制的交易欺诈检测方法

Info

Publication number: CN111260462A
Application number: CN202010045141.0A
Authority: CN
Inventors: 章昭辉; 蒋昌俊; 王鹏伟; 孟盈
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-06-09
Anticipated expiration: 2040-01-16
Also published as: CN111260462B

Abstract

本发明涉及一种基于异质关系网络注意力机制的交易欺诈检测方法，其关键在于，根据交易数据抽取实体关系，构建关系网络二部图，提出了基于节点收缩的异质网络同质化方法和基于Attention机制的邻域信息聚合算法。将信贷交易从关系网络的角度出发，进行建模分析，同时结合实际情况，充分考虑交易之间差异化的潜在关系，设计Attention机制进行节点间关系的差异化生成，提升了欺诈检测的效果。本发明提供的方法从实用性角度出发，通过将注意力从交易节点本身转化到关系网络中交易的若干阶邻域信息，充分考虑交易节点间潜在的差异性的关联关系，进行欺诈检测。

Description

一种基于异质关系网络注意力机制的交易欺诈检测方法

技术领域

本发明涉及一种基于异质关系网络注意力机制的交易欺诈检测方法，属于信息技术领域。

背景技术

近年来，随着互联网技术的发展，网络借贷业务以其审核迅速、放款门槛低等特点逐渐成为互联网金融领域的主要业务模式。然而，由于优质用户逐渐被银行等平台获得，互联网借贷公司为了扩大市场份额不断下沉客群，导致信用风险提升，坏账率普遍能达到30％左右。网络借贷为用户带来便利的同时，也为网络黑产提供了可乘之机。除了对借款人的信用资质进行评估，还需要格外关注潜在欺诈行为的发生。因此，如何基于历史数据，对于欺诈用户进行精准识别，已成为互联网消费金融领域的研究重点。

类比传统的线下贷款流程需要收集申请人的关系信息，相关联系人在贷款业务中扮演着担保人的角色。目前的研究方法，主要是利用逻辑回归、决策树、随机森林等机器学习模型对信贷样本特征进行分析，未考虑样本间的关联关系，同时，对于交易记录中的诸如联系人这样的具有实体性质的属性，由于其离散化后数量多方差大等特点，在建模过程中基本不予考虑，或者采用one-hot编码等特征衍生方式，使得这些实体属性未能很好地表征和利用。尤其是在互联网消费金融领域，借款申请人的社交关系，一定程度上能够反映该申请人较为准确的社会特征。然而，关系网络对于金融业务并不直接产生决定作用，业务本身的属性对欺诈检测起主要作用。因此，如何将借贷交易属性通过关系网络进行有效融合，同时给关系网络中邻域信息分配不同的注意力，进而提升欺诈检测的精准性，是研究的重点与难点。

基于规则引擎的专家系统和以机器学习为核心的数据挖掘方法是常用的反欺诈方式。专家系统是指建立在专家经验之上，通过大量规则的组合来完成对欺诈申请的拦截，具有较强的可解释性，但是这种方法面临着规则易被黑产掌握，需要及时更新等问题。在网络借贷领域，有用于衡量借款人还款意愿、进行违约风险检测的方法信用评分卡模型等，评分越高，表明违约风险越低。逐渐地，数据挖掘、逻辑回归等算法与评分卡模型相结合，提高了借贷欺诈检测的效率。机器学习是在给定一组描述交易的特征的条件下，预测交易的异常可能性，主要有随机森林，SVM等检测方法。

这些研究方法的本质都是通过对交易记录的特征分析建模，寻求群体间的共性和正常异常交易间的个体差异，并且基于样本间的独立同分布假设，即样本间没有相关性，进行建模。网络信贷交易数据维度低、相关性低，同时，贷款申请人在该平台中的历史申请记录往往仅有一笔或者有限的几笔，无法像网上商城业务场景中的电子交易一样，同一用户拥有大量历史记录，进而可以构建基于用户画像的多维度欺诈检测模型。此外，信贷场景中的用户贷款申请记录，存在许多实体性质的信息特征，例如家庭住址、工作单位、联系人等信息。因此需要对相关实体进行关联分析，利用关系网络进行欺诈检测的思想逐渐被提出来，但是应用关系网络建模，挖掘欺诈落地的应用案例很少。关系网络的研究本质是图，图是一种抽象程度高、表达能力强的数据结构，它通过对节点和边的定义来描述实体与实体之间的关联关系。

随着反欺诈技术的进步，金融欺诈越来越难以由个体独立完成，而是通过团伙有组织地进行。关系网络的检测方法基于互联网金融大数据的基础，将用户的行为数据，系统交互数据，联系人数据等构建关系图谱，从而提供了从“关系”的角度分析问题的可能性。同时，大数据背景下，欺诈行为的改变，时间的推移，使得简单的特性或规则变得很快过时。如何从正常行为中识别出异常的团伙欺诈行为变得越来越重要。同时，Vlasselaer等人指出，图模式挖掘很少作为一种独立的金融欺诈检测模型，基于图挖掘的关系网络金融欺诈检测可以作为其他传统模型的补充，挖掘潜在的欺诈关系。因此，通过借鉴图表征学习机制，将信贷交易的欺诈检测问题转化为图中节点分类预测问题，通过对网络结构特征进行表征学习，刻画交易节点间潜在的差异化的关联关系，实现节点的分类预测任务。

发明内容

本发明的目的是：利用信贷交易间潜在的关联关系，结合图表征与Attention机制的优势，差异化聚合关系网络邻域信息，用于欺诈检测。

为了达到上述目的，本发明的技术方案是提供了一种基于异质关系网络注意力机制的交易欺诈检测方法，其特征在于，包括以下步骤：

步骤1、将信贷交易数据根据是否具有实体性质划分为两部分，一部分用于构建交易实体与属性实体之间的信贷交易二分图关系网络，该信贷交易二分图关系网络为异质的带有属性的非连通稀疏图；另一部分用于构建交易属性矩阵；

步骤2、上一步获得的信贷交易二分图关系网络为异质网络，针对异质网络无法统一表征问题，利用节点收缩算法对信贷交易二分图关系网络进行同质化处理得到同质化网络H，包括以下步骤：

S201、计算准备

信贷交易二分图关系网络包括交易实体节点集合T和实体属性节点集合A，各集合内部没有边，集合之间有边相连表示交易实体和其属性之间的表征关系，以实体属性节点集合A为中心，计算实体属性节点集合A中的每个实体属性节点的邻居节点个数；

S203、节点收缩过程

对于实体属性节点集合A中，邻居节点个数大于1的实体属性节点，将与其相连的交易实体节点直接相连，同时将该实体属性节点删除，构成同质化网络H；

S204、在同质化网络H中删除重复出现的边；

S205、同质化过程结束；

步骤3、建立基于Attention模型的权重生成器，包括以下步骤：

S301、构造Attention模型的输入

选择同质化网络H中邻居节点个数最多的节点，该节点的度数记作m，加上该节点自身，得到的度数为m+1，对于同质化网络H中的每一个节点，将其邻域中所有节点的属性向量作为Attention模型的输入，不足m+1个数的用零向量进行填充，设第i个节点的m+1个邻域向量组成的邻域向量N_i作Attention模型的输入，邻域向量N_i是m+1个p维向量；

S302、向量设置

根据输入构建三个具体的向量，包括：查询向量query，是由当前要判断的这笔贷款申请的属性向量，经过一层神经网络Query层生成的；根据输入的m+1个属性向量经过另外一层神经网络Key层生成的m+1个key向量，神经网络Query层与神经网络Key层是并列的，是与不同的权重矩阵相乘得到的；value向量，是邻域信息的一个候选，value向量为Attention模型原始输入，即m+1个属性向量，包括最后可能填充的若干零向量；

S303、权重生成

通过将查询向量query与m+1个key向量进行concate拼接操作，再经过一层神经网络Concate层，得到m+1个2p维的向量，然后通过Softmax层得到m+1维的权重向量，每一维表征对应的输入向量的重要程度；

S304、邻域信息聚合

在通过Softmax得到权重参数的同时，由于value向量记录了原始的邻域属性，直接与权重参数相乘实现邻域信息的加权求和，可以保证所得结果与邻域节点一一对应，经过当前领域信息聚合层得到的向量认为是对当前申请节点进行邻域信息差异化融合的结果；

S305、检测判别

接一个LR的前向传播神经网络结构做分类器，训练网络参数，进行分类，整个网络结构，通过最后的分类判别机制，基于深度学习的反向传播机制，使得权重生成器生成有效的权重，将Attention模型的结果保存出来，作为基于Attention模型的权重生成器的结果；

步骤4、差异化后的各节点邻域信息聚合后作为基于图的邻域信息聚合提升树分类器的输入进行分类预测，邻域信息聚合提升树分类器采用boosting串行基分类器的思想，每一棵新树的建立为了拟合残差。

优选地，步骤1中，构建所述信贷交易二分图关系网络及所述交易属性矩阵包括以下步骤：

S101、划分数据集

将交易数据根据属性是否具有实体意义，划分为纯交易属性集合和用于构建所述信贷交易二分图关系网络的实体关系集合；

S102、特征工程

对于纯交易属性集合做特征工程，衍生变量，获得所述交易属性矩阵；

对于实体关系集合，进行交易实体和属性实体之间的连接，得到代表不同物理意义节点的信贷交易二分图关系网络，该信贷交易二分图关系网络为异质的带有属性的非连通稀疏二分图，非连通稀疏二分图中一部分是交易实体节点集合T，另一部分是抽象化掉实际物理意义的实体属性节点集合A。

优选地，步骤4包括：

S401、输入差异化的邻域信息

根据步骤3获得的基于Attention模型的权重生成器，通过步骤S305的检测判别反向传播过程，生成中间向量，得到差异化的邻域信息，作为最终邻域信息聚合提升树分类器的输入；

S402、分类预测

由邻域信息聚合提升树分类器对差异化权重生成之后的节点信息进行分类预测。

本发明在前期构建借贷业务的原生关系网络，抽象出二分图的拓扑结构，设计节点收缩算法，将异质网络同质化的基础上，借鉴自然语言处理领域中的self-attention机制，构建基于attention模型的深度学习模型，作为权重生成器，进行邻域信息注意力生成，将邻域信息的重要程度进行差别化对待，形成新的节点特征表示。最后通过梯度提升决策树模型，也就是之前工作中的分类模型进行欺诈检测判别。整合图上对应节点的差异化邻域信息，将传统信贷交易记录的属性信息和关系网络信息相结合，对信贷交易进行精准全面挖掘。和目前的一些欺诈检测模型相比，本发明的算法效果有较明显的提升。

除了信贷交易欺诈检测的应用场景以外，对于无向无权图，以及先验信息不足的情况，通过本发明可以有效地学习图中节点间差异化的关联关系，进而提升主要任务的分类效果。

附图说明

图1是信贷交易的欺诈深度检测方法的整体框架，基于Attention机制，通过将传统交易属性与交易关系网络结合考虑，进行建模；

图2是本发明的具体流程图；

图3是基于Attention的模型结构原理示意图；

图4是对于本模型输入，当m＝3时的举例描述示意。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明涉及的一种基于异质关系网络注意力机制的交易欺诈检测方法主要有以下两部分内容：

(1)基于关系网络的考量，对原始数据集进行实体关系抽取，构建异质的非连通的稀疏的原生网络二分图；借鉴同质网络研究的普遍性，提出基于节点收缩的异质网络同质化的方法。

(2)基于图表征学习和Attention的思想，在邻域信息聚合的过程中，将同质网络中节点间的关系权重进行差异化生成，更加符合现实场景，提升欺诈检测效果。

本发明的技术核心在于第(2)部分，在此基础上提出信贷交易欺诈检测方法。在欺诈交易检测任务上，信贷交易欺诈检测方法实现的关键在于两点：

根据以上思想，建立本发明的信贷欺诈交易检测方法的框架如下：

(1)将信贷交易数据根据是否具有实体性质划分为两部分，一部分用于构建交易实体与属性实体之间的信贷交易二分图关系网络，本质上是异质的带有属性的非连通稀疏图；另一部分用于构建交易属性矩阵。构建过程包括如下步骤：

S101、划分数据集

将交易数据根据属性是否具有实体意义，划分为纯交易属性集合和用于构建网络的实体关系集合；

S102、特征工程

对于纯交易属性集合，做特征工程，衍生变量等工作；

S103、原始网络构建

对于实体关系集合，进行交易实体和属性实体之间的连接，得到代表不同物理意义节点的信贷交易二分图关系网络，该信贷交易二分图关系网络本质上是异质的带有属性的非连通稀疏二分图，一部分是交易实体节点集合T，另一部分是抽象化实际物理意义的实体属性节点集合A；

S104、返回数据集；

(2)在此基础上，针对异质网络无法统一表征问题，提出节点收缩算法进行同质化处理，包括以下步骤：

S201、数据输入

将信贷交易二分图关系网络作为该算法的输入；

S202、计算准备

S203、节点收缩过程

对于实体属性节点集合A中，邻居节点个数大于1的实体属性节点，将与其相连的节点(交易实体)直接相连，同时将该节点删除；

S204、在同质化网络H中删除重复出现的边；

S205、返回同质化网络H。

至此，得到的同质化网络H中，只包含交易实体节点，同时也是我们欺诈检测模型关注的对象。

(3)基于Attention模型的权重生成，针对同质化后的网络无向无权无环图的本质，同时由于缺乏专家经验的先验信息指导，对于同质网络中无差异的关系进行差异化权重生成，包括以下步骤：

S301、构造输入

Attention模型的输入是根据同质网络的关系矩阵中抽取出其邻域节点对应的属性向量，将节点及其邻域中所有节点的属性向量作为输入。对于图上不同的节点而言，每个节点的邻居节点数目是不同的，需要将输入的向量个数进行统一。这里选择同质网络中，邻居节点个数最多的节点，其度数记作m，加上该节点自身，共计m+1。因此，对于每一个节点的权重生成过程，需要首先将其邻域中所有节点的属性向量作为输入，不足m+1个数的用零向量进行填充。将得到的第i个节点的m+1个邻域向量组成的邻域向量作权重生成器算法的输入，记作N_i，是m+1个p维向量。

S302、向量设置

根据输入构建三个具体的向量，包括：查询向量query，是由当前要判断的这笔贷款申请的属性向量，经过一层神经网络Query层生成的；根据输入的m+1个属性向量经过另外一层神经网络Key层生成的m+1个key向量；这两层神经网络是并列的，本质上是与不同的权重矩阵相乘得到的。第三个向量是value向量，是指邻域信息的一个候选，value向量为模型的原始输入，即m+1个属性向量，包括最后可能填充的若干零向量。容易看出，对于该m+1维的权重向量，对应于最后padding向量的若干维的权重可能并不为0，但这样的设置并不影响我们后期对于权重的生成，因为value向量的0填充并不会为节点添加有用的邻域信息。

S303、权重生成

通过将查询向量query与m+1个key向量进行concate拼接操作，再经过一层神经网络Concate层，然后通过Softmax层得到m+1维的权重向量，每一维表征对应的输入向量的重要程度。

S304、邻域信息聚合

节点的邻域信息聚合，不同于另一篇专利通过属性矩阵与关系矩阵做矩阵乘法，而关系矩阵对于每一个节点而言，相当于一个n维向量，与之不同的是，权重生成器的输入向量是m+1维，节省了存储空间的同时也提升了计算的时间效率。将attention这种深度学习模型引入进来，在通过softmax得到权重参数的同时，由于value向量记录了原始的邻域属性，直接与权重参数相乘，便可实现邻域信息的加权求和，可以保证所得结果与邻域节点一一对应，经过当前领域信息聚合层得到的向量认为是对当前申请节点进行邻域信息差异化融合的结果。

S305、检测判别

接一个LR的前向反馈神经网络结构，进行分类。整个网络结构，通过最后的分类判别机制，基于反向传播的过程，使得权重生成器生成有效的权重。

(4)基于图的邻域信息聚合提升树方法，差异化后的各节点邻域信息聚合后作为输入，采用boosting串行基分类器的思想，每一棵新树的建立是为了拟合残差，进行分类预测。

S401、输入差异化的邻域信息

根据S3的权重生成神经网络模型，通过S305的检测判别反向传播过程，生成中间向量，得到差异化的邻域信息，作为最终邻域信息聚合提升树分类器的输入。

S402、分类预测

对差异化权重生成之后的节点信息进行分类预测。

将同质网络和交易属性矩阵作为输入，对交易记录进行分类预测；

本发明所述的基于实体关系的在线交易欺诈检测方法及系统可以应用到某金融机构等在线网贷交易系统之中，本发明所述的方法得到了国内某保险公司数据的实验验证。

以国内某家保险公司提供的真实贷款数据为例，数据集包含了308476条贷款记录，其中正样本占91.8％，欺诈记录占8.2％。

S1、根据原始贷款记录进行实体关系抽取，做特征工程，构建关系网络和属性矩阵。

S2、对原始异质信息网络进行同质化处理。

S3、将同质信息网络和属性矩阵作为权重生成器算法的输入，设置参数，借鉴Attention机制，生成差异化的边权重，进而进行差异化邻域信息聚合。

S4、基于差异化邻域信息聚合后的属性作为分类模型的输入，对交易进行检测。

Claims

1.一种基于异质关系网络注意力机制的交易欺诈检测方法，其特征在于，包括以下步骤：

S201、计算准备

S203、节点收缩过程

S204、在同质化网络H中删除重复出现的边；

S205、同质化过程结束；

步骤3、建立基于Attention模型的权重生成器，包括以下步骤：

S301、构造Attention模型的输入

S302、向量设置

S303、权重生成

S304、邻域信息聚合

S305、检测判别

2.如权利要求1所述的一种基于异质关系网络注意力机制的交易欺诈检测方法，其特征在于，步骤1中，构建所述信贷交易二分图关系网络及所述交易属性矩阵包括以下步骤：

S101、划分数据集

S102、特征工程

3.如权利要求1所述的一种基于异质关系网络注意力机制的交易欺诈检测方法，其特征在于，步骤4包括：

S401、输入差异化的邻域信息

S402、分类预测