CN112365352A

CN112365352A - 一种基于图神经网络的反套现方法及装置

Info

Publication number: CN112365352A
Application number: CN202011375524.0A
Authority: CN
Inventors: 康悠杰; 黄胜蓝; 刘浩杰
Original assignee: Xi'an Clover Cyber Technology Co ltd
Current assignee: Xi'an Clover Cyber Technology Co ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-02-12
Anticipated expiration: 2040-11-30
Also published as: CN112365352B

Abstract

本公开提供一种基于图神经网络的反套现方法及装置，涉及金融风控领域，能够解决对套现账户识别不完全的问题。具体技术方案为：获取目标训练集；将目标训练集中的套现数据标记为套现样本；从目标训练集中确定第i次训练对应的非套现样本池，并从第i次训练对应的非套现样本池中标记第i次训练对应的非套现样本，其中i≥1；对目标训练集进行图神经网络训练，获得第i次训练对应的图神经网络模型和第i次训练对应的非套现样本集合；根据获得的第i次训练对应的非套现样本集合，计算第i次训练对应的非套现样本池中的非套现样本比例；在非套现样本比例大于或等于第一预设阈值时，输出第i次训练对应的图神经网络模型。本公开用于信用卡反套现。

Description

一种基于图神经网络的反套现方法及装置

技术领域

本公开涉及金融风控技术领域，尤其涉及一种基于图神经网络的反套现方法及装置。

背景技术

套现，是套取现金的简称，一般是指用违法或虚假的手段获得现金。在套现的各种形式中，信用卡套现逐渐成为金融欺诈案例里的严重问题。信用卡套现指持卡人通过非法手段将卡中信用额度内的资金以现金的方式套取，而不支付银行提现费用的行为。

目前，现有的反套现技术主要通过两种模式实现。一是基于复杂的风控策略与规则，并通过阈值的调整得到相应的套现样本。这种方案的问题在于，阈值过高会导致漏报率大，阈值过低则会导致准确率低，且模型的核验非常依赖业务人员的主观判断，误差较大，且几乎没有对团伙欺诈的识别能力。

另一种方案则是有监督的评分卡模式，通过黑白样本的简单有监督训练，生成模型，并对未知样本进行检测。这种方案的问题在于非常依赖于标签数据，且难以对新型欺诈套现手套做出有效识别。在欺诈手法变化莫测的今天，这种方案的效果也不甚理想。而且同样的，这种方案对团伙欺诈的识别能力也较弱。

发明内容

本公开实施例提供一种基于图神经网络的反套现方法及装置，能够解决现有技术中对套现账户识别不完全的问题。所述技术方案如下：

根据本公开实施例的第一方面，提供一种基于图神经网络的反套现方法，该方法包括：

获取目标训练集；

将所述目标训练集中的套现数据标记为套现样本；

从所述目标训练集中确定第i次训练对应的非套现样本池，并从所述第i次训练对应的非套现样本池中标记第i次训练对应的非套现样本，其中i≥1；

对所述目标训练集进行图神经网络训练，获得第i次训练对应的图神经网络模型和第i次训练对应的非套现样本集合，每次所述图神经网络训练为迭代更新预设数量的训练；

根据获得的所述第i次训练对应的非套现样本集合，计算所述第i次训练对应的非套现样本池中的非套现样本比例；

在所述非套现样本比例大于或等于第一预设阈值时，输出所述第i次训练对应的图神经网络模型。

本公开实施例提供的基于图神经网络的反套现方法，首先获取目标训练集；然后将目标训练集中的套现数据标记为套现样本；从目标训练集中确定第i次训练对应的非套现样本池，并从第i次训练对应的非套现样本池中标记第i次训练对应的非套现样本，其中i≥1；对目标训练集进行图神经网络训练，获得第i次训练对应的图神经网络模型和第i次训练对应的非套现样本集合，每次图神经网络训练为迭代更新预设数量的训练；最后根据获得的第i次训练对应的非套现样本集合，计算第i次训练对应的非套现样本池中的非套现样本比例；在非套现样本比例大于或等于第一预设阈值时，输出第i次训练对应的图神经网络模型。本公开输出图数据神经网络模型，与现有的套现账户检测方法相比，能够有效地提高检测的准确性和效率。

在一个实施例中，上述方法还包括：

在所述非套现样本比例小于第一预设阈值时，确定第i+1次训练对应的非套现样本池，并从所述第i+1次训练对应的非套现样本池中标记第i+1次训练对应的非套现样本，并按照上述的方法计算第i+1次训练对应的非套现样本池中的非套现样本比例。

本公开实施例通过上述方法，在非套现样本比例小于第一预设阈值时，能够重新确定非套现样本池，通过不断更新非套现样本池，进一步保证了输出模型的准确性。

在一个实施例中，在i大于1时，所述从所述目标训练集中确定第i次训练对应的非套现样本池包括：

将所述第i-1次训练对应的非套现样本池与所述第i-1次训练对应的非套现样本集合的交集作为第i次训练对应的非套现样本池。

本公开实施例通过以上方法，将第i-1次训练对应的非套现样本池与第i-1次训练对应的非套现样本集合的交集作为第i次训练对应的非套现样本池，对非套现样本池进行了过滤提纯，得到杂质更少的非套现样本池。

在一个实施例中，在i等于1时，所述从所述目标训练集中确定第i次训练对应的非套现样本池包括：

获取所述目标训练集中去除所述套现样本的数据；

过滤所述数据中额度小于第二预设阈值、空卡率大于第三预设阈值的账户，获得第i次训练对应的非套现样本池。

本公开实施例通过以上方法，过滤了目标训练集，能够得到第一次训练对应的非套现样本池。

在一个实施例中，获取目标训练集包括：

获取原始数据，所述原始数据包括账户表和所述账户表对应的交易明细表；

对所述原始数据添加节点特征和边特征，获得目标训练集，所述节点特征包括账户和商户，所述边特征包括消费交易和还款交易。

本公开实施例通过以上方法，对账户表和交易明细表添加节点特征和边特征，形成图结构，有利于后续进行图神经网络训练。

在一个实施例中，在所述对所述原始数据添加节点特征和边特征之前，所述方法还包括：

对所述原始数据进行预处理，所述预处理包括字段格式转换、字段缺失补齐、数据清洗、类别型数据独热编码和数值型数据归一化中的至少一种。

在一个实施例中，在所述对所述原始数据添加节点特征和边特征之后，所述方法还包括：

过滤所述目标训练集中额度小于第四预设阈值的账户，以及交易数量大于第五预设阈值的商户。

本公开实施例通过以上方法，过滤掉目标训练集中额度小于第四预设阈值的账户，以及交易数量大于第五预设阈值的商户，有利于后续训练形成更准确的图神经网络模型。

在一个实施例中，对所述原始数据添加节点特征和边特征包括：

对所述账户表添加账户节点特征，对所述交易明细表添加商户节点特征、消费交易边特征和还款交易边特征。

根据本公开实施例的第二方面，提供一种基于图神经网络的反套现装置，包括获取模块、标记模块、确定模块、训练模块、计算模块和输出模块；

所述获取模块，用于获取目标训练集；

所述标记模块，用于将所述目标训练集中的套现数据标记为套现样本；

所述确定模块，用于从所述目标训练集中确定第i次训练对应的非套现样本池，并从所述第i次训练对应的非套现样本池中标记第i次训练对应的非套现样本，其中i≥1；

所述训练模块，用于对所述目标训练集进行图神经网络训练，获得第i次训练对应的图神经网络模型和第i次训练对应的非套现样本集合，每次所述图神经网络训练为迭代更新预设数量的训练；

所述计算模块，用于根据获得的所述第i次训练对应的非套现样本集合，计算所述第i次训练对应的非套现样本池中的非套现样本比例；

所述输出模块，用于在所述非套现样本比例大于或等于第一预设阈值时，输出所述第i次训练对应的图神经网络模型。

本公开实施例提供的基于图神经网络的反套现装置，包括获取模块、标记模块、确定模块、训练模块、计算模块和输出模块；获取模块用于获取目标训练集；标记模块用于将目标训练集中的套现数据标记为套现样本；确定模块用于从目标训练集中确定第i次训练对应的非套现样本池，并从第i次训练对应的非套现样本池中标记第i次训练对应的非套现样本，其中i≥1；训练模块用于对目标训练集进行图神经网络训练，获得第i次训练对应的图神经网络模型和第i次训练对应的非套现样本集合，每次图神经网络训练为迭代更新预设数量的训练；计算模块用于根据获得的第i次训练对应的非套现样本集合，计算第i次训练对应的非套现样本池中的非套现样本比例；输出模块用于在非套现样本比例大于或等于第一预设阈值时，输出第i次训练对应的图神经网络模型。本公开输出图数据神经网络模型，与现有的套现账户检测方法相比，能够有效地提高检测的准确性和效率。

在一个实施例中，确定模块，还用于在所述非套现样本比例小于第一预设阈值时，从所述目标训练集中确定第i+1次训练对应的非套现样本池，并从所述第i+1次训练对应的非套现样本池中标记第i+1次训练对应的非套现样本。

本公开实施例通过上述设置，在非套现样本比例小于第一预设阈值时，能够重新确定非套现样本池，通过不断更新非套现样本池，进一步保证了输出模型的准确性。

根据本公开实施例的第三方面，提供一种基于图神经网络的反套现设备，所述基于图神经网络的反套现设备包括处理器和存储器，所述存储器中存储有至少一条计算机指令，所述指令由所述处理器加载并执行以实现上述任一项所述的基于图神经网络的反套现方法中所执行的步骤。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，所述存储介质中存储有至少一条计算机指令，所述指令由处理器加载并执行以实现上述任一项所述的基于图神经网络的反套现方法中所执行的步骤。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本公开实施例提供的一种基于图神经网络的反套现方法的流程图；

图2是本公开实施例提供的一种基于图神经网络的反套现方法的流程图；

图3是本公开实施例提供的一种基于图神经网络的反套现方法的原理图；

图4是本公开实施例提供的一种基于图神经网络的反套现装置的结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的系统和方法的例子。

本公开实施例提供一种基于图神经网络的反套现方法，如图1所示，该基于图神经网络的反套现方法包括以下步骤：

步骤101、获取目标训练集；

需要说明的是，目标训练集为图数据结构。一般来说，账户商户的交易关系很难用欧式空间中一维、二维的矩阵表示，而本公开采用图数据结构对账户表和交易明细表进行表示，通过三元组的形式(实体-关系-实体)来表示复杂交易网络更为合理，易于处理，也易于迁移。

在一个实施例中，获取目标训练集包括：

获取原始数据，原始数据包括账户表和账户表对应的交易明细表；

对原始数据添加节点特征和边特征，获得目标训练集，节点特征包括账户和商户，边特征包括消费交易和还款交易。

本实施例中，根据账户表和交易明细表的信息，整合字段，对账户表添加账户节点特征，对交易明细表添加商户节点特征、消费交易边特征和还款交易边特征。

在一个实施例中，在对原始数据添加节点特征和边特征之前，上述方法还包括：

对原始数据进行预处理，预处理包括字段格式转换、字段缺失补齐、数据清洗、类别型数据独热编码和数值型数据归一化中的至少一种。

实际使用中，通过对原始数据进行预处理，使得原始数据中的数值、文字格式统一。

在一个实施例中，在对原始数据添加节点特征和边特征之后，上述方法还包括：

过滤目标训练集中额度小于第四预设阈值的账户，以及交易数量大于第五预设阈值的商户。

本公开实施例通过以上方法，过滤掉目标训练集中额度小于第四预设阈值的账户，以及交易数量大于第五预设阈值的商户，也就是过滤孤立账户节点和超级商户节点，有利于后续训练形成更准确的图神经网络模型。

步骤102、将目标训练集中的套现数据标记为套现样本；

本公开实施例异构图建模，采用两个图卷积层结构。每个图卷积层对两种不同的边类型采用不同输入输出维度的基于DGL的单层GraphConv，并作适当修改，增加边数据(交易信息)的传播并聚合到相应节点上。

对于每个账户节点，模型的输出为一个二维数组，表示预测为套现或非套现的信息。具体的，原始数据包含被标记的套现样本，和未作标记的样本，本公开通过在未作标记的样本中确定非套现样本池，然后更新非套现样本池，过滤提纯非套现样本池，得到准确的图神经网络模型。

步骤103、从目标训练集中确定第i次训练对应的非套现样本池，并从第i次训练对应的非套现样本池中标记第i次训练对应的非套现样本，其中i≥1。

实际应用中，从第i次训练对应的非套现样本池中标记与套现样本数量一致的第i次训练对应的非套现样本，优选比例为1：1的非套现样本。

在一个实施例中，在i大于1时，从目标训练集中确定第i次训练对应的非套现样本池包括：

将第i-1次训练对应的非套现样本池与第i-1次训练对应的非套现样本集合的交集作为第i次训练对应的非套现样本池。

在一个实施例中，在i等于1时，从目标训练集中确定第i次训练对应的非套现样本池包括：

获取目标训练集中去除套现样本的数据；

过滤数据中额度小于第二预设阈值、空卡率大于第三预设阈值的账户，获得第i次训练对应的非套现样本池。

具体的，额度指信用卡的额度。为了提取训练需要的非套现样本，对每个账户定义空卡率(单位元*天)，表示待还款金额和天数乘积的累加。通过对边(交易)上交易金额和交易日期的传播和聚合，得到账户的空卡率，再通过排序，过滤掉额度过小和空卡率过大的一部分账户，剩下的样本则作为模型训练的非套现样本池。

步骤104、对目标训练集进行图神经网络训练，获得第i次训练对应的图神经网络模型和第i次训练对应的非套现样本集合，每次图神经网络训练为迭代更新预设数量的训练；

具体的，每次训练迭代更新模型参数可以40次、50次、60次等，本实施例不做限定。

步骤105、根据获得的第i次训练对应的非套现样本集合，计算第i次训练对应的非套现样本池中的非套现样本比例；

步骤106、在非套现样本比例大于或等于第一预设阈值时，输出第i次训练对应的图神经网络模型。

在一个实施例中，上述方法还包括：

在非套现样本比例小于第一预设阈值时，确定第i+1次训练对应的非套现样本池，并从第i+1次训练对应的非套现样本池中标记第i+1次训练对应的非套现样本，并按照上述的方法计算第i+1次训练对应的非套现样本池中的非套现样本比例。

本公开使用图神经网络模型的优势在于可以挖掘出图上节点的特征信息和结构信息。图结构上并行计算提升效率的同时，也更有效地挖掘出异常行为者，以达到识别其中欺诈人员及欺诈团伙的目的。

本公开实施例通过一个具体的例子进行说明：

假设获取目标训练集，包括10000个数据，其中包括1000个套现数据，将该1000个套现数据标记为套现样本，在剩余的9000个样本中去除1000个额度小于第二预设阈值、空卡率大于第三预设阈值的账户，则获得第1次训练对应的非套现样本池，包括8000个非套现样本，在该8000个非套现样本中随机取1000个样本标记为第1次训练对应的非套现样本。

对目标训练集中10000个数据进行图神经网络训练，获得第1次训练对应的图神经网络模型和第1次训练对应的非套现样本集合；

根据获得的第1次训练对应的非套现样本集合，计算第1次训练对应的非套现样本池中的非套现样本比例；

在非套现样本比例大于或等于第一预设阈值时，输出第1次训练对应的图神经网络模型。

在非套现样本比例小于第一预设阈值时，将第1次训练对应的非套现样本池与第1次训练对应的非套现样本集合的交集作为第2次训练对应的非套现样本池，并从第2次训练对应的非套现样本池中标记第2次训练对应的非套现样本，并按照上述的方法计算第2次训练对应的非套现样本池中的非套现样本比例，直至非套现样本比例大于或等于第一预设阈值，则循环结束，输出图神经网络模型。

本公开另一实施例提供一种基于图神经网络的反套现方法，如图2和图3所示，该基于图神经网络的反套现方法包括以下步骤：

步骤201、数据探查：探查账户表和交易明细表两个表单，进行数据清洗和预处理。

具体操作包括：字段格式转换，字段缺失补齐，数值型数据归一化，类别型数据独热编码等。

步骤202、图结构设计：根据表单信息，整合字段，添加节点特征和边特征；

考虑异构图schema(图结构)。

定义两种节点类型：账户，商户；两种边类型：消费交易，还款交易。

过滤孤立账户节点，和超级商户节点。

步骤203、异构图建模，采用两个图卷积层结构。

每个图卷积层对两种不同的边类型采用不同输入输出维度的基于图神经网络DGL的单层GraphConv，并作适当修改，增加边数据(交易信息)的传播并聚合到相应节点上。

对于每个账户节点，模型的输出为一个二维数组，表示预测为套现或非套现的信息。

步骤204、训练与测试

步骤2041、标签提取

原始数据包含被标记为套现的黑样本和未作标记的灰样本，灰样本中包括套现黑样本和未套现白样本。

为提取训练需要的未套现白样本，对每个账户定义空卡率(单位元*天)，表示待还款金额和天数乘积的累加。通过对边(交易)上交易金额和交易日期的传播和聚合，得到账户的空卡率，再通过排序，过滤掉额度过小和空卡率过大的一部分账户，剩下的样本则作为模型训练的白样本池W。

步骤2042、模型训练

进行5组训练，对于第n组训练(n≤5)，在白样本池中，按适当比例(如白样本：黑样本＝1:1)随机取出白样本，使用白样本和黑样本进行半监督训练，在训练集上评估准确率。同时，将被预测为未套现的样本取出，相应账户Id存储在集合An中。

对于集合A1,A2…A5,取交集记为A*＝A1∩A2∩A3∩A4∩A5

步骤2043、白样本更新

利用步骤202训练得到的A*集合更新白样本池，新白样本池记为W*＝W∩A*。

可重复步骤202、步骤203进行过滤提纯，得到杂质更少的白样本池。

步骤2044、模型输出

从白样本池W*中按比例随机抽取白样本，结合黑样本，使用Adam优化器，交叉熵损失函数，进行50次迭代训练。模型对每个账户输出一个预测的套现标签(1表示预测为套现，0表示预测为非套现)。

通过以上训练后，输出的图神经网络模型经后期的人工抽样核验表明此模型预测较为准确。

本公开实施例提供的基于图神经网络的反套现方法，可以输出图数据神经网络模型，与现有的套现账户检测方法相比，能够有效地提高检测的准确性和效率。

基于上述图1和图2对应的实施例中所描述的基于图神经网络的反套现方法，下述为本公开系统实施例，可以用于执行本公开方法实施例。

本公开实施例提供一种基于图神经网络的反套现装置，如图4所示，该装置包括获取模块301、标记模块302、确定模块303、训练模块304、计算模块305和输出模块306；

获取模块301，用于获取目标训练集；

标记模块302，用于将目标训练集中的套现数据标记为套现样本；

确定模块303，用于从目标训练集中确定第i次训练对应的非套现样本池，并从第i次训练对应的非套现样本池中标记第i次训练对应的非套现样本，其中i≥1；

训练模块304，用于对目标训练集进行图神经网络训练，获得第i次训练对应的图神经网络模型和第i次训练对应的非套现样本集合，每次图神经网络训练为迭代更新预设数量的训练；

计算模块305，用于根据获得的第i次训练对应的非套现样本集合，计算第i次训练对应的非套现样本池中的非套现样本比例；

输出模块306，用于在非套现样本比例大于或等于第一预设阈值时，输出第i次训练对应的图神经网络模型。

本公开实施例提供的基于图神经网络的反套现装置，包括获取模块301、标记模块302、确定模块303、训练模块304、计算模块305和输出模块306；获取模块301用于获取目标训练集；标记模块302用于将目标训练集中的套现数据标记为套现样本；确定模块303用于从目标训练集中确定第i次训练对应的非套现样本池，并从第i次训练对应的非套现样本池中标记第i次训练对应的非套现样本，其中i≥1；训练模块304用于对目标训练集进行图神经网络训练，获得第i次训练对应的图神经网络模型和第i次训练对应的非套现样本集合，每次图神经网络训练为迭代更新预设数量的训练；计算模块305用于根据获得的第i次训练对应的非套现样本集合，计算第i次训练对应的非套现样本池中的非套现样本比例；输出模块306用于在非套现样本比例大于或等于第一预设阈值时，输出第i次训练对应的图神经网络模型。本公开输出图数据神经网络模型，与现有的套现账户检测方法相比，能够有效地提高检测的准确性和效率。

在一个实施例中，确定模块303，还用于在非套现样本比例小于第一预设阈值时，从目标训练集中确定第i+1次训练对应的非套现样本池，并从第i+1次训练对应的非套现样本池中标记第i+1次训练对应的非套现样本。

基于上述图1和图2对应的实施例中描述的基于图神经网络的反套现方法，本公开另一实施例还提供一种基于图神经网络的反套现设备，该基于图神经网络的反套现设备包括处理器和存储器，存储器中存储有至少一条计算机指令，该指令由处理器加载并执行以实现上述图1和图2对应的实施例中所描述的基于图神经网络的反套现方法。

基于上述图1和图2对应的实施例中所描述的基于图神经网络的反套现方法，本公开实施例还提供一种计算机可读存储介质，例如，非临时性计算机可读存储介质可以是只读存储器(英文：Read Only Memory，ROM)、随机存取存储器(英文：Random Access Memory，RAM)、CD-ROM、磁带、软盘和光数据存储装置等。该存储介质上存储有至少一条计算机指令，用于执行上述图1和图2对应的实施例中所描述的基于图神经网络的反套现方法，此处不再赘述。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种基于图神经网络的反套现方法，其特征在于，所述方法包括：

获取目标训练集；

将所述目标训练集中的套现数据标记为套现样本；

2.根据权利要求1所述的基于图神经网络的反套现方法，其特征在于，所述方法还包括：

在所述非套现样本比例小于第一预设阈值时，确定第i+1次训练对应的非套现样本池，并从所述第i+1次训练对应的非套现样本池中标记第i+1次训练对应的非套现样本，并按照权利要求1所述的方法计算第i+1次训练对应的非套现样本池中的非套现样本比例。

3.根据权利要求1所述的基于图神经网络的反套现方法，其特征在于，在i大于1时，所述从所述目标训练集中确定第i次训练对应的非套现样本池包括：

4.根据权利要求1所述的基于图神经网络的反套现方法，其特征在于，在i等于1时，所述从所述目标训练集中确定第i次训练对应的非套现样本池包括：

获取所述目标训练集中去除所述套现样本的数据；

5.根据权利要求1所述的基于图神经网络的反套现方法，其特征在于，所述获取目标训练集包括：

6.根据权利要求5所述的基于图神经网络的反套现方法，其特征在于，在所述对所述原始数据添加节点特征和边特征之前，所述方法还包括：

7.根据权利要求5所述的基于图神经网络的反套现方法，其特征在于，在所述对所述原始数据添加节点特征和边特征之后，所述方法还包括：

8.根据权利要求5所述的基于图神经网络的反套现方法，其特征在于，所述对所述原始数据添加节点特征和边特征包括：

9.一种基于图神经网络的反套现装置，其特征在于，包括获取模块、标记模块、确定模块、训练模块、计算模块和输出模块；

所述获取模块，用于获取目标训练集；

10.根据权利要求9所述的基于图神经网络的反套现装置，其特征在于，所述确定模块，还用于在所述非套现样本比例小于第一预设阈值时，从所述目标训练集中确定第i+1次训练对应的非套现样本池，并从所述第i+1次训练对应的非套现样本池中标记第i+1次训练对应的非套现样本。