CN112365352B - 一种基于图神经网络的反套现方法及装置 - Google Patents

一种基于图神经网络的反套现方法及装置 Download PDF

Info

Publication number
CN112365352B
CN112365352B CN202011375524.0A CN202011375524A CN112365352B CN 112365352 B CN112365352 B CN 112365352B CN 202011375524 A CN202011375524 A CN 202011375524A CN 112365352 B CN112365352 B CN 112365352B
Authority
CN
China
Prior art keywords
cashing
training
sample
neural network
ith
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011375524.0A
Other languages
English (en)
Other versions
CN112365352A (zh
Inventor
康悠杰
黄胜蓝
刘浩杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Clover Cyber Technology Co ltd
Original Assignee
Xi'an Clover Cyber Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Clover Cyber Technology Co ltd filed Critical Xi'an Clover Cyber Technology Co ltd
Priority to CN202011375524.0A priority Critical patent/CN112365352B/zh
Publication of CN112365352A publication Critical patent/CN112365352A/zh
Application granted granted Critical
Publication of CN112365352B publication Critical patent/CN112365352B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本公开提供一种基于图神经网络的反套现方法及装置,涉及金融风控领域,能够解决对套现账户识别不完全的问题。具体技术方案为:获取目标训练集;将目标训练集中的套现数据标记为套现样本;从目标训练集中确定第i次训练对应的非套现样本池,并从第i次训练对应的非套现样本池中标记第i次训练对应的非套现样本,其中i≥1;对目标训练集进行图神经网络训练,获得第i次训练对应的图神经网络模型和第i次训练对应的非套现样本集合;根据获得的第i次训练对应的非套现样本集合,计算第i次训练对应的非套现样本池中的非套现样本比例;在非套现样本比例大于或等于第一预设阈值时,输出第i次训练对应的图神经网络模型。本公开用于信用卡反套现。

Description

一种基于图神经网络的反套现方法及装置
技术领域
本公开涉及金融风控技术领域,尤其涉及一种基于图神经网络的反套现方法及装置。
背景技术
套现,是套取现金的简称,一般是指用违法或虚假的手段获得现金。在套现的各种形式中,信用卡套现逐渐成为金融欺诈案例里的严重问题。信用卡套现指持卡人通过非法手段将卡中信用额度内的资金以现金的方式套取,而不支付银行提现费用的行为。
目前,现有的反套现技术主要通过两种模式实现。一是基于复杂的风控策略与规则,并通过阈值的调整得到相应的套现样本。这种方案的问题在于,阈值过高会导致漏报率大,阈值过低则会导致准确率低,且模型的核验非常依赖业务人员的主观判断,误差较大,且几乎没有对团伙欺诈的识别能力。
另一种方案则是有监督的评分卡模式,通过黑白样本的简单有监督训练,生成模型,并对未知样本进行检测。这种方案的问题在于非常依赖于标签数据,且难以对新型欺诈套现手套做出有效识别。在欺诈手法变化莫测的今天,这种方案的效果也不甚理想。而且同样的,这种方案对团伙欺诈的识别能力也较弱。
发明内容
本公开实施例提供一种基于图神经网络的反套现方法及装置,能够解决现有技术中对套现账户识别不完全的问题。所述技术方案如下:
根据本公开实施例的第一方面,提供一种基于图神经网络的反套现方法,该方法包括:
获取目标训练集;
将所述目标训练集中的套现数据标记为套现样本;
从所述目标训练集中确定第i次训练对应的非套现样本池,并从所述第i次训练对应的非套现样本池中标记第i次训练对应的非套现样本,其中i≥1;
对所述目标训练集进行图神经网络训练,获得第i次训练对应的图神经网络模型和第i次训练对应的非套现样本集合,每次所述图神经网络训练为迭代更新预设数量的训练;
根据获得的所述第i次训练对应的非套现样本集合,计算所述第i次训练对应的非套现样本池中的非套现样本比例;
在所述非套现样本比例大于或等于第一预设阈值时,输出所述第i次训练对应的图神经网络模型。
本公开实施例提供的基于图神经网络的反套现方法,首先获取目标训练集;然后将目标训练集中的套现数据标记为套现样本;从目标训练集中确定第i次训练对应的非套现样本池,并从第i次训练对应的非套现样本池中标记第i次训练对应的非套现样本,其中i≥1;对目标训练集进行图神经网络训练,获得第i次训练对应的图神经网络模型和第i次训练对应的非套现样本集合,每次图神经网络训练为迭代更新预设数量的训练;最后根据获得的第i次训练对应的非套现样本集合,计算第i次训练对应的非套现样本池中的非套现样本比例;在非套现样本比例大于或等于第一预设阈值时,输出第i次训练对应的图神经网络模型。本公开输出图数据神经网络模型,与现有的套现账户检测方法相比,能够有效地提高检测的准确性和效率。
在一个实施例中,上述方法还包括:
在所述非套现样本比例小于第一预设阈值时,确定第i+1次训练对应的非套现样本池,并从所述第i+1次训练对应的非套现样本池中标记第i+1次训练对应的非套现样本,并按照上述的方法计算第i+1次训练对应的非套现样本池中的非套现样本比例。
本公开实施例通过上述方法,在非套现样本比例小于第一预设阈值时,能够重新确定非套现样本池,通过不断更新非套现样本池,进一步保证了输出模型的准确性。
在一个实施例中,在i大于1时,所述从所述目标训练集中确定第i次训练对应的非套现样本池包括:
将所述第i-1次训练对应的非套现样本池与所述第i-1次训练对应的非套现样本集合的交集作为第i次训练对应的非套现样本池。
本公开实施例通过以上方法,将第i-1次训练对应的非套现样本池与第i-1次训练对应的非套现样本集合的交集作为第i次训练对应的非套现样本池,对非套现样本池进行了过滤提纯,得到杂质更少的非套现样本池。
在一个实施例中,在i等于1时,所述从所述目标训练集中确定第i次训练对应的非套现样本池包括:
获取所述目标训练集中去除所述套现样本的数据;
过滤所述数据中额度小于第二预设阈值、空卡率大于第三预设阈值的账户,获得第i次训练对应的非套现样本池。
本公开实施例通过以上方法,过滤了目标训练集,能够得到第一次训练对应的非套现样本池。
在一个实施例中,获取目标训练集包括:
获取原始数据,所述原始数据包括账户表和所述账户表对应的交易明细表;
对所述原始数据添加节点特征和边特征,获得目标训练集,所述节点特征包括账户和商户,所述边特征包括消费交易和还款交易。
本公开实施例通过以上方法,对账户表和交易明细表添加节点特征和边特征,形成图结构,有利于后续进行图神经网络训练。
在一个实施例中,在所述对所述原始数据添加节点特征和边特征之前,所述方法还包括:
对所述原始数据进行预处理,所述预处理包括字段格式转换、字段缺失补齐、数据清洗、类别型数据独热编码和数值型数据归一化中的至少一种。
在一个实施例中,在所述对所述原始数据添加节点特征和边特征之后,所述方法还包括:
过滤所述目标训练集中额度小于第四预设阈值的账户,以及交易数量大于第五预设阈值的商户。
本公开实施例通过以上方法,过滤掉目标训练集中额度小于第四预设阈值的账户,以及交易数量大于第五预设阈值的商户,有利于后续训练形成更准确的图神经网络模型。
在一个实施例中,对所述原始数据添加节点特征和边特征包括:
对所述账户表添加账户节点特征,对所述交易明细表添加商户节点特征、消费交易边特征和还款交易边特征。
根据本公开实施例的第二方面,提供一种基于图神经网络的反套现装置,包括获取模块、标记模块、确定模块、训练模块、计算模块和输出模块;
所述获取模块,用于获取目标训练集;
所述标记模块,用于将所述目标训练集中的套现数据标记为套现样本;
所述确定模块,用于从所述目标训练集中确定第i次训练对应的非套现样本池,并从所述第i次训练对应的非套现样本池中标记第i次训练对应的非套现样本,其中i≥1;
所述训练模块,用于对所述目标训练集进行图神经网络训练,获得第i次训练对应的图神经网络模型和第i次训练对应的非套现样本集合,每次所述图神经网络训练为迭代更新预设数量的训练;
所述计算模块,用于根据获得的所述第i次训练对应的非套现样本集合,计算所述第i次训练对应的非套现样本池中的非套现样本比例;
所述输出模块,用于在所述非套现样本比例大于或等于第一预设阈值时,输出所述第i次训练对应的图神经网络模型。
本公开实施例提供的基于图神经网络的反套现装置,包括获取模块、标记模块、确定模块、训练模块、计算模块和输出模块;获取模块用于获取目标训练集;标记模块用于将目标训练集中的套现数据标记为套现样本;确定模块用于从目标训练集中确定第i次训练对应的非套现样本池,并从第i次训练对应的非套现样本池中标记第i次训练对应的非套现样本,其中i≥1;训练模块用于对目标训练集进行图神经网络训练,获得第i次训练对应的图神经网络模型和第i次训练对应的非套现样本集合,每次图神经网络训练为迭代更新预设数量的训练;计算模块用于根据获得的第i次训练对应的非套现样本集合,计算第i次训练对应的非套现样本池中的非套现样本比例;输出模块用于在非套现样本比例大于或等于第一预设阈值时,输出第i次训练对应的图神经网络模型。本公开输出图数据神经网络模型,与现有的套现账户检测方法相比,能够有效地提高检测的准确性和效率。
在一个实施例中,确定模块,还用于在所述非套现样本比例小于第一预设阈值时,从所述目标训练集中确定第i+1次训练对应的非套现样本池,并从所述第i+1次训练对应的非套现样本池中标记第i+1次训练对应的非套现样本。
本公开实施例通过上述设置,在非套现样本比例小于第一预设阈值时,能够重新确定非套现样本池,通过不断更新非套现样本池,进一步保证了输出模型的准确性。
根据本公开实施例的第三方面,提供一种基于图神经网络的反套现设备,所述基于图神经网络的反套现设备包括处理器和存储器,所述存储器中存储有至少一条计算机指令,所述指令由所述处理器加载并执行以实现上述任一项所述的基于图神经网络的反套现方法中所执行的步骤。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,所述存储介质中存储有至少一条计算机指令,所述指令由处理器加载并执行以实现上述任一项所述的基于图神经网络的反套现方法中所执行的步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本公开实施例提供的一种基于图神经网络的反套现方法的流程图;
图2是本公开实施例提供的一种基于图神经网络的反套现方法的流程图;
图3是本公开实施例提供的一种基于图神经网络的反套现方法的原理图;
图4是本公开实施例提供的一种基于图神经网络的反套现装置的结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的系统和方法的例子。
本公开实施例提供一种基于图神经网络的反套现方法,如图1所示,该基于图神经网络的反套现方法包括以下步骤:
步骤101、获取目标训练集;
需要说明的是,目标训练集为图数据结构。一般来说,账户商户的交易关系很难用欧式空间中一维、二维的矩阵表示,而本公开采用图数据结构对账户表和交易明细表进行表示,通过三元组的形式(实体-关系-实体)来表示复杂交易网络更为合理,易于处理,也易于迁移。
在一个实施例中,获取目标训练集包括:
获取原始数据,原始数据包括账户表和账户表对应的交易明细表;
对原始数据添加节点特征和边特征,获得目标训练集,节点特征包括账户和商户,边特征包括消费交易和还款交易。
本实施例中,根据账户表和交易明细表的信息,整合字段,对账户表添加账户节点特征,对交易明细表添加商户节点特征、消费交易边特征和还款交易边特征。
本公开实施例通过以上方法,对账户表和交易明细表添加节点特征和边特征,形成图结构,有利于后续进行图神经网络训练。
在一个实施例中,在对原始数据添加节点特征和边特征之前,上述方法还包括:
对原始数据进行预处理,预处理包括字段格式转换、字段缺失补齐、数据清洗、类别型数据独热编码和数值型数据归一化中的至少一种。
实际使用中,通过对原始数据进行预处理,使得原始数据中的数值、文字格式统一。
在一个实施例中,在对原始数据添加节点特征和边特征之后,上述方法还包括:
过滤目标训练集中额度小于第四预设阈值的账户,以及交易数量大于第五预设阈值的商户。
本公开实施例通过以上方法,过滤掉目标训练集中额度小于第四预设阈值的账户,以及交易数量大于第五预设阈值的商户,也就是过滤孤立账户节点和超级商户节点,有利于后续训练形成更准确的图神经网络模型。
步骤102、将目标训练集中的套现数据标记为套现样本;
本公开实施例异构图建模,采用两个图卷积层结构。每个图卷积层对两种不同的边类型采用不同输入输出维度的基于DGL的单层GraphConv,并作适当修改,增加边数据(交易信息)的传播并聚合到相应节点上。
对于每个账户节点,模型的输出为一个二维数组,表示预测为套现或非套现的信息。具体的,原始数据包含被标记的套现样本,和未作标记的样本,本公开通过在未作标记的样本中确定非套现样本池,然后更新非套现样本池,过滤提纯非套现样本池,得到准确的图神经网络模型。
步骤103、从目标训练集中确定第i次训练对应的非套现样本池,并从第i次训练对应的非套现样本池中标记第i次训练对应的非套现样本,其中i≥1。
实际应用中,从第i次训练对应的非套现样本池中标记与套现样本数量一致的第i次训练对应的非套现样本,优选比例为1:1的非套现样本。
在一个实施例中,在i大于1时,从目标训练集中确定第i次训练对应的非套现样本池包括:
将第i-1次训练对应的非套现样本池与第i-1次训练对应的非套现样本集合的交集作为第i次训练对应的非套现样本池。
本公开实施例通过以上方法,将第i-1次训练对应的非套现样本池与第i-1次训练对应的非套现样本集合的交集作为第i次训练对应的非套现样本池,对非套现样本池进行了过滤提纯,得到杂质更少的非套现样本池。
在一个实施例中,在i等于1时,从目标训练集中确定第i次训练对应的非套现样本池包括:
获取目标训练集中去除套现样本的数据;
过滤数据中额度小于第二预设阈值、空卡率大于第三预设阈值的账户,获得第i次训练对应的非套现样本池。
具体的,额度指信用卡的额度。为了提取训练需要的非套现样本,对每个账户定义空卡率(单位元*天),表示待还款金额和天数乘积的累加。通过对边(交易)上交易金额和交易日期的传播和聚合,得到账户的空卡率,再通过排序,过滤掉额度过小和空卡率过大的一部分账户,剩下的样本则作为模型训练的非套现样本池。
本公开实施例通过以上方法,过滤了目标训练集,能够得到第一次训练对应的非套现样本池。
步骤104、对目标训练集进行图神经网络训练,获得第i次训练对应的图神经网络模型和第i次训练对应的非套现样本集合,每次图神经网络训练为迭代更新预设数量的训练;
具体的,每次训练迭代更新模型参数可以40次、50次、60次等,本实施例不做限定。
步骤105、根据获得的第i次训练对应的非套现样本集合,计算第i次训练对应的非套现样本池中的非套现样本比例;
步骤106、在非套现样本比例大于或等于第一预设阈值时,输出第i次训练对应的图神经网络模型。
在一个实施例中,上述方法还包括:
在非套现样本比例小于第一预设阈值时,确定第i+1次训练对应的非套现样本池,并从第i+1次训练对应的非套现样本池中标记第i+1次训练对应的非套现样本,并按照上述的方法计算第i+1次训练对应的非套现样本池中的非套现样本比例。
本公开实施例通过上述方法,在非套现样本比例小于第一预设阈值时,能够重新确定非套现样本池,通过不断更新非套现样本池,进一步保证了输出模型的准确性。
本公开使用图神经网络模型的优势在于可以挖掘出图上节点的特征信息和结构信息。图结构上并行计算提升效率的同时,也更有效地挖掘出异常行为者,以达到识别其中欺诈人员及欺诈团伙的目的。
本公开实施例通过一个具体的例子进行说明:
假设获取目标训练集,包括10000个数据,其中包括1000个套现数据,将该1000个套现数据标记为套现样本,在剩余的9000个样本中去除1000个额度小于第二预设阈值、空卡率大于第三预设阈值的账户,则获得第1次训练对应的非套现样本池,包括8000个非套现样本,在该8000个非套现样本中随机取1000个样本标记为第1次训练对应的非套现样本。
对目标训练集中10000个数据进行图神经网络训练,获得第1次训练对应的图神经网络模型和第1次训练对应的非套现样本集合;
根据获得的第1次训练对应的非套现样本集合,计算第1次训练对应的非套现样本池中的非套现样本比例;
在非套现样本比例大于或等于第一预设阈值时,输出第1次训练对应的图神经网络模型。
在非套现样本比例小于第一预设阈值时,将第1次训练对应的非套现样本池与第1次训练对应的非套现样本集合的交集作为第2次训练对应的非套现样本池,并从第2次训练对应的非套现样本池中标记第2次训练对应的非套现样本,并按照上述的方法计算第2次训练对应的非套现样本池中的非套现样本比例,直至非套现样本比例大于或等于第一预设阈值,则循环结束,输出图神经网络模型。
本公开实施例提供的基于图神经网络的反套现方法,首先获取目标训练集;然后将目标训练集中的套现数据标记为套现样本;从目标训练集中确定第i次训练对应的非套现样本池,并从第i次训练对应的非套现样本池中标记第i次训练对应的非套现样本,其中i≥1;对目标训练集进行图神经网络训练,获得第i次训练对应的图神经网络模型和第i次训练对应的非套现样本集合,每次图神经网络训练为迭代更新预设数量的训练;最后根据获得的第i次训练对应的非套现样本集合,计算第i次训练对应的非套现样本池中的非套现样本比例;在非套现样本比例大于或等于第一预设阈值时,输出第i次训练对应的图神经网络模型。本公开输出图数据神经网络模型,与现有的套现账户检测方法相比,能够有效地提高检测的准确性和效率。
本公开另一实施例提供一种基于图神经网络的反套现方法,如图2和图3所示,该基于图神经网络的反套现方法包括以下步骤:
步骤201、数据探查:探查账户表和交易明细表两个表单,进行数据清洗和预处理。
具体操作包括:字段格式转换,字段缺失补齐,数值型数据归一化,类别型数据独热编码等。
步骤202、图结构设计:根据表单信息,整合字段,添加节点特征和边特征;
考虑异构图schema(图结构)。
定义两种节点类型:账户,商户;两种边类型:消费交易,还款交易。
过滤孤立账户节点,和超级商户节点。
步骤203、异构图建模,采用两个图卷积层结构。
每个图卷积层对两种不同的边类型采用不同输入输出维度的基于图神经网络DGL的单层GraphConv,并作适当修改,增加边数据(交易信息)的传播并聚合到相应节点上。
对于每个账户节点,模型的输出为一个二维数组,表示预测为套现或非套现的信息。
步骤204、训练与测试
步骤2041、标签提取
原始数据包含被标记为套现的黑样本和未作标记的灰样本,灰样本中包括套现黑样本和未套现白样本。
为提取训练需要的未套现白样本,对每个账户定义空卡率(单位元*天),表示待还款金额和天数乘积的累加。通过对边(交易)上交易金额和交易日期的传播和聚合,得到账户的空卡率,再通过排序,过滤掉额度过小和空卡率过大的一部分账户,剩下的样本则作为模型训练的白样本池W。
步骤2042、模型训练
进行5组训练,对于第n组训练(n≤5),在白样本池中,按适当比例(如白样本:黑样本=1:1)随机取出白样本,使用白样本和黑样本进行半监督训练,在训练集上评估准确率。同时,将被预测为未套现的样本取出,相应账户Id存储在集合An中。
对于集合A1,A2…A5,取交集记为A*=A1∩A2∩A3∩A4∩A5
步骤2043、白样本更新
利用步骤202训练得到的A*集合更新白样本池,新白样本池记为W*=W∩A*。
可重复步骤202、步骤203进行过滤提纯,得到杂质更少的白样本池。
步骤2044、模型输出
从白样本池W*中按比例随机抽取白样本,结合黑样本,使用Adam优化器,交叉熵损失函数,进行50次迭代训练。模型对每个账户输出一个预测的套现标签(1表示预测为套现,0表示预测为非套现)。
通过以上训练后,输出的图神经网络模型经后期的人工抽样核验表明此模型预测较为准确。
本公开实施例提供的基于图神经网络的反套现方法,可以输出图数据神经网络模型,与现有的套现账户检测方法相比,能够有效地提高检测的准确性和效率。
基于上述图1和图2对应的实施例中所描述的基于图神经网络的反套现方法,下述为本公开系统实施例,可以用于执行本公开方法实施例。
本公开实施例提供一种基于图神经网络的反套现装置,如图4所示,该装置包括获取模块301、标记模块302、确定模块303、训练模块304、计算模块305和输出模块306;
获取模块301,用于获取目标训练集;
标记模块302,用于将目标训练集中的套现数据标记为套现样本;
确定模块303,用于从目标训练集中确定第i次训练对应的非套现样本池,并从第i次训练对应的非套现样本池中标记第i次训练对应的非套现样本,其中i≥1;
训练模块304,用于对目标训练集进行图神经网络训练,获得第i次训练对应的图神经网络模型和第i次训练对应的非套现样本集合,每次图神经网络训练为迭代更新预设数量的训练;
计算模块305,用于根据获得的第i次训练对应的非套现样本集合,计算第i次训练对应的非套现样本池中的非套现样本比例;
输出模块306,用于在非套现样本比例大于或等于第一预设阈值时,输出第i次训练对应的图神经网络模型。
本公开实施例提供的基于图神经网络的反套现装置,包括获取模块301、标记模块302、确定模块303、训练模块304、计算模块305和输出模块306;获取模块301用于获取目标训练集;标记模块302用于将目标训练集中的套现数据标记为套现样本;确定模块303用于从目标训练集中确定第i次训练对应的非套现样本池,并从第i次训练对应的非套现样本池中标记第i次训练对应的非套现样本,其中i≥1;训练模块304用于对目标训练集进行图神经网络训练,获得第i次训练对应的图神经网络模型和第i次训练对应的非套现样本集合,每次图神经网络训练为迭代更新预设数量的训练;计算模块305用于根据获得的第i次训练对应的非套现样本集合,计算第i次训练对应的非套现样本池中的非套现样本比例;输出模块306用于在非套现样本比例大于或等于第一预设阈值时,输出第i次训练对应的图神经网络模型。本公开输出图数据神经网络模型,与现有的套现账户检测方法相比,能够有效地提高检测的准确性和效率。
在一个实施例中,确定模块303,还用于在非套现样本比例小于第一预设阈值时,从目标训练集中确定第i+1次训练对应的非套现样本池,并从第i+1次训练对应的非套现样本池中标记第i+1次训练对应的非套现样本。
本公开实施例通过上述设置,在非套现样本比例小于第一预设阈值时,能够重新确定非套现样本池,通过不断更新非套现样本池,进一步保证了输出模型的准确性。
基于上述图1和图2对应的实施例中描述的基于图神经网络的反套现方法,本公开另一实施例还提供一种基于图神经网络的反套现设备,该基于图神经网络的反套现设备包括处理器和存储器,存储器中存储有至少一条计算机指令,该指令由处理器加载并执行以实现上述图1和图2对应的实施例中所描述的基于图神经网络的反套现方法。
基于上述图1和图2对应的实施例中所描述的基于图神经网络的反套现方法,本公开实施例还提供一种计算机可读存储介质,例如,非临时性计算机可读存储介质可以是只读存储器(英文:Read Only Memory,ROM)、随机存取存储器(英文:Random Access Memory,RAM)、CD-ROM、磁带、软盘和光数据存储装置等。该存储介质上存储有至少一条计算机指令,用于执行上述图1和图2对应的实施例中所描述的基于图神经网络的反套现方法,此处不再赘述。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (4)

1.一种基于图神经网络的反套现方法,其特征在于,所述方法包括:
获取目标训练集;其中,获取目标训练集包括:获取原始数据,所述原始数据包括账户表和所述账户表对应的交易明细表;对所述原始数据添加节点特征和边特征,过滤所述目标训练集中额度小于第四预设阈值的账户,以及交易数量大于第五预设阈值的商户,获得目标训练集,所述节点特征包括账户和商户,所述边特征包括消费交易和还款交易;
将所述目标训练集中的套现数据标记为套现样本;
从所述目标训练集中确定第i次训练对应的非套现样本池,并从所述第i次训练对应的非套现样本池中标记第i次训练对应的非套现样本,其中i≥1;
其中,在i大于1时,所述从所述目标训练集中确定第i次训练对应的非套现样本池包括:将所述第i-1次训练对应的非套现样本池与所述第i-1次训练对应的非套现样本集合的交集作为第i次训练对应的非套现样本池;
在i等于1时,所述从所述目标训练集中确定第i次训练对应的非套现样本池包括:获取所述目标训练集中去除所述套现样本的数据;过滤所述数据中额度小于第二预设阈值、空卡率大于第三预设阈值的账户,获得第i次训练对应的非套现样本池;
对所述目标训练集进行图神经网络训练,获得第i次训练对应的图神经网络模型和第i次训练对应的非套现样本集合,每次所述图神经网络训练为迭代更新预设数量的训练,所述模型的迭代更新方式为使用Adam优化器和交叉熵损失函数进行迭代训练;
根据获得的所述第i次训练对应的非套现样本集合,计算所述第i次训练对应的非套现样本池中的非套现样本比例;
在所述非套现样本比例大于或等于第一预设阈值时,输出所述第i次训练对应的图神经网络模型;
在所述非套现样本比例小于第一预设阈值时,确定第i+1次训练对应的非套现样本池,从所述第i+1次训练对应的非套现样本池中标记第i+1次训练对应的非套现样本,并计算第i+1次训练对应的非套现样本池中的非套现样本比例,直至所述非套现样本比例大于或等于第一预设阈值。
2.根据权利要求1所述的基于图神经网络的反套现方法,其特征在于,在所述对所述原始数据添加节点特征和边特征之前,所述方法还包括:
对所述原始数据进行预处理,所述预处理包括字段格式转换、字段缺失补齐、数据清洗、类别型数据独热编码和数值型数据归一化中的至少一种。
3.根据权利要求1所述的基于图神经网络的反套现方法,其特征在于,所述对所述原始数据添加节点特征和边特征包括:
对所述账户表添加账户节点特征,对所述交易明细表添加商户节点特征、消费交易边特征和还款交易边特征。
4.一种基于图神经网络的反套现装置,其特征在于,包括获取模块、标记模块、确定模块、训练模块、计算模块和输出模块;
所述获取模块,用于获取目标训练集,其中,获取模块,具体用于获取原始数据,所述原始数据包括账户表和所述账户表对应的交易明细表;对所述原始数据添加节点特征和边特征,过滤所述目标训练集中额度小于第四预设阈值的账户,以及交易数量大于第五预设阈值的商户,获得目标训练集,所述节点特征包括账户和商户,所述边特征包括消费交易和还款交易;
所述标记模块,用于将所述目标训练集中的套现数据标记为套现样本;
所述确定模块,用于从所述目标训练集中确定第i次训练对应的非套现样本池,并从所述第i次训练对应的非套现样本池中标记第i次训练对应的非套现样本,其中i≥1;
其中,所述确定模块,具体用于在i大于1时,将所述第i-1次训练对应的非套现样本池与所述第i-1次训练对应的非套现样本集合的交集作为第i次训练对应的非套现样本池;在i等于1时,获取所述目标训练集中去除所述套现样本的数据;过滤所述数据中额度小于第二预设阈值、空卡率大于第三预设阈值的账户,获得第i次训练对应的非套现样本池;
所述训练模块,用于对所述目标训练集进行图神经网络训练,获得第i次训练对应的图神经网络模型和第i次训练对应的非套现样本集合,每次所述图神经网络训练为迭代更新预设数量的训练,所述模型的迭代更新方式为使用Adam优化器和交叉熵损失函数进行迭代训练;
所述计算模块,用于根据获得的所述第i次训练对应的非套现样本集合,计算所述第i次训练对应的非套现样本池中的非套现样本比例;
所述输出模块,用于在所述非套现样本比例大于或等于第一预设阈值时,输出所述第i次训练对应的图神经网络模型;
所述确定模块,还用于在所述非套现样本比例小于第一预设阈值时,确定第i+1次训练对应的非套现样本池,从所述第i+1次训练对应的非套现样本池中标记第i+1次训练对应的非套现样本;
所述计算模块,还用于计算第i+1次训练对应的非套现样本池中的非套现样本比例,直至所述非套现样本比例大于或等于第一预设阈值。
CN202011375524.0A 2020-11-30 2020-11-30 一种基于图神经网络的反套现方法及装置 Active CN112365352B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011375524.0A CN112365352B (zh) 2020-11-30 2020-11-30 一种基于图神经网络的反套现方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011375524.0A CN112365352B (zh) 2020-11-30 2020-11-30 一种基于图神经网络的反套现方法及装置

Publications (2)

Publication Number Publication Date
CN112365352A CN112365352A (zh) 2021-02-12
CN112365352B true CN112365352B (zh) 2023-07-04

Family

ID=74535136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011375524.0A Active CN112365352B (zh) 2020-11-30 2020-11-30 一种基于图神经网络的反套现方法及装置

Country Status (1)

Country Link
CN (1) CN112365352B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065651B (zh) * 2021-04-02 2021-11-09 中山大学 一种图神经网络模型的节点修改方法和相关装置
CN113222738A (zh) * 2021-05-25 2021-08-06 山东小葱数字科技有限公司 套现卡识别方法、装置、电子设备和计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590263A (zh) * 2017-09-22 2018-01-16 辽宁工程技术大学 一种基于多变量决策树模型的分布式大数据分类方法
CN108733714A (zh) * 2017-04-21 2018-11-02 北京京东尚科信息技术有限公司 一种数据分析的方法和装置
CN110263227A (zh) * 2019-05-15 2019-09-20 阿里巴巴集团控股有限公司 基于图神经网络的团伙发现方法和系统
CN111325624A (zh) * 2020-02-11 2020-06-23 支付宝(杭州)信息技术有限公司 网络交易的实时防控系统及方法
CN111476662A (zh) * 2020-04-13 2020-07-31 中国工商银行股份有限公司 反洗钱识别方法及装置
CN111489166A (zh) * 2020-04-17 2020-08-04 支付宝(杭州)信息技术有限公司 风险防控方法、装置、处理设备及系统
CN111967003A (zh) * 2020-07-22 2020-11-20 武汉极意网络科技有限公司 基于黑盒模型与决策树的风控规则自动生成系统及方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9767222B2 (en) * 2013-09-27 2017-09-19 International Business Machines Corporation Information sets for data management
CN109376615B (zh) * 2018-09-29 2020-12-18 苏州科达科技股份有限公司 用于提升深度学习网络预测性能的方法、装置及存储介质
CN109697267B (zh) * 2018-12-12 2021-02-23 西安四叶草信息技术有限公司 Cms识别方法及装置
CN111539479B (zh) * 2020-04-27 2023-08-08 北京百度网讯科技有限公司 生成样本数据的方法和装置
US11699085B2 (en) * 2020-06-05 2023-07-11 Intel Corporation Methods and arrangements to identify activation profile context in training data
CN111860588B (zh) * 2020-06-12 2024-06-21 华为技术有限公司 一种用于图神经网络的训练方法以及相关设备
CN115114467B (zh) * 2021-03-17 2024-05-14 腾讯科技(深圳)有限公司 图片神经网络模型的训练方法以及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733714A (zh) * 2017-04-21 2018-11-02 北京京东尚科信息技术有限公司 一种数据分析的方法和装置
CN107590263A (zh) * 2017-09-22 2018-01-16 辽宁工程技术大学 一种基于多变量决策树模型的分布式大数据分类方法
CN110263227A (zh) * 2019-05-15 2019-09-20 阿里巴巴集团控股有限公司 基于图神经网络的团伙发现方法和系统
CN111325624A (zh) * 2020-02-11 2020-06-23 支付宝(杭州)信息技术有限公司 网络交易的实时防控系统及方法
CN111476662A (zh) * 2020-04-13 2020-07-31 中国工商银行股份有限公司 反洗钱识别方法及装置
CN111489166A (zh) * 2020-04-17 2020-08-04 支付宝(杭州)信息技术有限公司 风险防控方法、装置、处理设备及系统
CN111967003A (zh) * 2020-07-22 2020-11-20 武汉极意网络科技有限公司 基于黑盒模型与决策树的风控规则自动生成系统及方法

Also Published As

Publication number Publication date
CN112365352A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
CN107545422B (zh) 一种套现检测方法及装置
EP1359525A1 (en) Device for integrating transaction information on finantial transaction
CN112365352B (zh) 一种基于图神经网络的反套现方法及装置
CN111046184B (zh) 文本的风险识别方法、装置、服务器和存储介质
CN112541817A (zh) 一种个人消费贷款潜在客户的营销响应处理方法及系统
CN111325248A (zh) 降低贷前业务风险的方法及系统
CN111179089B (zh) 洗钱交易识别方法、装置和设备
CN109685644A (zh) 一种基于迁移学习的客户信用评分方法及装置
Twum et al. Revisiting credit risk and banks performance of China's commercial banks before and after Covid 19 pandemic
CN109740792A (zh) 数据预测方法、系统、终端及计算机存储介质
CN110728142B (zh) 一种流水文件识别方法、装置及计算机存储介质、电子设备
CN113989019A (zh) 识别风险的方法、装置、设备及存储介质
CN111709844A (zh) 一种保险洗钱人员检测方法、装置和计算机可读存储介质
CN115641202A (zh) 基于知识图谱和图计算的小贷行业团体借贷风险测度方法
CN113807943A (zh) 一种不良资产的多因子估值方法及系统、介质、设备
CN112966728A (zh) 一种交易监测的方法及装置
CN112766814A (zh) 一种信用风险压力测试模型的训练方法、装置及设备
CN117094764A (zh) 银行积分处理方法及装置
CN111652716A (zh) 首贷户标签确定方法及装置
CN112001425A (zh) 一种数据处理方法、装置及计算机可读存储介质
Marimuthu et al. Currency redenomination and firm value growth: Lessons from a developing economy
CN112396513B (zh) 一种数据处理的方法及装置
CN118037435A (zh) 一种中小企业贷款担保额度评估方法、装置、介质及产品
Do Thi Ha Thuong et al. Factors Affecting Capital Adequacy
CN116611907A (zh) 资金流向的监测方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant