CN113538126A - 基于gcn的欺诈风险预测方法及装置 - Google Patents

基于gcn的欺诈风险预测方法及装置 Download PDF

Info

Publication number
CN113538126A
CN113538126A CN202110804891.6A CN202110804891A CN113538126A CN 113538126 A CN113538126 A CN 113538126A CN 202110804891 A CN202110804891 A CN 202110804891A CN 113538126 A CN113538126 A CN 113538126A
Authority
CN
China
Prior art keywords
gcn
transfer
risk prediction
service network
fraud risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110804891.6A
Other languages
English (en)
Inventor
赵哲
王卓成
李华
黎雨星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110804891.6A priority Critical patent/CN113538126A/zh
Publication of CN113538126A publication Critical patent/CN113538126A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于GCN的欺诈风险预测方法及装置,涉及人工智能技术领域,其中该方法包括:获取当前转账申请数据;根据当前转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到当前转账业务网络数据;将当前转账业务网络数据输入预先建立的GCN欺诈风险预测模型,提取出当前转账业务网络数据中个体特征或群体特征,根据所述个体特征或群体特征进而识别出当前转账业务网络数据中个体或群体的欺诈行为。本发明实现了基于GCN高效准确地预测欺诈行为。

Description

基于GCN的欺诈风险预测方法及装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于GCN的欺诈风险预测方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
金融欺诈风险因其涵盖范围广、防控难度大等特点,成为银行业内损失最为严重的几大风险之一。对银行系统而言,主要面对两类欺诈风险,一类是信用风险,一类是欺诈风险。信用风险主要是对借款人还款能力和还款意愿进行评估,而欺诈风险则是对借款人的目的是否正当进行判断。
金融机构可通过风险定价和自有备付金进行防范,风险可控性相对较大,欺诈风险每年导致银行损失金额高达数亿美元,因此银行迫切需要构建一个准确高效的银行业务欺诈识别模型,减少欺诈带来的损失。
在银行反欺诈领域,传统的方法是采取“黑白名单”,通过人工方式制定检测规则,当申请或交易信息与反欺诈规则匹配后即执行相应的业务策略,但无法对各类欺诈行为进行全面覆盖。导致专家规则因更新不及时,积累到一定数量后造成误报率通常偏高,进而能够影响到实际风险决策制定和实际业务开展。
发明内容
本发明实施例提供一种基于GCN的欺诈风险预测方法,用以实现基于GCN高效准确地预测欺诈行为,该方法包括:
获取当前转账申请数据;
根据当前转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到当前转账业务网络数据;
将当前转账业务网络数据输入预先建立的GCN欺诈风险预测模型,提取出当前转账业务网络数据中个体特征或群体特征,根据所述个体特征或群体特征,识别出当前转账业务网络数据中个体或群体的欺诈行为;所述GCN欺诈风险预测模型根据多个历史转账申请数据构建的转账业务网络数据样本预先建立。
本发明实施例还提供一种基于GCN的欺诈风险预测装置,用以实现基于GCN高效准确地预测欺诈行为,该装置包括:
获取单元,用于获取当前转账申请数据;
业务网络构建单元,用于根据当前转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到当前转账业务网络数据;
预测单元,用于将当前转账业务网络数据输入预先建立的GCN欺诈风险预测模型,提取出当前转账业务网络数据中个体特征或群体特征,根据所述个体特征或群体特征,识别出当前转账业务网络数据中个体或群体的欺诈行为;所述GCN欺诈风险预测模型根据多个历史转账申请数据构建的转账业务网络数据样本预先建立。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于GCN的欺诈风险预测方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述基于GCN的欺诈风险预测方法的计算机程序。
本发明实施例中,基于GCN的欺诈风险预测方案,与现有技术中采取黑白名单识别欺诈行为,效率和准确率都低的技术方案相比,通过:获取当前转账申请数据;根据当前转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到当前转账业务网络数据;将当前转账业务网络数据输入预先建立的GCN欺诈风险预测模型,提取出当前转账业务网络数据中个体特征或群体特征,根据所述个体特征或群体特征,识别出当前转账业务网络数据中个体或群体的欺诈行为;所述GCN欺诈风险预测模型根据多个历史转账申请数据构建的转账业务网络数据样本预先建立,可以实现基于GCN高效准确地预测欺诈行为。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中图卷积神经网络GCN分类示意图;
图2为本发明实施例中基于GCN的欺诈风险预测的原理示意图;
图3为本发明实施例中业务网络示意图;
图4为本发明实施例中GCN欺诈风险预测模型的示意图;
图5为本发明实施例中卷积网络构建GCN欺诈风险预测模型处理各阶段说明示意图;
图6为本发明实施例中基于GCN的欺诈风险预测方法的流程示意图;
图7为本发明实施例中基于GCN的欺诈风险预测装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
伴随银行服务模式日趋多样化,在客户享受灵活便捷服务的同时,银行欺诈风险呈现出更加隐蔽、专业的特点。因此,以机器学习算法为核心驱动建立智能化的风险预测模型,深度挖掘数据价值,成为欺诈风险防范的一种强力手段。经过长时间的反欺诈业务系统存储的大量数据样本,借助图卷积神经网络可进一步地整合同业欺诈数据,将更多样的欺诈数据特征纳入共建反欺诈模型,快速挖掘银行业务中的欺诈行为。
本发明实施例提出了一种基于GCN的银行反欺诈风险预测方案,该方案利用图卷积神经网络(Graph Neural Network,GNN,如图1所示)中的分支(Graph ConvolutionalNetwork,GCN)对银行中金融产品销售、信用卡申请、借贷、转账等业务进行数据挖掘,发现其中的欺诈行为,为银行业务开展提供安全保障,适用于完善银行业反欺诈管理平台,进一步提高欺诈防控水平。
该方案通过机器学习众多人工审核数据,吸取业务专家经验以及发生过的欺诈案例来创建规则库,训练专家人工审核模型。初步完成清洗剔除诸多不可疑的交易数据,重点对可疑案宗进行预排序和分类,根据审核模型对不同时间段欺诈案件历史样本的审核结果与实际交易结果的比对,把它映射成为高维空间的表达式,不断优化模型参数,大幅提高审核效率,降低成本,最终形成卷积网络构建的欺诈识别模型。从而能够对未知案宗在做同样特征向量的提取后,进行预测和评分,甚至在此基础上,判别欺诈案宗属于何种类型。
该方案使训练模型接近资深反欺诈专家水平,弥补反欺诈专家的不足,优化专家资源配置,提供更加精准优良的反欺诈方案起到了指导作用。为银行业务的流水数据构建业务交互网络的同时,助力银行构建智能化反欺诈体系的进程,营造良好的资金安全与金融生态。
下面对该基于GCN的银行反欺诈风险预测方案进行详细介绍。
图6为本发明实施例中基于GCN的欺诈风险预测方法的流程示意图,如图6所示,该方法包括如下步骤:
步骤101:获取当前转账申请数据;
步骤102:根据当前转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到当前转账业务网络数据;
步骤103:将当前转账业务网络数据输入预先建立的GCN欺诈风险预测模型,提取出当前转账业务网络数据中个体特征或群体特征,根据所述个体特征或群体特征,识别出当前转账业务网络数据中个体或群体的欺诈行为;所述GCN欺诈风险预测模型根据多个历史转账申请数据构建的转账业务网络数据样本预先建立。
本发明实施例提供的基于GCN的欺诈风险预测方法可以通过当前转账申请数据构建转账业务网络,进而使用GCN欺诈风险预测模型识别业务网络中个体特征或群体特征,基于个体特征或群体特征识别欺诈行为,实现了基于GCN高效准确的预测欺诈行为。下面对该方法涉及的各个步骤进行详细介绍。
本发明实施例利用GCN进学习网络中个体的特征以及个体与周围的关系,从而解决银行业务中网络中个体或群体分类的问题,下面以银行中的转账为例子,阐述如何通过GCN构建反欺诈模型(GCN欺诈风险预测模型),如图2所示,主要流程分为4个步骤,分别是:收集数据、特征清洗及构建业务网络、搭建图卷积学习模型、模型学习及预测。下面进行详细介绍。
一、首先,介绍预先建立GCN欺诈风险预测模型的步骤,即上述“收集数据、特征清洗及构建业务网络、搭建图卷积学习模型、模型学习”的步骤。
1.如图2和图5所示,首先介绍数据准备(收集)的步骤。
步骤1:通过分析转账申请进件审批数据,确定数据中包含两种角色,分别是申请人和接受人,从日常业务系统中随机抽取一定时间内的10份的转账记录,信息包括转账人的基本信息,如:年龄、性别、居住地等信息,通过银行的数据融合,同样可以在其他业务上收集接受人的个人信息,将发生转账行为的双方信息汇总如下,构建为申请数据(转账申请数据),举例如下:
某申请数据1:(2021.02.01,刘一,男,25,...,叶AA,女,26,...);
某申请数据2:(2021.02.01,陈二,男,25,...,张B,男,26,...);
某申请数据3:(2021.02.01,张三,男,26,...,吴C,男,27,...);
某申请数据4:(2021.02.01,李四,女,19,...,张B,男,26,...);
某申请数据5:(2021.03.02,王五,男,23,...,王DD,女,25,...);
某申请数据6:(2021.02.02,赵六,男,25,...,吴C,男,27,...);
某申请数据7:(2021.02.02,钱七,女,19,...,王DD,女,25,...);
某申请数据8:(2021.03.02,周八,男,23,...,张B,男,26,...);
某申请数据9:(2021.02.03,吴九,男,25,...,王DD,女,25...);
某申请数据10:(2021.02.03,郑十,女,19,...,张B,男,26,...);
某申请数据11:(2021.02.01,张三,男,26,...,吴C,男,27,...);
某申请数据12:(2021.02.01,张三,男,26,...,王DD,女,25,...);
某申请数据13:(2021.02.01,张三,男,26,...,叶AA,女,26,...);
某申请数据14:(2021.03.02,王五,男,23,...,吴C,男,27,...);
某申请数据15:(2021.02.02,赵六,男,25,...,吴C,男,27,...);
某申请数据16:(2021.02.02,钱七,女,19,...,王DD,女,25,...);
某申请数据17:(2021.02.03,郑十,女,19,...,叶AA,女,26,...);
某申请数据18:(2021.02.02,钱七,女,19,...,王DD,女,25,...)。
步骤2:构建用户反欺诈风险标签数据。
2.接着,如图2和图5所示,介绍预处理的步骤,即特征清洗以及构建业务网络(转账业务网络)的步骤。
1)清洗数据(预处理的步骤):首先是清除无效数据和干扰数据,去掉孤立节点,去掉安全节点群,清理规则如下:
清除只有两个节点的子网络,形成该节点的人基本可以断定是正常小额转账业务,且转账链路非同一子节点的无需进行欺诈判别。
清除只有三个节点的子网络,因为以家人关系而形成的团体,一般至少由三人形成分组。具有这种性质的团体一般为家庭团体,因而风险性较小。但对于人数较多,男性占比高,而且年龄差较小的团体,则有可能是欺诈团伙,需要进一步尽职调查。
通过上述可知,在一个实施例中,上述基于GCN的欺诈风险预测方法还可以包括:对所述历史转账申请数据进行清洗预处理,得到预处理后的历史转账申请数据。
具体实施时,对所述历史转账申请数据进行清洗预处理,得到预处理后的历史转账申请数据,可以进一步提高欺诈识别的准确率。
通过上述可知,在一个实施例中,对所述历史转账申请数据进行清洗预处理,得到预处理后的历史转账申请数据,可以包括:
清除预计构建转账业务网络后只有两个节点的子网络对应的转账申请数据,及清除预计构建转账业务网络后只有三个节点的子网络对应的转账申请数据,得到预处理后的历史转账申请数据。
具体实施时,上述清理数据的实施方式可以进一步提高欺诈预测的准确率。
当然,如图5所示,预处理还可以包括数据转换,规范数据等。
2)构建网络:
完成数据清理后,统计每条记录,记录客户个体与个体之间发生业务的次数(转账人和接受人之间发生转账业务的次数),如:“张三”在不同日期向“吴C”转账2次,则记录“张三-吴C:2”。该数值作为网络中张三和吴C之间的边链接的权重。整理以上记录得到以下信息(如下表1所示),举例如下:可以称为数据字典:
Figure BDA0003165967010000061
Figure BDA0003165967010000071
表1
在建构建网络的过程中将转账人和接受人作为网络的关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人这两种角色的年龄、手机号、单位电话、电子邮箱、学历、年收入、职位等基本信息作为每个节点的属性,构建得到图3(有向图,即转账业务网络)。
业务网络中连接比较紧密的个体而言,通常可以采用度中心性、接近中心性和介中心性三个指标,其中度中心性表示连接到某节点的边数,根据金钱流向可将其分为入度和出度,如张三的出度是7入度是0,王DD的出度是0入度是12,一个节点的节点度越大就意味着该节点在网络中就越重要;接近中心性表示从某节点到所有其他节点的最短路径的平均长度,反映在网络中某一节点与其他节点之间的接近程度;介中心性表示某节点在多少对节点的最短路径上。从网络视角衡量欺诈风险的传播,度反映节点关联好友数量,最短路径反映网络中节点间亲密程度。但是介数中心性是比较能体现节点在图中桥梁作用的中心性度量方法。介数反映了相应的节点或者边在整个网络中的作用和影响力,具有很强的现实意义。例如,在转账网络中,介数较高的人的转账记录非常频繁,表示其较少第三方参与转账,存在欺诈风险。
就网络中连接比较紧密的群体而言,可以将上述网络分为三个群,但是实际上在网络中不仅可以通过团体中每个个体的特征进行分析,还依赖于整个团体作为一个整体的特征。这一方面使得团体识别拥有足够丰富的数据维度。一般来说,团体的特征可以分为这两大维度:
(1)网络结构相关的团伙拓扑特征。
(2)个体信息相关的团伙实体特征。
其中,团体的拓扑特征包括团的节点的数量、自由度(自由度即统计学上的一个概念。简单的解释就是观测的数目-这些观测中存在必要的联系数目)、团体中节点间最长的最短路径等;团的实体特征包括团中男女比例、最大年龄差,平均年龄、团体总资产、团体总负债等。
通过上述可知,在一个实施例中,所述群体特征可以包括:网络结构相关的群体拓扑特征和个体信息相关的群体实体特征。
3.接着,如图2和图5所示,介绍搭建图卷积学习模型。
转账网络完成构建后,仅仅通过统计网络中个体或群体的指标,就可以判别个体或群体的欺诈风险,但是仅仅依靠统计指标去判断存在两个问题,一是规则较多且不是一成不变的,今天可能是有效的规则,明天就可能出现误判,因此规则应该根据数据情况进行及时更新;二是信息深度不够,依靠指标可以利用个体,及个体A-个体B之间的信息,也就是0度或1度的关系,那么2度以上的关系个体A-个体B-个体C的信息没有利用,其在现在防反欺诈手段层出不穷的情况下,没有足够的深度的信息,就无法在庞大的网络中发现超大网络中的欺诈个体及群体。
利用GCN其特征学习及整合的能力,可以克服以上两个问题。GCN又称图卷积网络,实际上跟提取图片信息的CNN作用是一样,同样是一个一个特征提取器,只不过它的对象是网络数据。通过从图数据中提取特征的方法,可以使用这些特征去对图数据进行节点分类,进而进行群体分类,即得到个人或群体是属于存在欺诈行为的类别还是不存在欺诈行为的类别。相比较基于个体特征的规则发现欺诈的方法,GCN不仅考虑每个个体特征,还利用个体1度以上的关系,并且GCN仅仅依赖少量的欺诈黑样本即刻进行欺诈识别,特别适合目前欺诈黑样本较少情况下的欺诈识别,可以提高欺诈预测的准确率。
GCN通常是以网络层堆叠的方式进行构建,如图4所示,每一个卷积层仅处理一阶邻域信息,通过叠加若干卷积层可以实现多阶邻域的信息传递,图4是一个两层隐藏层的GCN网络,网络数据从Input层(输入层)输入,经过两个Hidden layer(隐藏层)的特征学习得到输出Output(输出层)。
上述一阶邻域是指处理数据的维度,比如某申请数据1:(2021.02.01,刘一,男,25,...,叶AA,女,26,...)有着多个属性维度。处理数据的过程就是从单一属性申请数据a:(刘一,男,叶AA,女),到把这条数据的全部属性都加入处理的过程,申请数据1:(2021.02.01,刘一,男,25,...,叶AA,女,26,...)。
对于业务网络中的每个节点,从它的所有邻居节点处获取其特征信息,当然也包括它自身的特征。假设我们使用average()函数。将对所有的节点进行同样的操作。最后,将这些计算得到的平均值输入到神经网络中。层层的特征传递通过下面公式:
Figure BDA0003165967010000091
其中,H(l)第l层的激活后的特征,并且H0为原始输入数据X,σ为用于学习非线性特征的激活函数,
Figure BDA0003165967010000092
网络的邻接矩阵与单位矩阵的和,
Figure BDA0003165967010000093
Figure BDA0003165967010000094
的度矩阵,即
Figure BDA0003165967010000095
Wl为每层的参数矩阵,在网络训练时,输入的数据包括原始输入数据X及矩阵
Figure BDA0003165967010000096
网络训练通过不断修改每层的参数矩阵Wl,使得数据经过每层网络计算后得到真实结果。
总的来说,GCN算法原理主要包括传播、聚合和非线性变换三个步骤,每个步骤完成的功能如下:
传播是指网络中的每一个节点将自身的特征信息发送给相邻的邻居节点。
聚合是指网络中每个节点将邻居节点的特征信息汇聚的过程,是对节点的局部结构信息进行融合。局部结构信息可以理解为CNN的感知域,共享卷积核权重,正比于神经网络的层数;迭代开始时,每个节点包含了直接连接邻居的特征信息,当计算神经网络第二层时就能把邻居的邻居节点的特征信息聚合进来,从而使参与运算的信息就更多更充分。层数越多,感知域就更广,参与运算的节点信息就越多。
对聚合之后特征信息做非线性变换,增加模型的表示能力[^10]
利用目前流行的深度学习框架Keras,可以快速搭建GCN网络,如图4所示,一共使用两个GCN,搭配使用relu激活函数(如图4中的relu),构建的一个网络数据学习神经网络。
4.接着,如图2和图5所示,介绍模型学习及预测的步骤。
完成数据整理及GCN的构建后,下一步即可按以下步骤进行GCN训练,为避免随机数据抽取带来的误差,训练过程可采用10折交叉验证的方向进行GCN的训练,具体地,首先将数据随机等数量划分为10份,取其中9份做GCN网络的训练数据,剩下一份作为测试数据,如此每份数据均作为测试数据进行GCN训练,最终得到10个训练结果及测试结果,取训练结果及测试结果作为GCN的最终结果。
GCN对网络进行的是节点分类,在训练过程中使用交叉熵作为GCN的损失函数,该函数在预测值与真实值相差越大值越大,以驱使网络较低真实值与预测值的差距,达到学习网络特征的目的。在测试时使用F1-score作为评估指标,衡量GCN在欺诈及非欺诈两类人员上的预测总体效果,F1-score值越大,表明GCN的效果越好。
综上所述,在一个实施例中,上述基于GCN的欺诈风险预测方法还可以包括按照如下方法预先建立GCN欺诈风险预测模型:
获取历史转账申请数据;
根据历史转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到转账业务网络数据样本;所述样本包括不存在欺诈行为的正样本和存在欺诈行为的负样本;
将所述数据样本划分为训练集和测试集;
采用度中心性指标、接近中心性指标和介中心性指标,利用所述训练集对GCN进行训练,得到训练后的GCN欺诈风险预测模型;
利用所述测试集对训练后的GCN欺诈风险预测模型进行测试,得到所述预先建立的GCN欺诈风险预测模型。
二、接着,介绍上述步骤101至步骤103,即利用上述步骤“一”建立了GCN欺诈风险预测模型进行实际预测的步骤。
通过上述可知,上述步骤“一”建立了GCN欺诈风险预测模型,在实际预测时,可以利用该模型实际进行预测,提高预测的准确率和效率。在进行预测之前,首先介绍上述步骤101和步骤102。
上述步骤101中也可以进行清洗预处理的步骤,该清洗预处理的步骤可以参见上述“一”中的对历史转账申请数据进行清洗预处理的步骤。当然,上述步骤102也可以参见上述“一”中构建业务网络的步骤。上述步骤103的步骤也可以参见上述“一”中“4”的“预测”部分。
三、接着,介绍本发明实施例进一步优选的步骤。
在一个实施例中,上述基于GCN的欺诈风险预测方法还可以包括:
检测识别出的当前转账业务网络数据中个体或群体的欺诈行为的类型;
在检测到当前欺诈行为的类型不存在于历史欺诈行为的类型中时,将当前欺诈行为的类型对应的转账业务网络数据加入到转账业务网络数据样本库中,得到更新的转账业务网络数据样本库;
利用更新的转账业务网络数据样本库,更新所述GCN欺诈风险预测模型。
具体实施时,完成GCN训练后,得到的GCN可以将其部署到业务系统中,辅助判别欺诈个体或群体,针对银行不断扩增的转账记录,由转账行为构建的网络将不断变得复杂,欺诈的复杂性也将不断增强,GCN可以在原来的知识上通过再训练学习新的欺诈特征,如此,可以便捷进行模型的迭代更新,适应新形式的欺诈识别。
在一个实施例中,上述基于GCN的欺诈风险预测方法还可以包括:为识别出的当前转账业务网络数据中个体或群体的欺诈行为设定不同等级的风险标签,得到风险标签池;所述风险标签池用于指导银行交易。
具体实施时,对于最终的预测风险结果,设定不同等级的风险标签,将客户行为记录成风险标签池,如下表2所示,为后续交易提供实质指导。
Figure BDA0003165967010000121
表2
综上,本发明实施例提供的基于图卷积神经网络GCN的银行反欺诈风险预测的效果与优点是:
本发明通过将业务数据中关联的个体构建为关联网络,进而使用GCN学习网络中客户个体特征以及客户个体之间关系的特征,最后识别网络中个体人物画像与群体的识别行为,相比较传统基于规则的欺诈识别方法,GCN利用更广、更深层次的特征,总体上可比传统方法识别更好、误报率更低。不仅如此,GCN还是一个半监督的方法,只需要把大量带有欺诈标签样本,转换为可以学习网络中的欺诈特征,总结出有效的规律,利用卷积网络构建欺诈识别模型。目前,大数据已成定势,银行的大多数业务都可利用其庞大的数据资源构建各类关系网络,该发明将有效帮助挖掘这些关系网中有用的特征,推进银行大数据业务安全、高效的风控管理进程。
本发明实施例中还提供了一种基于GCN的欺诈风险预测装置,如下面的实施例所述。由于该装置解决问题的原理与基于GCN的欺诈风险预测方法相似,因此该装置的实施可以参见基于GCN的欺诈风险预测方法的实施,重复之处不再赘述。
图7为本发明实施例中基于GCN的欺诈风险预测装置的结构示意图,如图7所示,该装置包括:
获取单元01,用于获取当前转账申请数据;
业务网络构建单元02,用于根据当前转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到当前转账业务网络数据;
预测单元03,用于将当前转账业务网络数据输入预先建立的GCN欺诈风险预测模型,提取出当前转账业务网络数据中个体特征或群体特征,根据所述个体特征或群体特征,识别出当前转账业务网络数据中个体或群体的欺诈行为;所述GCN欺诈风险预测模型根据多个历史转账申请数据构建的转账业务网络数据样本预先建立。
在一个实施例中,上述基于GCN的欺诈风险预测装置还可以包括:建立单元,用于按照如下方法预先建立GCN欺诈风险预测模型:
获取历史转账申请数据;
根据历史转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到转账业务网络数据样本;所述样本包括不存在欺诈行为的正样本和存在欺诈行为的负样本;
将所述数据样本划分为训练集和测试集;
采用度中心性指标、接近中心性指标和介中心性指标,利用所述训练集对GCN进行训练,得到训练后的GCN欺诈风险预测模型;
利用所述测试集对训练后的GCN欺诈风险预测模型进行测试,得到所述预先建立的GCN欺诈风险预测模型。
在一个实施例中,上述基于GCN的欺诈风险预测装置还可以包括:预处理单元,用于对所述历史转账申请数据进行清洗预处理,得到预处理后的历史转账申请数据。
在一个实施例中,所述预处理单元具体用于:
清除预计构建转账业务网络后只有两个节点的子网络对应的转账申请数据,及清除预计构建转账业务网络后只有三个节点的子网络对应的转账申请数据,得到预处理后的历史转账申请数据。
在一个实施例中,上述基于GCN的欺诈风险预测装置还可以包括:
检测单元,用于检测识别出的当前转账业务网络数据中个体或群体的欺诈行为的类型;
样本更新单元,用于在检测到当前欺诈行为的类型不存在于历史欺诈行为的类型中时,将当前欺诈行为的类型对应的转账业务网络数据加入到转账业务网络数据样本库中,得到更新的转账业务网络数据样本库;
模型更新单元,用于利用更新的转账业务网络数据样本库,更新所述GCN欺诈风险预测模型。
在一个实施例中,所述群体特征可以包括:网络结构相关的群体拓扑特征和个体信息相关的群体实体特征。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于GCN的欺诈风险预测方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述基于GCN的欺诈风险预测方法的计算机程序。
本发明实施例中,基于GCN的欺诈风险预测方案,与现有技术中采取黑白名单识别欺诈行为,效率和准确率都低的技术方案相比,通过:获取当前转账申请数据;根据当前转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到当前转账业务网络数据;将当前转账业务网络数据输入预先建立的GCN欺诈风险预测模型,提取出当前转账业务网络数据中个体特征或群体特征,根据所述个体特征或群体特征,识别出当前转账业务网络数据中个体或群体的欺诈行为;所述GCN欺诈风险预测模型根据多个历史转账申请数据构建的转账业务网络数据样本预先建立,可以实现基于GCN高效准确地预测欺诈行为。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种基于GCN的欺诈风险预测方法,其特征在于,包括:
获取当前转账申请数据;
根据当前转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到当前转账业务网络数据;
将当前转账业务网络数据输入预先建立的GCN欺诈风险预测模型,提取出当前转账业务网络数据中个体特征或群体特征,根据所述个体特征或群体特征,识别出当前转账业务网络数据中个体或群体的欺诈行为;所述GCN欺诈风险预测模型根据多个历史转账申请数据构建的转账业务网络数据样本预先建立。
2.如权利要求1所述的基于GCN的欺诈风险预测方法,其特征在于,还包括按照如下方法预先建立GCN欺诈风险预测模型:
获取历史转账申请数据;
根据历史转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到转账业务网络数据样本;所述样本包括不存在欺诈行为的正样本和存在欺诈行为的负样本;
将所述数据样本划分为训练集和测试集;
采用度中心性指标、接近中心性指标和介中心性指标,利用所述训练集对GCN进行训练,得到训练后的GCN欺诈风险预测模型;
利用所述测试集对训练后的GCN欺诈风险预测模型进行测试,得到所述预先建立的GCN欺诈风险预测模型。
3.如权利要求2所述的基于GCN的欺诈风险预测方法,其特征在于,还包括:对所述历史转账申请数据进行清洗预处理,得到预处理后的历史转账申请数据。
4.如权利要求3所述的基于GCN的欺诈风险预测方法,其特征在于,对所述历史转账申请数据进行清洗预处理,得到预处理后的历史转账申请数据,包括:
清除预计构建转账业务网络后只有两个节点的子网络对应的转账申请数据,及清除预计构建转账业务网络后只有三个节点的子网络对应的转账申请数据,得到预处理后的历史转账申请数据。
5.如权利要求1所述的基于GCN的欺诈风险预测方法,其特征在于,还包括:
检测识别出的当前转账业务网络数据中个体或群体的欺诈行为的类型;
在检测到当前欺诈行为的类型不存在于历史欺诈行为的类型中时,将当前欺诈行为的类型对应的转账业务网络数据加入到转账业务网络数据样本库中,得到更新的转账业务网络数据样本库;
利用更新的转账业务网络数据样本库,更新所述GCN欺诈风险预测模型。
6.如权利要求1所述的基于GCN的欺诈风险预测方法,其特征在于,还包括:为识别出的当前转账业务网络数据中个体或群体的欺诈行为设定不同等级的风险标签,得到风险标签池;所述风险标签池用于指导银行交易。
7.如权利要求1所述的基于GCN的欺诈风险预测方法,其特征在于,所述群体特征包括:网络结构相关的群体拓扑特征和个体信息相关的群体实体特征。
8.一种基于GCN的欺诈风险预测装置,其特征在于,包括:
获取单元,用于获取当前转账申请数据;
业务网络构建单元,用于根据当前转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到当前转账业务网络数据;
预测单元,用于将当前转账业务网络数据输入预先建立的GCN欺诈风险预测模型,提取出当前转账业务网络数据中个体特征或群体特征,根据所述个体特征或群体特征,识别出当前转账业务网络数据中个体或群体的欺诈行为;所述GCN欺诈风险预测模型根据多个历史转账申请数据构建的转账业务网络数据样本预先建立。
9.如权利要求8所述的基于GCN的欺诈风险预测装置,其特征在于,还包括建立单元,用于按照如下方法预先建立GCN欺诈风险预测模型:
获取历史转账申请数据;
根据历史转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到转账业务网络数据样本;所述样本包括不存在欺诈行为的正样本和存在欺诈行为的负样本;
将所述数据样本划分为训练集和测试集;
采用度中心性指标、接近中心性指标和介中心性指标,利用所述训练集对GCN进行训练,得到训练后的GCN欺诈风险预测模型;
利用所述测试集对训练后的GCN欺诈风险预测模型进行测试,得到所述预先建立的GCN欺诈风险预测模型。
10.如权利要求8所述的基于GCN的欺诈风险预测装置,其特征在于,还包括:
检测单元,用于检测识别出的当前转账业务网络数据中个体或群体的欺诈行为的类型;
样本更新单元,用于在检测到当前欺诈行为的类型不存在于历史欺诈行为的类型中时,将当前欺诈行为的类型对应的转账业务网络数据加入到转账业务网络数据样本库中,得到更新的转账业务网络数据样本库;
模型更新单元,用于利用更新的转账业务网络数据样本库,更新所述GCN欺诈风险预测模型。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一所述方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至7任一所述方法的计算机程序。
CN202110804891.6A 2021-07-16 2021-07-16 基于gcn的欺诈风险预测方法及装置 Pending CN113538126A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110804891.6A CN113538126A (zh) 2021-07-16 2021-07-16 基于gcn的欺诈风险预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110804891.6A CN113538126A (zh) 2021-07-16 2021-07-16 基于gcn的欺诈风险预测方法及装置

Publications (1)

Publication Number Publication Date
CN113538126A true CN113538126A (zh) 2021-10-22

Family

ID=78128376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110804891.6A Pending CN113538126A (zh) 2021-07-16 2021-07-16 基于gcn的欺诈风险预测方法及装置

Country Status (1)

Country Link
CN (1) CN113538126A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114219287A (zh) * 2021-12-15 2022-03-22 中国软件与技术服务股份有限公司 一种基于图神经网络的纳税人风险评测方法
CN116016518A (zh) * 2022-12-30 2023-04-25 支付宝(杭州)信息技术有限公司 一种反欺诈区块链系统、账户的处理方法、装置及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060149784A1 (en) * 2005-01-03 2006-07-06 Rob Tholl System and method for operating modules of a claims adjudication engine
CN109636061A (zh) * 2018-12-25 2019-04-16 深圳市南山区人民医院 医保欺诈预测网络的训练方法、装置、设备及存储介质
US20190251480A1 (en) * 2018-02-09 2019-08-15 NEC Laboratories Europe GmbH Method and system for learning of classifier-independent node representations which carry class label information
CN111292195A (zh) * 2020-02-28 2020-06-16 中国工商银行股份有限公司 风险账户的识别方法及装置
CN112200684A (zh) * 2020-09-15 2021-01-08 深圳大学 一种检测医保欺诈的方法、系统及存储介质
CN112541575A (zh) * 2020-12-06 2021-03-23 支付宝(杭州)信息技术有限公司 图神经网络的训练方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060149784A1 (en) * 2005-01-03 2006-07-06 Rob Tholl System and method for operating modules of a claims adjudication engine
US20190251480A1 (en) * 2018-02-09 2019-08-15 NEC Laboratories Europe GmbH Method and system for learning of classifier-independent node representations which carry class label information
CN109636061A (zh) * 2018-12-25 2019-04-16 深圳市南山区人民医院 医保欺诈预测网络的训练方法、装置、设备及存储介质
CN111292195A (zh) * 2020-02-28 2020-06-16 中国工商银行股份有限公司 风险账户的识别方法及装置
CN112200684A (zh) * 2020-09-15 2021-01-08 深圳大学 一种检测医保欺诈的方法、系统及存储介质
CN112541575A (zh) * 2020-12-06 2021-03-23 支付宝(杭州)信息技术有限公司 图神经网络的训练方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114219287A (zh) * 2021-12-15 2022-03-22 中国软件与技术服务股份有限公司 一种基于图神经网络的纳税人风险评测方法
CN116016518A (zh) * 2022-12-30 2023-04-25 支付宝(杭州)信息技术有限公司 一种反欺诈区块链系统、账户的处理方法、装置及设备

Similar Documents

Publication Publication Date Title
CN110334737B (zh) 一种基于随机森林的客户风险指标筛选的方法和系统
CN110009174B (zh) 风险识别模型训练方法、装置及服务器
CN106803168B (zh) 一种异常转账侦测方法和装置
CN109409896B (zh) 银行欺诈识别模型训练方法、银行欺诈识别方法和装置
CN110309840A (zh) 风险交易识别方法、装置、服务器及存储介质
CN110717816A (zh) 一种基于人工智能技术的全域金融风险知识图谱构建方法
US11562372B2 (en) Probabilistic feature engineering technique for anomaly detection
CN113283902B (zh) 一种基于图神经网络的多通道区块链钓鱼节点检测方法
CN111325619A (zh) 一种基于联合学习的信用卡欺诈检测模型更新方法及装置
CN113538126A (zh) 基于gcn的欺诈风险预测方法及装置
CN112767136A (zh) 基于大数据的信贷反欺诈识别方法、装置、设备及介质
CN114782161A (zh) 识别风险用户的方法、装置、存储介质及电子装置
CN111179089B (zh) 洗钱交易识别方法、装置和设备
CN114818999A (zh) 基于自编码器和生成对抗网络的账户识别方法及系统
CN114240659A (zh) 一种基于动态图卷积神经网络的区块链异常节点识别方法
CN112967053A (zh) 一种欺诈交易的检测方法及装置
CN112581271A (zh) 一种商户交易风险监测方法、装置、设备及存储介质
CN115375480A (zh) 基于图神经网络的异常虚拟币钱包地址检测方法
CN115438751A (zh) 一种基于图神经网络的区块链钓鱼诈骗识别的方法
CN115293872A (zh) 建立风险识别模型的方法及对应装置
CN115496364A (zh) 幌子企业识别方法及装置、存储介质及电子设备
Zhao et al. Network-based feature extraction method for fraud detection via label propagation
CN116451050A (zh) 异常行为识别模型训练、异常行为识别方法和装置
Kalhotra et al. Data mining and machine learning techniques for credit card fraud detection
Mohari et al. A comparative study on classification algorithms for credit card fraud detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination