CN111028073B - 互联网金融平台网络借贷欺诈检测系统 - Google Patents

互联网金融平台网络借贷欺诈检测系统 Download PDF

Info

Publication number
CN111028073B
CN111028073B CN201911101576.6A CN201911101576A CN111028073B CN 111028073 B CN111028073 B CN 111028073B CN 201911101576 A CN201911101576 A CN 201911101576A CN 111028073 B CN111028073 B CN 111028073B
Authority
CN
China
Prior art keywords
network
module
data
lending
construction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911101576.6A
Other languages
English (en)
Other versions
CN111028073A (zh
Inventor
王成
朱航宇
胡瑞鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201911101576.6A priority Critical patent/CN111028073B/zh
Publication of CN111028073A publication Critical patent/CN111028073A/zh
Application granted granted Critical
Publication of CN111028073B publication Critical patent/CN111028073B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Abstract

一种网络借贷欺诈检测系统,嵌入于互联网网络借贷审核系统,连接网络借贷记录数据供应模块,包括网络构建与更新模块、网络学习表征模块、特征构建模块、欺诈检测模型。网络构建与更新模块,包括关系借贷网络构建与更新模块、同质借贷网络的构建与更新模块,关系借贷网络构建与更新模块与同质借贷网络的构建与更新模块连接;网络表征学习模块,包括静态网络表征学习模块和增量式网络表征学习模块;特征构建模块,包括数据向量化模块和时序特征构造模块,数据向量化模块输出与时序特征构造模块输入连接,静态网络表征学习模块和增量式网络表征学习模块的输出分别与数据向量化模块的输入连接;所述欺诈检测模块,对测试数据实现欺诈检测。

Description

互联网金融平台网络借贷欺诈检测系统
技术领域
本发明涉及互联网金融网络借贷的反欺诈检测。
背景技术
随着互联网的迅速发展,各种传统的业务逐渐转至线上,互联网金融中的网络借贷迅速发展,网络借贷的产生将带来大量的电子交易数据,同时伴随着网络借贷欺诈数量的大量增加[1]。近年来,B2C网络借贷在全球尤其是中国发展迅速,其中,B2C网络借贷机构遭受大量坏账和借贷,产生巨大的经济损失[2]。欺诈者通过伪造虚假的借款人信息,甚至生成团伙化的虚假借款人来完成大批量网络借贷欺诈。为保障网络借贷中投资机构和正常用户的业务安全,需要建立切实有效的网络借贷欺诈检测系统。
在B2C借贷场景中,个人可能通过伪冒申请、提供虚假资料和虚假联系人、多头借贷等方式获取信贷资源;更有甚者,通过黑灰色产业的代办包装、组团骗贷等方式获取额度和资金。这些虚假的借贷数据中往往存在潜在的关联。网络表征学习已经在挖掘数据之间的潜在联系上表现出强有力的作用[3]。然而,目前大多数的欺诈检测系统基于静态的借贷数据网络进行周期性地更新网络,这无法适应网络时代欺诈手段的快速变化,如:黑灰色产业在短时间内生成大量相关联借贷数据,由于静态的借贷网络并未及时学习到这些关联,而无法有效阻止欺诈行为的发生。此外,B2C网络借贷极短的时间内就可以产生大量的借贷数据,借贷数据的不断增长和欺诈手段的不断变化,迫切需要动态的增加新数据和删除旧数据,这将导致基于静态网络表征学习的欺诈检测方法不能适应借贷网络结构的变化。
目前为止,关于网络借贷方面的研究主要集中在静态的数据上如何建立高效的欺诈检测模型[4],只有较少的研究涉及到动态地更新模型。Talaver等人[5]训练了一个径向基函数网络来区分客户是否有借贷欺诈行为,并建立一个模糊c-means聚类来对数据点进行分组,以通过对簇内数据进行分组创建客户档案。Babaev等人[6]在细粒度的跨国数据上使用神经网络来处理贷款数据,仅基于业务数据提出一个新的方法—E.T.RNN,实现自动化地对贷款申请作出决策。
通过以上研究发现,B2C网络借贷欺诈检测的一个主要问题是缺乏对短期内新颖欺诈手段的应对方法。传统检测方法存在一个较长的周期,随着时间推移,很多欺诈方法发生改变,进而缺乏较好的泛化能力。
发明内容
欺诈的借贷申请往往通过伪冒申请、提供虚假资料和多头借贷等方式通过审核系统,这些虚假的信息之间往往存在潜在的关联性,尤其是在黑灰色产业的代办包装、组团骗贷中更为明显。得益于当前网络借贷产生的丰富借贷数据,分析并以此作为基础,设计网络借贷欺诈检测系统,保护用户和企业的安全。
本发明原理:用表征能力强大的异质信息网络的形式来分析现实世界借贷数据,将借贷数据以异质信息网络(包含多种类型的节点和边,如:借贷单号、车牌号、电话、住址等)的形式建立一个关系借贷网络。从多类型异质的关系借贷网络中抽取特定关系,形成仅保留一种节点类型的同质借贷网络(借贷数据的同质网络生成过程如图1所示)。针对每一批到达的借贷数据,依次更新关系借贷网络和同质借贷网络,并运用增量式的网络表征学习算法及时更新同质借贷网络中节点的向量表征,以期能够捕获数据之间的最新关联性。基于学习到的向量表征构造和与时序有关的新特征(如:单号与前n个发生的单号的关系),结合分类器实现对借贷数据欺诈检测的二分类模型,进而实现对欺诈的检测与识别。
本发明给出系统技术方案为:
一种网络借贷欺诈检测系统,嵌入于互联网网络借贷审核系统,其特征在于,连接网络借贷记录数据供应模块,本发明系统包括网络构建与更新模块、网络学习表征模块、特征构建模块、欺诈检测模型,其中:
所述数据供应模块可以针对不同的数据实现初始数据供应和流式数据供应;
所述网络构建与更新模块,与数据供应模块连接,包括关系借贷网络构建与更新模块、同质借贷网络的构建与更新模块,关系借贷网络构建与更新模块与同质借贷网络的构建与更新模块连接;
所述网络表征学习模块,与同质借贷网络的构建与更新模块连接,包括静态网络表征学习模块和增量式网络表征学习模块;
所述特征构建模块,实现将借贷数据转化为新特征的功能,包括数据向量化模块和时序特征构造模块,数据向量化模块输出与时序特征构造模块输入连接,静态网络表征学习模块和增量式网络表征学习模块的输出分别与数据向量化模块的输入连接;
所述欺诈检测模块,与特征构建模块连接,先通过对输入样本数据进行训练建立检测模块,再对测试数据实现欺诈检测,为互联网网络借贷审核系统提供检测判断。
本发明在于克服静态的欺诈检测方法针对快速变化的网络借贷欺诈的乏力性,增加欺诈检测系统对变化环境的适应能力,对检测欺诈借贷、拦截欺诈借贷和保护用户和企业的资金安全有更好的保障。
本发明公开了基于增量式网络表征的网络借贷欺诈检测方法,实现对借贷数据网络进行动态的更新,借助增量式的网络表征学习挖掘到泛化能力强的表征,进而提高模型拦截欺诈借贷的实时性、准确性和鲁棒性。
附图说明
图1:网络借贷场景下借贷数据的同质网络生成过程示例图;
图2:本发明的网络借贷欺诈检测系统模块结构图;
图3:本发明的借贷数据变换为向量表征示意图;
图4:本发明某时刻下增量式借贷数据集划分示意图。
具体实施方式
以下结合实施例和附图进一步介绍本发明技术方案。
网络借贷欺诈检测系统模块结构图,如图2所示:
一种网络借贷欺诈检测系统,嵌入于互联网网络借贷审核系统,其特征在于,连接网络借贷记录数据供应模块,本发明系统包括网络构建与更新模块、网络学习表征模块、特征构建模块、欺诈检测模型,其中,
所述数据供应模块可以针对不同的数据实现初始数据供应和流式数据供应;
所述网络构建与更新模块,与数据供应模块连接,包括关系借贷网络构建与更新模块、同质借贷网络的构建与更新模块,关系借贷网络构建与更新模块与同质借贷网络的构建与更新模块连接;
所述网络表征学习模块,与同质借贷网络的构建与更新模块连接,包括静态网络表征学习模块和增量式网络表征学习模块;
所述特征构建模块,实现将借贷数据转化为新特征的功能,包括数据向量化模块和时序特征构造模块,数据向量化模块输出与时序特征构造模块输入连接,静态网络表征学习模块和增量式网络表征学习模块的输出分别与数据向量化模块的输入连接;
所述欺诈检测模块,与特征构建模块连接,先通过对输入样本数据进行训练建立检测模块,再对测试数据实现欺诈检测,为互联网网络借贷审核系统提供检测判断。
进一步的,给出详细的实施例。
实施例1
一、网络借贷记录数据供应模块
所述数据供应模块连接互联网金融平台借贷数据集,获得初始数据和流式数据,针对不同阶段向本发明系统供应训练用数据和测试数据;
二、网络构建与更新模块
所述网络构建与更新模块,与数据供应模块连接,包括关系借贷网络构建与更新模块、同质借贷网络的构建与更新模块,关系借贷网络构建与更新模块与同质借贷网络的构建与更新模块连接。
关系借贷网络构建与更新模块:
从数据供应模块的原始借贷数据中筛选出可利用的原始字段(如表1所示),进行字段类型转换和空值去除填充等数据预处理操作,并针对各字段制定离散化规则,将取值离散化降低数据精度。如:本实施例将金额依据不同区间划分为有限个类别;将地址依据不同街道划分为粗粒度离散化取值。
将原始借贷数据划分为单号(APPLYNO)与属性(ATTRIBUTE)两种类型,所述属性(ATTRIBUTE)为借贷数据中除去单号(APPLYNO)以外的其他数据。针对一笔借贷数据,将其记为(bi,ATT(bi)),bi是借贷数据b的单号,ATT(bi)是借贷数据b对应的属性集合,attk(bi)是ATT(bi)中第k个元素。
基于原始借贷数据建立关系借贷网络Nr=(V,E),V是节点集,E是边集,其中边e=(u,v),u与v属于节点集V(包含多种类型节点)。针对借贷数据b中的每一笔数据bi,首先bi加入节点集V,将ATT(bi)中每一个元素依次加入节点集V,最后将边(bi,attk(bi))加入边集E,attk(bi)是ATT(bi)中第k个元素。提供给同质借贷网络的构建与更新模块。图1左部为关系借贷网络Nr的示例图。
同质借贷网络的构建与更新模块
基于关系借贷网络构建与更新模块建立同质借贷网络Nh=(Vh,Eh),Vh是节点集,Eh是边集,其中边e=(u,v,w),u与v属于节点集Vh(仅包含类型为借贷单号的节点)。当attk(bi)=attk(bj)时,关系借贷网络中一对边(bi,attk(bi))和(bj,attk(bj))被视为边集Eh中的边(bi,bj),w为边(bi,bj)出现的次数,作为同质借贷网络Nh中的权重。基于关系借贷网络Nr,将节点集V中所有类型为借贷单号的节点加入节点集Vh。然后遍历每一对边(bi,attk(bi))和(bj,attk(bj)),当attk(bi)=attk(bj)时,将边(bi,bj)加入边集Eh。得到同质借贷网络Nh=(Vh,Eh)。输出提供给网络表征学习模块。
图1右部为基于左部关系借贷网络Nr生成同质借贷网络Nh的示例图。
三、网络学习表征模块
所述网络表征学习模块,与同质借贷网络的构建与更新模块连接,包括静态网络表征学习模块和增量式网络表征学习模块,分别在训练阶段和测试阶段完成网络表征学习;
所述静态网络表征学习模块:
基于同质借贷网络的构建与更新模块已构建的同质借贷网络Nh,本实施例静态网络表征学习模块采用现有的网络表征学习方法NetWalk来学习同质借贷网络Nh中全部网络节点的向量表征,同时避免手动提取特征的麻烦,自动化抽取特征信息。网络表征学习方法NetWalk学习向量表征的主要参数如表2所示,参数的设定与网络的结构有关,通常情况下参数walk-length、number_walks和网络中节点、边的数量成正比,网络中节点、边数量越多,参数walk-length和number_walks应当越大;参数learning_rate影响网络表征学习方法NetWalk的性能,过大的值可能导致过拟合,过小的值则导致欠拟合,本实施例设置为0.01;参数dim是所得到的输出向量表征的维度,一个大的维度往往包含更多潜在的关联,但随之带了更高的计算复杂度,本实施例设置为128;参数init和snap为网络表征学习方法NetWalk的输入参数,其形式为借贷网络中的边集,在本实施例的网络表征学习方法中,init为基于初始借贷数据生成的同质借贷网络的边集,snap为基于流式借贷数据生成的同质借贷网络中新增或删除的边集。将网络表征学习方法NetWalk针对同质借贷网络Nh得到在初始时刻t时网络中节点v与其对应的向量表征γ,建立映射关系γ=Ft(v)。依据映射关系γ=Ft(v),将初始借贷数据表示为向量表征形式,如图4所示,一笔由若干具体字段值组成借贷数据转变为一组固定维度的向量表征(图4中向量维度dim由网络表征学习方法NetWalk中参数dim决定)。
表1可利用原始字段
Figure BDA0002270035140000061
表2 NetWalk主要参数
Figure BDA0002270035140000062
所述增量式网络表征学习模块进行生成增量式的网络表征,包括第一子模块、第二子模块、第三子模块、第四子模块,它们顺序连接:
所述第一子模块:依据数据集Btrain(tk)时间戳顺序,选取与数据集Btest(tk+1)同样数量的最早数据放入数据集B′test(tk+1)。将数据集Btest(tk+1)与B′test(tk+1)采用与关系借贷网络构建与更新模块中相同的预处理操作,将处理后的数据集Btest(tk+1)与B′test(tk+1)基于数据集Btrain(tk)进行关系借贷网络的更新。基于关系借贷网络构建与更新模块的定义,分别处理网络借贷数据Btest(tk+1)与B′test(tk+1)得到关系借贷网络中的节点集Vtest(tk+1)和V′test(tk+1)与边集Etest(tk+1)和E′test(tk+1),Etest(tk+1)是流式到达的借贷数据中单号与上一时刻关系借贷网络Nr中现有节点之间的存在关系的边集,
Figure BDA0002270035140000071
是关系借贷网络Nr即将删除的过期边集。令V=V∪Vtest(tk+1)-V′test(tk+1)和E=E∪Etest(tk+1)-E′test(tk+1),更新关系借贷网络Nr=(V,E)。
所述第二子模块:基于更新后的关系借贷网络Nr=(V,E),采用同质借贷网络的构建与更新模块获得更新后的同质借贷网络Nh=(Vh,Eh)。
所述第三子模块:基于时刻tk对应的节点v与对应向量γ的映射关系
Figure BDA0002270035140000072
Figure BDA0002270035140000073
分别设置边集Etest(tk+1)和E′test(tk+1)为新到来的边集和待删除的边集,运用网络表征学习方法NetWalk,对涉及到边集Etest(tk+1)和Etest(tk+1)中的节点和边进行增量式的网络表征学习,得到时刻tk+1对应的节点v与对应向量γ的映射关系
Figure BDA0002270035140000074
所述第四子模块:将第三子模块针对同质借贷网络Nh得到在时刻tk时网络中节点v与其对应的向量表征γ之间的映射关系
Figure BDA0002270035140000075
依据映射关系γ=Ft(v),将流式借贷数据重新表示为向量表征形式,如图4所示,一笔由若干具体字段值组成借贷数据转变为一组固定维度的向量表征。
四、特征构建模块
所述特征构建模块,实现将借贷数据转化为新特征的功能,包括数据向量化模块和时序特征构造模块,数据向量化模块输出与时序特征构造模块输入连接,静态网络表征学习模块和增量式网络表征学习模块的输出分别与数据向量化模块的输入连接。
所述数据向量化模块:一笔含有n个可用原始字段的借贷数据Btrain(tk)在同质借贷网络中可对应n个相应的节点。由网络学习表征模块可知,基于tk时刻节点和映射关系
Figure BDA0002270035140000081
借贷数据变换为每个借贷单号所对应的维数为dim的向量。在得到向量后即可直接输入分类模型进行节点分类后续任务。。
本实施例进一步创新,进一步优化特征构建模块,该模块还包括时序特征构造模块:在基于数据向量化模块所得到的向量表征,针对每一笔借贷数据依次先计算每个单号与在数据集(单号按生成时间排序)中前h项单号的欧氏距离(欧氏距离为向量相似度的一种计算方法),并按照从小到大的顺序排序这h项,将其作为对应单号的所构造的时序特征。然后,再引入待检测单号与其前h项单号所对应向量相似度作为欺诈检测模型的输入。
对比之:
数据向量化模块,该模块仅考虑向量的绝对空间位置,在借贷数据中性能较差。
时序特征构造模块,该模块更有利于检测借贷欺诈中的团伙欺诈问题,不使用绝对空间位置,使用向量相似度,增强了后续欺诈检测模型的泛化能力。面对向量X=(x1,····,xdim)、Y=(y1,····,ydim),其欧氏距离的计算如下所示
Figure BDA0002270035140000082
基于时序特征构造模块中构造好的时序特征,依据分类器参数集Wc设置分类器,将tk时刻借贷数据对应的时序特征作为数据,对应借贷数据是否为欺诈交易作为标签,导入分类器进行训练,进而将训练好的二分类模型视为欺诈检测模型Mtk
五、欺诈检测模块
所述欺诈检测模块,与特征构建模块连接,先通过对输入样本数据进行训练建立检测模块,再对测试数据实现欺诈检测,为互联网网络借贷审核系统提供检测判断。
在训练阶段,采用python中机器学习集成库scikit-learn中的XGBoost分类器为本发明的欺诈检测模型。
在测试阶段,基于特征构建模块的时序特征构造模块中构造好的时序特征,依据分类器参数集Wc设置分类器,将tk时刻借贷数据对应的时序特征作为数据,对应借贷数据是否为欺诈交易作为标签,导入分类器进行训练,进而将训练好的二分类模型视为欺诈检测模型
Figure BDA0002270035140000091
一笔含有n个可用原始字段的借贷数据Btrain(tk)在同质借贷网络中可对应n个相应的节点。根据增量式网络表征学习模块中的第四子模块可知,基于tk时刻节点和映射关系
Figure BDA0002270035140000092
借贷数据变换为每个借贷单号所对应的维数为dim的向量。基于所得到的向量表征,针对每一笔借贷数据依次计算每个单号与在数据集(单号按生成时间排序)中前h项单号的欧氏距离,并按照从小到大的顺序排序这h项,将其作为对应单号的时序特征,提供给欺诈检测模型
Figure BDA0002270035140000093
所述欺诈检测模型
Figure BDA0002270035140000094
将tk时刻的测试数据对应的时序特征输入欺诈检测模型
Figure BDA0002270035140000095
得到测试借贷数据的集合Btest(tk)中每一笔借贷数据的欺诈概率p(bi),输出测试数据为欺诈的概率集合P,其中p(bi)∈P。判断时刻tk+1+t0是否大于周期T,若大于,则将tk时刻的借贷数据集Btrain(tk)视为初始借贷数据集,执行关系借贷网络构建与更新模块重新构建关系借贷网络。若小于,令
Figure BDA0002270035140000096
Btrain(tk+1)=Btrain(tk)∪Btest(tk+1)-B`test(tk+1)。在时刻tk+1时执行增量式网络表征学习模块第一子模块,根据到来的流式借贷数据,增量式地更新网络表征。
本发明通过在真实互联网金融平台借贷数据集上进行检测证明,得出不同打扰率(误拦截率,False Positive Rate)下的召回率(拦截率,True Positive Rate),并由此来计算KS值(是不同情况下召回率-打扰率的最大值)来评价系统的性能,该方法在此指标上和计算时间上都优于先前的研究,并且有着很好的鲁棒性。
本项目的创新点
1.通过从记录型的借贷数据建立关联借贷网络,并衍生出同质借贷网络将借贷数据之间的关系以网络的形式表现,同时基于上述同质信息网络并进行网络表征学习,实现自动从数据中抽取潜在关联特征,减少了系统对业务知识的依赖程度。
2.针对流式借贷数据,动态更新关联借贷网络和同质借贷网络结构,并通过增量式的网络表征学习方法,准确地对不断变化的借贷网络进行动态地更新相关表征,基于节点的向量表征构造出借贷数据新的特征,输入已有训练好的模型返回借贷数据的欺诈概率。对比传统的方法,本模型中表征的更新具有更强的实时性,适合网络借贷场景下对数据快速审核的要求,具有更高的准确性和鲁棒性。批注:本发明中的有关术语以及对于先前的主要技术可参见如下资料。
[1]Chen Y Q,Zhang J,Ng W W Y.Loan Default Prediction UsingDiversified Sensitivity Undersampling[C]//2018International Conference onMachine Learning and Cybernetics(ICMLC).IEEE,2018,1:240-245.
[2]Shi Y F,Song P P.Improvement Research on the Project LoanEvaluation of Commercial Bank Based on the Risk Analysis[C]//2017 10thInternational Symposium on Computational Intelligence and Design(ISCID).IEEE,2017,1:3-6.
[3]Cui P,Wang X,Pei J,et al.A survey on network embedding[J].IEEETransactions on Knowledge and Data Engineering,2018,31(5):833-852.
[4]Saha P,Bose I,Mahanti A.A knowledge based scheme for riskassessment in loan processing by banks[J].Decision Support Systems,2016,84:78-88.
[5]Talavera A,Cano L,Paredes D,et al.Data Mining Algorithms for RiskDetection in Bank Loans[C]//Annual International Symposium on InformationManagement and Big Data.Springer,Cham,2018:151-159.
[6]Babaev D,Savchenko M,Tuzhilin A,et al.ET-RNN:Applying DeepLearning to Credit Loan Applications[C]//Proceedings of the 25th ACM SIGKDDInternational Conference on Knowledge Discovery&Data Mining.ACM,2019:2183-2190.
[7]Yu W,Cheng W,Aggarwal C C,et al.Netwalk:A flexible deep embeddingapproach for anomaly detection in dynamic networks[C]//Proceedings of the24th ACM SIGKDD International Conference on Knowledge Discovery&DataMining.ACM,2018:2672-2681.
[8]Chen T,Guestrin C.XGBoost:A scalable tree boosting system[C]//Proceedings of the 22nd acm sigkdd international conference on knowledgediscovery and data mining.ACM,2016:785-794.

Claims (3)

1.一种网络借贷欺诈检测系统,嵌入于互联网网络借贷审核系统,其特征在于,连接网络借贷记录数据供应模块,本发明系统包括网络构建与更新模块、网络学习表征模块、特征构建模块、欺诈检测模型,其中:
所述数据供应模块可以针对不同的数据实现初始数据供应和流式数据供应;
所述网络构建与更新模块,与数据供应模块连接,包括关系借贷网络构建与更新模块、同质借贷网络的构建与更新模块,关系借贷网络构建与更新模块与同质借贷网络的构建与更新模块连接;
所述网络表征学习模块,与同质借贷网络的构建与更新模块连接,包括静态网络表征学习模块和增量式网络表征学习模块;
所述特征构建模块,实现将借贷数据转化为新特征的功能,包括数据向量化模块和时序特征构造模块,数据向量化模块输出与时序特征构造模块输入连接,静态网络表征学习模块和增量式网络表征学习模块的输出分别与数据向量化模块的输入连接;
所述欺诈检测模块,与特征构建模块连接,先通过对输入样本数据进行训练建立检测模块,再对测试数据实现欺诈检测,为互联网网络借贷审核系统提供检测判断;
具体为:
一、网络借贷记录数据供应模块
所述数据供应模块连接互联网金融平台借贷数据集,获得初始数据和流式数据,针对不同阶段向本发明系统供应训练用数据和测试数据;
二、网络构建与更新模块
关系借贷网络构建与更新模块:
从数据供应模块的原始借贷数据中筛选出可利用的原始字段,进行字段类型转换和空值去除填充数据预处理操作;将原始借贷数据划分为单号(APPLYNO)与属性(ATTRIBUTE)两种类型,所述属性(ATTRIBUTE)为借贷数据中除去单号(APPLYNO)以外的其他数据;针对一笔借贷数据,将其记为(bi,ATT(bi)),bi是借贷数据b的单号,ATT(bi)是借贷数据b对应的属性集合,attk(bi)是ATT(bi)中第k个元素;
基于原始借贷数据建立关系借贷网络Nr=(V,E),V是节点集,E是边集,其中边e1=(u,v),u与v属于节点集V;针对借贷数据b中的每一笔数据bi,首先bi加入节点集V,将ATT(bi)中每一个元素依次加入节点集V,最后将边(bi,attk(bi))加入边集E,attk(bi)是ATT(bi)中第k个元素;提供给同质借贷网络的构建与更新模块;
同质借贷网络的构建与更新模块:
基于关系借贷网络构建与更新模块建立同质借贷网络Nh=(Vh,Eh),Vh是节点集,Eh是边集,其中边e2=(u,v,w),u与v属于节点集Vh;当attk(bi)=attk(b-j)时,关系借贷网络中一对边(bi,attk(bi))和(bj,attk(bj))被视为边集Eh中的边(bi,bj),w为边(bi,bj)出现的次数,作为同质借贷网络Nh中的权重;基于关系借贷网络Nr,将节点集V中所有类型为借贷单号的节点加入节点集Vh;然后遍历每一对边(bi,attk(bi))和(bj,attk(bj)),当attk(bi)=attk(bj)时,将边(bi,bj)加入边集Eh;得到同质借贷网络Nh=(Vh,Eh);输出提供给网络表征学习模块;
三、网络学习表征模块
所述网络表征学习模块,与同质借贷网络的构建与更新模块连接,包括静态网络表征学习模块和增量式网络表征学习模块,分别在训练阶段和测试阶段完成网络表征学习;
所述静态网络表征学习模块:
基于同质借贷网络的构建与更新模块已构建的同质借贷网络Nh,静态网络表征学习模块采用网络表征学习方法NetWalk来学习同质借贷网络Nh中全部网络节点的向量表征;将网络表征学习方法NetWalk针对同质借贷网络Nh得到在初始时刻t时网络中节点v与其对应的向量表征γ,建立映射关系γ=Ft(v);依据映射关系γ=Ft(v),将初始借贷数据表示为向量表征形式,一笔由若干具体字段值组成借贷数据转变为一组固定维度的向量表征;
所述增量式网络表征学习模块进行生成增量式的网络表征,包括第一子模块、第二子模块、第三子模块、第四子模块,它们顺序连接:
所述第一子模块:依据数据集Btrain(tk)时间戳顺序,选取与数据集Btest(tk+1)同样数量的最早数据放入数据集B′test(tk+1);将数据集Btest(tk+1)与B′test(tk+1)采用与关系借贷网络构建与更新模块中相同的预处理操作,将处理后的数据集Btest(tk+1)与B′test(tk+1)基于数据集Btrain(tk)进行关系借贷网络的更新;基于关系借贷网络构建与更新模块的定义,分别处理网络借贷数据Btest(tk+1)与B′test(tk+1)得到关系借贷网络中的节点集Vtest(tk+1)和V′test(tk+1)与边集Etest(tk+1)和E′test(tk+1),Etest(tk+1)是流式到达的借贷数据中单号与上一时刻关系借贷网络Nr中现有节点之间的存在关系的边集,
Figure FDA0004121862400000031
是关系借贷网络Nr即将删除的过期边集;令V=V∪Vtest(tk+1)-V′test(tk+1)和E=E∪Etest(tk+1)-E′test(tk+1),更新关系借贷网络Nr=(V,E);
所述第二子模块:基于更新后的关系借贷网络Nr=(V,E),采用同质借贷网络的构建与更新模块获得更新后的同质借贷网络Nh=(Vh,Eh);
所述第三子模块:基于时刻tk对应的节点v与对应向量γ的映射关系
Figure FDA0004121862400000032
分别设置边集Etest(tk+1)和E′test(tk+1)为新到来的边集和待删除的边集,运用网络表征学习方法NetWalk,对涉及到边集Etest(tk+1)和E′test(tk+1)中的节点和边进行增量式的网络表征学习,得到时刻tk+1对应的节点v与对应向量γ的映射关系
Figure FDA0004121862400000033
所述第四子模块:将第三子模块针对同质借贷网络Nh得到在时刻tk时网络中节点v与其对应的向量表征γ之间的映射关系
Figure FDA0004121862400000034
依据映射关系γ=Ft(v),将流式借贷数据重新表示为向量表征形式,一笔由若干具体字段值组成借贷数据转变为一组固定维度的向量表征;
四、特征构建模块
所述特征构建模块,实现将借贷数据转化为新特征的功能,包括数据向量化模块和时序特征构造模块,数据向量化模块输出与时序特征构造模块输入连接,静态网络表征学习模块和增量式网络表征学习模块的输出分别与数据向量化模块的输入连接。
所述数据向量化模块:一笔含有n个可用原始字段的借贷数据Btrain(tk)在同质借贷网络中可对应n个相应的节点,基于tk时刻节点和映射关系
Figure FDA0004121862400000035
借贷数据变换为每个借贷单号所对应的维数为dim的向量,在得到向量后即可直接输入分类模型进行节点分类后续任务;
时序特征构造模块:在基于数据向量化模块所得到的向量表征,针对每一笔借贷数据依次先计算每个单号与在数据集中前h项单号的欧氏距离,单号按生成时间排序,并按照从小到大的顺序排序这h项,将其作为对应单号的所构造的时序特征;然后,再引入待检测单号与其前h项单号所对应向量相似度作为欺诈检测模型的输入;时序特征构造模块使用向量相似度,增强了后续欺诈检测模型的泛化能力,面对向量X=(x1,····,xdim)、Y=(y1,····,ydim),其欧氏距离的计算如下所示
Figure FDA0004121862400000041
基于时序特征构造模块中构造好的时序特征,依据分类器参数集Wc设置分类器,将tk时刻借贷数据对应的时序特征作为数据,对应借贷数据是否为欺诈交易作为标签,导入分类器进行训练,进而将训练好的二分类模型视为欺诈检测模型
Figure FDA0004121862400000042
五、欺诈检测模块
所述欺诈检测模块,与特征构建模块连接,先通过对输入样本数据进行训练建立检测模块,再对测试数据实现欺诈检测,为互联网网络借贷审核系统提供检测判断;
在训练阶段,采用python中机器学习集成库scikit-learn中的XGBoost分类器为本发明的欺诈检测模型;
在测试阶段,基于特征构建模块的时序特征构造模块中构造好的时序特征,依据分类器参数集Wc设置分类器,将tk时刻借贷数据对应的时序特征作为数据,对应借贷数据是否为欺诈交易作为标签,导入分类器进行训练,进而将训练好的二分类模型视为欺诈检测模型
Figure FDA0004121862400000043
2.如权利要求1所述的网络借贷欺诈检测系统,其特征在于,所述欺诈检测模型
Figure FDA0004121862400000044
将tk时刻的测试数据对应的时序特征输入欺诈检测模型
Figure FDA0004121862400000045
得到测试借贷数据的集合Btest(tk)中每一笔借贷数据的欺诈概率p(bi),输出测试数据为欺诈的概率集合P,其中p(bi)∈P。
3.如权利要求2所述的网络借贷欺诈检测系统,其特征在于,判断时刻tk+1+t0是否大于周期T,若大于,则将tk时刻的借贷数据集Btrain(tk)视为初始借贷数据集,执行关系借贷网络构建与更新模块重新构建关系借贷网络;若小于,令
Figure FDA0004121862400000051
Figure FDA0004121862400000052
在时刻tk+1时执行增量式网络表征学习模块第一子模块,根据到来的流式借贷数据,增量式地更新网络表征。
CN201911101576.6A 2019-11-12 2019-11-12 互联网金融平台网络借贷欺诈检测系统 Active CN111028073B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911101576.6A CN111028073B (zh) 2019-11-12 2019-11-12 互联网金融平台网络借贷欺诈检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911101576.6A CN111028073B (zh) 2019-11-12 2019-11-12 互联网金融平台网络借贷欺诈检测系统

Publications (2)

Publication Number Publication Date
CN111028073A CN111028073A (zh) 2020-04-17
CN111028073B true CN111028073B (zh) 2023-05-12

Family

ID=70201319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911101576.6A Active CN111028073B (zh) 2019-11-12 2019-11-12 互联网金融平台网络借贷欺诈检测系统

Country Status (1)

Country Link
CN (1) CN111028073B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110020715A (ko) * 2009-08-24 2011-03-03 엘지전자 주식회사 무선 통신 시스템에서 셀 식별자 결정 방법 및 이를 위한 장치
CN109754258A (zh) * 2018-12-24 2019-05-14 同济大学 一种基于个体行为建模的面向线上交易欺诈检测方法
CN109829721A (zh) * 2019-02-13 2019-05-31 同济大学 基于异质网络表征学习的线上交易多主体行为建模方法
CN109858930A (zh) * 2019-01-24 2019-06-07 同济大学 基于关联图谱表征学习的线上交易欺诈检测方法
CN110191110A (zh) * 2019-05-20 2019-08-30 山西大学 基于网络表示学习的社交网络异常账户检测方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9183597B2 (en) * 2012-02-16 2015-11-10 Location Labs, Inc. Mobile user classification system and method
US20180357413A1 (en) * 2017-05-31 2018-12-13 Paul A. Rivera Methods and Systems for the Active Defense of a Computing System Against Malware

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110020715A (ko) * 2009-08-24 2011-03-03 엘지전자 주식회사 무선 통신 시스템에서 셀 식별자 결정 방법 및 이를 위한 장치
CN109754258A (zh) * 2018-12-24 2019-05-14 同济大学 一种基于个体行为建模的面向线上交易欺诈检测方法
CN109858930A (zh) * 2019-01-24 2019-06-07 同济大学 基于关联图谱表征学习的线上交易欺诈检测方法
CN109829721A (zh) * 2019-02-13 2019-05-31 同济大学 基于异质网络表征学习的线上交易多主体行为建模方法
CN110191110A (zh) * 2019-05-20 2019-08-30 山西大学 基于网络表示学习的社交网络异常账户检测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
阳雨等.异质网络社区发现研究进展.《计算机应用研究》.2018,第35卷(第35期),2881-2887. *

Also Published As

Publication number Publication date
CN111028073A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
CN111199343B (zh) 一种多模型融合的烟草市场监管异常数据挖掘方法
Turkson et al. A machine learning approach for predicting bank credit worthiness
US11263644B2 (en) Systems and methods for detecting unauthorized or suspicious financial activity
CN109754258B (zh) 一种基于个体行为建模的面向线上交易欺诈检测方法
CN110852856A (zh) 一种基于动态网络表征的发票虚开识别方法
CN109858930A (zh) 基于关联图谱表征学习的线上交易欺诈检测方法
CN110930038A (zh) 一种贷款需求识别方法、装置、终端及存储介质
CN113743675A (zh) 一种云服务QoS深度学习预测模型
CN111105303B (zh) 基于增量式网络表征学习的网络借贷欺诈检测方法
CN111178902A (zh) 基于自动化特征工程的网络支付欺诈检测方法
CN110956543A (zh) 异常交易检测的方法
Yahaya et al. An enhanced bank customers churn prediction model using a hybrid genetic algorithm and k-means filter and artificial neural network
Zou et al. NCRL: Neighborhood-based collaborative residual learning for adaptive QoS prediction
Kotagiri AML Detection and Reporting with Intelligent Automation and Machine learning
CN111028073B (zh) 互联网金融平台网络借贷欺诈检测系统
Thomas et al. Hybrid outlier detection in healthcare datasets using DNN and one class-SVM
Li et al. Drift-detection based incremental ensemble for reacting to different kinds of concept drift
Guan et al. Grasped: A gru-ae network based multi-perspective business process anomaly detection model
CN111626331B (zh) 一种自动化行业分类装置及其工作方法
CN114493858A (zh) 一种非法资金转移可疑交易监测方法及相关组件
Menshchikov et al. Comparative analysis of machine learning methods application for financial fraud detection
Casalino et al. Balancing data within incremental semi-supervised fuzzy clustering for credit card fraud detection
CN111275447A (zh) 基于自动化特征工程的在线网络支付欺诈检测系统
Muranda et al. Deep learning method for detecting fraudulent motor insurance claims using unbalanced data
Eria et al. Decision support credit scoring model to improve loan default prediction in financial institutions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant