基于关系网络的欺诈风险识别方法及装置
技术领域
本发明涉及计算机领域,尤其涉及基于关系网络的欺诈风险识别方法及装置。
背景技术
近年随着互联网消费金融的蓬勃发展,人们越来越多的使用线上平台进行业务申请,快捷的操作和简单的流程,使得移动手机作为主要的申请工具成为用户与平台、用户与用户之间的重要媒介。欺诈风险是互联网金融行业面临的主要风险之一,是信贷风险管理的重要环节。在各种识别欺诈风险的过程中,多数传统识别风险的方式都是基于单个用户的申请信息,较为孤立的评价该用户的风险情况,忽略了很多与该用户相关的其他风险情况,许多潜在的风险需要得到更好的评价和识别。申请环节的便利也让许多欺诈群体潜伏在海量客户中,贷款黑中介就属于这种高危群体,他们虽然人数不多,但他们的恶意申请对平台的损失是无法挽回的,极大的干扰了平台的正常运营。
在此背景下,如何识别海量申请客户中的中介群体成为一项重要课题,需要设计一种基于关系网络的欺诈风险识别方法及装置。
现有的做法是积累一些欺诈黑名单或还款表现较差的客户名单,根据这些历史客户在平台的行为数据和第三方征信数据来提取相关的特征,用于建立分类模型来识别新进的客户的风险情况。这种方法的缺点是:(1)当前很多分类模型,像逻辑回归、随机森林等都属于有监督机器学习,这就要求有足够多的学习样本,积累这些样本需要耗费许多时间和成本;(2)由于需要提取新用户特征,如果特征与第三方数据相关,模型运行则需要很大的成本,如果新用户没有相关数据,模型输入项缺失,则准确度会大大下降。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
鉴于上述问题,提出了本说明书以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于关系网络的欺诈风险识别方法及装置。
本发明说明书公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
第一方面,本发明说明书提供一种基于关系网络的欺诈风险识别方法,包括:
获取申请用户数据;
基于所述申请用户数据,构建用户关系网络;
计算所述用户关系网络的网络结构指标;
基于所述网络结构指标,识别申请用户的欺诈风险。
在本公开的一种示例性实施例中,所述的基于所述申请用户数据,构建用户关系网络包括:
将各用户设置为所述用户关系网络中的各网络节点;
以各用户之间的联系为所述用户关系网络的各网络节点的边,其中所述各用户之间的联系为任意两用户之间发生互通的关联关系。
在本公开的一种示例性实施例中,所述计算所述用户关系网络的网络结构指标包括:
计算各所述网络节点的中心度。
在本公开的一种示例性实施例中,所述计算所述用户关系网络的网络结构指标还包括:
定义所述用户关系网络的最大中心度;
计算各所述网络节点的相对中心度;
所述各所述网络节点的中心度为:相对中心度/最大中心度。
在本公开的一种示例性实施例中,所述计算各所述网络节点的相对中心度包括:
遍历所述用户关系网络的最短路径;
计算任意两个非该网络节点的最短路径中通过该网络节点的比率之和,作为该网络节点的相对中心度。
在本公开的一种示例性实施例中,所述遍历所述用户关系网络的最短路径采用图算法。
在本公开的一种示例性实施例中,所述基于所述网络结构指标,识别申请用户风险包括:
设定风险阈值;
基于所述各所述网络节点的中心度与所述风险阈值的大小比较,识别申请用户风险。
在本公开的一种示例性实施例中,所述获得申请用户数据的类型包括以下方式的一种或多种组合:
申请用户ID、申请用户设备信息、申请用户社交行为数据。
在本公开的一种示例性实施例中,所述定义所述用户关系网络的最大中心度包括:
确定与任一用户相连的用户关系子图;
根据所述用户关系子图的网络节点数量设定最大中心度。
第二方面,本发明说明书提供一种基于关系网络的欺诈风险识别装置,包括:
用户数据模块,用于获得申请用户数据;
用户关系网络模块,用于基于所述申请用户数据,构建用户关系网络;
网络结构指标模块,用于计算所述用户关系网络的网络结构指标;
风险识别模块,用于基于所述网络结构指标,识别申请用户风险。
在本公开的一种示例性实施例中,所述的用户关系网络模块包括:
网络节点单元,用于建立以各用户为所述用户关系网络中的各网络节点;
无向边单元,用于建立以各用户之间的联系为所述用户关系网络的各网络节点的边,其中所述各用户之间的联系为任意两用户之间发生互通的关联关系。
在本公开的一种示例性实施例中,所述网络结构指标模块包括:
中线度单元,用于计算各所述网络节点的中心度。
在本公开的一种示例性实施例中,所述网络结构指标模块还包括:
最大中心度单元,用于定义所述用户关系网络的最大中心度;
相对中心度单元,用于计算各所述网络节点的相对中心度;
所述各所述网络节点的中心度为:相对中心度/最大中心度。
在本公开的一种示例性实施例中,所述相对中心度单元包括:
最短路径子单元,用于遍历所述用户关系网络的最短路径;
比率子单元,用于计算任意两个非该网络节点的最短路径中通过该网络节点的比率之和,作为该网络节点的相对中心度。
在本公开的一种示例性实施例中,所述最短路径子单元的所述遍历所述用户关系网络的最短路径采用图算法。
在本公开的一种示例性实施例中,所述风险识别模块包括:
风险阈值单元,用于设定风险阈值;
比较单元,用于基于所述各所述网络节点的中心度与所述风险阈值的大小比较,识别申请用户风险。
在本公开的一种示例性实施例中,所述用户数据模块获得申请用户数据的类型包括以下方式的一种或多种组合:
申请用户ID、申请用户设备信息、申请用户社交行为数据。
在本公开的一种示例性实施例中,所述最大中心度单元包括:
确定与任一用户相连的用户关系子图;
根据所述用户关系子图的网络节点数量设定最大中心度。
第三方面,本发明说明书提供一种服务器,包括处理器和存储器:所述存储器用于存储上述任一项所述方法的程序;所述处理器被配置为用于执行所述存储器中存储的程序实现上述任一项所述方法的步骤。
第四方面,本发明说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
本发明利用海量的申请用户数据,将孤立的用户节点进行关联互通,以各个用户作为网络节点,各种关联方式作为边,构造了一套复杂关系网络系统。基于复杂网络图算法的遍历运算,根据关系网络中的数据节点的变量特征,计算各节点、边之间的最短路径等结构类型指标,从而发现关系网络中的中心节点。可将这些被发现的中心节点在业务场景中用于判断中介欺诈风险,并通过节点之间的高危风险标签传播来挖掘潜在的欺诈风险节点,打破的用户孤立评价的壁垒,更全面深入的评价用户申请,从而达到提升欺诈识别率和预测风险的目的。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种基于关系网络的欺诈风险识别方法的流程图。
图2是图1所示方法中一个关系网络的示意图。
图3是根据另一示例性实施例示出的一种基于关系网络的欺诈风险识别装置的框图。
图4是根据一示例性实施例示出的一种服务器的框图。
具体实施方式
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
然而,下述的示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本公开所必须的,因此不能用于限制本公开的保护范围。
本发明提供了一种基于关系网络的欺诈风险识别方法,用于解决现有技术中对用户行为孤立分析的现状,为了解决上述问题,本发明的总体思路如下:
基于关系网络的欺诈风险识别方法,包括:
获取申请用户数据;
基于所述申请用户数据,构建用户关系网络;
计算所述用户关系网络的网络结构指标;
基于所述网络结构指标,识别申请用户的欺诈风险。
本实施例的方法将申请用户的数据通过多种关联方式集中关系网络中,将其表现为图算法的节点和边,再基于图算法的结构理论,将中介风险抽象为图算法的中心度计算,通过中心度的评估识别潜在的中介申请,从而达到提升欺诈识别率和预测风险的目的。而且只基于用户申请数据和网络本身的结构特性进行运算,不需要额外的衍生变量,数据成本较低。
首先需要说明书的是,在本发明各个实施例中,所涉及的术语为:
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
下面,通过几个具体的实施例对本发明的技术方案进行详细介绍和说明。
见图1,基于关系网络的欺诈风险识别方法,包括:
S101:获取申请用户数据;
所述获得申请用户数据的类型包括以下方式的一种或多种组合:
申请用户ID、申请用户设备信息、申请用户社交行为数据(如通过共用设备终端、相互通话、注册分享甚至于亲属关系等)。
S102:基于所述申请用户数据,构建用户关系网络;
所述的基于所述申请用户数据,构建用户关系网络包括:
将各用户设置为所述用户关系网络中的各网络节点;
以各用户之间的联系为所述用户关系网络的各网络节点的边,其中所述各用户之间的联系为任意两用户之间发生互通的关联关系。
具体如图2所示,把每一个用户ID(如图2中ABCD代表4个用户)作为一个网络节点,当用户A与B出现过注册邀请、设备共用等方式的产生联系时,则为A、B两个节点之间添加一条无向边,众多的节点通过互相关联则构成了一个平台用户的关系网络。
S103:计算所述用户关系网络的网络结构指标;
所述计算所述用户关系网络的网络结构指标包括:
计算各所述网络节点的中心度;
定义所述用户关系网络的最大中心度;
所述定义所述用户关系网络的最大中心度包括:
确定与任一用户相连的用户关系子图;
根据所述用户关系子图的网络节点数量设定最大中心度。
计算各所述网络节点的相对中心度;
所述计算各所述网络节点的相对中心度包括:
遍历所述用户关系网络的最短路径;所述遍历所述用户关系网络的最短路径采用图算法。
计算任意两个非该网络节点的最短路径中通过该网络节点的比率之和,作为该网络节点的相对中心度。
所述各所述网络节点的中心度为:相对中心度/最大中心度。
具体来说,仍然以图2为例,关系网络搭建完成后,根据图算法理论计算最短路径、中心度等指标。用户节点汇聚成一个个的关系子图,针对每个子图,定义n个节点网络的最大中心度为K(K为常数,视网络大小而定,在图2中,n为4),采用图算法遍历网络的最短路径,并计算各个节点的相对中心度k1、k2…kn。将各个节点的相对中心度定义为任意两个非该网络节点的最短路径中通过该网络节点的比率之和。比如图2中,A节点相对中心的度的定义为任意两个非A节点的最短路径中通过A的比率之和,则标准化后节点的中心度为k1/k、k2/k…kn/k。例如图2中网络有A、B、C、D四个节点,计算任意两个非A节点的最短路径个数:
B至C:1个:路径为B-A-C;
B至D:1个:路径为B-A-D;
C至D:1个:路径为C-D。则A的相对中心度为sum((1/1),(1/1),(0/1))=2,网络的最大中心度为k时,则A的中心度为2/k。
S104:基于所述网络结构指标,识别申请用户的欺诈风险。
所述基于所述网络结构指标,识别申请用户风险包括:
设定风险阈值;
基于所述各所述网络节点的中心度与所述风险阈值的大小比较,识别申请用户风险。
网络节点中心度的大小代表了该节点在网络中的作为中心点的概率,线上申请中的贷款中介具有规模性和传播性,这一点与图算法原理相通,因此他们在关系网络里的中心度一般都很高,当得到了各个节点的中心度时,就可以知道其作为中心点的概率,可根据已有的中介黑标签和业务场景来决定区分中介风险的阈值。
上述方法,使得本发明达到了以下的技术效果:
(1)通过构建关系网络,将业务申请中原本孤立的用户个体充分进行关联,通过结构化数据使得用户纷繁错杂的关系脉络得到清晰理解。
(2)相对于传统的有监督学习算法,避免了积累大量正负样本和提取有效特征的过程,节约了数据接口成本。
(3)基于图算法的结构理论,很好的契合了中介的业务场景,解释性强。
基于与前述实施例中一种基于关系网络的欺诈风险识别方法同样的发明构思,本发明还提供一种基于关系网络的欺诈风险识别的装置,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种信息处理方法的任一方法的步骤。
下述为本公开装置实施例,可以用于执行本发明方法实施例。对于本实施例的装置实施例中未披露的细节,请参照本公开方法实施例。
如图3,基于关系网络的欺诈风险识别的装置,包括:
用户数据模块301,用于获得申请用户数据;用户数据模块获得申请用户数据的类型包括以下方式的一种或多种组合:
申请用户ID、申请用户设备信息、申请用户社交行为数据(如通过共用设备终端、相互通话、注册分享甚至于亲属关系等)。
用户关系网络模块302,用于基于所述申请用户数据,构建用户关系网络;
具体来说,用户关系网络模块302包括:
网络节点单元,用于建立以各用户为所述用户关系网络中的各网络节点;
无向边单元,用于建立以各用户之间的联系为所述用户关系网络的各网络节点的边,其中所述各用户之间的联系为任意两用户之间发生互通的关联关系。具体如图2所示,把每一个用户ID(如图2中ABCD代表4个用户)作为一个网络节点,当用户A与B出现过注册邀请、设备共用等方式的产生联系时,则为A、B两个节点之间添加一条无向边,众多的节点通过互相关联则构成了一个平台用户的关系网络。
网络结构指标模块303,用于计算所述用户关系网络的网络结构指标;
具体来说,网络结构指标模块303包括:
中线度单元,用于计算各所述网络节点的中心度;
最大中心度单元,用于定义所述用户关系网络的最大中心度;最大中心度单元包括:确定与任一用户相连的用户关系子图;根据所述用户关系子图的网络节点数量设定最大中心度。
相对中心度单元,用于计算各所述网络节点的相对中心度;相对中心度单元包括:
最短路径子单元,用于遍历所述用户关系网络的最短路径;最短路径子单元的所述遍历所述用户关系网络的最短路径采用图算法。
比率子单元,用于计算任意两个非该网络节点的最短路径中通过该网络节点的比率之和,作为该网络节点的相对中心度。
所述各所述网络节点的中心度为:相对中心度/最大中心度。
具体来说,仍然以图2为例,关系网络搭建完成后,根据图算法理论计算最短路径、中心度等指标。用户节点汇聚成一个个的关系子图,针对每个子图,定义n个节点网络的最大中心度为K(K为常数,视网络大小而定,在图2中,n为4),采用图算法遍历网络的最短路径,并计算各个节点的相对中心度k1、k2…kn。将各个节点的相对中心度定义为任意两个非该网络节点的最短路径中通过该网络节点的比率之和。比如图2中,A节点相对中心的度的定义为任意两个非A节点的最短路径中通过A的比率之和,则标准化后节点的中心度为k1/k、k2/k…kn/k。例如图2中网络有A、B、C、D四个节点,计算任意两个非A节点的最短路径个数:
B至C:1个:路径为B-A-C;
B至D:1个:路径为B-A-D;
C至D:1个:路径为C-D。则A的相对中心度为sum((1/1),(1/1),(0/1))=2,网络的最大中心度为k时,则A的中心度为2/k。
风险识别模块304,用于基于所述网络结构指标,识别申请用户风险。
具体来说,风险识别模块304包括:
风险阈值单元,用于设定风险阈值;
比较单元,用于基于所述各所述网络节点的中心度与所述风险阈值的大小比较,识别申请用户风险。
由于网络节点中心度的大小代表了该节点在网络中的作为中心点的概率,线上申请中的贷款中介具有规模性和传播性,这一点与图算法原理相通,因此他们在关系网络里的中心度一般都很高,当得到了各个节点的中心度时,就可以知道其作为中心点的概率,可根据已有的中介黑标签和业务场景来决定区分中介风险的阈值。
本说明书第三实施例还提供了一种服务器,包括存储器402、处理器401及存储在存储器402上并可在处理器401上运行的计算机程序,所述处理器301执行所述程序时实现前文所述方法的步骤。为了便于说明,仅示出了与本说明书实施例相关的部分,具体技术细节未揭示的,请参照本说明书实施例方法部分。该服务器,可以是包括各种电子设备形成的服务器设备,PC电脑、网络云服务器,甚至手机、平板电脑、PDA(Personal DigitalAssistant,个人数字助理)、POS(Point of Sales,销售终端)、车载电脑、台式电脑等任意电子设备上设置的服务器功能。
具体地,图4示出的与本说明书实施例提供的技术方案相关的服务器组成结构框图,总线400可以包括任意数量的互联的总线和桥,其将包括由处理器401代表的一个或多个处理器和存储器302代表的存储器的各种电路链接在一起。总线400还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口403在总线400和接收器和/或发送器404之间提供接口,接收器和/或发送器404可以是分开独立的接收器或发送器也可以是同一个元件如收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器401负责管理总线400和通常的处理,而存储器402可以被用于存储处理器401在执行操作时所使用的数据。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能:获取历史信贷数据集,所述历史信贷数据集包括用户的多维度属性信息及逾期信息;基于所述多维度属性信息对所述历史信贷数据集进行自动分档处理以生成多个子数据集;根据所述逾期信息计算所述多个子数据集中每一个子数据集对应的逾期率;以及根据子数据集及其对应的所述逾期率生成信贷风险控制规则。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
此外,本说明书说明书附图所示出的结构、比例、大小等,均仅用以配合说明书所公开的内容,以供本领域技术人员了解与阅读,并非用以限定本公开可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本公开所能产生的技术效果及所能实现的目的下,均应仍落在本公开所公开的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“第一”、“第二”及“一”等的用语,也仅为便于叙述的明了,而非用以限定本公开可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当也视为本公开可实施的范畴。