发明内容
有鉴于此,本申请基于货运卡车司机物流金融情况,主要基于卡车司机运行轨迹以及车友关系、卡车司机与物流企业、卡车司机与加油站、卡车司机与合伙人、代理人之间、联系人等关联关系,构建物流金融知识图谱,用以识别和防控贷款团伙欺诈行为,进行预警监控。
基于上述目的,本申请提出了一种基于物流金融知识图谱的防控欺诈方法,包括:
从客户端采集用户数据并进行校验;
将校验合规的用户数据输入预设的贷前授信风控模型,判断所述用户的风险,得到符合风险条件的用户;
获取所述符合风险条件的用户的关系数据,构建特征知识图谱;
根据所述特征知识图谱建立风险行为识别特征因子;
根据所述风险行为识别特征因子建立风险识别模型并进行计算,得到所述特征知识图谱中所有节点和关系的风险值;
将风险值超过阈值的节点对应的人员作为疑似欺诈人员,进行报警。
进一步地,所述用户数据包括借款用户身份信息、银行卡的开户信息、人脸图像、车辆信息、首次承运时间、以及近六个月借款用户在物流企业的运单信息。
进一步地,所述将校验合规的用户数据输入预设的贷前授信风控模型,判断所述用户的风险,得到符合风险条件的用户,包括:
根据资金方的标准数据和合规的用户数据,确定可行的授信参数;
根据所述授信参数构建所述贷前授信风控模型;
将用户数据代入贷前授信风控模型进行判断,判断所述用户的风险,得到符合风险条件的用户。
进一步地,所述根据所述授信参数构建所述贷前授信风控模型,包括:
根据所述授信参数确定放贷条件;
依据所述放贷条件构建所述贷前授信风控模型;
计算所述用户偿还贷款概率;
将所述用户偿还概率与机构利润结合。
进一步地,所述特征知识图谱包括节点和关系;所述节点包括司机、物流企业、油站代理人、油站、邀请合伙人、紧急联系人、车牌号地市、保险代理人、保险公司、ETC代理人、ETC企业;所述关系包括:司机之间关系、司机和物流企业关系、司机和油卡代理人关系、油卡代理人和油站关系、司机和车辆车牌号地市关系、司机和紧急联系人关系。
进一步地,所述构建知识图谱的方法包括:
基于图数据库直接存储构建,并直接查询关联数据;或者,
基于图算法进行存储构建和查询关联关系数据进行分析。
进一步地,所述图算法包括以下的一种:
(1)将网络划分为预定的分组数,并使连接各分组的边的条数最少;
(2)将原始矩阵分解得到社区指示矩阵和基矩阵;
(3)基于模块度的社区划分;
(4)基于节点相似性的社区划分。
进一步地,所述风险识别模型包括关系风险识别模型和实体风险模型。
进一步地,所述计算得到所述特征知识图谱中所有节点和关系的风险值,包括:
根据所述特征知识图谱的关系,根据所述用户的风险,算出关系的风险值,再通过下式算出节点的风险值:
其中,n表示获取到的风险特征参数的总个数,m表示符合条件的风险特征参数的个数,Ei表示第i个符合条件的风险特征参数的分数,σj表示节点实体对应的权重。
基于上述目的,本申请还提出了一种基于物流金融知识图谱的防控欺诈系统,包括:
数据校验模块,用于从客户端采集用户数据并进行校验;
授信风控模块,用于将校验合规的用户数据输入预设的贷前授信风控模型,判断所述用户的风险,得到符合风险条件的用户;
知识图谱构建模块,用于获取所述符合风险条件的用户的关系数据,构建特征知识图谱;
特征因子构建模块,用于根据所述特征知识图谱建立风险行为识别特征因子;
风险计算模块,用于根据所述风险行为识别特征因子建立风险识别模型并进行计算,得到所述特征知识图谱中所有节点和关系的风险值;
欺诈报警模块,用于将风险值超过阈值的节点对应的人员作为疑似欺诈人员,进行报警。
总的来说,本申请的优势及给用户带来的体验在于:
本申请切实针对物流行业进行金融风控,提炼知识图谱实体与关系,通过风控模型进行识别与监控。本申请不光针对车辆轨迹监控,还可以构建司机车主相关图谱关系,针对团体聚集性欺诈行为,进行监控预警。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出本申请的系统架构原理示意图。本申请的实施例中,基于货运卡车司机物流金融情况,主要基于卡车司机运行轨迹以及车友关系、卡车司机与物流企业、卡车司机与加油站、卡车司机与合伙人、代理人之间、联系人等关联关系,构建物流金融知识图谱,用以识别和防控贷款团伙欺诈行为,进行预警监控。
图2示出根据本申请实施例的基于物流金融知识图谱的防控欺诈方法的流程图,包括以下步骤:
S100、从客户端采集用户数据并进行校验;
这里的客户端可以是司机手机用户端或者货车车载用户端。
其中,预定义的校验算法,例如可以使用查询数据库中白名单的方式来进行。例如,如果借款用户身份信息在白名单里则校验合格,如果借款用户身份信息在黑名单里则校验不合格等。
所述用户数据包括借款用户身份信息、银行卡的开户信息、人脸图像、车辆信息、首次承运时间、以及近六个月借款用户在物流企业的运单信息。
S200、将校验合规的用户数据输入预设的贷前授信风控模型,判断所述用户的风险,得到符合风险条件的用户;步骤S200具体包括以下步骤:
S201、根据资金方的标准数据和合规的用户数据,确定可行的授信参数;
S202、根据授信参数构建贷前授信风控模型;
其中,S202进一步包括:
S2021、根据授信参数确定放贷条件;
其中,假设金融机构从按约还款的借款用户处获得利润g,因借款用户违约而遭受损失l,而好借款用户的概率是p,借款用户会还款的线段权重是p,借款用户违约的线段权重为1-p。如果金融机构接受每个借款用户的申请,每笔贷款的期望利润是pg+(1-p)(-l);如果金融机构拒绝每个借款用户的申请,期望利润是0。因此,在期望价值准则下,金融机构接受申请要满足条件pg-(1-p)l>0或p/(1-p)>l/g
其中,p/(1-p)是好借款用户的可能性与坏借款用户的可能性之比,也叫做好坏比率。
S2022、依据放贷条件构建贷前授信风控模型(标准信贷决策树);
其中,假定决策树只有概率的两个预测值:偿还可能性高(H)和偿还可能性低(L)。金融机构要决定是否为每个借款用户提供贷款。若提供,接下来的事件是借款用户是否接受机构贷款合约,这对借款用户来说是一个决定,但对金融机构是一个随机事件,设贷款被接受的概率是q。得到标准信贷决策树。
如果初始预测表明借款用户有很大可能偿还贷款,这些结果概率为p(H)和1-p(H);如果相反,这些结果的概率为p(L)和1-p(L)。按期望价值准则沿决策树反推,接受预测偿还可能性高的借款用户的条件是
q[p(H)g+(1-p(H))(-l)]>0
接受预测偿还可能性低的借款用户的条件是
q[p(L)g+(1-p(L))(-l)]>0
目前,借款用户接受贷款概率q暂时不影响决策。接受申请的条件是借款用户的预测风险X满足
如果定义p(G|X)=p(X)是风险X对应的好人概率,p(B|X)=1-p(X)则是坏人概率,那么
这里o(G|X)表示好人比率,是好人概率与坏人概率之比。这里可以延伸到一系列不同结果的情形。当x∈X时,金融机构要最大化利润可以取满足上面公式的借款用户。
S2023、计算用户偿还贷款概率;
S2024、将用户偿还概率与机构利润结合。
S203、将用户数据代入贷前授信风控模型进行判断,判断所述用户的风险,得到符合风险条件的用户。
其中,是否金融信用良好用户、区分物流平台运营不超过三个月用户和三个月以上用户、近六个月的运单运费信息与车辆轨迹匹配核对,根据预设阈值筛选得到符合风险条件的用户。
S300、获取所述符合风险条件的用户的关系数据,构建特征知识图谱;
本申请使用Graph构建特征知识图谱,包括以下构成:
1、顶点Vertex(携带key,value)。
2、边Edge:连接两个顶点之间的线段,可以是有向或者无向。
3、权重Weight:从一个顶点至另一个的顶点的代价(距离、时间...)。图G=(V,E),E中每条边e=(vx,vy,w)(有向,无向,有权重和没有权重)
4、路径:把边依次连接起来的顶点序列。
5、圈:首尾顶点相同的路径,若有向图不存在任何圈称为DAG。
具体的,本申请的特征知识图谱中包含以下元素:
1、节点(即实体):司机、物流企业、油站代理人、油站、邀请合伙人、紧急联系人、车牌号地市、保险代理人、保险公司、ETC代理人、ETC企业。
2、关系:司机之间关系、司机和物流企业关系、司机和油卡代理人关系,油卡代理人和油站关系、司机和车辆车牌号地市关系、司机和紧急联系人关系等。
3、本申请特征知识图谱的构建实现方式包括以下两种:
(1)基于图数据库直接存储构建,并可直接查询关联数据。例如Neo4j.
(2)基于图算法进行存储构建和查询关联关系数据进行分析。例如:
(2.1)最小割,正则化割:通过计算图的最小割,即将网络划分为预定的分组数,并使连接各分组的边的条数最少。
(2.2)非负矩阵分解:将原始矩阵分解得到社区指示矩阵和基矩阵。
(2.3)基于模块度的社区划分。
(2.4)基于节点相似性的社区划分。
S400、根据所述特征知识图谱建立风险行为识别特征因子:如下表所示:
S500、根据所述风险行为识别特征因子建立风险识别模型并进行计算,得到所述特征知识图谱中所有节点和关系的风险值:其中所述风险识别模型包括关系风险识别模型和实体风险模型。如下表所示:
首先根据图谱关系,根据司机的风险值,算出关联关系的风险值(司机风险值*关系权重),然后再算出关系节点的风险值:(所有关联关系风险值*节点权重的和)/关联关系数量。
公式一:
其中,n表示能够获取到的风险特征参数的总个数,m表示符合条件的风险特征参数的个数,Ei表示第i个符合条件的风险特征参数的分数,σj表示节点实体对应的权重。
一步步的算下去,直到把所有节点和关系的风险值都算出来,没有涉及到的节点风险值为0即可。
S600、将风险值超过阈值的节点对应的人员作为疑似欺诈人员,进行报警。
本申请切实针对物流行业进行金融风控,提炼知识图谱实体与关系,通过风控模型进行识别与监控。本申请不光针对车辆轨迹监控,还可以构建司机车主相关图谱关系,针对团体聚集性欺诈行为,进行监控预警。
实施例1
比如有欺诈骗贷团伙,针对代理加油站办卡优惠加油进行欺诈,首先通过欺骗司机用户进行办卡,实际上通过获取司机用户信息进行真实骗贷,针对上述情况,受骗用户构建的图谱关系,很容易发现受骗用户都是来自于某一个加油站点的用户,从而判断出该站点授信用户有聚集性欺诈行为。
举例,图3示出根据本申请实施例的物流金融知识图谱的示意图。
首先通过风控决策算出每个授信司机的风险值:
权重:油站代理人->司机=0.9油站代理人=0.95
节点:司机A=30、司机B=30、司机C1=30、司机C2=90、司机C3=90
关系计算:
加油代理人D2->司机C1值=30*0.9=27
加油代理人D2->司机C2值=90*0.9=81
加油代理人D2->司机C3值=85*0.9=76.5
节点计算:
加油代理人D2值=(27*0.95+81*0.95+76.5*0.95)/3=58.43
由于加油代理人D2风险值大于50分,则将该节点设置为高风险节点,进行预警。并将相关联的司机C1也进行预警。
申请实施例提供了一种基于物流金融知识图谱的防控欺诈系统,该系统用于执行上述实施例所述的基于物流金融知识图谱的防控欺诈方法,如图4所示,该系统包括:
数据校验模块501,用于从客户端采集用户数据并进行校验;
授信风控模块502,用于将校验合规的用户数据输入预设的贷前授信风控模型,判断所述用户的风险,得到符合风险条件的用户;
知识图谱构建模块503,用于获取所述符合风险条件的用户的关系数据,构建特征知识图谱;
特征因子构建模块504,用于根据所述特征知识图谱建立风险行为识别特征因子;
风险计算模块505,用于根据所述风险行为识别特征因子建立风险识别模型并进行计算,得到所述特征知识图谱中所有节点和关系的风险值;
欺诈报警模块506,用于将风险值超过阈值的节点对应的人员作为疑似欺诈人员,进行报警。
本申请的上述实施例提供的基于物流金融知识图谱的防控欺诈系统与本申请实施例提供的基于物流金融知识图谱的防控欺诈方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的基于物流金融知识图谱的防控欺诈方法对应的电子设备,以执行上基于物流金融知识图谱的防控欺诈方法。本申请实施例不做限定。
请参考图5,其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图5所示,所述电子设备2包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的基于物流金融知识图谱的防控欺诈方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述基于物流金融知识图谱的防控欺诈方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的基于物流金融知识图谱的防控欺诈方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的基于物流金融知识图谱的防控欺诈方法对应的计算机可读存储介质,请参考图6,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的基于物流金融知识图谱的防控欺诈方法。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的基于物流金融知识图谱的防控欺诈方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备有固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建系统中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中,这些系统中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。