发明内容
发明人通过研究发现:相关技术的电商贷款管理系统存在如下缺陷:相关技术寻找用户间的关系都是直接通过有法律关系的实体找出,而一个欺诈团伙中的关系可能更加隐蔽,不仅仅通过法律关系直接关联。
鉴于以上技术问题中的至少一项,本公开提供了一种数据检测方法和装置、计算机可读存储介质,不仅考虑机构之间直接的法律关系,也通过挖掘与机构相关的个人实体的信息来寻找异常数据和对应的异常机构。
根据本公开的一个方面,提供一种数据检测方法,包括:
从多个服务器获取对象关联数据;
对对象关联数据进行数据处理并确定对象关联数据的特征值;
将处理后的对象关联数据和相应特征值,输入异常数据监测模型,确定异常数据。
在本公开的一些实施例中,所述将处理后的对象关联数据和相应特征值,输入异常数据监测模型,确定异常数据包括:
根据处理后的对象关联数据和相应特征值,构建二部图;
搜索构建的二部图,确定二部图的最紧密子图;
将所述最紧密子图对应的数据确定为异常数据,将异常数据对应的对象集合确定为异常机构。
在本公开的一些实施例中,所述根据处理后的对象关联数据和相应特征值,构建二部图包括:
将所有对象作为二部图的点,分别设置于二部图的两个子集中;
将对象关联数据对应的特征值设置为两个对象之间边的可疑度。
在本公开的一些实施例中,所述搜索构建的二部图,确定二部图的最紧密子图包括:
确定整个二部图的可疑度,其中,整个二部图的可疑度值为二部图中每个点和每条边的可疑度之和;
构建优先树,其中,移除一个点之后,对整个二部图可疑度减少量越小的点,拥有更高的优先级;
按照优先树,依次移除优先级最高的点,确定每次移除优先级最高的点后子图结构的紧密度;
将紧密度最高的子图结构作为二部图的最紧密子图。
在本公开的一些实施例中,所述确定每次移除优先级最高的点后子图结构的紧密度包括:
将每次移除优先级最高的点后整个子图结构的可疑度与整个子图结构中点的个数的比值,作为每次移除优先级最高的点后子图结构的紧密度。
在本公开的一些实施例中,所述数据检测方法还包括:
根据异常数据结果,对异常数据监测模型的模型参数进行相应调整。
根据本公开的另一方面,提供一种数据检测装置,包括:
关联数据采集模块,用于从多个服务器获取对象关联数据;
数据处理模块,用于对对象关联数据进行数据处理并确定对象关联数据的特征值;
异常数据确定模块,用于将处理后的对象关联数据和相应特征值,输入异常数据监测模型,确定异常数据。
在本公开的一些实施例中,所述数据检测装置用于执行实现如上述任一实施例所述的数据检测方法的操作。
根据本公开的另一方面,提供一种数据检测装置,包括:
存储器,用于存储指令;
处理器,用于执行所述指令,使得所述数据检测装置执行实现如上述任一实施例所述的数据检测方法的操作。
根据本公开的另一方面,提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如上述任一实施例所述的数据检测方法。
本公开不仅考虑机构之间直接的法律关系,也通过挖掘与机构相关的个人实体的信息来寻找异常数据和对应的异常机构。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
发明人通过研究发现:相关技术的机构管理系统还存在如下缺陷:相关技术寻找的对象主要是一个用户的多个账号,而一个欺诈团伙中可能会有多个实体,每个实体可能都会有多个账号;相关技术直接让用户提供相关账号的数据,欺诈机构可能不会授权将多个账号的数据供贷款方查询。
相关技术的反欺诈方法还包括评分卡模型。相关技术中金融机构可以根据以往的客户数据,包括已发放信贷业务的客户数据、拒绝发放信贷业务,但有数据记录的客户数据,建立初级的评分卡模型。再对客户数据中丢失的数据,推算并合理地融入到模型,建立完整的评分卡模型。并通过对以往数据的重新梳理,找出存在潜在危险的信贷对象。
相关技术的评分卡模型目前存在的缺陷包括:相关技术模型对于标签的要求较高,而现实中很大一部分与反欺诈相关的数据很难找到标签;相关技术模型只注重于单个借贷对象的金融风险,而没有将团伙借贷欺诈的风险纳入到模型的考虑之中;欺诈机构可能会伪装成正常用户,然后在一次欺诈行为中即可获利,相关技术模型无法预测这方面的风险。
鉴于以上技术问题中的至少一项,本公开提供了一种数据检测方法和装置、计算机可读存储介质,下面通过实施例对本公开进行说明。
图1为本公开数据检测方法一些实施例的示意图。优选的,本实施例可由数据检测装置执行。该方法包括以下步骤:
步骤1,从多个服务器获取对象关联数据。
在本公开的一些实施例中,步骤11可以包括确定可建立的关系,然后从多个服务器寻找建立对象关系所需要的数据表,每个对象用PIN(Personal IdentificationNumber,个人识别码)来代表。
在本公开的一些实施例中,建立对象关系所需要的数据表可以包括:
绑卡表,用于表示绑卡关系,例如:对象PIN1和对象PIN2绑定同一张卡(绑卡关系)。
通话表,用于表示不同对象(例如对象PIN1与对象PIN2)之间的通话关系。
实名表,用于表示注册关系,例如:对象PIN1与对象PIN2用同个身份证注册(注册关系)。
浏览表,用于表示浏览关系,例如:对象PIN1与对象PIN2在同一个设备上登陆(浏览关系)。
订单表,用于表示不同对象(例如对象PIN1与对象PIN2)之间的赠送关系。
钱包交易表,用于表示不同对象(例如对象PIN1与对象PIN2)之间的转账关系。
本公开上述实施例场景通过挖掘与商户、公司、组织、团体等机构关联的对象(如法人、股东)之间的关系,发现机构中的诸如欺诈团伙的异常机构。用机构信息表和对象注册信息表寻找每个机构对应的所有个人账户。再通过交易、转账、绑卡等数据表,从中挖掘出对象之间的关系。建立机构之间的关系网络,在关系网络图中寻找异常机构(例如欺诈机构)。
本公开上述实施例方法通过挖掘对象信息中的关联,建立关系网络。由于欺诈行为需要考虑到资源的有限性以及欺诈金额最大化的目标,欺诈行为通常呈现团伙性。比如使用同一张身份证、同一个电话号码注册。同时欺诈行为的一个团伙中的成员可能在平时生活中也有密切关联。因此用这些关系能建立关系网络,并在网络中形成紧密的子网络。
本公开上述实施例由于建立关系网络需要发现对象之间不同的关系,因此需要从不同的表中挖掘关系,并确定对象关系的特征值,这一步骤涉及大量的特征加工。
步骤2,对对象关联数据进行数据处理并确定对象关联数据的特征值。
在本公开的一些实施例中,步骤2可以包括:
步骤21,在Hive(数据仓库工具)上通过HiveQL(Hive支持的类似于SQL的查询语言)查询各表,获取对象关联数据,并对对象关联数据进行数据清理、数据集成、数据归约、数据变换等数据预处理,其中,数据清理:通过填写缺失的值,光滑噪声数据、识别或删除离群点,并解决不一致性来“清理”数据。数据集成:集成多个数据库、数据立方体或文件。数据归约:得到数据的简化表示,它小但能够产生同样的分析结果。数据变换指的是数据规范化、数据离散化和概念分层。
步骤22,删去与过多对象有关联的PIN,因为可能是公共账号,反应不了对象个人关系。
步骤23,确定对象关系的特征值,如果PIN1与PIN2有多次关联(如PIN1多次给PIN2转账)提高特征值权重,如果PIN1与多个PIN2关联,降低特征值权重。
在本公开的一些实施例中,步骤23可以包括根据公式(1)确定PIN1与PIN2对象关系的特征值。
在本公开的另一些实施例中,步骤23可以包括根据公式(2)确定PIN1与PIN2对象关系的特征值f。
f=ax+by+cz…… (2)
其中,a、b、c是参数,x、y、z为不同对象关系的特征值。
本公开上述实施例此次场景的目标是判断两个机构有没有关系,因为过于关系紧密的机构容易成为欺诈机构。
步骤3,将处理后的对象关联数据和相应特征值,输入异常数据监测模型,确定异常数据。
在本公开的一些实施例中,异常数据监测模型可以为Fraudar(Bounding GraphFraud in the Face of Camouflage,伪装存在的情况下确定图欺诈的边界)算法模型。
在本公开的一些实施例中,步骤3可以包括:
步骤31,根据处理后的对象关联数据和相应特征值,构建二部图。
在本公开的一些实施例中,步骤31可以包括:通过预定转换,将对象关联数据的同构图转换为二部图。
在本公开的一些实施例中,步骤31可以包括:去除重复的PIN1与PIN2关系,建立关系二部图。
在本公开的一些实施例中,步骤31可以包括:
步骤311,将所有对象作为二部图的点,分别设置于二部图的两个子集中。
图2为本公开一些实施例中二部图的示意图。如图2所示的二部图包括两个子集U和V,图2实施例包含PIN1、PIN2、PIN3和PIN4共四个对象,即四个点,将四个点分别设置在二部图的两个子集U和V中。
步骤312,将对象关联数据对应的特征值设置为两个对象之间边的可疑度。
例如:图2实施例中两个点之间的直线(边)表示两个对象之间的可疑度。
步骤32,搜索构建的二部图,确定二部图的最紧密子图。
在本公开的一些实施例中,步骤32可以包括:在基于图致密度监测的无监督异常监测方法中,采用Fraudar(Bounding Graph Fraud in the Face of Camouflage,伪装存在的情况下确定图欺诈的边界)算法进行紧密子图的搜索,寻找出二部图中紧密的子图,其中,FRAUDAR算法自动化地挖掘出二部图里的高密子图,同时对欺诈者的伪装行为(Camouflage)具有非常好的对抗性。
在相关技术Fraudar算法二部图中左右两边是不同的实体(如左边为客户,右边为购买的产品)。而本公开上述实施例中将二部图左右两侧均设置为同样的实体,二部图左右两侧子集都代表了对象(以PIN来表示)。
在本公开的一些实施例中,步骤32可以包括:
步骤321,从整个二部图开始,确定每个点和每条边的可疑度,之后确定整个二部图的可疑度,其中,整个二部图的可疑度值为二部图中每个点和每条边的可疑度之和。
步骤322,构建优先树,其中,优先级的定义为:移除一个点之后,对整个二部图可疑度减少量越小的点,拥有更高的优先级。
在本公开的一些实施例中,优先树为用于快速移除图中边的二叉树结构。图中所有的点都对应一个优先树的叶子节点,从叶子节点向上,每个父节点选取两个子节点优先级高的那一个。
步骤323,按照优先树,依次移除优先级最高的点,确定每次移除优先级最高的点后子图结构的紧密度(可疑度度量g)。
在本公开的一些实施例中,步骤323中,所述按照优先树,依次移除优先级最高的点的步骤可以包括:对于二部图中的任意节点,利用贪婪算法移除使优先级最高的节点(由优先树得到),使移除后网络的可疑度最高,直至网络结构为空。本步骤形成一个嵌套的网络的序列,每个网络是前面网络的子网。
在本公开的一些实施例中,步骤323中,所述确定每次移除优先级最高的点后子图结构的紧密度的步骤可以包括:将每次移除优先级最高的点后整个子图结构的可疑度与整个子图结构中点的个数的比值,作为每次移除优先级最高的点后子图结构的紧密度。
在本公开的一些实施例中,步骤323中,所述确定每次移除优先级最高的点后子图结构的紧密度g的步骤可以包括:根据公式(3)确定每次移除优先级最高的点后子图结构的紧密度g。
紧密度g=整个图的可疑度/整个图中点的个数 (3)
步骤324,将紧密度最高的子图结构作为二部图的最紧密子图。
步骤33,将所述最紧密子图对应的数据确定为异常数据,将异常数据对应的对象集合确定为异常机构(例如:最可疑团伙)。
基于本公开上述实施例提供的数据检测方法,包括一种基于机构关键人的个人信息的机构关系构建方法,该方法引入机构关键人(法人、大股东等)的个人电商行为数据(通话、赠送、转账等),建立更加完备的机构关系网络,相比于相关技术的基于机构注册信息的关系构建方法可以挖掘出更为隐蔽的机构关系,从而大幅提升机构营销欺诈和小微信贷欺诈的检测能力。本公开上述实施例的网络的链路预测针对不同场景可以采取基于经验融合的方法,也可以基于标注信息,采用预测的方法。
本公开上述实施例提出一种基于图致密度监测的无监督异常监测方法,改进了Fraudar算法,并将其应用于同构图,首先将同构关系网络转化成二部图,从而利用贪婪算法寻找最致密的子图空间。本公开上述实施例方法可以自动抽取网络中异常聚集的区域,从而为反欺诈团伙的监测提供依据。
图3为本公开数据检测方法另一些实施例的示意图。优选的,本实施例可由数据检测装置执行。该方法包括以下步骤:
步骤41,从多个服务器获取对象关联数据。
在本公开的一些实施例中,步骤41可以包括:确定对象关系,从多个服务器寻找对象关联数据表。
步骤42,对对象关联数据进行数据处理和特征加工。
在本公开的一些实施例中,步骤42可以包括:对对象关联数据进行数据处理并确定对象关联数据的特征值。
步骤43,根据处理后的对象关联数据和相应特征值,构建对象关系二部图。
步骤44,采用Fraudar算法搜索构建的二部图,确定二部图的最紧密子图。
步骤45,将所述最紧密子图对应的数据确定为异常数据,将异常数据对应的对象集合确定为异常机构(例如最可疑团伙)。
步骤46,根据异常数据结果,评估异常数据监测模型效果,对异常数据监测模型的模型参数进行相应调整。
本公开上述实施例通过图方法,建立关系网络,不仅通过机构个体,也通过发现多个关联机构的数据来进行欺诈检测,考虑团伙借贷欺诈风险。
本公开上述实施例不仅考虑机构之间直接的法律关系,也通过挖掘与机构相关的个人实体的信息来寻找异常机构(例如欺诈机构)。
本公开上述实施例解决了伪装行为对欺诈检测精度造成影响的问题。
本公开上述实施例在数据没有标签的情况下也能通过机构间异常的关系发现可疑机构。
本公开上述实施例运用一些如订单数据、绑卡数据等无需经过对象授权的数据进行数据挖掘,避免了异常机构(例如欺诈机构)的刻意隐瞒。
图4为本公开数据检测装置一些实施例的示意图。本公开数据检测装置可以包括关联数据采集模块51、数据处理模块52和异常数据确定模块53,其中:
关联数据采集模块51,用于从多个服务器获取对象关联数据。
在本公开的一些实施例中,关联数据采集模块51可以用于确定可建立的关系,然后从多个服务器寻找建立对象关系所需要的数据表(例如图2实施例的数据表),每个对象用PIN来代表。
数据处理模块52,用于对对象关联数据进行数据处理并确定对象关联数据的特征值。
在本公开的一些实施例中,数据处理模块52可以用于在Hive(数据仓库工具)上通过HiveQL(Hive支持的类似于SQL的查询语言)查询各表,进行数据处理、特征加工;删去与过多对象有关联的PIN,因为可能是公共账号,反应不了对象个人关系;确定对象关系的特征值,如果PIN1与PIN2有多次关联(如PIN1多次给PIN2转账)提高特征值权重,如果PIN1与多个PIN2关联,降低特征值权重。
异常数据确定模块53,用于将处理后的对象关联数据和相应特征值,输入异常数据监测模型,确定异常数据。
在本公开的一些实施例中,异常数据确定模块53可以用于根据处理后的对象关联数据和相应特征值,构建二部图;搜索构建的二部图,确定二部图的最紧密子图;将所述最紧密子图对应的数据确定为异常数据,将异常数据对应的对象集合确定为异常机构。
在本公开的一些实施例中,异常数据确定模块53在根据处理后的对象关联数据和相应特征值,构建二部图的情况下,可以用于将所有对象作为二部图的点,分别设置于二部图的两个子集中;将对象关联数据对应的特征值设置为两个对象之间边的可疑度。
在本公开的一些实施例中,异常数据确定模块53在搜索构建的二部图,确定二部图的最紧密子图的情况下,可以用于确定整个二部图的可疑度,其中,整个二部图的可疑度值为二部图中每个点和每条边的可疑度之和;构建优先树,其中,移除一个点之后,对整个二部图可疑度减少量越小的点,拥有更高的优先级;按照优先树,依次移除优先级最高的点,确定每次移除优先级最高的点后子图结构的紧密度;将紧密度最高的子图结构作为二部图的最紧密子图。
在本公开的一些实施例中,异常数据确定模块53在确定每次移除优先级最高的点后子图结构的紧密度的情况下,可以用于将每次移除优先级最高的点后整个子图结构的可疑度与整个子图结构中点的个数的比值,作为每次移除优先级最高的点后子图结构的紧密度。
在本公开的一些实施例中,所述数据检测装置还可以用于根据异常数据结果,对异常数据监测模型的模型参数进行相应调整。
在本公开的一些实施例中,所述数据检测装置可以用于执行实现如上述任一实施例(例如图1-图3任一实施例)所述的数据检测方法的操作。
基于本公开上述实施例提供的数据检测装置,引入机构关键人(法人、大股东等)的个人电商行为数据(通话、赠送、转账等),建立更加完备的机构关系网络,相比于相关技术的基于机构注册信息的关系构建方法可以挖掘出更为隐蔽的机构关系,从而大幅提升机构营销欺诈和小微信贷欺诈的检测能力。本公开上述实施例的网络的链路预测针对不同场景可以采取基于经验融合的方案,也可以基于标注信息,采用预测的方案。
本公开上述实施例提出一种基于图致密度监测的无监督异常监测方案,改进了Fraudar算法,并将其应用于同构图,首先将同构关系网络转化成二部图,从而利用贪婪算法寻找最致密的子图空间。本公开上述实施例可以自动抽取网络中异常聚集的区域,从而为反欺诈团伙的监测提供依据。
图5为本公开数据检测装置另一些实施例的示意图。本公开数据检测装置可以包括存储器61和处理器62,其中:
存储器61,用于存储指令。
处理器62,用于执行所述指令,使得所述数据检测装置执行实现如上述任一实施例(例如图1-图3任一实施例)所述的数据检测方法的操作。
本公开上述实施例通过图的方式,建立关系网络,不仅通过机构个体,也通过发现多个关联机构的数据来进行欺诈检测,考虑团伙借贷欺诈风险。
本公开上述实施例不仅考虑机构之间直接的法律关系,也通过挖掘与机构相关的个人实体的信息来寻找欺诈机构。
本公开上述实施例解决了伪装行为对欺诈检测精度造成影响的问题。
本公开上述实施例在数据没有标签的情况下也能通过机构间异常的关系发现可疑机构。
本公开上述实施例运用一些如订单数据、绑卡数据等无需经过对象授权的数据进行数据挖掘,避免了欺诈机构的刻意隐瞒。
根据本公开的另一方面,提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如上述任一实施例(例如图1-图3任一实施例)所述的数据检测方法。
基于本公开上述实施例提供的计算机可读存储介质,引入机构关键人(法人、大股东等)的个人电商行为数据(通话、赠送、转账等),建立更加完备的机构关系网络,相比于相关技术的基于机构注册信息的关系构建方法可以挖掘出更为隐蔽的机构关系,从而大幅提升机构营销欺诈和小微信贷欺诈的检测能力。本公开上述实施例的网络的链路预测针对不同场景可以采取基于经验融合的方案,也可以基于标注信息,采用预测的方案。
本公开上述实施例提出一种基于图致密度监测的无监督异常监测方案,改进了Fraudar算法,并将其应用于同构图,首先将同构关系网络转化成二部图,从而利用贪婪算法寻找最致密的子图空间。本公开上述实施例可以自动抽取网络中异常聚集的区域,从而为反欺诈团伙的监测提供依据。
在上面所描述的数据检测装置可以实现为用于执行本申请所描述功能的通用处理器、可编程逻辑控制器(PLC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。
至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指示相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本公开的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用,并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。