CN112053221A

CN112053221A - 一种基于知识图谱的互联网金融团伙欺诈行为检测方法

Info

Publication number: CN112053221A
Application number: CN202010819152.XA
Authority: CN
Inventors: 江远强; 韩璐; 李兰
Original assignee: Baiweijinke Shanghai Information Technology Co ltd
Current assignee: Baiweijinke Shanghai Information Technology Co ltd
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-12-08

Abstract

本发明公开一种基于知识图谱的互联网金融团伙欺诈行为检测方法，所述方法包括以下步骤：获取多个预设数据源的用户的个人申请信息、操作行为埋点数据和黑名单数据；对申请信息和操作行为埋点数据进行预处理后切分训练集和测试集，根据黑名单命中情况标记客户为欺诈节点和未标记节点，然后求出欺诈节点与其相邻用户节点之间的相似度和归属因子，对未标记节点的欺诈风险评估，采用Neo4j图数据库构建知识图谱，对验证集欺诈风险评估结果测试，对实时申请用户欺诈行为检测并处理。本发明知识图谱的团伙欺诈行为检测，构建反欺诈引擎，快速高效识别可疑团体欺诈风险，提升了金融风控能力和降低信贷风险。

Description

一种基于知识图谱的互联网金融团伙欺诈行为检测方法

技术领域

本发明属于互联网金融行业的风控技术领域，具体提供一种利用知识图谱实现对互联网金融团伙欺诈行为检测的方法。

背景技术

据有关报告显示：互联网金融机构每年因个人信息造假、工作单位虚假、代办包装、虚假联系人、组团骗贷等欺诈风险而造成的损失高达数百亿人民币。传统反欺诈技术在已有的历史数据中挖掘出反欺诈规则或者模型，其中采用逻辑回归、决策树、支持向量机、XGBoost或神经网络等有监督算法是当下反欺诈检测中使用最广泛的技术方法，该类方法基于历史中的欺诈申请和正常申请数据输入训练出分类模型，输出欺诈概率来量化欺诈风险，能够识别规则引擎无法覆盖的复杂欺诈行为。

而随时间不断演化和发展，欺诈风险模式变化快、新欺诈方法层出不穷，以往单一的个体欺诈已迅速演变成有组织、有规模的团体欺诈和相应的关联风险，甚至出现了各种中介机构通过各种伪造的虚假信息帮助客户申请贷款，从个体的欺诈特征单独来看有时并不显著，传统的反欺诈手段包括身份验证、客户信息逻辑校验、外部信息的对比校验、黑名单过滤等方式主要识别个人风险，较为孤立的评估单个用户的风险情况，无法根据千丝万缕的关系挖掘潜在的群体欺诈，对目前的团伙骗贷的识别率较低。目前行业内亟需一种能够将“单点”的信息转换成“平面”的相互关联的风控技术，进一步挖掘团伙骗贷中隐藏的潜在信息，从而实现互联网金融团伙骗贷的欺诈风险的识别与防御。

发明内容

为了解决上述技术问题，本发明中披露了一种基于知识图谱的互联网金融团伙欺诈行为检测方法，本发明的技术方案是这样实施的：

知识图谱是一种基于图的数据结构，由节点和边组成，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”，知识图谱的最大优点在于遵循了资源描述框架(Resource Description Framework,RDF)数据模型，能够包含数以千万级或者亿级规模的实体，以及数十亿或百亿事实(即属性值和与其他实体的关系)，还可以利用连续数值的向量反映知识图谱的结构特征，高效地计算实体间的关系。在互联网金融领域，知识图谱的运用主要停留在一度关系的识别，对于团伙案件的深度挖掘以及多度关系的识别尚未有较为深入的研究。本发明中对用户贷款申请数据进行有效的加工、处理、整合，转化为简单、清晰的“实体，关系，实体”的三元组，挖掘潜在的群体关系，识别出团伙骗贷。

一种基于知识图谱的互联网金融团伙欺诈行为检测方法，包括以下步骤：

步骤1：获取多个预设数据源的个人金融相关数据，包括用户的个人申请信息、操作行为埋点数据和黑名单数据；

步骤2：对收集到的个人申请信息、操作行为埋点数据进行预处理，并根据业务逻辑切分训练集和测试集；

步骤3：根据黑名单命中信息，命中客户标记为欺诈节点，未命中客户标记为未标记节点；

步骤4：分别求出欺诈节点与其相邻用户节点之间的归属因子和相似度，根据未标记节点和欺诈节点的相似度标记为欺诈节点或正常节点；

步骤5：抽取训练集的实体、实体属性及实体间关系，采用Neo4j图数据库来存储知识抽取后的数据组成节点、关系、属性和标签，根据两个节点的相似度、归属因子得到关系节点再通过指示线关联形成知识图谱；

步骤6：对验证集抽取实体、实体属性及实体间关系导入知识图谱进行欺诈风险评估，评估结果与验证集样本真实标签对比计算识别准确率；

步骤7：对实时申请用户放入已构建的知识图谱进行欺诈行为检测，计算输出实时申请用户的欺诈风险评估结果，若命中风险数据库或与异常可疑团体存在强相似度，则对疑似异常状态的申请发出系统预警，进行人工审批环节或拒绝申请。

进一步地，在步骤1中，所述特征信息包括用户的个人申请信息、操作行为埋点数据和黑名单数据。其中，申请信息包括：工作信息、手机号、学历、工作单位、住址、联系人信息；操作行为埋点数据包括：登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度；日志数据包括：7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等；另外黑名单数据主要分为以下几类：

(1)行政司法黑名单：法院执行名单、法院失信名单、黄赌毒等公安犯罪名单；

(2)内部信贷类黑名单：本平台信贷逾期、欺诈、失联、代办包装、虚假资料、组团骗贷等黑名单；

(3)第三方黑名单：同业金融机构的逾期和失联名单、各类征信数据联盟的不良名单和贷款黑中介等外部风险黑名单。

进一步地，在步骤2中，对收集到的个人申请和操作埋点数据进行预处理主要步骤分为：数据清理、数据变换、缺失值处理和冗余数据处理。数据清理包括清理光滑噪声数据、平滑或删除离群点；数据变换包括对数据进行标准化，离散化，稀疏化处理；缺失值处理包括忽略缺失值、删除空缺值或使用均值填充；冗余数据处理包括分箱、聚类和回归等方法。

经过预处理的数据根据业务逻辑按照比例7：3将数据分为训练集和测试集。

进一步地，在步骤3中，对客户命中的黑名单信息，将命中黑名单客户的个人信息加入到知识库中，设为欺诈节点，对未命中的客户的设为无标记节点。

进一步地，步骤4中，根据欺诈节点与其相邻用户节点之间的归属因子和相似度来确定未标记节点的标签。

所述用户节点与其相邻用户节点之间的归属因子计算公式如下：

其中，p_(root,i)为用户节点的第i个属性，p_(target,i)为邻居节点的第i个属性。n为点所具有的属性的总数。为用户节点与邻居节点的关系总数，r_max为用户节点与其邻居节点中关系总数中的最大值。另外f(x)根据节点属性值的类型有不同的计算方式，比如年龄会采用两节点之差值并进行归一化，是否疑似团伙欺诈会判断两节点属性值是否相等，相等则为1，不相等则为0。

根据知识图谱中相邻节点的相似性，计算知识图谱中无标记节点与欺诈节点之间的相似度，公式如下：

其中，s(a,b)是欺诈用户节点a和未标记用户b的相似度，I(a)表示欺诈用户节点a的入射相邻节点的集合，I_i(a)表示欺诈用户a的第i个相邻节点，I(b)表示未标记节点b的入射相邻节点的集合，I_i(b)表示未标记b的第j个相邻节点，s(I_i(a),I_j(b))是欺诈节点a的第i个相邻节点与未标记节点b的第j个相邻节点的相似度，C是阻尼系数，C∈(0,1)。

如果s(a,b)达到欺诈预设值，则将未标记用户b标记为欺诈节点，存储至潜在风险数据库，并对节点b进行实体特征验证，确定标记是否正确，如果验证标记有误则标记为正常节点。

迭代计算所有欺诈节点相邻的未标记节点的相似度，完成所有客户的欺诈标记。

进一步地，步骤5中采用了Neo4j和Cypher。Neo4j是一个高性能的NOSQL图形数据库，最大的特点是能够存储关系数据，能够通过创建属性图将结构化数据存储在图里而不是表中，创建的属性图是用顶点和边构建一个有向图，每个节点和关系都可以由一个或多个属性，Cypher是Neo4j的查询语言，已经成为事实上的标准。

步骤5利用Neo4j和Cypher构建知识图谱步骤如下：

利用抽取训练集的实体、实体属性及实体间关系进行存储，包括申请人的IP地址、设备、账户联系人等个体，IP登录行为、设备登录行为等个体关系，将存储的方法基于Neo4j提供的图数据查询语言Cypher进行数据导入，接着采用Neo4j图数据库来存储知识抽取后的数据组成节点、关系、属性和标签，根据两个节点的相似度、归属因子得到关系节点，关系节点通过指示线关联形成知识图谱。

根据用户贷款申请数据之间的关系，建立节点之间的关联关系可得到信用知识图谱，其中，所述用户贷款申请数据之间的关系包括用户与地址的关系、用户与手机号码的关系、用户与身份证号的关系、用户与银行卡号的关系以及用户与金融机构的关系，每一节点对应一实体用户，通过搜索一个用户，可以返回与这用户相关的所有历史借款记录、联系人信息、行为特征和每一个实体是欺诈节点或正常节点。

进一步地，步骤6中，对验证集抽取实体、实体属性及实体间关系导入知识图谱进行欺诈标签，欺诈风险评估结果与验证集样本的标签进行对比，得到知识图谱识别的准确率。

进一步地，步骤7中，对实时申请用户的个人金融数据抽取实体、实体属性及实体间关系，放入已构建的知识图谱进行欺诈行为检测，计算输出实时申请用户的欺诈风险评估结果，若命中风险数据库或与异常可疑团体存在强相似度，则对疑似异常状态的申请发出系统预警，进行人工审批环节或拒绝申请。

与现有技术相比，本发明具有以下有益的技术效果：

(1)相对于神经网络、决策树、朴素贝叶斯等评分卡模型，本文选用的知识图谱，从“单点”的信息转换成“平面”的相互关联的风控技术，挖掘团伙骗贷中隐藏的潜在信息，从而实现互联网金融团伙骗贷的欺诈风险的识别与防御；

(2)根据两个客户之间地归属因子和相似度，可挖掘无明显欺诈行为客户与欺诈客户之间的内部关系，并对其正确标记；

(3)Neo4j图数据库采用了知识图谱中的图关联分析、图计算推理等技术，能够更好地解决金融领域数据孤岛、数据不对等而造成的风险不可控问题，更好识别团伙欺诈，也能够实现关联监控、失踪复联、黑产识别等金融风控。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一种实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在一种优选的实施方式中，结合图1所示，在步骤1中，所述特征信息包括用户的个人申请信息、操作行为埋点数据和黑名单数据。其中申请信息包括：工作信息、手机号、学历、工作单位、住址、联系人信息；操作行为埋点数据包括：登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度，另外日志数据包括：7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等；黑名单数据主要分为以下几类：

(3)第三方黑名单：同业金融机构的逾期和失联名单、各类征信数据联盟的不良名单和贷款黑中介等外部风险黑名单；

在一种优选的实施方式中，结合图1所示，在步骤4中，采用Neo4j图数据库来存储知识抽取后的数据组成节点、关系、属性和标签，节点包括申请人的IP地址、设备、账户联系人等；关系包括：IP登录行为、设备登录行为等。

在一种优选的实施方式中，结合图1所示，在步骤4中，将抽取的实体、实体属性及实体间关系通过Cypher导入存储，提取时Cypher构建关系查询计算和图结构查询计算，Cypher还将异常姓名、异常电话或异常身份号等异常数据的查询语句以模块化的形式设置在查询界面上，并将多个样本数据以节点形式分布展开，关系节点通过指示线关联形成知识图谱，根据输入的查询语句从知识图谱中筛选出关系节点。除了用Neo4j自带的图数据查询语言Cypher语法简单直观，但是不便于流程化，而Python也含有neo4j库，即py2neo模块，直接执行Cypher语句，便于流程化，更加方便使用。

在一种优选的实施方式中，结合图1所示，在步骤4中，在Cypher存储的过程中需要采用Jena推理引擎通过将预定义规则集加入到推理引擎中判断待添加实体关系是否与已有图谱关系冲突或者异常，来决定是否加入到图谱中，具体过程如下：

(1)将待添加实体关系转写成图谱查询形式；

(2)应用推理引擎在图谱中形成查询机制，获得查询结果；

(3)如果出现查询结果与当前关系冲突，则终止当前实体关系的添加；

(4)如果出现查询结果与当前关系不存在冲突，则执行实体关系的插入操作；

通过以上步骤的不断迭代，可以实现高质量、高可靠的知识图谱结构。

在一种优选的实施方式中，结合图1所示，在步骤6中，根据构建好的知识图谱分析风险因素或者根据知识图谱表现的图结构特征抽取出待分析风控模型的特征集，基于知识图谱的风险因素主要从团伙欺诈、时序路径异常、中心位置等角度进行分析，其中，团伙欺诈旨在发现组织骗贷现象，如信息共用冲突特征；时序路径异常描述的是会员行为路径出现有违常理的情况；中心位置主要分析影响力集中、影响扩散现象。

需要指出的是，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均因包含在本发明的保护范围之内。

Claims

1.一种基于知识图谱的互联网金融团伙欺诈行为检测方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于知识图谱的互联网金融团伙欺诈行为检测方法，其特征在于，在步骤1中，所述特征信息包括用户的个人申请信息、操作行为埋点数据和黑名单数据。其中申请信息包括：工作信息、手机号、学历、工作单位、住址、联系人信息；操作行为埋点数据包括：登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP申请频次、设备电量占比、陀螺仪平均加速度，另外日志数据包括：7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等；另外黑名单数据主要分为以下几类：

(1)行政司法黑名单：法院执行名单、法院失信名单、黄赌毒等公安违法犯罪名单；

3.根据权利要求1所述的基于知识图谱的互联网金融团伙欺诈行为检测方法，其特征在于，在步骤2中，对收集到的个人申请和操作埋点数据进行预处理主要步骤分为：数据清理、数据变换、缺失值处理和冗余数据处理。数据清理包括清理光滑噪声数据、平滑或删除离群点；数据变换包括对数据进行标准化，离散化，稀疏化处理；缺失值处理包括忽略缺失值、删除空缺值或使用均值填充；冗余数据处理包括分箱、聚类和回归等方法；

4.根据权利要求1所述的基于知识图谱的互联网金融团伙欺诈行为检测方法，其特征在于，在步骤3中，对客户是否命中的黑名单信息划分客户，将命中黑名单客户的个人信息加入到知识库中，设为欺诈节点，对未命中的客户的设为无标记节点。

5.根据权利要求1所述的基于知识图谱的互联网金融团伙欺诈行为检测方法，其特征在于，步骤4中，根据欺诈节点与其相邻用户节点之间的归属因子和相似度来确定未标记节点的标签；

其中，p_(root,i)为用户节点的第i个属性，p_(target,i)为邻居节点的第i个属性；n为点所具有的属性的总数；为用户节点与邻居节点的关系总数，r_max为用户节点与其邻居节点中关系总数中的最大值；另外f(x)根据节点属性值的类型有不同的计算方式，比如年龄会采用两节点之差值并进行归一化，是否疑似团伙欺诈会判断两节点属性值是否相等，相等则为1，不相等则为0。

其中，s(a,b)是欺诈用户节点a和未标记用户b的相似度，I(a)表示欺诈用户节点a的入射相邻节点的集合，I_i(a)表示欺诈用户a的第i个相邻节点，I(b)表示未标记节点b的入射相邻节点的集合，I_i(b)表示未标记b的第j个相邻节点，s(I_i(a),I_j(b))是欺诈节点a的第i个相邻节点与未标记节点b的第j个相邻节点的相似度，C是阻尼系数，C∈(0,1)；

如果s(a,b)达到欺诈预设值，则将未标记用户b标记为欺诈节点，存储至潜在风险数据库，并对节点b进行实体特征，确定标记的正确性，反之则标记为正常节点。迭代计算所有欺诈节点相邻的未标记节点的相似度，完成所有客户的欺诈标记。

6.根据权利要求1所述的基于知识图谱的互联网金融团伙欺诈行为检测方法，其特征在于，步骤5中，抽取训练集的实体、实体属性及实体间关系进行存储，包括申请人的IP地址、设备、账户联系人等个体，IP登录行为、设备登录行为等个体关系，将存储的方法基于Neo4j提供的采用图数据查询语言Cypher进行数据导入，接着采用Neo4j图数据库来存储知识抽取后的数据组成节点、关系、属性和标签，根据两个节点的相似度、归属因子得到关系节点，关系节点通过指示线关联形成知识图谱；

根据用户贷款申请数据之间的关系，建立节点之间的关联关系可得到信用知识图谱，其中，所述用户贷款申请数据之间的关系包括用户与地址的关系、用户与手机号码的关系、用户与身份证号的关系、用户与银行卡号的关系以及用户与金融机构的关系，每一节点对应一实体，通过搜索一个用户，可以返回与这用户相关的所有历史借款记录、联系人信息、行为特征和每一个实体是欺诈节点或正常节点。

7.根据权利要求1所述的基于知识图谱的互联网金融团伙欺诈行为检测法，其特征在于，步骤6中，对验证集抽取实体、实体属性及实体间关系导入知识图谱进行欺诈标签，欺诈风险评估结果与验证集样本的标签进行对比，得到知识图谱识别的准确率。

8.根据权利要求1所述的基于知识图谱的互联网金融团伙欺诈行为检测方法，其特征在于，步骤7中，对实时申请用户的个人金融数据抽取实体、实体属性及实体间关系，放入已构建的知识图谱进行欺诈行为检测，计算输出实时申请用户的欺诈风险评估结果，若命中风险数据库或与异常可疑团体存在强相似度，则对疑似异常状态的申请发出系统预警，进行人工审批环节或拒绝申请。