CN112001785A

CN112001785A - 一种基于图像识别的网贷欺诈识别方法及系统

Info

Publication number: CN112001785A
Application number: CN202010704049.0A
Authority: CN
Inventors: 陈望东; 贾娟; 高峥; 万稚慧
Original assignee: Xiaohua Network Technology Shenzhen Co Ltd
Current assignee: Xiaohua Network Technology Shenzhen Co Ltd
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2020-11-27

Abstract

本发明提供了一种基于图像识别的网贷欺诈识别方法及系统，方法包括：数据获取步骤：读取与网贷相关的图像；样本与特征提取步骤：将黑名单客户提取为样本，通过深度学习提取其与网贷相关的图像特征，作为欺诈参考特征；基于深度学习的欺诈预测步骤：利用提取的样本，基于欺诈参考特征，运用卷积神经网络算法训练得到预测模型，利用训练得到的预测模型预测得到申请人实时的欺诈可能概率。

Description

一种基于图像识别的网贷欺诈识别方法及系统

技术领域

本发明涉及网络领域、数据处理领域以及金融领域，具体涉及一种基于图像识别的网贷欺诈识别方法及系统。

背景技术

网贷是指通过网络平台申请的贷款，包括个体通过互联网平台向机构、组织借款，也包括个人和个人之间通过互联网平台实现的借贷。而随着网贷门槛的降低，越来越多的用户采用网贷来解决短期资金问题。随之而来的是，网贷欺诈也越来越普遍。

目前，还没有很高效的自动识别网贷欺诈的方法。尤其是，反欺诈数据源基本上都是文字和数据，而关于图像类数据的反欺诈数据源基本未被用于反欺诈。

发明内容

本发明所要解决的技术问题是针对现有技术中存在上述缺陷，提供一种能够弥补反欺诈数据源关于图像类数据的空白，提供新的角度来识别欺诈的高效网贷欺诈识别方法。

根据本发明，提供了一种基于图像识别的网贷欺诈识别方法，包括：

数据获取步骤：读取与网贷相关的图像；

样本与特征提取步骤：将黑名单客户提取为样本，通过深度学习提取其与网贷相关的图像的图像特征，作为欺诈参考特征；

基于深度学习的欺诈预测步骤：利用提取的样本，基于欺诈参考特征，运用卷积神经网络算法训练得到预测模型，利用训练得到的模型预测申请人实时的欺诈可能概率。

优选地，数据获取步骤包括：利用客户端通过嵌入在手机的应用程序中的软件开发工具包，将手机屏幕画面的图像读取为与网贷相关的图像。

优选地，黑名单客户包括：包含视频攻击的申请人和/或具有预定背景资料类别的申请人和/或其与网贷相关的图像存在认为篡改的申请人。

优选地，在基于深度学习的欺诈预测步骤中，设置第一阈值和第二阈值，其中第一阈值小于第二阈值，对于欺诈可能概率小于第一阈值的判断为低风险，处理为安全申请人，实施授信；对于欺诈可能概率大于第二阈值的申请人，判断为高风险申请人，拒绝授信。

优选地，第一阈值和第二阈值分别为大于等于0.5和小于等于0.8。

优选地，基于图像识别的网贷欺诈识别方法还包括：根据业务经验的欺诈特征识别步骤，其中包括根据已经识别出的网贷欺诈，提取这些网贷欺诈的与网贷相关的图像并利用OpenCV实现图像识别以提取图像特征作为参考欺诈特征；随后对于概率处于第一阈值和第二阈值之间的申请人，基于参考欺诈特征分析申请人的与网贷相关的图像。

优选地，在根据业务经验的欺诈特征识别步骤，提取概率处于第一阈值和第二阈值之间的申请人的与网贷相关的图像中的参考欺诈特征，计算提取出的每个参考欺诈特征的IV值和KS值，设置第一IV阈值和第二IV阈值、KS阈值，舍弃IV值小于第一IV阈值的特征变量；将对于IV值大于第二IV阈值的特征变量加入决策规则集。

优选地，其中第一IV阈值和第二IV阈值为大于等于0.02并且小于等于0.1，而KS阈值小于0.06。

根据本发明，还提供了一种基于图像识别的网贷欺诈识别系统，包括：

数据获取模块，用于截取用户使用智能设备进行活体验证时的正面识别屏幕，以图片格式传输给图像识别模块，用于图像分析；

样本与特征提取模块，用于将黑名单及零还款的用户提取为坏样本，正常还款客户作为正向用户，通过深度学习训练模型提取其与网贷相关的图像特征，作为欺诈参考特征。

优选地，样本与特征提取模块执行下述处理：

基于深度学习的欺诈预测处理：利用提取的样本，基于欺诈参考特征，运用卷积神经网络算法训练得到预测模型，利用训练得到的预测模型预测得到申请人实时的欺诈可能概率；其中利用卷积运算自定义神经网络结构，进行图像模型训练，包括：

在卷积层进行仿射变换，将图像X作为输入层，设定卷积核为Y，则：

其中：m表示图像的像素行，h表示图像的像素列，S为输入层X的卷积结果；

通过一个非线性的激活函数，来承接卷积层并行计算多个卷积得到的线性激活响应；

在池化层降采样，选择最大池化方法来提高网络计算效率。

优选地，样本与特征提取模块执行下述处理：

计算申请人的与网贷相关的图像中人像面积占比；其中，运用OpenCV中的人脸级联分类器检测人脸，识别出人脸后画边框标记，计算标记的人脸框面积与整张图像面积之比：R＝S[人]/S[图]，其中S[人]表示图像中人像框的面积，S[图]表示申请人图像的面积。

其中，轮廓线包含n个顶点，Ai表示第i个顶点对应的像素中心点的面积；

计算申请人的与网贷相关的图像中色彩部分面积占比；其中，根据上诉识别的人像轮廓，截取人像下边框以上部分，调用OpenCV接口中的高斯混合模型，提取人像前景，加以剔除；计算背景颜色种类及各色彩所占比例。

本发明提供了一种能够弥补反欺诈数据源关于图像类数据的空白，提供新的角度来识别欺诈的高效网贷欺诈识别方法和系统。

附图说明

结合附图，并通过参考下面的详细描述，将会更容易地对本发明有更完整的理解并且更容易地理解其伴随的优点和特征，其中：

图1示意性地示出了根据本发明优选实施例的基于图像识别的网贷欺诈识别方法的流程图。

需要说明的是，附图用于说明本发明，而非限制本发明。注意，表示结构的附图可能并非按比例绘制。并且，附图中，相同或者类似的元件标有相同或者类似的标号。

具体实施方式

为了使本发明的内容更加清楚和易懂，下面结合具体实施例和附图对本发明的内容进行详细描述。

<方法示例>

如图1所示，根据本发明优选实施例的基于图像识别的网贷欺诈识别方法包括：

数据获取步骤：读取与网贷相关的图像；

具体地，例如，数据获取步骤包括：利用客户端通过嵌入在手机的应用程序中的软件开发工具包，(例如在申请人授权的情况下)在申请人进行活体校验时截图手机屏幕画面，将手机屏幕画面的图像读取为与网贷相关的图像。

具体地，例如，黑名单客户包括：包含视频攻击的申请人和/或具有预定背景资料类别的申请人和/或其与网贷相关的图像存在认为篡改(例如经过图像PS)的申请人等。

基于深度学习的欺诈预测步骤：利用提取的样本，基于欺诈参考特征，运用卷积神经网络算法训练得到预测模型，利用训练得到的预测模型预测得到申请人实时的欺诈可能概率；

卷积神经网络(ConvolutionalNeuralNetwork，CNN)作为图像识别领域的核心算法之一，多次成为ImageNet大规模视觉识别竞赛的优胜算法，卷积神经网络通过卷积来模拟特征区分，并且通过卷积的权值共享及池化，来降低网络参数的数量级，最后通过传统神经网络完成分类等任务；利用训练后的模型预测得到单个申请人实时可能的欺诈概率；通过设置阈值，将申请人分为高风险和低风险，例如设置0.5<＝阈值<＝0.8；具体地，例如设置两个阈值(第一阈值Threshold1和第二阈值Threshold2，其中第一阈值Threshold1小于第二阈值Threshold2)，对于欺诈可能概率小于第一阈值Threshold1的判断为低风险，处理为安全申请人，实施授信；对于欺诈可能概率大于第二阈值Threshold2的申请人，判断为高风险申请人，拒绝授信；对于欺诈可能概率处于第一阈值Threshold1和第二阈值Threshold2之间的申请人，则需结合其他特征做进一步核实判断。

根据业务经验的欺诈特征识别步骤：根据已经识别出的网贷欺诈，提取这些网贷欺诈的与网贷相关的图像并利用OpenCV实现图像识别以提取图像特征作为参考欺诈特征；随后对于概率处于第一阈值Threshold1和第二阈值Threshold2之间的申请人，基于参考欺诈特征分析申请人的与网贷相关的图像；

整理业务经验提供关于图像类欺诈案例，明确欺诈特征。运用OpenCV实现图像识别，对此类特征进行提取，作为单一特征进行分析。图像识别是人工智能的重要领域，而OpenCV作为一个基于BSD许可发行的跨平台计算机视觉库，其较之于其他主流视觉函数库有更高效快速的性能。

提取概率处于第一阈值Threshold1和第二阈值Threshold2之间的申请人的与网贷相关的图像中的参考欺诈特征，将提取到的特征分别分析，计算其IV值(信息值)、KS(用于衡量正负样本比例差程度大小的评估指标)值，根据结果判断此特征的进一步用途；设置第一IV阈值Threshold_iv1和第二IV阈值Threshold_iv2、KS阈值Threshold_ks，其中0.02<＝Threshold_iv1<＝0.1，0.02<＝Threshold_iv2<＝0.1，而且Threshold_iv1<Threshold_iv2，而且Threshold_ks<0.06；舍弃IV值小于第一IV阈值Threshold_iv1的特征变量；对于IV值大于第二IV阈值Threshold_iv2的特征变量，(例如在分析其贷后表现)加入决策规则集；对于处于Threshold_iv1和Threshold_iv2之间且大于KS阈值Threshold_ks的特征，可结合其他外部特征训练机器学习模型。

作为参考欺诈特征的示例，可执行下述获取步骤。

计算申请人的与网贷相关的图像中人像面积占比；

例如，运用OpenCV中的人脸级联分类器检测人脸，识别出人脸后画边框标记，计算标记的人脸框面积与整张图像面积之比：R＝S[人]/S[图]，其中S[人]表示图像中人像框的面积，S[图]表示申请人图像的面积。

计算申请人的与网贷相关的图像中纯色部分面积占比；

例如，根据人像面积占比，截取人像下边框以上部分，调用OpenCV接口中的高斯混合模型，提取人像前景，加以剔除。计算背景颜色种类及各色彩所占比例，根据业务经验，申请人图像为纯白底色的PS痕迹较重，欺诈风险较高，着重处理。

总而言之，本发明的上述实施例提供了一种能够弥补反欺诈数据源关于图像类数据的空白，提供新的角度来识别欺诈的高效网贷欺诈识别方法。

<系统示例>

例如，根据本实施例的基于图像识别的网贷欺诈识别系统主要分为两大部分，分别由以下几个模块组成：

1.数据获取模块：在现有网络小贷模式下，活体校验是用户申请网络贷款的必要步骤之一，主要负责对用户进行活体检测。例如在用户授权的情况下，截取用户使用智能设备进行活体验证时的正面识别屏幕，以图片格式(例如以JPG格式)作为入参，传输给图像识别模块，用于接下来的图像分析。

2.样本与特征提取模块：将黑名单及零还款的用户提取为坏样本，正常还款客户作为正向用户，通过深度学习训练模型提取其与网贷相关的图像特征，作为欺诈参考特征；

具体地，例如，黑名单客户包括：包含视频攻击的申请人、具有预定背景资料类别的申请人、其与网贷相关的图像存在认为篡改(例如经过图像PS)的申请人等。

第一部分：

卷积神经网络(ConvolutionalNeuralNetwork，CNN)作为图像识别领域的核心算法之一，多次成为ImageNet大规模视觉识别竞赛的优胜算法，卷积神经网络通过卷积来模拟特征区分，并且通过卷积的权值共享及池化，来降低网络参数的数量级，最后通过传统神经网络完成分类等任务；

因此，本发明运用卷积运算来代替一般的矩阵乘法运算自定义神经网络结构，进行图像模型训练；其中详细如下：

a).在卷积层进行仿射变换，将图像X作为输入层，设定卷积核为Y，则：

其中：m表示图像的像素行，h表示图像的像素列，S为输入层X的卷积结果。

b).通过一个非线性的激活函数，如整流线性激活函数来承接卷积层并行计算多个卷积得到的线性激活响应。

c).在池化层降采样，选择最大池化方法来提高网络计算效率。

需要注意的是：因为在对图像进行卷积操作时，其角落或边缘的像素点被使用的次数相对较少的。但在实际场景中，用户的图像边缘信息对于团伙欺诈等一系列需要背景比对的欺诈场景有着至关重要的作用。因此本发明中对输入图像X周围进行2层填充，以确保运算获取到足够的边缘信息点。

利用训练后的模型预测得到单用户实时可能的欺诈概率；

通过设置阈值，将申请人分为高风险和低风险，例如设置0.5<＝阈值<＝0.8；具体地，例如设置两个阈值(第一阈值Threshold1和第二阈值Threshold2，其中第一阈值Threshold1小于第二阈值Threshold2)，对于欺诈可能概率小于第一阈值Threshold1的判断为低风险，处理为安全申请人，实施授信；对于欺诈可能概率大于第二阈值Threshold2的申请人，判断为高风险申请人，拒绝授信；对于欺诈可能概率处于第一阈值Threshold1和第二阈值Threshold2之间的申请人归为灰度用户，则需结合其他特征做进一步核实判断。

第二部分：

根据业务经验的欺诈特征识别步骤：根据长时间的暗调等业务经验总结的欺诈特征，做针对性的特征识别。将标记案例的申请图像作为入参，利用OpenCV实现图像识别以提取图像特征作为参考欺诈特征；随后对于概率处于第一阈值Threshold1和第二阈值Threshold2之间的申请人，基于参考欺诈特征分析申请人的与网贷相关的图像；

整理业务经验提供关于图像类欺诈案例(如背景有绿植的公司团伙欺诈)，明确欺诈特征。运用OpenCV实现图像识别，对此类特征进行提取，作为单一特征进行分析。图像识别是人工智能的重要领域，而OpenCV作为一个基于BSD许可发行的跨平台计算机视觉库，其较之于其他主流视觉函数库有更高效快速的性能。

提取各特征概率处于第一阈值Threshold1和第二阈值Threshold2之间的申请人的与网贷相关的图像中的参考欺诈特征，将提取到的特征分别分析，计算其IV值(信息值)、KS(用于衡量正负样本比例差程度大小的评估指标)值，根据结果判断此特征的进一步用途；设置第一IV阈值Threshold_iv1和第二IV阈值Threshold_iv2、KS阈值Threshold_ks，其中0.02<＝Threshold_iv1<＝0.1，0.02<＝Threshold_iv2<＝0.1，而且Threshold_iv1<Threshold_iv2，而且Threshold_ks<0.06；舍弃IV值小于第一IV阈值Threshold_iv1的特征变量；对于IV值大于第二IV阈值Threshold_iv2的特征变量，(例如在分析其贷后表现)加入决策规则集；对于处于Threshold_iv1和Threshold_iv2之间且大于KS阈值Threshold_ks的特征，可结合其他外部特征训练机器学习模型。

作为参考欺诈特征的示例，可执行下述获取步骤。

计算申请人的与网贷相关的图像中人像面积占比；

其中，轮廓线包含n个顶点，Ai表示第i个顶点对应的像素中心点的面积。

在正常的案例中，申请人需在指定的画框内完成活体识别操作，因此这一比值存在固定的区间范围，设定阈值外的申请人为灰度用户，需额外核验。

申请图像中的绿植背景，应用上诉方法获取，其中，因绿植分布较分散且茎叶面积占比较小，故在图像轮廓的标记中需实现图像形态的闭运算，对识别的图像先进行膨胀算法再做形态腐蚀操作，以去除图像噪声，得到更精准的计算比例。

计算申请人的与网贷相关的图像中色彩部分面积占比；

例如，根据上诉识别的人像轮廓，截取人像下边框以上部分，调用OpenCV接口中的高斯混合模型，提取人像前景，加以剔除。计算背景颜色种类及各色彩所占比例，根据业务经验，申请人图像色彩单一或为纯白底色则疑似PS痕迹较重，欺诈风险较高，需标记为灰度申请人处理。

总而言之，本发明的该实施例旨在通过深度学习算法，提取更多图像上的信息点，提供了一种能够弥补反欺诈数据源关于图像类数据的空白，提供新的角度来识别欺诈的高效网贷欺诈识别系统。

需要说明的是，方法示例和系统示例中的特征可以相互结合，方法示例中的特征可用于系统示例，系统示例中的特征可用于方法示例。

需要说明的是，除非特别指出，否则说明书中的术语“第一”、“第二”、“第三”等描述仅仅用于区分说明书中的各个组件、元素、步骤等，而不是用于表示各个组件、元素、步骤之间的逻辑关系或者顺序关系等。

可以理解的是，虽然本发明已以较佳实施例披露如上，然而上述实施例并非用以限定本发明。对于任何熟悉本领域的技术人员而言，在不脱离本发明技术方案范围情况下，都可利用上述揭示的技术内容对本发明技术方案作出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种基于图像识别的网贷欺诈识别方法，其特征在于包括：

数据获取步骤：读取与网贷相关的图像；

样本与特征提取步骤：将黑名单客户提取为样本，通过深度学习提取其与网贷相关的图像特征，作为欺诈参考特征；

基于深度学习的欺诈预测步骤：利用提取的样本，基于欺诈参考特征，运用卷积神经网络算法训练得到预测模型，利用训练得到的预测模型预测得到申请人实时的欺诈可能概率。

2.根据权利要求1所述的基于图像识别的网贷欺诈识别方法，其特征在于，数据获取步骤包括：利用客户端通过嵌入在手机的应用程序中的软件开发工具包，将手机屏幕画面的图像读取为与网贷相关的图像。

3.根据权利要求1或2所述的基于图像识别的网贷欺诈识别方法，其特征在于，在基于深度学习的欺诈预测步骤中，设置第一阈值和第二阈值，其中第一阈值小于第二阈值，对于欺诈可能概率小于第一阈值的判断为低风险，处理为安全申请人，实施授信；对于欺诈可能概率大于第二阈值的申请人，判断为高风险申请人，拒绝授信。

4.根据权利要求1或2所述的基于图像识别的网贷欺诈识别方法，其特征在于，基于图像识别的网贷欺诈识别方法还包括：根据业务经验的欺诈特征识别步骤，其中根据已经识别出的网贷欺诈用户，提取这些网贷欺诈用户的与网贷相关的图像并利用OpenCV实现图像识别以提取图像特征作为参考欺诈特征；随后对于概率处于第一阈值和第二阈值之间的申请人，基于参考欺诈特征分析申请人的与网贷相关的图像。

5.根据权利要求4所述的基于图像识别的网贷欺诈识别方法，其特征在于，根据业务经验的欺诈特征识别步骤，提取概率处于第一阈值和第二阈值之间的申请人的与网贷相关图像中的参考欺诈特征，计算提取出的每个参考欺诈特征的IV值和KS值，设置第一IV阈值和第二IV阈值、KS阈值，舍弃IV值小于第一IV阈值的特征变量；将对于IV值大于第二IV阈值的特征变量加入决策规则集，组合具有区分力的规则。

6.根据权利要求5所述的基于图像识别的网贷欺诈识别方法，其特征在于，其中第一IV阈值和第二IV阈值分别为大于等于0.02并且小于等于0.1，其中KS阈值小于0.06。

7.一种基于图像识别的网贷欺诈识别系统，其特征在于包括：

8.根据权利要求7所述的基于图像识别的网贷欺诈识别系统，其特征在于，样本与特征提取模块执行下述处理：

在池化层降采样，选择最大池化方法来提高网络计算效率。

9.根据权利要求7所述的基于图像识别的网贷欺诈识别系统，其特征在于，样本与特征提取模块执行下述处理：