CN114926725A

CN114926725A - 一种基于图像分析的线上金融团伙欺诈识别方法

Info

Publication number: CN114926725A
Application number: CN202210838737.5A
Authority: CN
Inventors: 朱威; 陈盛福; 潘伟; 韩柳; 钟佳
Original assignee: China Post Consumer Finance Co ltd
Current assignee: China Post Consumer Finance Co ltd
Priority date: 2022-07-18
Filing date: 2022-07-18
Publication date: 2022-08-19

Abstract

本发明提供一种基于图像分析的线上金融团伙欺诈识别方法，包括以下步骤：步骤一、将金融公司已有的图像数据库进行人像分割，生成分割后的图像数据库；步骤二，将贷款申请人提交的待预测图像进行人像分割，生成分割后的待预测图像；步骤三，将所述分割后的待预测图像与所述分割后的图像数据库进行图像检索并在所述分割后的图像数据库中输出与所述分割后的待预测图像相似度最大的对比图像；步骤四，分析步骤三中的输出的对比图像与分割后的待预测图像的相似度，并判断贷款申请人是否涉及违法行为。使用本发明的方法无需再将贷款申请人提供的图像与金融公司自有的图像库数据库进行一一比对，能够大幅提高团伙诈骗场景识别的准确率及效率。

Description

一种基于图像分析的线上金融团伙欺诈识别方法

技术领域

本发明涉及一种图像检索分析方法，更具体而言是指一种基于图像分析的线上金融团伙欺诈识别方法。

背景技术

科技与金融结合，是顺应科技创新规律的必然要求。金融的成长与市场空间的拓展，同样离不开科技创新创业支撑。科技和金融结合的实践不断丰富与发展，已覆盖到科技贷款、科技保险、科技金融中介等多个领域。金融公司的贷款申请过程中，申请者需要通过人脸识别认证，其中的背景图反映出申请者所处场景。通过背景的光线、颜色、背景中所包含的物体判断是否为相似场景（是否曾经出现过），当相似的场景多次出现，则符合团伙诈骗的情景。

目前诈骗识别方案有基于机器学习算法的诈骗防范治理技术有监督学习和无监督学习两种方法。有监督学习是通过已有的诈骗数据进行模型训练，通过训练得到的模型，输入新的行为事件进行是否涉诈风险分析的预测。有监督学习就包含图像检索，图像检索（ImageRetrieval）是综合利用现代信息技术、人工智能技术研究出的以图像搜索图像的技术。

基于内容的图像检索技术：基于内容的图像检索根据图像、图像的内容语义以及上下文联系进行查找。基于内容的图像检索的核心是使用图像的可视特征对图像进行检索。本质上讲，它是一种近似匹配技术，融合了计算机视觉、图像处理、图像理解和数据库等多个领域的技术成果，其中的特征提取和索引的建立可由计算机自动完成，避免了人工描述的主观性。通过相似图像的检索，找出背景相似的图像，当相似场景过多时，进而去判断是否涉及团伙诈骗。无监督学习通过全局分析和高维空间聚类，在没有诈骗数据的情况下找出数据中隐含的共同特性，完成关联诈骗团伙的发现，将有监督学习和无监督学习两种方法互相结合，可以有效提升发现识别诈骗行为。如互联网社交账户是否涉诈识别发现为例子，通过构建以登录时间、IP地址、GPS地址、昵称修改等为特征的多维空间向量，利用无监督学习可以将疑似诈骗行为或账户聚为一组并抽取该群组的共性信息生成训练数据。

基于无监督学习生产的训练数据，有监督学习能够在此基础进行模型训练并进一步发现共性样本群组之外的诈骗行为和账户，为诈骗风险预警提供高效的检测和研判能力，以腾讯“反诈大脑”为例，通过人工审核清洗出互联网侧精准的电信网络诈骗举报数据，经由诈骗团伙识别模型对团伙进行是否为诈骗进行预测，能有效的提高诈骗防范治理。

目前基于机器学习的有监督学习诈骗防范治治理技术中，基于内容的图像检索技术大体框架大致可分为两步、抽取某种特征，计算相似度。然而一般的图像检索是对整个图像内容进行检索，提取的是整个图像的特征。在提取特征计算相似度时，一般图像检索计算相似度计算量相对较大，这样会导致针对图像相似度检索结果准确率低。所以对整个图像的内容进行图像检索方法不适合金融公司进行欺诈场景识别的需求。无监督学习，由于无法量化效果，对识别诈骗场景的训练结果往往是未知的，并且无监督学习识别某一诈骗账号或某一诈骗分子往往效果不佳，识别诈骗团伙，应进行全面的检查，所以上述方法不适用于金融公司防范金融团伙欺诈的要求。

综上所述，诈骗防范治理技术虽然已经有了一定的解决方案。但是针对金融公司的贷款申请认证图像相似度检索去检测贷款申请人是否涉及团伙诈骗这一功能目前还没有明确、可行的解决方案。

发明内容

本发明的主要目的在于一种基于图像分析的线上金融团伙欺诈识别方法，通过本方法，利用贷款申请者的提交的待预测图片，通过人像分割得到残留背景图像与公司自有的数据库进行匹配，可以准确的识别团伙诈骗场景，防止被团伙违法谋取公司利益，提高公司的经济效益。

本发明采用的技术方案为：一种基于图像分析的线上金融团伙欺诈识别方法，包括以下步骤：

步骤一、将金融公司已有的图像数据库进行人像分割，生成分割后的图像数据库；

步骤二，将贷款申请人提交的待预测图像进行人像分割，生成分割后的待预测图像；

步骤三，将所述分割后的待预测图像与所述分割后的图像数据库进行图像检索并在所述分割后的图像数据库中输出与所述分割后的待预测图像相似度最大的对比图像；

步骤四，分析步骤三中的输出的对比图像与分割后的待预测图像的相似度，并判断贷款申请人是否涉及违法行为。

进一步，步骤一、步骤二中的人像分割是把图像先进行去人像操作，把图像中人像那部分变成黑色，而背景部分的像素不变，通过人像分割之后，待预测图像和图像数据库中的图像都是把前景人像变成黑色，留下图像背景。

进一步，所述人像分割是基于编码器(Encoder)和解码器(Decoder)结构模型，编码器采用的是使用VGG16网络模型的卷积层，使用13个卷积层，每个卷积层的卷积核(Kernel)3*3，步长(Padding)为1-4，所述13个卷积层共分为5段，每段卷积层使用一次最大池化层(Maxpool),所述池化层的卷积核为2*2(Kernel)，步长(Padding)为2-4。

所述解码器的解码的过程为上采样，上采样采用的方法为双线性插值法，所述双线性插值法利用原图像中目标点四周四个真实存在的像素值来共同决定目标图像中的一个像素值，在两个方向上分别进行一次线性插值，通过上采样将特征图的分辨率还原到原始图像的分辨率大小。

所述图像检索是利用孪生神经网络（Siamese neural network）构建的图像检索模型，利用同一个卷积神经网络对输入的两张图像提取特征，然后对比它们的特征向量之间的距离来判断是否属于同一类别，也就是说，将两张图像输入到同一个神经网络，提取出两个两张图像的特征向量，将两个特征向量相减得到一个新的向量，将相减得到的新的向量输入到一个全连接层得到一个标量，调用激活函数sigmoid函数，输出结果接近1则是同一类型，相反接近0则不是同一类型。

所述孪生神经网络（Siamese neural network）是基于两个人工神经网络建立的耦合架构，以两个样本为输入，输出其嵌入高维度空间的表征，以比较两个样本的相似程度，使用孪生神经网络结构做图像检索模型，输入两张图像，经过同一个卷积神经网络，经过特征提取，两张图像分别得到各自的特征向量记为h₁和h₂，计算出两个特征向量差的绝对值记为d，将d输入到全连接层得到一个标量，将标量输入到激活函数sigmoid函数，输出的结果值介于（0，1），通过对输出结果的比对，值接近于1则越相似，值接近于0则越不相似，输入两张图相似则标签为1，不相似标签为0，把标签与预测值之间的差别作为损失函数，对比损失(Contrastive Loss)函数。

本发明的有益效果为：将贷款申请人的提交的待预测图像（贷款认证图像）通过去人像技术，得到只剩下背景图的分割后的待预测图像，将所述分割后的待预测图像输入到图像检索模型中，将这张分割后的待预测图像与金融公司已有的并且经过了人像分割后的分割后图像数据库进行图像检索，通过图像检索，输出与这张图像相似度最大的对比图像，将所述分割后的待预测图像与输出的对比图像进行背景识别，同过对背景的比对，进一步协助金融公司快速的检测贷款申请人是否涉及团伙欺诈的违法行为，使用本发明的方法无需再将贷款申请人提供的认证图像与金融公司自有的图像库数据库进行一一比对，能够大幅提高团伙诈骗场景识别的准确率及效率。

附图说明

通过附图中所示的本发明优选实施例更具体说明，本发明上述及其它目的、特征和优势将变得更加清晰。在全部附图中相同的附图标记指示相同的部分，且并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本的主旨。

图1为本发明的原理方框图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本进行更全面的描述。

需要说明的是，当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件并与之结合为一体，或者可能同时存在居中元件。本文所使用的术语“安装”、“一端”、“另一端”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本技术领域的技术人员通常理解的含义相同。本文中说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

参考图1，本发明实施例提供一种基于图像分析的线上金融团伙欺诈识别方法，其包括以下步骤：

进一步，所述人像分割是语义分割的子任务，语义分割是针对图像的每一个像素，像素属于图像里那类物体，就把这个像素分到哪一类物体上。

更进一步，步骤一、步骤二中的人像分割是把图像先进行去人像操作，把图像中人像那部分变成黑色，而背景部分的像素不变。通过人像分割之后，待预测图像和图像数据库中的图像都是把前景人像变成黑色，留下图像背景。

所述人像分割是基于编码器(Encoder)和解码器(Decoder)结构模型，编码器采用的是使用VGG16网络模型的卷积层，使用13个卷积层，每个卷积层的卷积核(Kernel)3*3，步长(Padding)为1-4。所述13个卷积层共分为5段，每段卷积层使用一次最大池化层(Maxpool),所述池化层的卷积核为2*2(Kernel)，步长(Padding)为2-4。不使用其全连接层，目的是为了减少其计算量。所述解码器的解码的过程为上采样，上采样采用的方法为双线性插值法。

优选地，每个卷积层的步长(Padding)为1，所述池化层的步长(Padding)为2。

所述双线性插值法利用原图像中目标点四周四个真实存在的像素值来共同决定目标图像中的一个像素值，核心思想为在两个方向上分别进行一次线性插值。通过上采样将特征图的分辨率还原到原始图像的分辨率大小，采用这种人像分割模型分割金融公司贷款申请人的申请认证的照片（待预测图像）。

所述图像检索基于孪生神经网络搭建的图像检索技术，图像检索技术又称相似图像搜索引擎，是基于内容的图像搜索（CBIR）提取图像的视觉内容特征作为索引。

本发明的图像检索是利用孪生神经网络（Siamese neural network）构建的图像检索模型，基本思想为利用同一个卷积神经网络对输入的两张图像提取特征，然后对比它们的特征向量之间的距离来判断是否属于同一类别，具体操作为：两张图像输入到同一个神经网络，提取出两个两张图像的特征向量，将两个特征向量相减得到一个新的向量，将相减得到的新的向量输入到一个全连接层得到一个标量，调用激活函数sigmoid函数，输出结果接近1则是同一类型，相反接近0则不是同一类型。

所述孪生神经网络（Siamese neural network）是基于两个人工神经网络建立的耦合架构，以两个样本为输入，输出其嵌入高维度空间的表征，以比较两个样本的相似程度，使用孪生神经网络结构做图像检索模型，输入两张图像，经过同一个卷积神经网络，经过特征提取，两张图像分别得到各自的特征向量记为h₁和h₂，计算出两个特征向量差的绝对值记为d，将d输入到全连接层得到一个标量。将标量输入到激活函数sigmoid函数，输出的结果值介于（0，1），通过对输出结果的比对，值接近于1则越相似，值接近于0则越不相似，输入两张图相似则标签为1，不相似标签为0，把标签与预测值之间的差别作为损失函数，对比损失(Contrastive Loss)函数，损失函数通过反向传播来计算梯度，在用梯度下降法更新全连接层和卷积神经网络的参数。

激活函数引入非线性因素，如果不引入，激活函数则输出信号仅是一个简单的线性函数，线性函数一个一级多项式，线性方程的复杂度有限，从数据中学习复杂函数映射的能力很小，并且神经网络将无法学习和模拟其他复杂类型的数据，例如图像、视频、音频等。

激活函数可以把当前特征空间通过一定的线性映射转移到另一个空间，让数据更好的被分类。

所述Sigmoid函数用于隐层神经元输出，可以将实数映射到（0，1）的区间，用来二分类。

所述Sigmoid函数方程式如下：x为输入到所述Sigmoid函数的值。

，其中 e=2.718281828459045。

所述损失函数作用是衡量模型的好坏，对比损失（Contrastive Loss）函数可以有效的处理孪生神经网络的成对数据的关系,并且可以很好的表达成对样本的匹配程度。其关系式如下：

其中d代表两个特征向量差的绝对值；

y为两个样本是否匹配的标签，y=1代表两个样本相似或者匹配，y=0代表不匹配，margin代表设定的阈值，设置阈值margin是因为只考虑欧氏距离为0-margin之间的，当欧式距离超过margin时，把Loss看作为0，N为样本个数，n表示具体样本编号（第几个样本），n取值范围是1~N，在本实施例子当中，N=512。

本发明图像检索模型需要训练，将用于图像检索训练的数据转换成pickle数据格式。在训练模型的时候，图像库数据量大，为了做小样本的实验，将图像库数据转化为pickle格式的数据，便于以后的读取，避免每次训练的时候都要重新挨个图像读取在给标注。节约了很多的时间。

训练的数据集被分为正样本和负样本，正样本用于告诉神经网络什么是同一类别，正样本采样是从相似背景的图像库中随机抽取两张图像组合，标签为1，表示一个正例样本，负样本则是告诉神经网络什么不是同一类别的，负样本采样从不相似背景的图像库中随机抽取两证图像组合成负样本，标签为0，表示一个负例样本，训练过程就是通过梯度下降法更新卷积神经网络和全连接层的参数，目的是让两个相似的图像欧式距离尽可能的小，不相似的图像欧氏距离尽可能的大，通过大量训练正样本和负样本得到一个合适的模型。

在所述图像检索模型输入一张分割后的待预测图像，与分割后的图像数据库进行检索，查看输出的图像是否是相似的背景，输出的图像是相似背景并且Recall（查全率）和Precision（查准率）需要分别能够达到0.9和0.5。则模型可以供金融公司使用。

本发明要实现的是：将贷款申请人的提交的待预测图像（贷款认证图像）通过去人像技术，得到只剩下背景图的分割后的待预测图像，将所述分割后的待预测图像输入到图像检索模型中，将这张分割后的待预测图像与金融公司已有的并且经过了人像分割后的分割后图像数据库进行图像检索，通过图像检索，输出与这张图像相似度最大的对比图像，将所述分割后的待预测图像与输出的对比图像进行背景识别，同过对背景的比对，进一步协助金融公司快速的检测贷款申请人是否涉及团伙欺诈的违法行为，使用本发明的方法无需再将贷款申请人提供的认证图像与金融公司自有的图像库数据库进行一一比对，能够大幅提高团伙诈骗场景识别的准确率及效率。

在本申请中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“优选实施例”、“再一实施例”、“其他实施例”或“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于图像分析的线上金融团伙欺诈识别方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于图像分析的线上金融团伙欺诈识别方法，其特征在于，在所述步骤一、步骤二中的所述人像分割是把图像先进行去人像操作，即把图像中人像那部分变成黑色，而背景部分的像素不变，通过人像分割之后，待预测图像和图像数据库中的图像都是把前景人像变成黑色，留下图像背景。

3.如权利要求1所述的一种基于图像分析的线上金融团伙欺诈识别方法，其特征在于，所述人像分割是基于编码器(Encoder)和解码器(Decoder)结构模型，编码器采用的是使用VGG16网络模型的卷积层，使用13个卷积层，每个卷积层的卷积核(Kernel)3*3，步长(Padding)为1-4，所述13个卷积层共分为5段，每段卷积层使用一次最大池化层(Maxpool),所述池化层的卷积核为2*2(Kernel)，步长(Padding)为2-4。

4.如权利要求3所述的一种基于图像分析的线上金融团伙欺诈识别方法，其特征在于，所述解码器的解码的过程为上采样，上采样采用的方法为双线性插值法，所述双线性插值法利用原图像中目标点四周四个真实存在的像素值来共同决定目标图像中的一个像素值，在两个方向上分别进行一次线性插值，通过上采样将特征图的分辨率还原到原始图像的分辨率大小。

5.如权利要求1所述的一种基于图像分析的线上金融团伙欺诈识别方法，其特征在于，所述图像检索是利用孪生神经网络（Siamese neural network）构建的图像检索模型，利用同一个卷积神经网络对输入的两张图像提取特征，然后对比它们的特征向量之间的距离来判断是否属于同一类别，也就是说，将两张图像输入到同一个神经网络，提取出两个两张图像的特征向量，将两个特征向量相减得到一个新的向量，将相减得到的新的向量输入到一个全连接层得到一个标量，调用激活函数sigmoid函数，输出结果接近1则是同一类型，相反接近0则不是同一类型。

6.如权利要求5所述的一种基于图像分析的线上金融团伙欺诈识别方法，其特征在于，所述孪生神经网络（Siamese neural network）是基于两个人工神经网络建立的耦合架构，以两个样本为输入，输出其嵌入高维度空间的表征，以比较两个样本的相似程度，使用孪生神经网络结构做图像检索模型，输入两张图像，经过同一个卷积神经网络，经过特征提取，两张图像分别得到各自的特征向量记为h₁和h₂，计算出两个特征向量差的绝对值记为d，将d输入到全连接层得到一个标量，将标量输入到激活函数sigmoid函数，输出的结果值介于（0，1），通过对输出结果的比对，值接近于1则越相似，值接近于0则越不相似，输入两张图相似则标签为1，不相似标签为0，把标签与预测值之间的差别作为损失函数，对比损失(Contrastive Loss)函数。

7.如权利要求6所述的一种基于图像分析的线上金融团伙欺诈识别方法，其特征在于，所述Sigmoid函数用于隐层神经元输出，将实数映射到（0，1）的区间，用来二分类；

所述Sigmoid函数方程式如下：x为输入到所述Sigmoid函数的值；

，其中 e=2.718281828459045 。

8.如权利要求7所述的一种基于图像分析的线上金融团伙欺诈识别方法，其特征在于，所述损失函数作用是衡量模型的好坏，其关系式如下：

；

其中d代表两个特征向量差的绝对值；

；

y为两个样本是否匹配的标签，y=1代表两个样本相似或者匹配，y=0代表不匹配，margin代表设定的阈值，设置阈值margin是因为只考虑欧氏距离为0-margin之间的，当欧式距离超过margin时，把Loss看作为0，N为样本个数，n表示具体样本编号，n取值范围是1~N。

9.如权利要求7所述的一种基于图像分析的线上金融团伙欺诈识别方法，其特征在于，所述图像检索模型需要进行训练，训练的数据集被分为正样本和负样本，正样本用于告诉神经网络什么是同一类别，正样本采样是从相似背景的图像库中随机抽取两张图像组合，标签为1，表示一个正例样本，负样本则是告诉神经网络什么不是同一类别的，负样本采样从不相似背景的图像库中随机抽取两证图像组合成负样本，标签为0，表示一个负例样本，训练过程就是通过梯度下降法更新卷积神经网络和全连接层的参数。

10.如权利要求9所述的一种基于图像分析的线上金融团伙欺诈识别方法，其特征在于，在所述图像检索模型输入一张分割后的待预测图像，与分割后的图像数据库进行检索，查看输出的图像是否是相似的背景，输出的图像是相似背景并且Recall（查全率）和Precision（查准率）需要分别能够达到0.9和0.5。