CN110569878A

CN110569878A - 一种基于卷积神经网络的照片背景相似度聚类方法及计算机

Info

Publication number: CN110569878A
Application number: CN201910729801.4A
Authority: CN
Inventors: 周晔; 穆海洁; 张锦涛
Original assignee: Shanghai Remittance Data Service Co Ltd
Current assignee: Shanghai Remittance Data Service Co Ltd
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2019-12-13
Anticipated expiration: 2039-08-08
Also published as: CN110569878B

Abstract

本发明公开了一种基于卷积神经网络的照片背景相似度聚类方法，包括如下步骤：基于卷积神经网络算法对原始图像预处理以校正原始图像中的识别目标的方向；将原始图像中包含所述识别目标的前景图像特征与背景图像特征进行实例分割，进行背景提取；将进行实例分割的图像进行背景分离；对分离的背景图像进行特征提取获得高维空间特征图；对高维空间特征图进行相似度聚类处理。本发明还提供了实施上述方法的计算机程序系统；本发明基于像素级的实例分割算法，检测得到并去除真实应用场景下的前景区域(人像和身份证)，通过背景区域进行相似度对比，同时利用迁移训练得到的卷积神经网络可大大提高识别的准确率。

Description

一种基于卷积神经网络的照片背景相似度聚类方法及计算机

技术领域

本发明属于图形处理技术领域，具体而言，为一种基于卷积神经网络的照片背景相似度聚类方法及计算机。

背景技术

支付作为消费者与销售者之间金融交换，涉及到金钱相关的环节，作为第三方支付公司，首先是要保证用户账户和支付的安全，多分市场研究报告指出：全球每年欺诈损失总额大概超过500亿美元。仅去年一年，全球信用卡、借记卡、预付卡和私有品牌支付卡的损失就高达163.1亿美元。电子零售商和批发商因欺诈损失的金额占其年收入的7.5％以上，每年保险欺诈(不包括健康险)的损失总额大概超过400亿美元。DataVisor研究表明，大规模的资金风险都具有“抱团围攻”的现象，黑产欺诈人员会先通过虚假注册、身份盗用等形式获取大批账号的使用权，然后利用群控软件或者网络众包的形式进行团伙欺诈，他们常用猫池、手机墙、模拟器、刷机等手段和工具躲避传统黑名单和基于设备规则的检测。在实际业务当中，为了对用户进行实名验证需用户上传手持身份证好评，然而我们发现欺诈团伙上传的照片存在类似的背景，比如在同一个酒店房间等。对于此类欺团伙欺诈行为，人工审核时存在一定难度。由于样本的多样性和不规则性，随着待审核的证照数量的增加，人工审核的难度急剧上升，并且该场景下难以进行任务分割和并行执行。

经查阅，发现国内外相关照片仅有针对照片相似度的分析应用。在应用场景上，2018年云栖大会上，阿里淘宝针对退货场景当中用户上传的图片进行相似分析，以解决用户欺诈问题。另外，在腾讯手机管家当中，用户通过选择“相似照片”就可以看到扫描出来的相似照片，进行照片清理，节省存储空间。

在技术端，现有的与照片相似分析相关专利主要集中在对整张图片进行相似度计算。pHash方法作为图片相似度计算的主要方法之一，主要有基于DCT的hash方法和基于径向投影的hash方法。两种方法是从不同角度来表达图像，最后通过计算两图片hash值的汉明距离来计算相似度。如专利申请号为CN201710003657.7的发明专利中公开的一种图片相似度计算方法，用基于DCT的hash方法分别计算两个图片的hash值以及两个hash值之间的汉明距离dis_h，继而根据汉明距离计算两图片的相似度。

基于DCT的hash方法的思路是使用离散余弦变换(DCT)提取图片的低频成分，先将图片转换成标准大小的灰度图，然后对灰度图做DCT变换，再从系数矩阵中提取出64位的hash值作为指纹，只要图片的整体结构保持不变，指纹就不变，能够避免伽马校正或颜色直方图被调整带来的影响，最后通过计算两图片指纹的汉明距离来得到相似度。

基于径向投影的hash方法的思路是首先会过灰度图中心计算朝等角度间隔的180个方向上像素值的方差，然后计算由这180个方差构成的特征向量的DCT，并从DCT系数矩阵中提取出64位的hash值作为指纹，最后通过计算两指纹间的皮尔逊相关系数来得到两图片间的相似度。此方法可以保留图像中的几何特征，且对图像旋转有一定的鲁棒性，但由于需要计算皮尔逊相关系数，计算速度比方法一慢。

但通过单一的pHash算法计算图片相似度，经常会出现内容截然不同的图片间计算得到的相似度非常高的情况，极有可能产生误判，不能保证结果的准确性。另一方面，该种方法不能针对图片局部特征进行相似度计算，无法解决业务场景中存在的问题。

发明内容

本发明要解决的技术问题在于克服现有技术的不足，提供一种基于卷积神经网络的照片背景相似度聚类方法，提高识别的准确率。

为解决上述技术问题，本发明采用技术方案的基本构思是：

一种基于卷积神经网络的照片背景相似度聚类方法，包括如下步骤：

基于卷积神经网络算法对原始图像预处理以校正原始图像中的识别目标的方向；

将原始图像中包含所述识别目标的前景图像特征与背景图像特征进行实例分割，进行背景提取；

将进行实例分割的图像进行背景分离；

对分离的背景图像进行特征提取获得高维空间特征图；

对高维空间特征图进行相似度聚类处理。

进一步的，上述的基于卷积神经网络的照片背景相似度聚类方法中，所述基于卷积神经网络算法对原始图像预处理以校正原始图像中的识别目标的方向，包括：

通过开源数据集与原始图像中的场景进行匹配，确定识别目标；

基于多任务级联卷积神经网络算法校正原始图像中的识别目标方向。

进一步的，上述的基于卷积神经网络的照片背景相似度聚类方法中，所述将原始图像中包含所述识别目标的前景图像特征与背景图像特征进行实例分割，进行背景提取，包括：

根据原始图像预处理结果，确定包含所述识别目标的前景图像特征与背景图像特征；

利用MS-COCO目标识别数据集上预训练过的Mask-RCNN模型作为baseline模型，基于少量人工标注的包含所述识别目标类别实例的带标记的实例分割样本和自动合成的带背景的识别目标实例分割样本做迁移学习，训练得到针对识别目标类别实例的所述原始图像所属场景下的实例分割模型；

在测试时将原始图像中被实例分割模型检测到的mask部分切除，获得背景图像。

进一步的，上述的基于卷积神经网络的照片背景相似度聚类方法中，所述对分离的背景图像进行特征提取获得高维空间特征图，包括：

针对用于特征提取的卷积神经网络的输入对获得的背景图像进行预处理；

通过卷积神经网络模型对预处理的背景图像进行特征提取；获得高维空间特征图。

进一步的，上述的基于卷积神经网络的照片背景相似度聚类方法中，所述对高维空间特征图进行相似度聚类处理，包括：

多张原始图像分别处理后得到背景图像中获得的高维空间特征图，构成点对矩阵，其中点与点用欧式距离进行距离度量，以此对输入的高维空间特征图进行层次聚类，将相似度高于预设阈值的特征矢量对应的原始图像聚为一类，即判定该类图像中包含的背景图像具有相似性。

优选的，上述的基于卷积神经网络的照片背景相似度聚类方法中，所述原始图像为包含人脸和身份证的手持身份证图像；所述识别目标为人脸和/或身份证。

另一方面，本发明还提供了一种实现基于卷积神经网络的照片背景相似度聚类的计算机，包括处理器和存储器，所述存储器存储有程序，程序被处理器执行时能够实现以下步骤：

获取原始图像并基于卷积神经网络算法对原始图像预处理以校正原始图像中的识别目标的方向；

将进行实例分割的图像进行背景分离；

对分离的背景图像进行特征提取获得高维空间特征图；

对高维空间特征图进行相似度聚类处理。

进一步的，上述的实现基于卷积神经网络的照片背景相似度聚类的计算机中，执行程序步骤“所述基于卷积神经网络算法对原始图像预处理以校正原始图像中的识别目标的方向”时，包括：

进一步的，上述的实现基于卷积神经网络的照片背景相似度聚类的计算机中，执行程序步骤“所述将原始图像中包含所述识别目标的前景图像特征与背景图像特征进行实例分割，进行背景提取”时，包括：

进一步的，上述的实现基于卷积神经网络的照片背景相似度聚类的计算机中，执行程序步骤“对分离的背景图像进行特征提取获得高维空间特征图”时，包括：

进一步的，上述的实现基于卷积神经网络的照片背景相似度聚类的计算机中，执行程序步骤“对高维空间特征图进行相似度聚类处理”时，包括：

优选的，上述的实现基于卷积神经网络的照片背景相似度聚类的计算机中，程序被执行是获取的所述原始图像为包含人脸和身份证的手持身份证图像；所述识别目标为人脸和/或身份证。

采用上述技术方案后，本发明与现有技术相比具有以下有益效果：

不同于针对整张图片或者图片的前景相似性判断，本发明方法采用背景分割的技术，实现了对背景的相似度判断，便于应用于风控领域，使得原来的人工审核的变为系统自动识别；即基于像素级的实例分割算法，检测得到并去除真实应用场景下的前景区域(人像和身份证)，通过这样的方式将感兴趣区域从整张图片转变为背景区域；另外，通过卷积神经网络进行背景特征提取，最后在高维特征空间中基于欧式距离来进行层次聚类，即欧式距离在一定阈值范围内时，判定两张照片属于同一类别背景；通过这种方式，可以进行对于图片局部特征进行的相似度对比，同时利用迁移训练得到的卷积神经网络可大大提高识别的准确率；

更少人工标注，采用迁移学习的方式实现了背景分割模型，选用在MS-COCO 2014目标识别数据集上预训练的Mask RCNN模型作为baseline(基线)模型，然后基于两部分训练样本进行迁移学习：人工标记手持身份证样本以及合成的带背景身份证样本；其中人工标记的手持身份证样本远小于合成样本，也就是在较为经济的方式下实现了图像背景提取；

针对真实手持身份证照片样本中人脸朝向各异的情况，基于MTCNN人脸检测与对齐模型(本实施例中使用MTCNN模型作为人脸定位模型，但不限于MTCNN模型)对手持身份证照片进行人脸定位，根据上下左右四个方向上人脸检测返回的概率值大小得到最可靠人脸检测结果，利用人脸位置进行图片矫正，明显降低了由预训练数据集和真实场景之间的差异引起的误召回率。

附图说明

图1是本发明一种基于卷积神经网络的照片背景相似度聚类方法的流程图；

图2是本发明方法中进行校正原始图像中的人脸方向的流程图；

图3是本发明方法中实例分割模型迁移学习训练示意图；

图4是本发明方法中实例分割模型在验证阶段的误差变化；

图5是本发明方法中层次聚类算法的一个具体实施例的示意图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步说明，以助于理解本发明的内容。

实施例1

如图1所示的，一种基于卷积神经网络的照片背景相似度聚类方法，本实施例中主要针对真实商用场景-手持身份证照片背景审核，利用基于深度神经网络的MTCNN(JointFace Detection and Alignment using Multi-task Cascaded ConvolutionalNetworks，利用多任务级联卷积神经网络的人脸检测与对齐)人脸检测与对齐模型对用户上传的手持身份证照片进行方向校正得到正向的手持身份证照片，通过迁移学习训练实例分割模型进行前景图像的实例分割与背景图像提取，利用场景识别数据集上预训练过的深度神经网络对背景图像进行特征提取，然后在高维空间利用欧式距离进行比对，从而实现对真实商用场景下的海量样本根据相似度进行聚类。本实施例中使用MTCNN模型作为人脸定位模型，但并不限于MTCNN模型。

具体的，本发明方法包括步骤：

S1.基于卷积神经网络算法对原始图像预处理以校正原始图像中的识别目标的方向。

本实施例中，原始图像即包含人脸和身份证的手持身份证照片，识别目标即人脸和/或身份证。

S11.通过开源数据集与原始图像中的场景进行匹配，确定识别目标；则，首先获取的手持身份证照片场景与学术界权威开源数据集(FDDB/WIDER Face数据集等)进行匹配，确定其场景，确定人脸并进行人脸检测。

但手持身份证照片场景与学术界权威开源数据集(FDDB/WIDER Face数据集等)中的场景存在一定差异：一般照片中人脸个数偏多，可以存在较大倾斜角度，但是倾斜角度大多不超过90度，而且场景干扰更多。

手持身份证照片场景下人脸数目在默认场景下为1(用户)，而且用户主动配合拍摄且人像占据图像主体部分，因此单单就人脸检测任务来讲，难度远低于开源数据集。但是由于用户上传的手持身份证照片缺乏前端约束，所以人脸即照片朝向是未知的(0度-正向，90/180/270度-非正向，这里可以以顺时针/逆时针计倾斜角度)，开源数据集上预训练过的人脸检测模型可能在该场景下存在误召回的问题。

因此，本发明方法中还包括步骤S12.基于多任务级联卷积神经网络算法校正原始图像中的人脸方向。

参考图2，MTCNN(Joint Face Detection and Alignment using Multi-taskCascaded Convolutional Networks，利用多任务级联卷积神经网络的人脸检测与对齐)人脸检测与对齐模型，将手持身份证照片绕中心分别旋转0/90/180/270度得到的四张照片上进行人脸检测，并根据返回结果中人脸概率值最大的检测结果对应的照片作为人脸朝向正确的照片。由于MTCNN为轻量级网络，即使在中低端移动设备上亦可以实时运行，而汇付业务场景中照片背景相似度审核一般在后台服务器端运行，所以该人脸方向校正模块并不会对整体方案造成性能瓶颈。

S2.将原始图像中包含所述识别目标的前景图像特征与背景图像特征进行实例分割，进行背景提取。

S21根据原始图像预处理结果，确定包含所述识别目标的前景图像特征与背景图像特征；

手持身份证场景作为本发明的典型应用场景，具备以下特征：

a.该场景中存在手持身份证的人像，即前景图像；

b.该场景中存在比例和类型不确定的背景图像；

针对以上特征，本发明方法利用实例分割模型对手持身份证照片中的人像和身份证进行实例分割，则实例分割的结果即为该场景下的前景图像，其余部分图像即为背景图像。

S22.利用MS-COCO2014目标识别数据集上预训练过的Mask-RCNN模型作为baseline(基线)模型模型(本实施例中使用Resnet-101作为backbone(骨架网络)，但backbone不限于Resnet-101)，基于少量人工标注的包含”人”和”身份证”两类实例的带标记的实例分割样本和适量自动合成的带背景身份证实例分割样本做迁移学习，训练得到针对“人”和“身份证”两类实例的手持身份证照片场景下的实例分割模型。

S23.然后在测试时将手持身份证照片中被实例分割模型检测到的mask(掩膜)部分切除，就得到了背景图像；如图3所示。

由于MS-COCO 2014目标识别数据集中包含”人”在内的80类目标，所以MS-COCO2014预训练模型中包含了用于识别MS-COCO 2014数据集中“人”类别的知识，所以利用少量人工标注的真实样本，进行迁移学习就可以减少模型的过拟合风险。但是，直接进行迁移学习的话，训练过程中模型对真实数据中存在的“人”和”身份证“两类实例的识别会存在差异：”人”类别的实例广泛存在于MS-COCO 2014预训练数据集中，而人工标注样本与真实样本一样包含等量的两类实例，因此相对地”身份证“实例的数量就偏少。由于汇付在业务发展过程中积累了海量的无背景身份证图像样本，因此本实施例基于无背景身份证样本和室内场景识别数据集-Indoor Scene Recognition数据集，批量合成了带背景的身份证实例分割样本，作为对”身份证“类别实例的补充训练样本，合入用于迁移学习的训练样本中。而模型训练过程中验证集上的误差日志(见图4)也明确显示：作为补充知识的合成身份证样本在模型训练过程中明显降低了过拟合风险，而且提高了模型收敛速度。与此同时，经试验，融入合成身份证样本训练得到的模型在另一批测试集上同样对“身份证”实例拥有更高的召回率。图4中，标记为全样本的误差曲线为合成身份证样本和人工标注手持身份证样本共同训练的实例分割模型在验证集上的误差，标记为人工标注样本的误差曲线为人工标注手持身份证样本训练的实例分割模型在验证集上的误差。其中，验证集与训练集无交叉。

S3.将进行实例分割的图像进行背景分离。

得到针对手持身份证场景下“人”和“身份证”两类目标的实例分割模型后，利用该模型对手持身份证照片进行检测，获取手持身份证照片中“人”和“身份证”的位置信息后，将“人”和“身份证”的实例根据网络输出的mask(掩膜)擦除，即将这两部分图像RGB三通道像素值置为0。

这样，通过对手持身份证场景下确定的前景——“人”和“身份证”两类目标的分割，得到高质量的背景图像。

S4.对分离的背景图像进行特征提取获得高维空间特征图。

其中S41.针对用于特征提取的卷积神经网络的输入对获得的背景图像进行预处理；

通过背景提取分离处理过后的手持身份证照片仅包含背景图像，本实施例中借助卷积神经网络对其进行特征提取。由于经典的卷积神经网络模型通常包含百万至上亿以上的参数，而且开源模型的输入通常相对标准，多为224*224、299*299、331*331等分辨率。因此本实施例需要针对用于特征提取的卷积神经网络的输入对背景图像进行预处理。

根据背景图像较长的边的大小，将其缩放到模型输入要求的标准分辨率，对于由短边引起的空缺部分，将其RGB三通道像素值用0填充。

S42.通过卷积神经网络模型对预处理的背景图像进行特征提取；获得高维空间特征图。

利用经典的卷积神经网络模型对背景图像进行特征提取。数据集和模型方面，优选采用在三个数据集上预训练过的8个卷积神经网络模型，作为特征提取器。

如表1所示：

表1特征提取模型

模型	预训练数据集	输入大小
			VGG16	Places365	224x224
VGG16	hybrid1365	224x224
			VGG16	ImageNet-1k	224x224
VGG19	ImageNet-1k	224x224
			Res50	ImageNet-1k	224x224
InceptionResNetV2	ImageNet-1k	299x299
			NASNetLarge	ImageNet-1k	331x331
MobileNetV2	ImageNet-1k	224x224

以上卷积神经网络模型均包含特征提取模块与全连接层两部分，本实施例将全连接层去除，只保留特征提取后的高维空间特征图。以ImageNet-1k上的预训练模型VGG16为例，基于开源深度学习框架Keras，在加载预训练VGG16模型时，将预训练数据集设为Imagenet-1k，参数include_top即是否包含全连接层置为False，这样就加载了该模型特征提取模块。将经过预处理的背景图像输入模型，输出高维空间特征图。

S5.对高维空间特征图进行相似度聚类处理。

基于从背景图像上提取得到的高维特征图(特征矢量)，任意多张原始图像分别处理后得到背景图像中获得的高维空间特征图(特征矢量)，构成点对矩阵，其中点与点用欧式距离进行距离度量，以此对输入的高维空间特征图进行层次聚类，如图5，其中横坐标为样本编号，纵坐标为距离：将相似度高于预设阈值(本实施例中使用默认值0.5，但阈值不限于0.5)的特征矢量对应的原始图像聚为一类，即判定该类图像中包含的背景图像具有相似性。

本发明基于卷积神经网络的照片背景相似度聚类方法中，较之于传统技术中的整张图片的相似度比较，或者图片前景相似度比较(如人脸比较)，本发明适应业务场景需求，采用基于实例分割的背景图像提取、基于卷积神经网络的背景特征提取和层次聚类的方法达到了背景的相似度判别。

一般学术与工业界领域中的图像聚类，大多已知类别数目，即确定的聚类场景。而本发明涉及的应用场景-手持身份证照片，分类目标为背景图像，该目标理论上可以有无数种类别，因此属于不确定类别数目的聚类场景，即本发明提出的照片背景相似度聚类方法可以对不确定类别数目的场景进行聚类，范围广。

且本发明方法中基于权威数据集上预训练的前沿实例分割模型，可以利用人工标注的真实样本进行迁移学习，并结合汇付本身的样本数据，将合成的带背景身份证样本作为补充样本融入实例分割模型训练样本中，得到了该场景下的实例分割模型，通过迁移学习得到的实例分割模型中的所有参数(包含深度神经网络中每一层的权重值和偏差值)。迁移训练过程中验证集上的损失曲线对照实验与模型在其他同类测试集上的测试结果均显示，补充样本明显降低了模型的过拟合并提升了模型对“身份证”类别目标的召回率。同时针对真实手持身份证照片样本中人脸朝向各异的情况，基于MTCNN人脸检测与对齐模型对手持身份证照片进行人脸定位，根据上下左右四个方向上人脸检测返回的概率值大小得到最可靠人脸检测结果，利用人脸位置进行图片矫正，也明显降低了由预训练数据集和真实场景之间的差异引起的误召回率。

实施例2

将进行实例分割的图像进行背景分离；

对分离的背景图像进行特征提取获得高维空间特征图；

对高维空间特征图进行相似度聚类处理。

本实施例仍以手持身份证照片为例，即所述原始图像为包含人脸和身份证的手持身份证图像；所述识别目标为人脸和/或身份证。本发明适用于风控场景，还可以用于营销场景，比如，用户需要选取活动地址，用户可根据其需求上传类似场景的图片。而在商户端，商户可对其场地进行拍摄。在云端实现从背景分割到相似度分析，为用户在海量图片中寻找与其要求类似的商户。

具体的，上述的实现基于卷积神经网络的照片背景相似度聚类的计算机中，执行程序步骤“所述基于卷积神经网络算法对原始图像预处理以校正原始图像中的识别目标的方向”时，包括：

即获取的手持身份证照片场景与学术界权威开源数据集(FDDB/WIDER Face数据集等)进行匹配，确定其场景，包括人脸、身份证等识别目标。

由于用户上传的手持身份证照片缺乏前端约束，所以人脸即照片朝向是未知的(0度-正向，90/180/270度-非正向，这里可以以顺时针/逆时针计倾斜角度)，因此本发明基于多任务级联卷积神经网络算法校正原始图像中的识别目标方向。

基于MTCNN(Joint Face Detection and Alignment using Multi-taskCascaded Convolutional Networks，利用多任务级联卷积神经网络的人脸检测与对齐)人脸检测与对齐模型，将手持身份证照片绕中心分别旋转0/90/180/270度得到的四张照片上进行人脸检测，并根据返回结果中人脸概率值最大的检测结果对应的照片作为人脸朝向正确的照片。

根据原始图像预处理结果，确定包含所述识别目标的前景图像特征与背景图像特征；譬如本实施例中手持身份证场景存在手持身份证的人像，即前景图像，也存在比例和类型不确定的背景图像，则利用基于实例分割模型对手持身份证照片中的人像和身份证进行实例分割，实例分割的结果即为该场景下的前景图像，其余部分图像即为背景图像。

利用MS-COCO2014目标识别数据集上预训练过的Mask-RCNN模型作为baseline(基线)模型，基于少量人工标注的包含”人”和”身份证”两类实例的带标记的实例分割样本和适量自动合成的带背景身份证实例分割样本做迁移学习，训练得到针对“人”和“身份证”两类实例的手持身份证照片场景下的实例分割模型。然后在测试时将身份证照片中被实例分割模型检测到的mask(掩膜)部分切除，就得到了背景图像。

之后进行背景图像分离，即得到针对手持身份证场景下“人”和“身份证”两类目标的实例分割模型后，利用该模型对手持身份证照片进行检测，获取手持身份证照片中“人”和“身份证”的位置信息，将“人”和“身份证”的实例根据网络输出的mask(掩膜)擦除，即将这两部分图像RGB三通道像素值置为0。这样，通过对手持身份证场景下确定的前景—“人”和“身份证”两类目标的分割，得到高质量的背景图像。

针对用于特征提取的卷积神经网络的输入对获得的背景图像进行预处理；通过背景提取处理过后的手持身份证照片仅包含背景图像，借助卷积神经网络对其进行特征提取。由于经典的卷积神经网络模型通常包含百万至上亿以上的参数，而且开源模型的输入通常相对标准，多为224*224、299*299、331*331等分辨率。因此需要针对用于特征提取的卷积神经网络的输入对背景照片进行预处理。

这里，根据背景图像较长的边的大小，将其缩放到标准分辨率，对于由短边引起的空缺部分，将其RGB三通道像素值用0填充。

之后通过卷积神经网络模型对预处理的背景图像进行特征提取；获得高维空间特征图。

多张原始图像分别处理后得到背景图像中获得的高维空间特征图，构成点对矩阵，其中点与点用欧式距离进行距离度量，以此对输入的高维空间特征图进行层次聚类，将相似度高于预设阈值(本实施例中使用默认值0.5，但阈值不限于0.5)的特征矢量对应的原始图像聚为一类，即判定该类图像中包含的背景图像具有相似性。

本实施例提供的实现基于卷积神经网络的照片背景相似度聚类的计算机用于实施上述基于卷积神经网络的照片背景相似度聚类方法，其执行步骤原理请见实施例1中的相关描述，此处不再赘述。

以上述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于卷积神经网络的照片背景相似度聚类方法，其特征在于，包括如下步骤：

将进行实例分割的图像进行背景分离；

对分离的背景图像进行特征提取获得高维空间特征图；

对高维空间特征图进行相似度聚类处理。

2.根据权利要求1所述的基于卷积神经网络的照片背景相似度聚类方法，其特征在于，所述基于卷积神经网络算法对原始图像预处理以校正原始图像中的识别目标的方向，包括：

3.根据权利要求2所述的基于卷积神经网络的照片背景相似度聚类方法，其特征在于，所述将原始图像中包含所述识别目标的前景图像特征与背景图像特征进行实例分割，进行背景提取，包括：

4.根据权利要求3所述的基于卷积神经网络的照片背景相似度聚类方法，其特征在于，所述对分离的背景图像进行特征提取获得高维空间特征图，包括：

针对用于特征提取的卷积神经网络的输入对获得的背景图像进行预处理，获取标注分辨率图像；

5.根据权利要求4所述的基于卷积神经网络的照片背景相似度聚类方法，其特征在于，所述对高维空间特征图进行相似度聚类处理，包括：

6.根据权利要求1-5任意项所述的基于卷积神经网络的照片背景相似度聚类方法，其特征在于，所述原始图像为包含人脸和身份证的手持身份证图像；所述识别目标为人脸和/或身份证。

7.一种实现基于卷积神经网络的照片背景相似度聚类的计算机，包括处理器和存储器，所述存储器存储有程序，其特征在于，程序被处理器执行时能够实现以下步骤：

将进行实例分割的图像进行背景分离；

对分离的背景图像进行特征提取获得高维空间特征图；

对高维空间特征图进行相似度聚类处理。

8.根据权利要求7所述的实现基于卷积神经网络的照片背景相似度聚类的计算机，其特征在于，执行程序步骤“所述基于卷积神经网络算法对原始图像预处理以校正原始图像中的识别目标的方向”时，包括：

9.根据权利要求8所述的实现基于卷积神经网络的照片背景相似度聚类的计算机，其特征在于，执行程序步骤“所述将原始图像中包含所述识别目标的前景图像特征与背景图像特征进行实例分割，进行背景提取”时，包括：

10.根据权利要求9所述的实现基于卷积神经网络的照片背景相似度聚类的计算机，其特征在于，执行程序步骤“对分离的背景图像进行特征提取获得高维空间特征图”时，包括：

11.根据权利要求10所述的实现基于卷积神经网络的照片背景相似度聚类的计算机，其特征在于，执行程序步骤“对高维空间特征图进行相似度聚类处理”时，包括：