CN115424027A

CN115424027A - 针对画面前景人物的图像相似度比对方法、装置以及设备

Info

Publication number: CN115424027A
Application number: CN202211024393.0A
Authority: CN
Inventors: 晏榕; 张志远; 洪镇宇
Original assignee: Xiamen International Bank Co ltd
Current assignee: Xiamen International Bank Co ltd
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2022-12-02
Anticipated expiration: 2042-08-24
Also published as: CN115424027B

Abstract

本发明公开了一种针对画面前景人物的图像相似度比对方法、装置、设备及存储介质，其包括：获取第一待检测图像以及第二待检测图像，其中，所述第一待检测图像以及所述第二待检测图像包括待识别的目标人物；将所述第一待检测图像以及所述第二待检测图像输入预训练完成的比对模型，得到前景中目标人物的预测框以及对应区域的相似度预测值；其中，所述比对模型通过预构建的参数共享孪生网络和预测器以及基于预设的损失函数进行训练得到。能够实现端到端完成目标人物的识别以及相似度比对，提升前景人物相似度比对的效率和精度。

Description

针对画面前景人物的图像相似度比对方法、装置以及设备

技术领域

本发明涉及图像处理技术领域，尤其涉及针对画面前景人物的图像相似度比对方法、装置以及设备。

背景技术

通过实际调研可知，银行行业内普遍存在贷后检查工作不够深入，贷后回访不到位等问题，存在银行中的管理人员和工作人员对客户信息收集草草了事，甚至只做到了形式上的风险评估，并未走访。加强贷后走访检查逐渐受到银行行业内的重视，对于规避行业系统性风险、企业个体的经营风险和信用风险具有重要影响。目前银行业内均采用在贷后走访现场进行影像采集的方式，以佐证现场询问时的信息，但行业内普遍存在信贷员在走访现场一次拍摄多张照片，并在之后的不同日期提交给监督人员检查，实际并未走访的情况，因此为规范贷后走访工作，需比对当日提交的照片与历史提交照片中目标人物的相似度，随着人工智能、图像处理技术的进入，传统人工审查的贷后走访检查方式将迎来突破。

目前画面前景人物相似度比对具有局限性，主要表现在两方面，一方面目前的画面前景人物比对技术需要分两步完成，分别是前景人物检测和相似度比对，目前技术无法端到端实现前景人物比对的功能，将影响前景人物相似度比对的效率。另一方面目前的前景人物相似度比对算法精度较低，相似度比对技术分为传统图像处理技术和深度学习技术，基于传统图像处理技术的相似度比对方法提取的特征不足，目前基于深度学习的相似度比对方法损失函数也有待进一步优化。

发明内容

有鉴于此，本发明的目的在于提出一种针对画面前景人物的图像相似度比对方法、装置以及设备，旨在解决现有的画面前景人物相似度比对具有局限性的问题。

为实现上述目的，本发明提供一种针对画面前景人物的图像相似度比对方法，所述方法包括：

获取第一待检测图像以及第二待检测图像，其中，所述第一待检测图像以及所述第二待检测图像包括待识别的目标人物；

将所述第一待检测图像以及所述第二待检测图像输入预训练完成的比对模型，得到前景中目标人物的预测框以及对应区域的相似度预测值；其中，所述比对模型通过预构建的参数共享孪生网络和预测器以及基于预设的损失函数进行训练得到。

优选的，所述参数共享孪生网络的网络结构包括特征金字塔结构；通过所述特征金字塔结构对所述第一待检测图像以及所述第二待检测图像进行多尺度特征信息的提取以及融合处理。

优选的，所述预测器的网络结构包括相似特征子网络和回归子网络；通过所述相似特征子网络得到一对256*A维特征向量，通过所述回归子网络得到H*W*4A特征图；其中，A表示所述相似特征子网络或所述回归子网络所输出的特征图中每个像素点对应的候选框数量，H、W分别表示所述回归子网络所输出的特征图的长和宽。

优选的，所述损失函数包括第一损失函数以及第二损失函数；其中，

所述第一损失函数为

满足：

其中，N表示训练样本数量，j表示类别0、1，0为负样本、1为正样本，x表示相似特征子网络输出的特征向量，γ≥0表示可调节的聚焦参数，y_i表示第i个训练样本的标签，其取值为0或1，第i个训练样本的0、1类别权重W₀或W₁与特征的内积，S表示x的范数，m表示度量的约束系数；

所述第二损失函数为

其中，x表示回归子网络输出的维度为(H*W*A，4)的向量。

优选的，所述比对模型的训练过程，包括：

构造训练样本，所述训练样本包括第一样本以及第二样本，其中，所述第一样本中包括目标人物且目标人物相似度高的一对图像，所述第二样本中包括目标人物且目标人物相似度低的一对图像。

优选的，所述第一样本以及所述第二样本中还包括干扰前景区域的非目标人物。

为实现上述目的，本发明还提供一种针对画面前景人物的图像相似度比对装置，所述装置包括：

获取单元，用于获取第一待检测图像以及第二待检测图像，其中，所述第一待检测图像以及所述第二待检测图像包括待识别的目标人物；

比对单元，用于将所述第一待检测图像以及所述第二待检测图像输入预训练完成的比对模型，得到前景中目标人物的预测框以及对应区域的相似度预测值；其中，所述比对模型通过预构建的参数共享孪生网络和预测器以及基于预设的损失函数进行训练得到。

为了实现上述目的，本发明还提出一种设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序被所述处理器执行以实现如上述实施例所述的一种针对画面前景人物的图像相似度比对方法的步骤。

为了实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现如上述实施例所述的一种针对画面前景人物的图像相似度比对方法的步骤。

有益效果：

以上方案，通过所提出的比对模型包括参数共享孪生网络和预测器进行构建的网络结构能够对输入的两张图像进行端到端完成目标人物的识别以及相似度比对，节约计算资源，提升前景人物相似度比对的效率和精度。

以上方案，通过所提出的角度权重损失函数相较于常用的损失函数能更大程度的增大不同类别区域之间的距离，缩小相似度高的区域的距离，该损失函数的设计在训练时增加困难样本权重，能有效解决正样本对较少的、不均衡的情况，使得相似度比对的精度更高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种针对画面前景人的图像相似度比对方法的流程示意图。

图2为本发明一实施例提供的比对模型的网络结构示意图。

图3为本发明一实施例提供的参数共享孪生网络的网络结构参数示意图。

图4为本发明一实施例提供的预测器的部分网络结构参数示意图。

图5为本发明一实施例提供的模型训练过程的样本构造示意图。

图6为本发明一实施例提供的一种针对画面前景人物的图像相似度比对装置的结构示意图。

发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

以下结合实施例详细阐述本发明的内容。

目前的图像相似度识别技术通常是针对整张图像的像素比较相似度，需要完成对图像前景的相似度比对涉及到两个独立的技术：前景背景分离技术、图像相似度比对技术。其中图像相似度比对技术包括采用传统图像处理的技术，如基于亮度、对比度、结构信息的SSIM方法、基于图像指纹的以图搜图方法如感知哈希和均值哈希、基于图像质量的PSNR方法、基于图像纹理特征的GIST算法等；还包括采用深度学习的方法如基于孪生网络的SimNet、基于聚类方法的Vlad等。此外目前常用的前景背景分离技术包括基于聚类的GSOC算法、基于语义分割的Image Matting技术等。

然而基于传统图像处理技术的相似度比对算法具有局限性，主要体现在其特征提取的维度较少，如感知哈希方法在提取特征过程中丢失了颜色分布、亮度等图像信息，SSIM算法只比对了亮度、对比度、结构信息而缺少了对颜色特征、纹理特征的提取，这导致基于图像处理技术的相似度比对算法精度较低。而目前的深度学习技术，虽然能学习到更多的特征，但无法端到端完成前景人物检测和图像相似度识别的功能，相似度比对效率较低，且目前的深度学习相似度比对方法多为采取神经网络进行特征提取再计算距离以确定相似度，损失函数多采用Triplet loss计算，这类技术对于不同类的图像之间的区分能力有限，对同类相似度高的图像之间的聚合能力不足。

基于此，本发明提出一种针对画面前景人物的图像相似度比对方法，能够完成端到端对图像中的目标人物进行相似度比对，提高相似度比对的效率和精度，本专利创新性地提出了ForeSimNet网络结构和角度权重损失函数，在此基础上训练的模型能在识别前景人物的同时高精度地完成目标人物的特征提取和相似度比对。从而能够辅助审核人员对贷后走访工作起到监督作用，促进贷后检查工作落实。

参照图1所示为本发明一实施例提供的一种针对画面前景人物的图像相似度比对方法的流程示意图。

本实施例中，该方法包括：

S11，获取第一待检测图像以及第二待检测图像，其中，所述第一待检测图像以及所述第二待检测图像包括待识别的目标人物；

S12，将所述第一待检测图像以及所述第二待检测图像输入预训练完成的比对模型，得到前景中目标人物的预测框以及对应区域的相似度预测值；其中，所述比对模型通过预构建的参数共享孪生网络和预测器以及基于预设的损失函数进行训练得到。

该预测框是通过比对模型预测出来的框，可以理解为从候选框中预测出的包含了目标人物的框。

其中，所述参数共享孪生网络的网络结构包括特征金字塔结构；通过所述特征金字塔结构对所述第一待检测图像以及所述第二待检测图像进行多尺度特征信息的提取以及融合处理。

其中，所述预测器的网络结构包括相似特征子网络和回归子网络；通过所述相似特征子网络得到一对256*A维特征向量，通过所述回归子网络得到H*W*4A特征图；其中，A表示所述相似特征子网络或所述回归子网络所输出的特征图中每个像素点对应的候选框数量，H、W分别表示所述回归子网络所输出的特征图的长和宽。

参见图2所示的比对模型的网络结构示意图。输入样本图像经参数共享孪生网络(该网络为特征金字塔结构)后接入预测器，预测器包含相似特征子网络和回归子网络。其中A表示设置的先验框(anchor)个数，先验框(anchor)也称为锚点，是拥有多尺度、多种宽高比的候选框，在这里将样本通过参数共享孪生网络后得到的最终特征图上一个点对应9个先验框，由三种尺寸，三种长宽比{1:1,1:2,2:1}组成，即A＝9。

参见图3和图4所示的参数共享孪生网络和预测器的网络结构参数示意图，图3(a)为参数共享孪生网络的参数示意图，图3(b)为瓶颈层(BTNK)详细参数示意图。其中，k表示卷积核大小，n表示卷积核个数，s表示步长，p表示padding数，×2等表示该模块重复2次，Add表示卷积核相加，Upsample表示上采样。

具体的，BTNK表示瓶颈层输入(Bottleneck)，有两种结构，分别为BTNK1和BTNK2。将640*640大小的样本，经64个卷积核为3*3、步长为2的卷积，经BatchNorm归一化层和Relu层得到320*320*64大小的输出，经BTNK1层和2个BTNK2层得到256个160*160大小的中间特征图1，该中间特征图一方面作为特征金字塔上采样过程的输入，一方面继续进行特征提取，经一个BTNK1层和3个BTNK2层得到512个80*80的中间特征图2，再经一个BTNK1层和2个BTNK2层，得到1024个40*40大小的中间特征图3，进一步经一个BTNK1和5个BTNK2得到2018个20*20大小的中间特征图4，这几种输出的特征图分别经256个1*1大小卷积核以步长为1卷积，随后中间特征图4一方面输出20*20*256维的输出特征图4，另一方面以反卷积的方式进行上采样，与中间特征图3相加后经256个3*3步长为1的卷积后得到40*40*256的输出特征图3，加上中间特征图2后经conv2d得到80*80*256的输出特征图2，最后加上中间特征图1后得到输出160*160*256的输出特征(图1)。图3的模块结束，将这4个输出特征图分别输入预测器(图4)。

图4中以W、H表示特征图的宽和高，回归子网络先接入4个256*3*3、步长为1的卷积和RELU激活函数，再接一个卷积核个数4A的卷积层。而相似特征子网络中包含4个256*3*3步长为1的卷积和RELU激活函数，最后接一个全连接层得到256*A维特征。最后将2个样本相似特征子网络的256*A维输出相减输入到损失函数中进行模型训练或在推理阶段求得欧氏距离判断相似度。

其中，所述比对模型的训练过程，包括：

构造训练样本，所述训练样本包括第一样本以及第二样本，其中，所述第一样本中包括目标人物且目标人物相似度高的一对图像，所述第二样本中包括目标人物且目标人物相似度低的一对图像。进一步的，所述第一样本以及所述第二样本中还包括干扰前景区域的非目标人物。

参见图5所示的训练过程的样本构造示意图。在训练过程中，输入的样本为两种情况，包括：样本一为两张包含目标人物的高度相似的图像(比如同一天拍摄的走访图片)，样本二为一对包含目标人物且目标人物相似度很低的图像(比如不同日期拍摄的走访图片)。并且样本一和样本二中都包含干扰前景区域的非目标人物(如其他人物入镜)，于是正负样本对的定义包括：正样本对为样本一中包含目标人物的两个区域，标签为1；负样本对为样本二中包含目标人物的两个区域，以及样本一二中没有目标人物的区域，标签为0。

在训练过程中，通过输入样本进入网络结构中在损失函数下进行训练，网络结构包括权参数共享孪生网络和预测器，通过参数共享孪生网络完成多尺度特征提取任务，而预测器分为两个分支，分别预测每个先验框的相似度比对256维特征，以及4个回归参数，将正负样本对的特征差值通过一个逻辑回归单元后，输出相似度预测值。

其中，所述损失函数包括第一损失函数以及第二损失函数。也就是，总损失函数由分类损失函数和回归损失函数两部分构成，公式如下：

将预测器中回归子网络输出的H*W*4A特征图输入以上回归损失函数；而每个样本对经预测器中的相似特征子网络输出一对256*A维特征向量，计算样本对特征向量之间的距离，经过一个二分类全连接层后将输出值输入到分类损失函数中。回归损失函数选择smooth L1:

其中，x表示回归子网络输出的维度为(H*W*A，4)的向量。

针对分类损失函数，由于在样本构造中正样本出现的概率较小，造成正负样本对类别不平衡，考虑类别不平衡的情况分类损失函数使用改进的Focal loss损失函数，在此将其称为角度权重损失函数。在本实施例中，角度权重损失函数L_AWL的设计过程如下，而Focal loss如下式：

使用softmax激活函数后表示为：

其中：f₀和f₁是0，1类别(0为负样本、1为正样本)的权重W₀、W₁和特征x(256*A维特征向量)的乘积，表示为：

然后，分别对Wj和x做L2正则化，使其范数为1，但是考虑到x的范数太小会导致训练损失太大，于是进行一次缩放，固定为其大小为s。于是可得到：

在此引入一个cosine margin来进行度量的约束，让当前样本所属的类别再减去一个参数m之后仍然属于这个类别，即：

cos(θ₁)-m>cos(θ₂)

则可得到角度权重损失函数：

满足：

其中，N表示训练样本数量，j表示类别0、1，0为负样本、1为正样本，x表示相似特征子网络输出的特征向量，γ≥0表示可调节的聚焦参数，γ的值越大，好分类的样本的损失就越小，模型的注意力更投向那些难分类的样本，y_i表示第i个训练样本的标签，其取值为0或1，第i个训练样本的0、1类别权重W₀或W₁与特征的内积，S为一个固定的值较小的参数，S表示x的范数，m表示度量的约束系数，让当前样本所属的类别再减去一个参数m之后仍然属于这个类别。

参照图6所示为本发明一实施例提供的一种针对画面前景人物的图像相似度比对装置的结构示意图。

在本实施例中，该装置60包括：

获取单元61，用于获取第一待检测图像以及第二待检测图像，其中，所述第一待检测图像以及所述第二待检测图像包括待识别的目标人物；

比对单元62，用于将所述第一待检测图像以及所述第二待检测图像输入预训练完成的比对模型，得到前景中目标人物的预测框以及对应区域的相似度预测值；其中，所述比对模型通过预构建的参数共享孪生网络和预测器以及基于预设的损失函数进行训练得到。

进一步的，所述参数共享孪生网络的网络结构包括特征金字塔结构；通过所述特征金字塔结构对所述第一待检测图像以及所述第二待检测图像进行多尺度特征信息的提取以及融合处理。

进一步的，所述预测器的网络结构包括相似特征子网络和回归子网络；通过所述相似特征子网络得到一对256*A维特征向量，通过所述回归子网络得到H*W*4A特征图；其中，A表示所述相似特征子网络或所述回归子网络所输出的特征图中每个像素点对应的候选框数量，H、W分别表示所述回归子网络所输出的特征图的长和宽。

进一步的，所述损失函数包括第一损失函数以及第二损失函数；其中，

所述第一损失函数为

满足：

所述第二损失函数为

其中，x表示回归子网络输出的维度为(H*W*A，4)的向量。

进一步的，所述比对模型的训练过程，包括：

进一步的，所述第一样本以及所述第二样本中还包括干扰前景区域的非目标人物。

该装置60的各个单元模块可分别执行上述方法实施例中对应步骤，故在此不对各单元模块进行赘述，详细请参见以上对应步骤的说明。

本发明实施例还提供一种设备，该设备包括如上所述的针对画面前景人物的图像相似度比对装置，其中，针对画面前景人物的图像相似度比对装置可以采用图6实施例的结构，其对应地，可以执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，详细可以参见上述实施例中的相关记载，此处不再赘述。

所述设备包括：手机、数码相机或平板电脑等具有拍照功能的设备，或者具有图像处理功能的设备，或者具有图像显示功能的设备。所述设备可包括存储器、处理器、输入单元、显示单元、电源等部件。

其中，存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(例如图像播放功能等)等；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器和输入单元对存储器的访问。

输入单元可用于接收输入的数字或字符或图像信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，本实施例的输入单元除了包括摄像头，还可包括触敏表面(例如触摸显示屏)以及其他输入设备。

显示单元可用于显示由用户输入的信息或提供给用户的信息以及设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元可包括显示面板，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器以确定触摸事件的类型，随后处理器根据触摸事件的类型在显示面板上提供相应的视觉输出。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现图1所示的针对画面前景人物的图像相似度比对方法。所述计算机可读存储介质可以是只读存储器，磁盘或光盘等。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例、设备实施例及存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种针对画面前景人物的图像相似度比对方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种针对画面前景人物的图像相似度比对方法，其特征在于，所述参数共享孪生网络的网络结构包括特征金字塔结构；通过所述特征金字塔结构对所述第一待检测图像以及所述第二待检测图像进行多尺度特征信息的提取以及融合处理。

3.根据权利要求1所述的一种针对画面前景人物的图像相似度比对方法，其特征在于，所述预测器的网络结构包括相似特征子网络和回归子网络；通过所述相似特征子网络得到一对256*A维特征向量，通过所述回归子网络得到H*W*4A特征图；其中，A表示所述相似特征子网络或所述回归子网络所输出的特征图中每个像素点对应的候选框数量，H、W分别表示所述回归子网络所输出的特征图的长和宽。

4.根据权利要求1所述的一种针对画面前景人物的图像相似度比对方法，其特征在于，所述损失函数包括第一损失函数以及第二损失函数；其中，

所述第一损失函数为

满足：

所述第二损失函数为

其中，x表示回归子网络输出的维度为(H*W*A，4)的向量。

5.根据权利要求1所述的一种针对画面前景人物的图像相似度比对方法，其特征在于，所述比对模型的训练过程，包括：

6.根据权利要求5所述的一种针对画面前景人物的图像相似度比对方法，其特征在于，所述第一样本以及所述第二样本中还包括干扰前景区域的非目标人物。

7.一种针对画面前景人物的图像相似度比对装置，其特征在于，所述装置包括：

8.一种设备，其特征在于，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序被所述处理器执行以实现如权利要求1至6任意一项所述的一种针对画面前景人物的图像相似度比对方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1至6任意一项所述的一种针对画面前景人物的图像相似度比对方法的步骤。