CN113705731A

CN113705731A - 一种基于孪生网络的端到端图像模板匹配方法

Info

Publication number: CN113705731A
Application number: CN202111125805.5A
Authority: CN
Inventors: 郑永斌; 任强; 徐婉莹; 孙鹏; 白圣建; 朱笛; 杨东旭
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2021-11-26

Abstract

本发明属于图像处理技术领域，具体涉及一种基于孪生网络的端到端图像模板匹配方法，该方法将模板匹配任务作为一个分类回归问题进行处理，能够更好的解决模板与参考图像之间存在的尺度差异问题，有效提高复杂情况下模板匹配的鲁棒性。具有以下有益效果：1.将模板匹配任务作为一个分类回归任务进行处理，能够更好的解决尺度差异问题，有效提高复杂情况下模板匹配的鲁棒性；2.将深度互相关操作与通道注意力机制相结合，提出了一种用于特征融合的新的互相关操作，能够有效提高模板定位的精度；3.在损失函数的设计中，使用DIoU代替常用的IoU来构建回归损失，能够使得训练过程的稳定，加快收敛，同时进一步提高模板匹配的性能。

Description

一种基于孪生网络的端到端图像模板匹配方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于孪生网络(Siamese Network)的端到端图像模板匹配方法。

背景技术

模板匹配是通过相似性度量在参考图像中定位出给定的模板图像，是图像处理和计算机视觉中的一项基础技术，广泛用于目标识别、医学图像处理和遥感等领域。由于拍摄时间、角度以及成像设备的不同，模板图与参考图像之间往往存在灰度差异(甚至异源)、尺度差异、旋转差异和视角差异，这些差异给模板匹配任务带来极大挑战。传统的模板匹配方法所使用的相似性度量方法包括SAD(Sum of Absolute Differences)、SSD(Sum ofSquared Differences)、NCC(Normalized Cross-Correlation)和MI(MutualInformation)等，由于相似性计算的图像灰度值属于初级特征，使得这些方法只能处理一些比较简单的情况(比如模板和参考图像之间只存在平移变换)的模板匹配，当面对非刚性变换、遮挡、模糊以及背景杂波等情况时，这些方法通常会失败。为克服这些问题，近年来一些新的模版匹配方法不断被提出，根据解决思路的不同，可以分为两大类：一类尝试对模板和参考图像之间存在的参数变换进行建模，该类方法能够在一定程度上解决非刚性变换的问题，但是对复杂非刚性变换进行建模所需要的参数量过大限制了这类方法使用；另外一类则是尝试通过设计新的相似性度量方法来提高模板匹配的鲁棒性，这类方法能够有效提高在遮挡以及背景杂波情况下的匹配性能，但模板匹配的鲁棒性仍然受到异源、尺度差异等问题的极大影响。

另一方面，随着深度学习的出现和发展，深度神经网络对于图像特征的提取和表达能力不断提高，使得研究者逐渐抛弃传统方法，转向基于深度学习的模板匹配方法的研究，其中基于孪生网络(Han X,Leung T,Jia Y,et al.Matchnet:Unifying feature andmetric learning for patch-based matching[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2015:3279-3286.)的模板匹配方法是其中的一个重要研究方向。孪生网络与普通的卷积神经网络具有相同的基础结构，但是它比卷积神经网络具有更多的分支(一般包含两个或两个以上相同的网络结构分支)，并且共享网络参数，这就使得孪生网络更适合处理图像对之间相似性度量的任务。更为重要的一点是，孪生网络是从数据中学习相似性度量去匹配类别未知的样本，弱化了深度神经网络对数据标签的需求，这解决了深度学习过程中的两大难题：1)因获取数据成本高而导致的样本数量小；2)训练集样本出现变动导致模型必须重新训练。目前孪生网络在人脸识别、行人重识别、目标跟踪等任务中得到广泛应用。

发明内容

针对现有模板匹配方法存在的问题，本发明提出了一种基于孪生网络的端到端图像模板匹配方法，该方法将模板匹配任务作为一个分类回归问题进行处理，能够更好的解决模板与参考图像之间存在的尺度差异问题，有效提高复杂情况下模板匹配的鲁棒性。

为实现上述目的，本发明提供了如下方案，一种基于孪生网络的端到端图像模板匹配方法，包括以下步骤：

S1设计模板匹配网络

所述模板匹配网络由特征提取网络、特征融合网络和模板定位网络依次级联构成，该网络以模板-参考图像对为输入，输出为预测的分类图和回归图；具体步骤如下：

S1.1构建特征提取网络，提取输入模板和参考图像的特征图

所述特征提取网络由两个参数共享、结构相同的卷积神经网络级联构成，分别以模板T和参考图像S作为输入，输出为对应的特征图

和

所述卷积神经网络是在标准ResNet50(He K.，Zhang X.，Ren S.，Sun J.DeepResidual Learning for Image Recognition[C]//IEEE Conference on ComputerVision&Pattern Recognition.IEEE Computer Society,2016.)的基础上修改得到，所做的具体修改如下：

(1)标准的ResNet50由五个卷积组与全连接层构成，移除最后一个卷积组和全连接层；

(2)移除第四个卷积组的下采样操作并通过空洞卷积保证相应的感受野不变；

(3)在第四个卷积组后添加一个卷积层，将对应层的输出特征图的通道数减少到256；

S1.2构建特征融合网络，对S1.1提取到的模板和参考图像的特征图进行信息融合

所述特征融合网络由深度互相关模块和通道注意力模块级联构成，以S1.1中提取到的模板和参考图像的特征图作为输入，输出为二者融合之后的特征图；

所述深度互相关模块以模板特征图作为卷积核，与参考图像特征图进行深度可分离卷积，得到初步的融合结果；

所述通道注意力模块用于在初步融合结果的基础上，提高对高响应通道的关注，得到最终的融合结果。

S1.3构建模板定位网络，在特征融合基础上预测模板在参考图像中的位置信息

所述模板定位网络由分类和回归两个支路并联构成，均以S1.2中融合后的特征图作为输入，其长和宽分别为w和h；

所述分类支路由三个3x3卷积层构成，最终输出通道数为1的分类图

表示每个位置的前景概率，用于对模板在参考图像中进行粗略定位；

所述回归支路由三个3x3卷积层构成，最终输出通道数为4的回归图

表示每个位置对应的边界框预测结果，用于在粗略定位的基础上对模板进行精确定位；

所述分类图和回归图上的任一位置(x,y)能够被映射回参考图像上，其在参考图像上的对应位置为

其中s表示特征提取网络的总步长，

表示向下取整操作。

S2训练模板匹配网络

S2.1构建训练数据集

所述模板匹配网络在训练时使用固定尺寸的模板-参考图像对作为训练样本，这里的固定尺寸是指所有训练样本中的模板和参考图像均要处理成统一大小，比如模板大小均为127×127像素，参考图像大小均为127×127像素；

所述训练样本的标签为模板在参考图像中的位置信息，模板在参考图像中的位置用矩形边界框表征，位置信息用边界框的左上角和右下角的坐标进行表示。

S2.2设计损失函数

训练所使用的损失函数设计如下：

L＝λ₁L_cls+λ₂L_reg

其中L_cls是分类损失：

其中N表示训练样本的数量,p_x,y表示在(x,y)位置处的前景概率，

表示真实标签，如果该点映射回输入参考图像后能够落到参考图像上的真实边界框中，则

为1，否则

为0。

L_reg是回归损失：

其中(x,y)_p表示该点映射回输入参考图像后点

能够落到参考图像上的真实边界框中，t_x,y＝(l,t,r,b)表示该位置对应的预测边界框的位置，

是对应的标签，即该位置对应的真实的边界框位置，l,t,r,b分别表示映射后的位置

到预测边界框的左、上、右、下边界的距离，而l^*,t^*,r^*,b^*则分别表示该位置到真实边界框的左、上、右、下边界的距离，

表示预测边界框与真实边界框的距离交并比；

λ₁和λ₂是可调整的权重超参数，通常取λ₁＝1，λ₂＝2；

S2.3使用随机梯度下降(SGD)法进行网络训练(LeCun Y,Boser B,Denker J S,etal.Backpropagation applied to handwritten zip code recognition[J].Neuralcomputation,1989,1(4):541-551.)。

S3应用模板匹配网络

在S2中训练好的模板匹配网络在实际应用时，虽然仍需要输入成对的模板-参考图像，但由于整个网络的全卷积特性，不需要固定模板和参考图像的尺寸，具体的工作流程如下所述：

S3.1将待匹配的模板-参考图像对输入S2中训练好的模板匹配网络，输出一个通道数为1的分类图

和一个通道数为4的回归图

S3.2将分类图上前景概率最高的点(x_t,y_t)映射回参考图像，其在参考图像上的对应位置为

得到模板在参考图像中的初步定位结果；

S3.3在初步定位的基础上，结合回归图上相同位置(x_t,y_t)的边界框预测结果

得到模板在参考图像中位置信息的精确预测结果

与现有技术相比，本发明具有以下有益效果：

1.与传统模板匹配方法不同，本发明提供的基于孪生网络的端到端的模板匹配方案，将模板匹配任务作为一个分类回归任务进行处理，能够更好的解决尺度差异问题，有效提高复杂情况下模板匹配的鲁棒性；

2.本发明将深度互相关操作与通道注意力机制相结合，提出了一种用于特征融合的新的互相关操作，能够有效提高模板定位的精度；

3.本发明在损失函数的设计中，使用DIoU代替常用的IoU来构建回归损失，能够使得训练过程的稳定，加快收敛，同时进一步提高模板匹配的性能。

附图说明

图1为本发明所提出的一种基于孪生网络的模板匹配方法的网络结构示意图；

图2为本发明中所使用的通道注意力模块结构示意图；

图3为采用本发明方法的模板匹配结果：(a)是红外弱小目标图像，图(b)是可见光与红外的异源图像，图(c)是存在旋转和尺度差异的航拍图像。

具体实施方式

下面结合附图和具体实施例对本发明进行进一步说明。

一种基于孪生网络的端到端模板匹配方法，包括以下步骤：

S1设计模板匹配网络

模板匹配网络由特征提取网络、特征融合网络和模板定位网络依次级联构成，该网络以模板-参考图像对为输入，输出为预测的分类图和回归图，图1为整个网络的具体结构示意图。

S1.1构建特征提取网络，提取输入模板和参考图像的特征图

S1.2构建特征融合网络，对提取到的输入模板和参考图像的特征图进行融合，本实施实例中使用的通道注意力模块结构如图2所示。

S1.3构建模板定位网络，在特征融合基础上预测模板在参考图像中的位置信息。

S2训练模板匹配网络

S2.1构建训练数据集

本实施实例中使用从ImageNet DET、ImageNet VID、COCO和GOT-10K四个数据集中抽取的模板-参考图像对作为训练数据，模板和参考图像的尺寸分别为127x127和255x255像素。

S2.2设计损失函数

训练所使用的损失函数设计如下：

L＝λ₁L_cls+λ₂L_reg

其中L_cls是分类损失：

为1，否则

为0。

L_reg是回归损失：

其中(x,y)_p表示该点映射回输入参考图像后点

表示预测边界框与真实边界框的距离交并比。

λ₁和λ₂是可调整的权重超参数，通常取λ₁＝1，λ₂＝2。

S2.3本实施实例中整个网络使用随机梯度下降(SGD)的方法在四块Titan XP GPU上一共训练20轮，训练数据批大小(batch size)为128，特征提取网络部分使用在ImageNet上的预训练参数初始化。初始学习率设置为0.001，在20个epoch中以指数方式下降到0.00005，权重衰减(weight decay)和动量(momentum)分别设置为0.0001和0.9。

S3应用模板匹配网络

在S2训练好的模板匹配网络在实际应用时，虽然仍需要输入成对的模板-参考图像，但由于整个网络的全卷积特性，不需要固定模板和参考图像的尺寸，具体的工作流程如下所述：

和一个通道数为4的回归图

得到模板在参考图像中的初步定位结果；

可以得到模板在参考图像中位置信息的精确预测结果

图3给出的是使用本发明提供的方法得到模板匹配结果，其中图(a)是红外弱小目标图像，图(b)是可见光与红外的异源图像，图(c)是存在旋转和尺度差异的航拍图像，从图中可以看到，本发明所提供的模板方法在复杂情况下依然具有良好的性能。

表1不同方法在BBS数据集上的测试结果

表1给出的是本发明提供的方法与现有的一些模板匹配方法在BBS数据集上的对比结果，其中ours表示本发明提供的方法。BBS数据集是2017提出的一个模板匹配数据集，其由BBS25、BBS50和BBS100三个难度依次递增的子数据集构成，自提出后被广泛用于模板匹配方法的性能评估。考虑到的不同任务关注的重点不同，实验中使用了两种评价指标CE20和AUC，CE20和AUC的数据越大表示所使用的模板匹配方法性能越好。

CE20由中心误差定义，表示匹配结果的中心误差小于20像素的数量占所有测试数据数量的比例，中心误差定义如下：

其中，(x_p,y_p)和(x_g,y_g)分别是预测边界框和真实边界框的中心坐标。

AUC在交并比的基础上定义，表示整个数据集上ROC曲线下的面积。交并比定义如下：

其中B_p和B_g分别表示预测边界框和真实边界框。

从表1中的实验结果可以看到，本发明所提供的方法与其他模板匹配方法相比，在所有的数据集上都具有更好的性能。更重要的是，随着数据集匹配难度的增加，本发明所提供的方法的性能下降幅度远小于其他方法，以与次优的DDIS方法对比为例，从BBS25到BBS50数据集，DDIS方法的CE20和AUC指标分别下降了10％和13.6％,而本发明所提供的方法的性能下降幅度分别只有1.3％和4.7％，这进一步验证了本发明在复杂情况具有良好的鲁棒性。