CN113705731A - 一种基于孪生网络的端到端图像模板匹配方法 - Google Patents
一种基于孪生网络的端到端图像模板匹配方法 Download PDFInfo
- Publication number
- CN113705731A CN113705731A CN202111125805.5A CN202111125805A CN113705731A CN 113705731 A CN113705731 A CN 113705731A CN 202111125805 A CN202111125805 A CN 202111125805A CN 113705731 A CN113705731 A CN 113705731A
- Authority
- CN
- China
- Prior art keywords
- template
- reference image
- network
- template matching
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明属于图像处理技术领域,具体涉及一种基于孪生网络的端到端图像模板匹配方法,该方法将模板匹配任务作为一个分类回归问题进行处理,能够更好的解决模板与参考图像之间存在的尺度差异问题,有效提高复杂情况下模板匹配的鲁棒性。具有以下有益效果:1.将模板匹配任务作为一个分类回归任务进行处理,能够更好的解决尺度差异问题,有效提高复杂情况下模板匹配的鲁棒性;2.将深度互相关操作与通道注意力机制相结合,提出了一种用于特征融合的新的互相关操作,能够有效提高模板定位的精度;3.在损失函数的设计中,使用DIoU代替常用的IoU来构建回归损失,能够使得训练过程的稳定,加快收敛,同时进一步提高模板匹配的性能。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种基于孪生网络(Siamese Network)的端到端图像模板匹配方法。
背景技术
模板匹配是通过相似性度量在参考图像中定位出给定的模板图像,是图像处理和计算机视觉中的一项基础技术,广泛用于目标识别、医学图像处理和遥感等领域。由于拍摄时间、角度以及成像设备的不同,模板图与参考图像之间往往存在灰度差异(甚至异源)、尺度差异、旋转差异和视角差异,这些差异给模板匹配任务带来极大挑战。传统的模板匹配方法所使用的相似性度量方法包括SAD(Sum of Absolute Differences)、SSD(Sum ofSquared Differences)、NCC(Normalized Cross-Correlation)和MI(MutualInformation)等,由于相似性计算的图像灰度值属于初级特征,使得这些方法只能处理一些比较简单的情况(比如模板和参考图像之间只存在平移变换)的模板匹配,当面对非刚性变换、遮挡、模糊以及背景杂波等情况时,这些方法通常会失败。为克服这些问题,近年来一些新的模版匹配方法不断被提出,根据解决思路的不同,可以分为两大类:一类尝试对模板和参考图像之间存在的参数变换进行建模,该类方法能够在一定程度上解决非刚性变换的问题,但是对复杂非刚性变换进行建模所需要的参数量过大限制了这类方法使用;另外一类则是尝试通过设计新的相似性度量方法来提高模板匹配的鲁棒性,这类方法能够有效提高在遮挡以及背景杂波情况下的匹配性能,但模板匹配的鲁棒性仍然受到异源、尺度差异等问题的极大影响。
另一方面,随着深度学习的出现和发展,深度神经网络对于图像特征的提取和表达能力不断提高,使得研究者逐渐抛弃传统方法,转向基于深度学习的模板匹配方法的研究,其中基于孪生网络(Han X,Leung T,Jia Y,et al.Matchnet:Unifying feature andmetric learning for patch-based matching[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2015:3279-3286.)的模板匹配方法是其中的一个重要研究方向。孪生网络与普通的卷积神经网络具有相同的基础结构,但是它比卷积神经网络具有更多的分支(一般包含两个或两个以上相同的网络结构分支),并且共享网络参数,这就使得孪生网络更适合处理图像对之间相似性度量的任务。更为重要的一点是,孪生网络是从数据中学习相似性度量去匹配类别未知的样本,弱化了深度神经网络对数据标签的需求,这解决了深度学习过程中的两大难题:1)因获取数据成本高而导致的样本数量小;2)训练集样本出现变动导致模型必须重新训练。目前孪生网络在人脸识别、行人重识别、目标跟踪等任务中得到广泛应用。
发明内容
针对现有模板匹配方法存在的问题,本发明提出了一种基于孪生网络的端到端图像模板匹配方法,该方法将模板匹配任务作为一个分类回归问题进行处理,能够更好的解决模板与参考图像之间存在的尺度差异问题,有效提高复杂情况下模板匹配的鲁棒性。
为实现上述目的,本发明提供了如下方案,一种基于孪生网络的端到端图像模板匹配方法,包括以下步骤:
S1设计模板匹配网络
所述模板匹配网络由特征提取网络、特征融合网络和模板定位网络依次级联构成,该网络以模板-参考图像对为输入,输出为预测的分类图和回归图;具体步骤如下:
S1.1构建特征提取网络,提取输入模板和参考图像的特征图
所述卷积神经网络是在标准ResNet50(He K.,Zhang X.,Ren S.,Sun J.DeepResidual Learning for Image Recognition[C]//IEEE Conference on ComputerVision&Pattern Recognition.IEEE Computer Society,2016.)的基础上修改得到,所做的具体修改如下:
(1)标准的ResNet50由五个卷积组与全连接层构成,移除最后一个卷积组和全连接层;
(2)移除第四个卷积组的下采样操作并通过空洞卷积保证相应的感受野不变;
(3)在第四个卷积组后添加一个卷积层,将对应层的输出特征图的通道数减少到256;
S1.2构建特征融合网络,对S1.1提取到的模板和参考图像的特征图进行信息融合
所述特征融合网络由深度互相关模块和通道注意力模块级联构成,以S1.1中提取到的模板和参考图像的特征图作为输入,输出为二者融合之后的特征图;
所述深度互相关模块以模板特征图作为卷积核,与参考图像特征图进行深度可分离卷积,得到初步的融合结果;
所述通道注意力模块用于在初步融合结果的基础上,提高对高响应通道的关注,得到最终的融合结果。
S1.3构建模板定位网络,在特征融合基础上预测模板在参考图像中的位置信息
所述模板定位网络由分类和回归两个支路并联构成,均以S1.2中融合后的特征图作为输入,其长和宽分别为w和h;
S2训练模板匹配网络
S2.1构建训练数据集
所述模板匹配网络在训练时使用固定尺寸的模板-参考图像对作为训练样本,这里的固定尺寸是指所有训练样本中的模板和参考图像均要处理成统一大小,比如模板大小均为127×127像素,参考图像大小均为127×127像素;
所述训练样本的标签为模板在参考图像中的位置信息,模板在参考图像中的位置用矩形边界框表征,位置信息用边界框的左上角和右下角的坐标进行表示。
S2.2设计损失函数
训练所使用的损失函数设计如下:
L=λ1Lcls+λ2Lreg
其中Lcls是分类损失:
Lreg是回归损失:
其中(x,y)p表示该点映射回输入参考图像后点能够落到参考图像上的真实边界框中,tx,y=(l,t,r,b)表示该位置对应的预测边界框的位置,是对应的标签,即该位置对应的真实的边界框位置,l,t,r,b分别表示映射后的位置到预测边界框的左、上、右、下边界的距离,而l*,t*,r*,b*则分别表示该位置到真实边界框的左、上、右、下边界的距离,表示预测边界框与真实边界框的距离交并比;
λ1和λ2是可调整的权重超参数,通常取λ1=1,λ2=2;
S2.3使用随机梯度下降(SGD)法进行网络训练(LeCun Y,Boser B,Denker J S,etal.Backpropagation applied to handwritten zip code recognition[J].Neuralcomputation,1989,1(4):541-551.)。
S3应用模板匹配网络
在S2中训练好的模板匹配网络在实际应用时,虽然仍需要输入成对的模板-参考图像,但由于整个网络的全卷积特性,不需要固定模板和参考图像的尺寸,具体的工作流程如下所述:
与现有技术相比,本发明具有以下有益效果:
1.与传统模板匹配方法不同,本发明提供的基于孪生网络的端到端的模板匹配方案,将模板匹配任务作为一个分类回归任务进行处理,能够更好的解决尺度差异问题,有效提高复杂情况下模板匹配的鲁棒性;
2.本发明将深度互相关操作与通道注意力机制相结合,提出了一种用于特征融合的新的互相关操作,能够有效提高模板定位的精度;
3.本发明在损失函数的设计中,使用DIoU代替常用的IoU来构建回归损失,能够使得训练过程的稳定,加快收敛,同时进一步提高模板匹配的性能。
附图说明
图1为本发明所提出的一种基于孪生网络的模板匹配方法的网络结构示意图;
图2为本发明中所使用的通道注意力模块结构示意图;
图3为采用本发明方法的模板匹配结果:(a)是红外弱小目标图像,图(b)是可见光与红外的异源图像,图(c)是存在旋转和尺度差异的航拍图像。
具体实施方式
下面结合附图和具体实施例对本发明进行进一步说明。
一种基于孪生网络的端到端模板匹配方法,包括以下步骤:
S1设计模板匹配网络
模板匹配网络由特征提取网络、特征融合网络和模板定位网络依次级联构成,该网络以模板-参考图像对为输入,输出为预测的分类图和回归图,图1为整个网络的具体结构示意图。
S1.1构建特征提取网络,提取输入模板和参考图像的特征图
S1.2构建特征融合网络,对提取到的输入模板和参考图像的特征图进行融合,本实施实例中使用的通道注意力模块结构如图2所示。
S1.3构建模板定位网络,在特征融合基础上预测模板在参考图像中的位置信息。
S2训练模板匹配网络
S2.1构建训练数据集
本实施实例中使用从ImageNet DET、ImageNet VID、COCO和GOT-10K四个数据集中抽取的模板-参考图像对作为训练数据,模板和参考图像的尺寸分别为127x127和255x255像素。
S2.2设计损失函数
训练所使用的损失函数设计如下:
L=λ1Lcls+λ2Lreg
其中Lcls是分类损失:
Lreg是回归损失:
其中(x,y)p表示该点映射回输入参考图像后点能够落到参考图像上的真实边界框中,tx,y=(l,t,r,b)表示该位置对应的预测边界框的位置,是对应的标签,即该位置对应的真实的边界框位置,l,t,r,b分别表示映射后的位置到预测边界框的左、上、右、下边界的距离,而l*,t*,r*,b*则分别表示该位置到真实边界框的左、上、右、下边界的距离,表示预测边界框与真实边界框的距离交并比。
λ1和λ2是可调整的权重超参数,通常取λ1=1,λ2=2。
S2.3本实施实例中整个网络使用随机梯度下降(SGD)的方法在四块Titan XP GPU上一共训练20轮,训练数据批大小(batch size)为128,特征提取网络部分使用在ImageNet上的预训练参数初始化。初始学习率设置为0.001,在20个epoch中以指数方式下降到0.00005,权重衰减(weight decay)和动量(momentum)分别设置为0.0001和0.9。
S3应用模板匹配网络
在S2训练好的模板匹配网络在实际应用时,虽然仍需要输入成对的模板-参考图像,但由于整个网络的全卷积特性,不需要固定模板和参考图像的尺寸,具体的工作流程如下所述:
图3给出的是使用本发明提供的方法得到模板匹配结果,其中图(a)是红外弱小目标图像,图(b)是可见光与红外的异源图像,图(c)是存在旋转和尺度差异的航拍图像,从图中可以看到,本发明所提供的模板方法在复杂情况下依然具有良好的性能。
表1不同方法在BBS数据集上的测试结果
表1给出的是本发明提供的方法与现有的一些模板匹配方法在BBS数据集上的对比结果,其中ours表示本发明提供的方法。BBS数据集是2017提出的一个模板匹配数据集,其由BBS25、BBS50和BBS100三个难度依次递增的子数据集构成,自提出后被广泛用于模板匹配方法的性能评估。考虑到的不同任务关注的重点不同,实验中使用了两种评价指标CE20和AUC,CE20和AUC的数据越大表示所使用的模板匹配方法性能越好。
CE20由中心误差定义,表示匹配结果的中心误差小于20像素的数量占所有测试数据数量的比例,中心误差定义如下:
其中,(xp,yp)和(xg,yg)分别是预测边界框和真实边界框的中心坐标。
AUC在交并比的基础上定义,表示整个数据集上ROC曲线下的面积。交并比定义如下:
其中Bp和Bg分别表示预测边界框和真实边界框。
从表1中的实验结果可以看到,本发明所提供的方法与其他模板匹配方法相比,在所有的数据集上都具有更好的性能。更重要的是,随着数据集匹配难度的增加,本发明所提供的方法的性能下降幅度远小于其他方法,以与次优的DDIS方法对比为例,从BBS25到BBS50数据集,DDIS方法的CE20和AUC指标分别下降了10%和13.6%,而本发明所提供的方法的性能下降幅度分别只有1.3%和4.7%,这进一步验证了本发明在复杂情况具有良好的鲁棒性。
Claims (4)
1.一种基于孪生网络的端到端图像模板匹配方法,其特征在于,该方法包括以下步骤:
S1设计模板匹配网络
所述模板匹配网络由特征提取网络、特征融合网络和模板定位网络依次级联构成,该网络以模板-参考图像对为输入,输出为预测的分类图和回归图;具体步骤如下:
S1.1构建特征提取网络,提取输入模板和参考图像的特征图
所述卷积神经网络是在标准ResNet50的基础上修改得到,所做的具体修改如下:
(1)标准的ResNet50由五个卷积组与全连接层构成,移除最后一个卷积组和全连接层;
(2)移除第四个卷积组的下采样操作并通过空洞卷积保证相应的感受野不变;
(3)在第四个卷积组后添加一个卷积层,将对应层的输出特征图的通道数减少到256;
S1.2构建特征融合网络,对S1.1提取到的模板和参考图像的特征图进行信息融合
所述特征融合网络由深度互相关模块和通道注意力模块级联构成,以S1.1中提取到的模板和参考图像的特征图作为输入,输出为二者融合之后的特征图;
所述深度互相关模块以模板特征图作为卷积核,与参考图像特征图进行深度可分离卷积,得到初步的融合结果;
所述通道注意力模块用于在初步融合结果的基础上,提高对高响应通道的关注,得到最终的融合结果;
S1.3构建模板定位网络,在特征融合基础上预测模板在参考图像中的位置信息
所述模板定位网络由分类和回归两个支路并联构成,均以S1.2中融合后的特征图作为输入,其长和宽分别为w和h;
S2训练模板匹配网络
S2.1构建训练数据集
所述模板匹配网络在训练时使用固定尺寸的模板-参考图像对作为训练样本;
所述训练样本的标签为模板在参考图像中的位置信息,模板在参考图像中的位置用矩形边界框表征,位置信息用边界框的左上角和右下角的坐标进行表示;
S2.2设计损失函数;
S2.3进行网络训练;
S3应用模板匹配网络
具体的工作流程如下所述:
2.一种根据权利要求1所述基于孪生网络的端到端图像模板匹配方法,其特征在于:S2.2中,训练所使用的损失函数设计如下:
L=λ1Lcls+λ2Lreg
其中Lcls是分类损失:
Lreg是回归损失:
其中(x,y)p表示该点映射回输入参考图像后点能够落到参考图像上的真实边界框中,tx,y=(l,t,r,b)表示该位置对应的预测边界框的位置,是对应的标签,即该位置对应的真实的边界框位置,l,t,r,b分别表示映射后的位置到预测边界框的左、上、右、下边界的距离,而l*,t*,r*,b*则分别表示该位置到真实边界框的左、上、右、下边界的距离,表示预测边界框与真实边界框的距离交并比;
λ1和λ2是可调整的权重超参数。
3.一种根据权利要求1或2所述基于孪生网络的端到端图像模板匹配方法,其特征在于:可调整的权重超参数取λ1=1,λ2=2。
4.一种根据权利要求1所述基于孪生网络的端到端图像模板匹配方法,其特征在于:S2.3中,使用随机梯度下降法进行网络训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111125805.5A CN113705731A (zh) | 2021-09-23 | 2021-09-23 | 一种基于孪生网络的端到端图像模板匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111125805.5A CN113705731A (zh) | 2021-09-23 | 2021-09-23 | 一种基于孪生网络的端到端图像模板匹配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113705731A true CN113705731A (zh) | 2021-11-26 |
Family
ID=78661841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111125805.5A Pending CN113705731A (zh) | 2021-09-23 | 2021-09-23 | 一种基于孪生网络的端到端图像模板匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113705731A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115330876A (zh) * | 2022-09-15 | 2022-11-11 | 中国人民解放军国防科技大学 | 基于孪生网络和中心位置估计的目标模板图匹配定位方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245678A (zh) * | 2019-05-07 | 2019-09-17 | 华中科技大学 | 一种异构孪生区域选取网络及基于该网络的图像匹配方法 |
CN112884037A (zh) * | 2021-02-09 | 2021-06-01 | 中国科学院光电技术研究所 | 一种基于模板更新和无锚框方式的目标跟踪方法 |
CN113129335A (zh) * | 2021-03-25 | 2021-07-16 | 西安电子科技大学 | 一种基于孪生网络的视觉跟踪算法及多模板更新策略 |
-
2021
- 2021-09-23 CN CN202111125805.5A patent/CN113705731A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245678A (zh) * | 2019-05-07 | 2019-09-17 | 华中科技大学 | 一种异构孪生区域选取网络及基于该网络的图像匹配方法 |
CN112884037A (zh) * | 2021-02-09 | 2021-06-01 | 中国科学院光电技术研究所 | 一种基于模板更新和无锚框方式的目标跟踪方法 |
CN113129335A (zh) * | 2021-03-25 | 2021-07-16 | 西安电子科技大学 | 一种基于孪生网络的视觉跟踪算法及多模板更新策略 |
Non-Patent Citations (3)
Title |
---|
BO LI等: "SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
QIANG REN等: "A Robust and Accurate End-to-End Template Matching Method Based on the Siamese Network", 《HTTPS://IEEEXPLORE.IEEE.ORG/DOCUMENT/9486912》 * |
黄智慧 等: "基于距离交并比回归的孪生网络目标跟踪算法", 《扬州大学学报(自然科学版)》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115330876A (zh) * | 2022-09-15 | 2022-11-11 | 中国人民解放军国防科技大学 | 基于孪生网络和中心位置估计的目标模板图匹配定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
He et al. | A fully convolutional neural network for wood defect location and identification | |
Zeng et al. | 3dmatch: Learning local geometric descriptors from rgb-d reconstructions | |
Xie et al. | Multilevel cloud detection in remote sensing images based on deep learning | |
CN106547880B (zh) | 一种融合地理区域知识的多维度地理场景识别方法 | |
CN110532920B (zh) | 基于FaceNet方法的小数量数据集人脸识别方法 | |
CN106682598B (zh) | 一种基于级联回归的多姿态的人脸特征点检测方法 | |
Zhou et al. | BOMSC-Net: Boundary optimization and multi-scale context awareness based building extraction from high-resolution remote sensing imagery | |
Zhang et al. | Deep hierarchical guidance and regularization learning for end-to-end depth estimation | |
CN111462120B (zh) | 一种基于语义分割模型缺陷检测方法、装置、介质及设备 | |
CN105138998B (zh) | 基于视角自适应子空间学习算法的行人重识别方法及系统 | |
CN111652273B (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
Li et al. | Hierarchical semantic parsing for object pose estimation in densely cluttered scenes | |
CN111652836A (zh) | 一种基于聚类算法和神经网络的多尺度目标检测方法 | |
CN115311502A (zh) | 基于多尺度双流架构的遥感图像小样本场景分类方法 | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 | |
CN110287798B (zh) | 基于特征模块化和上下文融合的矢量网络行人检测方法 | |
CN117237623B (zh) | 一种无人机遥感图像语义分割方法及系统 | |
CN113705731A (zh) | 一种基于孪生网络的端到端图像模板匹配方法 | |
CN113628261A (zh) | 一种电力巡检场景下的红外与可见光图像配准方法 | |
Fan et al. | Hcpvf: Hierarchical cascaded point-voxel fusion for 3d object detection | |
CN117437691A (zh) | 一种基于轻量化网络的实时多人异常行为识别方法及系统 | |
CN111339342B (zh) | 一种基于角度三元中心损失的三维模型检索方法 | |
CN110992301A (zh) | 一种气体轮廓识别方法 | |
CN116071570A (zh) | 一种室内场景下的3d目标检测方法 | |
CN113139540B (zh) | 背板检测方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20211126 |
|
WD01 | Invention patent application deemed withdrawn after publication |