CN113283525B

CN113283525B - 一种基于深度学习的图像匹配方法

Info

Publication number: CN113283525B
Application number: CN202110629267.7A
Authority: CN
Inventors: 郑健青; 黄保茹
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2022-07-26
Anticipated expiration: 2041-06-07
Also published as: CN113283525A

Abstract

本发明涉及一种基于深度学习的图像匹配方法，是通过搭建一个包括特征提取模块、特征融合模块和特征匹配模块的深度学习模型，融合其中的不同分辨率特征得到高分辨率的融合特征图，结合带有空间间隔连接结构的神经网络层模型的精细化匹配与重采样迭代，实现在不增加计算复杂度情况下增加匹配的搜索范围，并基于按需设定的损失函数对学习模型参数进行优化，最终输出优化后的模型参数及其匹配结果。由于保留了匹配过程中高分辨率像素的自由度，故更易得到存在尺度变换物体的像素对应关系，从而确保每一个所估计的像素对应关系的可靠性，既可辅助不同层数中像素对应关系的融合，也可基于邻域的匹配结果对未能正确找到对应关系的像素插值或调整。

Description

一种基于深度学习的图像匹配方法

技术领域

本发明涉及图像数据处理技术领域，特别是一种基于深度学习的图像匹配方法。

背景技术

近些年来，随着科技水平的日益提高，各个产业自动化智能化的格局日趋形成，随之而来的人工智能技术蓬勃发展，其主要目的是令机器联合计算机像人类一样感知、理解与行动。其中视觉感知作为最主要的感知技术之一，在此次人工智能热潮下占据着举足轻重、推动着计算机视觉技术迅猛发展的重要地位。同时，如何理解多个视觉目标之间的区别与联系，并根据特定的需求对感知的信息作相应的处理已然成为整个计算机视觉领域的研究热点之一，而图像匹配作为其中的一个基础而关键的任务，连接着具有相同或相似属性的两个图像目标，是低层视觉通往高层视觉的纽带，是实现信息识别与整合以及从低维图像恢复高维结构的有效途径。

图像匹配是一项基础的视觉处理技术，对图像的每个像素或区域进行特征提取，并查找对应关系，是众多视觉任务的首要步骤，如图像检索(ImageRetrieval)、图像拼接(Image Mosaic)、多模图像融合(Multimodal Image Fusion)、图像配准(ImageRegistration)、相机位姿估计(Camera Pose Estimation)、视觉里程计(VisualOdometry)、三维重建(3D Reconstruction)、运动恢复结构(Structure from Motion)、即时定位与地图构建(Simultaneous Localization and Mapping)等。据美国自动成像协会(Automated Imaging Association)统计，40％以上的视觉感知应用依赖于图像特征匹配的精度与效率，包括计算机视觉、模式识别、遥感、军事安防、医学诊断与手术导航等各个领域。

图像匹配的误差会在后续处理环节中逐渐累积从而严重制约最终视觉任务的有效实施，因此在许多基于匹配的精准估计应用上有着极高的要求。通常，模板图像来自不同时间、不同视角和不同传感器，成像条件的多样性不可避免地会造成图像的匹配难度，况且图像本身的局部形变或畸变，以及图像之间的复杂变换等因素同样会对特征匹配问题造成严重阻碍。除此之外，如何减少因噪声、畸变、重复图像内容以及遮挡等问题造成的错误匹配也是特征匹配中亟需解决的问题。此外，图像匹配的稠密度也会直接影响后续视觉任务，如基于立体匹配的三维重建中的结构细节，而图像特征匹配问题，本质上是一个复杂组合优化难题，稠密特征点的匹配过程通常需要特征数量的平方计算复杂度，况且离群点和噪声的引入将大大增加问题的求解难度，因而在建模求解过程中，如何减少解的搜索空间，降低问题的计算复杂度也是特征匹配的重要难题。

图像匹配方法包括图像特征提取及特征匹配，其中传统特征匹配方法如随机样本一致性(RanSaC)算法需要迭代运算，而在稠密特征点情况时会严重增加时间成本，因此通常针对稀疏特征点进行匹配。深度学习通常可以实现快速的特征点匹配，但是受限于高分辨率大范围搜索空间所带来的计算成本，现有的深度学习方法也无法实现存在大幅度或非参数化坐标变换的两个图像之间的快速稠密匹配。

一些匹配方法利用参数化坐标变换、观测物体、场景、拍摄过程的先验条件来限制搜索范围，如专利CN102654902利用不同尺度图像金字塔由上向下传递的平移旋转信息实现快速匹配；如2018年ECCV会议所收录的MVSNet采用的代价体(Cost Volume)实现立体匹配，不仅需要基于单应性的相机标定还限制了视差范围；如专利CN201180057099.3同样基于立体视图投影中的单应性关系来限制搜索范围。但是这些先验信息的获取同样增加了成本或限制了使用场景。

因此目前的稠密的图像匹配方法通常基于两张图像之间的像素对应关系在邻域内的一致性约束，利用低分辨率尺度大范围的匹配对高分辨率尺度的匹配限制搜索范围，并通过高分辨率尺度匹配精细化匹配结果，如基于金字塔分层的Horn–Schunck光流法对两帧图像的像素对应关系匹配，然而该方法1)在应用过程中需要迭代优化，因此耗时很高，2)假设光度不变并通过该假设迭代优化，而没有考虑像素的语义特征，导致对光源、观测对象材质、观测对象纹理特征敏感，3)图像内密集的较小物体的大范围运动会破坏邻域内一致性假设，因此在低分辨率尺度光流图中密集的多个小物体的不同方向运动难以被完全表达，进而导致像素对应关系在匹配过程中丢失，4)对于不同分辨率尺度之间的匹配效果不理想；Philipp Fischer等人于2015年ICCV会议上发表的FlowNet方法，基于编码器-解码器的卷积神经网络中额外包含对两张图像之间逐像素计算特征向量的相关系数，而Eddy Ilg等于2016年CVPR会议上提出了FlowNet2，通过堆叠多个基于编码器-解码器结构的卷积神经网络构建一个端到端学习的光流估计模型，其中每个编码器-解码器网络所预测的光流对图像进行变换后输入下一个编码器-解码器网络进行更精细化的匹配，而第一个编码器-解码器网络沿用上述FlowNet结构，实现对图像全局范围内的像素对应关系搜索，这两种基于深度学习的方法较好解决了之前传统图像匹配方法中的问题，但是其中：1)两张图像之间逐像素计算相关系数需要原图像像素数量平方的计算复杂度，2)所堆叠的编码器解码器网络输入并用于预测接近原图分辨率的光流，使得该卷积神经网络对于较大空间距离的像素对应关系搜索所需的较大有效感受野(Receptive Field)需要较大的计算量，因而受限于硬件设备难以运用于高清、高维的图像匹配。

综上所述，现有的图像匹配方法中普遍存在计算成本与匹配精度、可观测对象运动自由度及匹配像素稠密程度无法兼顾的情况，从实用性和经济性角度考虑，均欠理想。

发明内容

本发明的目的是针对现有的图像匹配方面所存在的问题，提供一种基于深度学习的图像匹配方法。

本发明的一种基于深度学习的图像匹配方法，特征在于是通过搭建一个包括特征提取模块、特征融合模块和特征匹配模块的深度学习模型，提取并融合其中的不同分辨率特征、得到高分辨率的融合特征图，结合带有空间间隔连接结构的神经网络层、在保持低计算成本的同时调节搜索范围，并迭代进行由大搜索范围到小搜索范围的精细化匹配与重采样，再基于按需设定的损失函数对其中学习模型参数进行优化，最终输出优化后的模型参数及其匹配结果实现的，具体实施步骤如下：

步骤1.对任意输入的原分辨率图像，通过特征提取模块提取每个图像中多个分辨率尺度的一组特征向量，其中对应各个分辨率尺度的特征向量按图像顺序排列组成特征图，并从低分辨率到高分辨率从上到下组成特征图金字塔；

步骤2.通过特征融合模块对特征图金字塔中不同分辨率尺度特征融合，得到一组高分辨率的特征图，组成特征图方塔；

步骤3.通过特征匹配模块，对特征图方塔内的特征图匹配，获得其中模板图像，即待匹配图，到目标图像的像素对应关系，即匹配向量场，并通过该匹配结果应用于模板图像得到匹配后的重采样图；

步骤4.重复步骤1到步骤3，基于按需设定的损失函数，优化其中的模型参数；

步骤5.基于步骤4得到的模型参数，输出所预测的模板图与目标图之间的像素对应关系及重采样图，该模型可以保留并被使用于其他图像的匹配，也可以作为另外一轮训练的初始值；

其中：

所述的步骤1是通过对两个原图像迭代进行包括特征提取模块中下采样模块和上采样模块的操作实现的，具体包括：

步骤1-1.通过所述下采样模块提取当前分辨率图局部特征组成特征图；

步骤1-2.通过所述下采样模块对步骤1-1中得到的特征图下采样得到更低分辨率特征图，并指定更低分辨率特征图为当前分辨率特征图；

步骤1-3.重复步骤1-1到步骤1-2，直到达到设定的分辨率尺度图；

步骤1-4.通过所述上采样模块提取当前图像局部特征，并与之前下采样模块得到的同一分辨率特征图相加；

步骤1-5.通过所述上采样模块提取对当前特征图上采样得到更高分辨率特征图，并指定更高分辨率特征图为当前特征图；

步骤1-6.重复步骤1-4到步骤1-5，直到达到原图的分辨率尺度；

步骤1-7.将所述步骤1-4中得到的各个尺度的特征图从上到下，由低分辨率到高分辨率，组成特征图金字塔；

所述步骤2对特征图金字塔中不同分辨率尺度层融合，是通过进行上采样或插值、堆叠和卷积层操作得到的，其中：特征图金字塔的每一分辨率尺度层通过上采样或插值到最高分辨率尺度，与特征图金字塔中底层的最高分辨率尺度特征图在特征向量维度堆叠后卷积得到最高分辨率的特征图，并由上到下组成一个特征图方塔；

所述的步骤3是通过对两个图像的步骤2中得到的特征图方塔中由上向下迭代进行包括特征匹配模块中精细匹配模块、匹配融合模块和重采样模块的操作实现的，具体步骤如下：

步骤3-1.通过精细匹配模块，输入重采样特征图与目标特征图，采用带有空间间隔连接方式的神经网络层结构，如空洞卷积(dilated convolution或atrousconvolution)的深度学习算法拟合，输出得到所输入的重采样特征图与目标特征图之间的像素对应关系，即位移向量场，其中每个向量表达目标图的每个像素与重采样图中的空间坐标对应关系，所述空间间隔连接结构神经网络中的间隔大小按照初始搜索范围大小的需要进行初始化，重采样特征图初始设定为特征图方塔最上层的模板特征图；

步骤3-2.通过匹配融合模块，将步骤3-1所得到的重采样特征图与目标特征图之间位移向量场与在上一层所得到的模板特征图与目标特征图之间匹配向量场叠加融合，得到该层的模板特征图与目标特征图之间匹配向量场，其中每个向量表达目标图的每个像素与模板图中的空间坐标对应关系；

步骤3-3.通过重采样模块，基于步骤3-2中所得到的该层的匹配向量场对下一层模板特征图重采样得到重采样特征图，其中对于匹配向量场中所表达的空间坐标为非整数的情况，基于对模板图该坐标的邻近整数坐标的像素值插值得到对应重采样特征图中的像素值；

步骤3-4.在特征图方塔中由上到下重复步骤3-1到步骤3-3，并同时逐步减小步骤3-1中所述空间间隔连接结构神经网络中的间隔大小，如空洞卷积的空洞率(atrousrate)，直至获得精细化匹配后的模板图到目标图的匹配向量场。

此外：

所述深度学习模型中可以采用变形卷积层(deformable convolution)替代普通卷积层，实现特征提取、融合及匹配的计算过程中卷积核对于图像中物体几何结构的自适应建模，该方法由Jifeng Dai等人在2017年ICCV会议上发表。

所述步骤3中可以利用另外一个神经网络分支，基于像素之间对应关系、语义信息和结构信息拟合置信权重，来表达所述位移向量场中每个位移向量的可靠程度，并用于在所述的匹配融合模块中上一层匹配向量场与当前层位移向量场的融合运算过程中通过逐个元素相乘加权。

所述步骤4中损失函数表达式基于重采样图与目标图之间的相似度及其对应匹配的合理性，如匹配向量场光滑度，并利用图像边缘识别对每个位移向量的光滑度损失值加权。

所述步骤4中还通过随机生成的模拟空间变换应用于图像中得到模拟数据，并利用模拟空间变换中已知的像素对应关系对模型参数训练，以克服缺少训练数据的问题。

所述深度学习模型中，还可以通过搭建并训练一个额外的语义处理模块，用于对所述特征提取模块所生成的特征金字塔中每层像素的特定语义信号拟合或分类，为匹配过程加入被匹配对象物体的语义先验信息。

本发明的有益技术效果是：实现了对两张图像快速稠密的匹配，相比现有的图像匹配方法，该发明融合不同分辨率特征、结合带有空间间隔连接结构的神经网络层模型的精细化匹配与重采样迭代，在不增加计算复杂度情况下增加了匹配的搜索范围；相比于直接采用不同分辨率的基于特征图金字塔匹配方法，该发明融合不同分辨率特征的特征图方塔保留了匹配过程中高分辨率像素的自由度，同时也更容易得到存在尺度变换物体的像素对应关系；在匹配过程同时通过另一神经网络分支拟合匹配置信度权重，表达每一个所估计的像素对应关系的可靠性，既可以辅助不同层数中像素对应关系的融合，也可以对未能正确找到对应关系的像素基于邻域的匹配结果插值或调整；通过学习对语义信息的处理，为匹配过程加入被匹配对象物体的语义先验信息；通过自监督的端到端学习方法，使得模型在使用过程中可以自适应的调整模型参数。

附图说明

图1是本发明实施例的整体工作流程示意图；

图2是本发明实施例中特征提取模块的结构及工作流程示意图；

图3是本发明实施例中特征融合模块的结构及工作流程示意图；

图4是本发明实施例中特征匹配模块的结构及工作流程示意图；

图5是本发明实施例中精细匹配模块的结构及工作流程示意图；

图6是本发明实施例中匹配融合模块的结构及工作流程示意图；

图7是本发明实施例中一种包含语义处理模块方案的整体流程示意图；

图8是本发明实施例中语义处理模块的结构及工作流程示意图；

图中：

1.特征提取模块 11.下采样模块 12.上采样模块 2.特征融合模块

3.特征匹配模块 31.精细匹配模块 32.匹配融合模块 33.重采样模块

4.语义处理模块

具体实施方式

下面结合附图和典型实施例对本发明作进一步说明。

在图1到图6中，本发明的一种基于深度学习的图像匹配方法，是通过搭建一个包括特征提取模块1、特征融合模块2和特征匹配模块3的深度学习模型，通过提取并融合其中不同分辨率特征得到高分辨率的融合特征图，由大搜索范围到小搜索范围，由低计算密度到高计算密度的精细化匹配与重采样迭代，再通过按需设定的损失函数对其中学习模型参数进行优化、并输出优化后的模型参数及其匹配结果实现的，所述计算密度定义为在深度学习神经网络模型中每个像素对应到输入特征图搜索范围内像素连接数量，如图1所示，具体实施步骤如下：

步骤1.对任意输入的原分辨率图像，通过特征提取模块1提取每个图像中多个分辨率尺度的一组特征向量，其中对应各个分辨率尺度的特征向量按图像顺序排列组成特征图，并从低分辨率到高分辨率从上到下组成特征图金字塔：

其中I^s、I^t分别是模板与目标图，

是从低分辨率到高分辨率的模板特征图，

是从低分辨率到高分辨率的目标特征图，n表达特征图数量，

是表达特征提取模块1的映射，w^es、w^et分别是ε提取模板与目标图特征中的对应可训练模型参数，在本实例中设定共享参数，即w^es与w^et相等；

步骤2.通过特征融合模块2对特征图金字塔中不同分辨率尺度特征融合，得到一组高分辨率的特征图，组成特征图方塔：

是模板特征图方塔中从上到下的第k层模板特征图，

是目标特征图方塔中从上到下的第k层目标特征图，

是表达特征融合模块2的映射，

分别是

提取模板与目标图特征中的对应可训练模型参数；

步骤3.通过特征匹配模块3，对特征图方塔内的特征图匹配，获得其中模板图像，即待匹配图，到目标图像的像素对应关系，即匹配向量场，并通过该匹配结果应用于模板图像得到匹配后的重采样图，可以表达为：

其中φ_k是所估计的特征图方塔第k层的匹配向量场，φ₀设定为恒等变换，

是第k层的重采样特征图与目标特征图之间所估计的位移向量场，

代表匹配融合模块32中的映射，

与第k-1层的匹配向量场φ_k-1融合得到φ_k，

代表精细匹配模块31，利用模板与目标特征图像素之间的相似度或差异度拟合计算对应的位移向量场，

代表重采样模块33，基于所计算的匹配向量场对特征图重采样；进一步地，通过以下公式计算每个像素的位移向量对应置信度权重：

其中θ_k是模板特征图与目标特征图之间匹配向量场φ_k对应的匹配置信权重，即第k层目标特征图像素在模板特征图匹配结果的置信度，

是位移向量

的每个位移向量的置信权重，并利用该置信度权重对其中无法找到对应关系或找到不合理对应关系的像素进行插值或修正：

其中

及

是第k层的可训练参数，

是特征融合模块2中计算该层重采样特征图与目标特征图之间位移向量场的置信权重，

是特征融合模块2中不同层之间的匹配置信权重融合映射。

步骤4.重复步骤1到步骤3，基于重采样图像与目标图像的相似性及变换连续性的损失函数优化模型中的可训练参数，直到满足停止训练条件，该过程可以表达为：

其中在本实例中可训练参数为w＝[w^es,w^et,w^fs,w^ft,w^a,w^r,w^c,w^t]，损失函数表达式为：

其中

是基于匹配重采样后的图像相似度损失项，

是匹配向量场的光滑度损失项，其中基于图像边缘识别对每个像素间的损失值加权：

其中SSIM是图像结构相似度函数，‖·‖₂是欧几里得(L2)范数，只在单模态图像之间的匹配中使用，

是一阶梯度差分算子，可以用索贝尔(sobel)卷积核实现；

步骤5.基于步骤4得到的模型参数，输出所预测的模板图与目标图之间的像素对应关系及重采样图，保留该模型，以备用于其他图像的匹配，或作为另外一轮训练的初始值；

其中：

所述的步骤1是通过对两个原图像迭代进行包括特征提取模块1中下采样模块11和上采样模块12的操作实现的，如图2所示，具体包括：

步骤1-1.通过所述下采样模块11提取当前图像局部特征；

步骤1-2.通过所述下采样模块11提取对当前图下采样得到更低分辨率特征图，并指定更低分辨率特征图为当前特征图；

步骤1-4.通过所述上采样模块12提取当前图像局部特征，并与之前得到的同一分辨率特征图相加；

步骤1-5.通过所述上采样模块12提取对当前图上采样得到更高分辨率特征图，并指定更高分辨率特征图为当前特征图；

步骤1-6.重复步骤1-4到步骤1-5，直到达到原图的分辨率尺度；

步骤1-7.将所述的步骤1-4得到的各个尺度的特征图组成特征图金字塔；

在本实例中所述特征提取模块1中的特征图金字塔有五层，是通过搭建一个卷积神经网络实现的，如图2所示，采用了常见的编码器-解码器网络结构，包含五个下采样模块11组成的编码器和五个上采样模块12组成的解码器，五个上采样模块输出的特征图按顺序堆叠组成所述特征图金字塔。

所述的下采样模块11包括两个3×3(二维图像)或3×3×3(三维图像)卷积层和两个激活层交替排列后加入一个池化下采样层，用以提取每个图像更加抽象的特征图；所述的上采样模块12包括一个反卷积上采样层后接两对3×3或3×3×3卷积层加激活层，用来融合和输出各个分辨率尺度的特征图组成特征图金字塔；其中每个下采样后的特征图通过跃接连接串联至对应尺度的反卷积上采样层之前用以处理结构信息并恢复特征图的分辨率；其中激活层采用线性整流函数(ReLU)。

所述步骤2对特征图金字塔中不同分辨率尺度层融合，在本实例中如图3所示，是通过进行上采样或插值、堆叠和卷积层操作得到的，其中：特征图金字塔的每一分辨率尺度层通过上采样或插值到最高分辨率尺度，与特征图金字塔中底层的最高分辨率尺度特征图在特征向量维度堆叠后卷积，组成一个特征图方塔；

其中本实例中通过变形卷积层(deformable convolution)替代步骤2中的卷积层，实现计算过程中卷积核对于图像中物体几何结构的自适应建模，该方法由Jifeng Dai等人在2017年ICCV会议上发表。

所述的步骤3，在本实例中如图4所示，是通过对两个图像的步骤2中得到的特征图方塔中由上向下迭代进行包括特征匹配模块3中精细匹配模块31、匹配融合模块32和重采样模块33的操作实现的，具体步骤如下：

步骤3-1.通过精细匹配模块31，输入重采样特征图与目标特征图，采用包括空洞卷积(dilated convolution或atrous convolution)的深度学习算法拟合，输出得到所输入的重采样特征图与目标特征图之间的像素对应关系，即位移向量场，其中每个向量表达目标图的每个像素与重采样图中的空间坐标对应关系，空洞卷积的空洞率(atrous rate)按照初始搜索范围大小的需要进行初始化，重采样特征图初始设定为特征图方塔最上层的模板特征图；

如图5所示，本实例中采用卷积神经网络，将重采样特征图与目标特征图在特征向量维度堆叠，并输入该卷积网络，接连通过三对3×3或3×3×3的空洞卷积层加激活层得到一个共有的特征图，其中卷积的输出的特征通道数量即特征向量维度的长度设定为二倍于3的图像维数次方，对于二维图像等于18，三维图像等于54，之后通过一个3×3或3×3×3卷积层加激活层加3×3或3×3×3卷积层拟合位移向量场，通过一个3×3或3×3×3卷积层加激活层拟合目标特征图每个像素对应的置信权重；

步骤3-2.通过匹配融合模块32，将步骤3-1所得到的重采样特征图与目标特征图之间位移向量场与在上一层所得到的模板特征图与目标特征图之间匹配向量场叠加融合，得到该层的模板特征图与目标特征图之间匹配向量场，其中每个向量表达目标图的每个像素与模板图中的空间坐标对应关系；如图6所示，计算方式为：将该层分辨率的精细匹配模块31所估计的重采样与目标特征图之间的位移向量场及其置信度权重加权后的向量场、上一层匹配融合模块32中所得到的模板与目标特征图之间的匹配向量场及其匹配置信权重加权后的向量场在特征向量维度堆叠，并输入一个3×3或3×3×3卷积层，得到该分辨率下模板到目标图的匹配向量场，这一过程中置信度权重能够起到筛选出可靠控制点的作用，且该控制点数量和质量不会因为将图像分块而受到窗口大小与位置的影响；另外所述匹配融合模块32也将该层分辨率的精细匹配模块31所估计的重采样与目标特征图之间的位移向量的置信度权重与上一层的模板与目标特征图之间匹配向量场的置信权重堆叠，并输入一个3×3卷积层，计算得到该分辨率下模板到目标图的匹配结果对应的置信权重，即匹配置信权重。

步骤3-3.通过重采样模块33，基于步骤3-2中所得到的该层的匹配向量场对下一层模板特征图重采样得到重采样特征图，其中对于匹配向量场中所表达的空间坐标为非整数的情况，基于对模板图该坐标的邻近整数坐标的像素值插值得到对应重采样特征图中的像素值；该重采样方法通过2015年NeuIPS会议上Max Jaderberg发表的SpatialTransformer Network中的采样函数实现。

步骤3-4.在特征图方塔中由上到下重复步骤3-1到步骤3-3，并同时逐步减小步骤3-1中所述空洞卷积的空洞率，直至获得精细化匹配后的模板图到目标图的匹配向量场。

除了利用所输入的真实图像在基于匹配结果重采样后的相似性进行训练外，还可以预先通过随机生成的空间变换应用于图像中得到模拟数据，并利用已知的空间变换，即位移向量场，对模型参数训练，克服缺少训练数据的问题，其中模板图与目标图写作：

其中φ^aug是用于数据增强的模拟位移场，φ′是模拟的模板图到目标图的像素位移向量场，φ^aug与φ′的生成包括将全范围的随机旋转、八分之一图像大小的平移表达为位移向量场后，与若干个位置均匀随机分布、大小高斯随机分布的位移向量在通过高斯滤波器卷积后的形变场相叠加得到一个随机模拟的匹配向量场；对应该学习方法，步骤4中的损失函数可以写为：

即匹配向量场模型预测值与模拟值之间的欧几里得(L2)范数，其中‖·‖₀为L0范数，即其中大于0的元素数量。

另外，还可以基于步骤1中的特征提取模块1所生成的特征金字塔，通过语义处理模块4对像素的特定语义信号拟合或分类，为匹配过程加入被匹配对象物体的语义先验信息；图7是包含语义处理模块4的一种方案的整体流程图，其中的语义处理模块如图8所示，通过两个3×3或3×3×3卷积层、一个激活层估计对应像素语义；在本实施例中语义信号采用像素所属物体对应类别信号，即图像的分割结果，并在步骤4中的损失函数加入额外的语义分割损失项：

其中S^s和S^t分别是模板图和目标图的像素对应物体类别标记，ce是交叉熵函数，σ是softmax函数，

是语义处理模块4中每层的映射函数，

和

分别是第k层模板图和特征图的可训练参数，在图8中即是卷积层的卷积核参数，

是第k层对应的下采样函数，本实施例中采用平均下采样函数；

以上所述为本发明的一个实施例，但本发明范围并不局限于此，不仅可用于图像匹配任务，还可用于其他关于估计多个图像之间像素或区域对应关系的任务，如图像配准、拼接、融合、相机位姿估计、深度估计及立体匹配等，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明专利构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种基于深度学习的图像匹配方法，其特征在于是通过搭建一个包括特征提取模块(1)、特征融合模块(2)和特征匹配模块(3)的深度学习模型，提取并融合其中的不同分辨率特征、得到高分辨率的融合特征图，结合带有空间间隔连接结构的神经网络层、在保持低计算成本的同时调节搜索范围，迭代进行由大搜索范围到小搜索范围的精细化匹配与重采样，并基于按需设定的损失函数对其中的学习模型参数进行优化，最终输出优化后的模型参数及其匹配结果实现的，具体实施步骤如下：

步骤1.对任意输入的原分辨率图像，通过特征提取模块(1)提取每个图像中多个分辨率尺度的一组特征向量，其中对应各个分辨率尺度的特征向量按图像顺序排列组成特征图，并从低分辨率到高分辨率从上到下组成特征图金字塔；

步骤2.通过特征融合模块(2)对特征图金字塔中不同分辨率尺度特征融合，得到一组高分辨率的特征图，组成特征图方塔；

步骤3.通过特征匹配模块(3)，对特征图方塔内的特征图匹配，获得其中模板图像，即待匹配图，到目标图像的像素对应关系，即匹配向量场，并通过该匹配结果应用于模板图像得到匹配后的重采样图；

步骤4.重复步骤1到步骤3，并基于按需设定的损失函数，优化其中的模型参数；

其中：

所述的步骤1是通过对两个原图像迭代进行包括特征提取模块(1)中下采样模块(11)和上采样模块(12)的操作实现的，具体包括：

步骤1-1.通过所述下采样模块(11)提取当前分辨率图局部特征组成特征图；

步骤1-2.通过所述下采样模块(11)对步骤1-1中得到的特征图下采样得到更低分辨率特征图，并指定更低分辨率特征图为当前分辨率特征图；

步骤1-4.通过所述上采样模块(12)提取当前图像局部特征，并与之前下采样模块(11)得到的同一分辨率特征图相加；

步骤1-5.通过所述上采样模块(12)提取对当前特征图上采样得到更高分辨率特征图，并指定更高分辨率特征图为当前特征图；

步骤1-6.重复步骤1-4到步骤1-5，直到达到原图的分辨率尺度；

所述步骤2中对特征图金字塔中不同分辨率尺度层融合，是通过进行上采样或插值、堆叠和卷积层操作得到的，其中：所述特征图金字塔的每一分辨率尺度层通过上采样或插值到最高分辨率尺度，与特征图金字塔中底层的最高分辨率尺度特征图在特征向量维度堆叠后卷积得到最高分辨率的特征图，并由上到下组成一个特征图方塔；

所述的步骤3是通过对两个图像的步骤2中得到的特征图方塔中由上向下迭代进行包括特征匹配模块(3)中精细匹配模块(31)、匹配融合模块(32)和重采样模块(33)的操作实现的，具体步骤如下：

步骤3-1.通过精细匹配模块(31)，输入重采样特征图与目标特征图，采用带有空间间隔连接方式的神经网络层结构，如空洞卷积(dilated convolution或atrousconvolution)的深度学习算法拟合，输出得到所输入的重采样特征图与目标特征图之间的像素对应关系，即位移向量场，其中每个向量表达目标图的每个像素与重采样图中的空间坐标对应关系，所述空间间隔连接结构神经网络中的间隔大小按照初始搜索范围大小的需要进行初始化，重采样特征图初始设定为特征图方塔最上层的模板特征图；

步骤3-2.通过匹配融合模块(32)，将步骤3-1所得到的重采样特征图与目标特征图之间位移向量场与在上一层所得到的模板特征图与目标特征图之间匹配向量场叠加融合，得到该层的模板特征图与目标特征图之间匹配向量场，其中每个向量表达目标图的每个像素与模板图中的空间坐标对应关系；

步骤3-3.通过重采样模块(33)，基于步骤3-2中所得到的该层的匹配向量场对下一层模板特征图重采样得到重采样特征图，其中对于匹配向量场中所表达的空间坐标为非整数的情况，基于对模板图该坐标的邻近整数坐标的像素值插值得到对应重采样特征图中的像素值；

2.根据权利要求1所述的一种基于深度学习的图像匹配方法，其特征在于所述深度学习模型中可以采用变形卷积层(deformable convolution)替代普通卷积层，实现特征提取、融合及匹配的计算过程中卷积核对于图像中物体几何结构的自适应建模。

3.根据权利要求1所述的一种基于深度学习的图像匹配方法，其特征在于所述步骤3中可以利用另外一个神经网络分支，基于像素之间对应关系、语义信息和结构信息拟合置信权重，来表达所述位移向量场中每个位移向量的可靠程度，并用于在所述的匹配融合模块中上一层匹配向量场与当前层位移向量场的融合运算过程中通过逐个元素相乘加权。

4.根据权利要求1所述的一种基于深度学习的图像匹配方法，其特征在于所述步骤4中损失函数表达式基于重采样图与目标图之间的相似度及其对应匹配的合理性，如匹配向量场光滑度，并利用图像边缘识别对每个位移向量的光滑度损失值加权。

5.根据权利要求1所述的一种基于深度学习的图像匹配方法，其特征在于所述步骤4中还通过随机生成的模拟空间变换应用于图像中得到模拟数据，并利用模拟空间变换中已知的像素对应关系对模型参数训练，以克服缺少训练数据的问题。

6.根据权利要求1所述的一种基于深度学习的图像匹配方法，其特征在于所述深度学习模型中，还可以通过搭建并训练一个额外的语义处理模块(4)，用于对所述特征提取模块(1)所生成的特征金字塔中每层像素的特定语义信号拟合或分类，为匹配过程加入被匹配对象物体的语义先验信息。