CN114429555A

CN114429555A - 由粗到细的图像稠密匹配方法、系统、设备及存储介质

Info

Publication number: CN114429555A
Application number: CN202210064631.4A
Authority: CN
Inventors: 王子磊; 宋文龙
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-05-03

Abstract

本发明公开了一种由粗到细的图像稠密匹配方法、系统、设备及存储介质，粗匹配时，使用RANSAC对源图像和目标图像之间的候选稀疏对进行拟合得到单应性估计矩阵，进行全局配准完成对象的粗略定位，克服因尺度、旋转以及视角等几何变换差异引起的匹配不准确问题；粗匹配后的图像，通过光流估计网络生成可匹配区域的光流场预测，完成对象细节的匹配，克服颜色、外观以及纹理不同带来的影响。上述由粗到细的图像稠密匹配方案具有较好的泛化能力，不仅能解决弱纹理、无纹理、重复纹理、大视差、大前景干扰图像对的稠密匹配问题，而且在类内差异较大以及不同模态的待配准图像对上都能够达到像素级对齐，充分证明了而本发明方法具有很好的应用前景和应用价值。

Description

由粗到细的图像稠密匹配方法、系统、设备及存储介质

技术领域

本发明涉及图像稠密匹配技术领域，尤其涉及一种由粗到细的图像稠密匹配方法、系统、设备及存储介质。

背景技术

图像匹配技术作为计算机视觉的重要方向之一，其目的在于快速准确地建立相似对象或者场景之间的对应关系，将已知图像的信息通过估计的对应关系转移到新图像上。这样不仅可以直接获取新图像的各类信息，而且还能辅助其他视觉任务的执行。

根据匹配方式，图像匹配技术大致可被分为图像特征点匹配和图像稠密匹配两类。图像特征点匹配先提取图像中的特征点，然后在另一张图中寻求匹配的对应点，以此来建立两张图之间的对应关系。由于图像特征点匹配仅能够估计图像之间的整体相似关系，而无法确定局部的对应关系，因此很难将已知图像的信息转移到新图像中。为了获取更加精确的对应关系，图像稠密匹配应运而生。图像稠密匹配主要目的是建立图像之间的像素级匹配关系，寻求源图像中每个像素在目标图像中的对应像素，从而将已知图像的属性转移到新的图像上。

在已有的图像稠密匹配方法中，专利《一种适合变形图像的稠密匹配方法》(公开号CN106023230A)在人工提取匹配特征点对的基础上，将多项式纠正和坐标对应关系保存机制用于变形图像的稠密匹配，该方法的人工成本较高且鲁棒性较差，限制了图像匹配技术的应用；专利《一种基于稀疏匹配与图像边缘的稠密匹配方法与系统》(公开号CN106548482A)结合边缘检测得到的边缘图像和稀疏匹配得到的特征点视差值来进行图像匹配，其在弱纹理区域无法精确寻找到像素匹配点，且细节匹配效果较差；专利《一种基于非刚性稠密匹配的图像光流估计方法及系统》(公开号CN108986150A)将两帧图像进行稠密块匹配，通过计算图像间非刚性稠密运动场以及变分光流来预测对象的运动信息，时间和空间消耗较大，且对真实场景中大视差、大位移图像对的泛化能力较差。

上述已有的图像稠密匹配方法存在很多亟待解决的问题：1)如何在大尺度空间变换的情况下准确地计算图像间的稠密匹配关系；2)如何有效地感知对象的结构信息从而提高鲁棒性；3)如何在图像细节上得到较好的表现效果；4)如何克服语义鸿沟，在内容、灰度、纹理等方面存在较大差异的不同域图像上实现像素级匹配。因此，设计一套的技术方案来提高图像稠密匹配的准确性和鲁棒性具有重要的实用价值和现实意义。

发明内容

本发明的目的是提供一种由粗到细的图像稠密匹配方法、系统、设备及存储介质，能够实现不同尺度、不同角度、不同场景下的图像稠密匹配，正确地估计图像中每个像素的对应关系，提升图像稠密匹配的鲁棒性和泛化能力。

本发明的目的是通过以下技术方案实现的：

一种由粗到细的图像稠密匹配方法，其特征在于，包括：

全局配准阶段：通过随机抽样一致算法对源图像与目标图像的多尺度的特征匹配点对进行处理，利用处理得到的单应性估计矩阵对所述源图像进行变换，获得变换后的源图像；

像素匹配阶段：通过光流估计网络预测变换后的源图像与所述目标图像的光流场，利用所述光流场对变换后的源图像进行光流映射，实现图像稠密匹配。

一种由粗到细的图像稠密匹配系统，基于前述方法实现，该系统包括：

全局配准的粗匹配模块，应用于全局配准阶段，通过随机抽样一致算法对源图像与目标图像的多尺度的特征匹配点对进行处理，利用处理得到的单应性估计矩阵对所述源图像进行变换，获得变换后的源图像；

像素匹配的细对齐模块，应用于像素匹配阶段，通过光流估计网络预测变换后的源图像与所述目标图像的光流场，利用所述光流场对变换后的源图像进行光流映射，实现图像稠密匹配。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，采用粗匹配到细对齐的分层匹配策略来估计光流场，克服几何变换无法进行像素对齐以及光流配准无法解决大位移的局限性问题，使得稠密匹配更加准确和鲁棒；具体地，粗匹配时，使用RANSAC(随机抽样一致算法)对源图像和目标图像之间的候选稀疏对进行拟合得到单应性估计矩阵，进行全局配准完成对象的粗略定位，克服因尺度、旋转以及视角等几何变换差异引起的匹配不准确问题；给定两个粗略对齐后的图像，通过光流估计网络生成可匹配区域的光流场预测，完成对象细节的匹配，克服颜色、外观以及纹理不同带来的影响。上述由粗到细的图像稠密匹配方案具有较好的泛化能力，不仅能解决弱纹理、无纹理、重复纹理、大视差、大前景干扰图像对的稠密匹配问题，而且在类内差异较大以及不同模态的待配准图像对上都能够达到像素级对齐，充分证明了本发明方法具有很好的应用前景和应用价值。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种由粗到细的图像稠密匹配方法的处理流程图；

图2为本发明实施例提供的一种由粗到细的图像稠密匹配整体流程示意图；

图3为本发明实施例提供的一种由粗到细的图像稠密匹配训练过程图；

图4为本发明实施例提供的一种由粗到细的图像稠密匹配训练数据集插图；

图5为本发明实施例提供的一种由粗到细的图像稠密匹配结果示意图；

图6为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等)，应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的一种由粗到细的图像稠密匹配方案进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

实施例一

本发明实施例提供一种由粗到细的图像稠密匹配方法，它解决不同尺度、不同角度、不同场景下的图像稠密匹配问题，正确地估计图像中每个像素的对应关系，提升模型的鲁棒性和泛化能力。该方法主要包括两个阶段：

1)全局配准阶段：通过随机抽样一致算法(RANSAC)对源图像与目标图像的多尺度的特征匹配点对进行处理，利用处理得到的单应性估计矩阵对所述源图像进行变换，获得变换后的源图像。

2)像素匹配阶段：通过光流估计网络预测变换后的源图像与所述目标图像的光流场(即两张图像间每个像素的相对位移)，利用所述光流场对变换后的源图像进行光流映射，实现图像稠密匹配。

本发明实施例中，为了保证图像稠密匹配效果，光流估计网络以端到端的方式训练，训练时通过自监督训练来优化扭曲源图像像素点与目标图像之间的结构相似度度量和图像一致性，能够在不依赖亮度恒定假设的情况下将对齐细化到像素级；同时，为了加快模型收敛以及对图像的对齐效果进行像素级衡量，利用匹配度掩码作为重建损失和一致性损失的像素级权重，匹配度掩码主要对图像的对齐效果进行像素级度量，并且作为未对齐像素点的权重。训练完毕后，像素匹配阶段，直接利用像素级对齐变换光流场对变换后的源图像进行光流映射(如双线性插值算法)，建立源图像和目标图像之间像素级的对应关系，从而完成图像稠密匹配。

本发明实施例中，光流场为矩阵形式数据，其尺寸与源图像和目标图像相同，光流场中每一位置元素值表示变换后的源图像与目标图像相应位置像素的相对位移量。

如图1所示，展示了一种由粗到细的图像稠密匹配方法的处理流程。

为了便于理解，下面针对上述两个阶段的优选实施方式，以及模型训练过程做详细的介绍。

一、全局配准。

本发明实施例中，利用卷积神经网络构建源图像I_s和目标图像I_t的特征矩阵，为了更好的将局部信息和全局信息进行有效的融合，固定源图像I_s和目标图像I_t的纵横比进行多尺度的缩放，按多个不同尺度提取特征并进行维度变换；将变换维度后的多个尺度特征进行拼接得到特征矩阵，对特征矩阵进行点积后得到行列值均为最大的索引值，即特征匹配点对。

之后，利用随机抽样一致算法(RANSAC)得到单应性估计变换矩阵后对源图像进行几何变换，将变换后的源图像I_s′和目标图像I_t一起输入到光流网络进行细对齐。

二、像素匹配。

总体流程可以描述为：利用光流估计网络预测的变换后的源图像与所述目标图像的光流场，利用光流场对变换后的源图像进行光流映射，建立源图像和目标图像之间像素级的对应关系，从而完成图像稠密匹配。

具体来说：像素匹配阶段包括光流估计与光流映射两部分，光流估计计算两张有相对位移的图像间每个像素的相对位移，光流映射则使用光流将待配准图像中源图像映射向目标图像完成细对齐。

1)光流估计。

在光流估计中为了较好整合图像对间的特征图信息，计算一个相似张量量化描述两组特征间的相关关系：变换后的源图像I_s′与目标图像I_t分别经过一个全卷积层进行特征提取，得到相应的特征映射，变换后的源图像I_s′的特征映射记为f_s，目标图像I_t的特征映射记为f_t；对特征映射f_s与f_t进行归一化，得到归一化后的特征映射f_s′与f_t′；将归一化后的特征映射f_s′中每个位置的向量f_s′(x′，y′)与归一化后的特征映射f_t′中D＝2k+1领域内的向量f_t′(x，y)做点积，得到相似张量，尺寸为w×h×(2k+1)²；其中，k为一个系数，用来保证领域D(即D＊D范围)为奇数，w与h分别为特征映射的宽与高，(x，y)为目标图像I_t中像素的位置坐标，(x′，y′)为变换后的源图像I_s′中相应像素的位置坐标；所述相似张量分别经过全卷积预测网络的两个分支得到光流场和匹配度掩码。训练与使用时的流程相同，区别在于，使用时不再需要匹配度掩码。

2)光流映射。

训练与使用时的光流映射方式相同，都利用光流场对全局配准得到变换后的源图像进行光流映射，建立源图像和目标图像之间像素级的对应关系。

通过前述光流估计部分的介绍可知，同一像素在变换后的源图像I_s′与目标图像I_t的位置坐标是不同的，依次为(x′，y′)、(x，y)，因此，通过利用光流场将变换后的源图像I_s′中像素位置坐标由(x′，y′)映射至(x，y)，同时，最初输入的源图像与目标图像的尺寸相同，因此，(x′，y′)与(x，y)取值区间完全相同。光流映射表示为：

(x，y)＝F_s→t(x′，y′)

通过上式在变换后的源图像I_s′中寻找与目标图像I_t中的像素对应的像素(位置坐标为(x′，y′))，并映射到与目标图像I_t对齐的位置(x，y)；上式中，F_s→t表示光流映射函数利用光流场F将变换后的源图像I_s′逐像素移动至目标图像I_t相应像素的位置，同一像素在光流映射后的源图像

与目标图像I_t的位置坐标相同，因此，可统一表示为(x，y)。

如图2所示，展示了由粗到细的图像稠密匹配整体流程，图2中CNN为深度神经网络，H表示单应性估计矩阵，全局配准的粗匹配模块执行全局配准阶段的流程，像素匹配的细对齐模块执行像素匹配阶段的流程。

三、模型训练。

本发明实施例中，模型主要是指实现图像稠密匹配的网络模型，称为图像稠密匹配模型，主要包括全局配准阶段使用的卷积神经网络，以及像素匹配阶段使用的光流估计网络，二者都属于深度神经网络。

本发明实施例中，卷积神经网络可以利用在ImageNet数据上预训练好的ResNet-50网络实现，通过预训练好的ResNet-50网络的conv4层来直接获取对应特征，而且无需进行训练更新网络的模型参数。也即模型训练，主要针对光流估计网络进行。

本发明实施例中，损失函数联合重建损失和图像一致性损失作为无监督损失函数对光流估计网络进行训练，图3展示了主要的训练过程。光流估计网络以端到端的方式训练，输入为通过全局配准的两张图像，即变换后的源图像与目标图像，输出为两张图像的光流场，通过光流映射将源图像向目标图像对齐得到配准结果

为了使网络模型更快更好地收敛，引入衡量图像像素级对齐效果的匹配度掩码M_t(x，y)＝M_t→s(x，y)M_s→t(x′，y′)作为损失函数的权重值，匹配度掩码是与图像像素结构相同的矩阵，通过计算变换后的源图像与目标图像相似度得到，其中，M_s→t(x′，y′)表示变换后的源图像I_s′到目标图像I_t的匹配度，M_t→s(x，y)表示目标图像I_t到变换后的源图像I_s′的匹配度，匹配度越接近1表示像素对齐效果越好。

本发明实施例中，损失函数计算两张图像像素匹配后的重建损失和图像一致性损失。

1)所述重建损失使得两张图像的亮度差最小并且惩罚光流的突变，表示为：

上式最小化配准后两图像的亮度差和惩罚光流的突变来确保图像对的一致性，

表示光流映射后的源图像

与目标图像I_t的结构相似性，(x，y)表示像素的位置坐标，SSIM为范围-1到1的结构相似性指标，当两张图像相等时，SSIM的值为1。

2)图像一致性损失用于使局部平滑而保持图像结构对齐的边缘，表示为：

其中，||.||₂表示L2范数。

3)损失函数为综合上述两部分损失，表示为：

其中，α₁为图像一致性损失

的权重。

利用上述损失函数

优化光流估计网络的参数，优化流程可参照常规技术实现，本发明不做赘述。

本发明实施例上述方案，采用粗匹配到细对齐的分层匹配策略来估计光流场，克服几何变换无法进行像素对齐以及光流配准无法解决大位移的局限性问题，使得稠密匹配更加准确和鲁棒；具体地，粗匹配时，使用RANSAC(随机抽样一致算法)对源图像和目标图像之间的候选稀疏对进行拟合得到单应性估计矩阵，进行全局配准完成对象的粗略定位，克服因尺度、旋转以及视角等几何变换差异引起的匹配不准确问题；给定两个粗略对齐后的图像，通过光流估计网络生成可匹配区域的光流场预测，完成对象细节的匹配，克服颜色、外观以及纹理不同带来的影响。上述由粗到细的图像稠密匹配方案具有较好的泛化能力，不仅能解决弱纹理、无纹理、重复纹理、大视差、大前景干扰图像对的稠密匹配问题，而且在类内差异较大以及不同模态的待配准图像对上都能够达到像素级对齐，充分证明了本发明方法具有很好的应用前景和应用价值。

基于上述的介绍说明，下面做一个综合说明，下述综合说明包含了数据集构建、图像稠密匹配方法、模型训练、模型使用四大部分。值得注意的是，下述综合说明中所涉及的图像内容、尺寸、各项网络参数、训练时设定的各项参数等均为举例。

1、数据集构建。

由于整个图像稠密匹配模型只需要训练光流估计网络，而光流估计方法需要满足小位移假设，即局部光流值不应过大，因此利用完成全局配准阶段的待配准图像对的粗略定位。通过设置匹配特征点对数的阈值，若待配准图像对经过全局配准阶段的特征提取和特征匹配后的匹配特征点高于该阈值，则将其进行几何变换后作为光流估计网络的训练集和验证集，否则将其舍弃。

作为示例，待配准图像对来自一个从可变移动视频中获得的图像拼接数据集UDIS-D，通过提取不同间隔时间的视频帧，得到了不同重叠率(位移大小)的图像对，如图4的(b)部分所示，为不同重叠率的图像对示例；而且这些视频并不是由绕光心旋转的摄像机拍摄的，拍摄的场景也远不是平面结构，这意味着该数据集包含了不同程度的视差，如图4的(c)部分所示，为不同视差的图像对示例。此外，该图像拼接数据集包括室内、室外、夜晚、黑暗、下雪、缩放等可变场景，如图4的(a)部分所示，为可变场景的图像对示例。阈值可设置为100，共得到10440对训练集和1106对验证集，本发明涉及的卷积神经网络都是基于三维数据的，因此无需在维度上改变原始的图像。因为图像间的灰度分布是参差不一的，所以本发明对图像进行了归一化处理，对图像中的灰度值进行线性变换，将图像灰度值映射到区间[0，1]内。

2、图像稠密匹配方法。

整体流程还可参见图1，图像预处理主要将源图像和目标图像按一定最小尺寸进行缩放后送入卷积神经网络进行不同尺度下采样得到特征矩阵，尺度大的特征包含了图像的全局信息描述，而尺度小的特征则包含图像细节特征的描述，结合这些特征可以更好地进行图像对间的特征点匹配。再利用经典的随机抽样一致算法(RANSAC)对一组对应特征点进行分析，拟合得到待配准图像对之间的几何变换矩阵，最后通过插值算法将源图像映射到目标图像完成全局配准得到粗匹配图像对。

作为示例，使用在ImageNet数据上预训练好的ResNet-50网络的conv4层作为下采样网络，最小尺寸为480，不同尺度比例系数为[2.0，1.66，1.33，1.0，0.83，0.66，0.5]，下采样倍数为16，几何变换矩阵为单应性估计矩阵，插值算法为双线性插值。

光流估计网络接收两张存在相对位移的粗匹配图像对作为输入，首先通过四个卷积块(全卷积层)进行特征提取，每个卷积块包含卷积层、批归一化层和Relu激活函数，将归一化的特征向量进行点积运算后得到的相似张量送入全卷积预测网络，得到一定下采样倍数的稠密光流场。

作为示例，特征提取的卷积块类似于ResNet-18的conv3特征提取器，不同点在于将网络的第一个7×7卷积核替换为不带步长的3×3卷积核，为了尽量减少空间分辨率在网络中的缺失，输出的特征图是输入图像分辨率的1/8，全卷积网络由三个卷积块和一个卷积层组成。

3、稠密匹配模型训练。

如图3所示，源图像和目标图像经过稠密匹配模型后得到两幅图像的变换光流场(即待配准图像间每个像素的相对位移)，再通过光流映射得到两张配准的图像

和I_t，无监督损失函数不使用任何真值标签，直接计算两张配准图像间的重建损失和图像一致性损失，最后利用损失函数通过链式法则向前逐层求导，迭代更新稠密匹配模型中网络层的参数。其中，图像重建损失以最小化配准后两图像的亮度差和惩罚光流的突变来确保图像对的结构相似性，一致性损失以使局部平滑而保持图像结构对齐的边缘。

利用构建好的数据集，使用深度学习框架，设置相应超参数，通过反向传播算法和梯度下降策略使损失函数值下降、模型收敛，最终得到训练好的图像稠密匹配模型。

作为示例，网络模型的损失函数分为两部分，即图像重建损失

和图像一致性损失

总损失函数为

其中，α₁是图像一致性损失对应的权重，参数设置为1，光流映射中采用双线性插值法进行上采样，网络的优化方法选择随机梯度下降法，学习率大小为1e-4，优化器为Adam，权重衰减系数设置为1e-5，共训练200个epoch。

4、图像稠密匹配模型使用。

将构建好的源图像和目标图像送入训练好的图像稠密匹配模型中，分别得到待配准图像对的单应性估计矩阵和稠密变换光流场来进行全局配准和像素匹配，此过程无需使用像素匹配的细对齐模块中的匹配度掩码M_t(x，y)。

为了更好的验证本发明方法的泛化能力和应用前景，在UDIS-D数据集训练模型的基础上对多个真实复杂场景的图像匹配数据集进行微调，在微调模型上得到对应场景测试集的可视化结果。

作为示例，在内容、灰度、纹理等方面存在较大差异的跨域图像数据集上进行模型微调和正向推理得到图像稠密匹配的实验结果，如图5所示，为了很好地展示该发明方法的整体流程和各模块效果，图5中的从左至右，每一列依次对应于源图像、目标图像、全局配准的粗匹配图像对融合，像素匹配的细对齐图像对融合，原始输入的未匹配图像对融合的可视化结果，其中图像对的融合方式为两张图像各按0.5权重的像素加权。

实施例二

本发明还提供一种由粗到细的图像稠密匹配系统，其主要基于前述实施例一提供的方法实现，参见图1与图2，该系统主要包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

此外，系统中上述两个模块所涉及的相关技术细节在前述实施例一中已经做了详细介绍，故不再赘述。

实施例三

本发明还提供一种处理设备，如图6所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器(Random Access Memory，RAM)，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种由粗到细的图像稠密匹配方法，其特征在于，包括：

2.根据权利要求1所述的一种由粗到细的图像稠密匹配方法，其特征在于，通过随机抽样一致算法对源图像与目标图像的多尺度的特征匹配点对进行处理之前，还包括多尺度特征提取与特征匹配的步骤，相关步骤包括：

利用卷积神经网络构建源图像I_s和目标图像I_t的特征矩阵，固定源图像I_s和目标图像I_t的纵横比进行多尺度的缩放，按多个不同尺度提取特征并进行维度变换；

将变换维度后的多个尺度特征进行拼接得到特征矩阵，对特征矩阵进行点积后得到行列值均为最大的索引值，即特征匹配点对。

3.根据权利要求1所述的一种由粗到细的图像稠密匹配方法，其特征在于，训练时，像素匹配阶段包括：利用光流估计网络预测变换后的源图像与所述目标图像的光流场与匹配度掩码，利用所述光流场对变换后的源图像进行光流映射；所述匹配度掩码通过计算变换后的源图像与目标图像相似度得到，用于对图像的对齐效果进行像素级度量，并且作为未对齐像素点的权重，参与损失函数的计算。

4.根据权利要求3所述的一种由粗到细的图像稠密匹配方法，其特征在于，所述利用光流估计网络预测变换后的源图像与所述目标图像的光流场和匹配度掩码的步骤包括：

变换后的变换后的源图像I_s′与目标图像I_t分别经过一个全卷积层进行特征提取，得到相应的特征映射，变换后的源图像I_s′的特征映射记为f_s，目标图像I_t的特征映射记为f_t；

对特征映射f_s与f_t进行归一化，得到归一化后的特征映射f_s′与f_t′；将归一化后的特征映射f_s′中每个位置的向量f_s′(x′，y′)与归一化后的特征映射f_t′中D＝2k+1领域内的向量f_t′(x，y)做点积，得到相似张量；其中，k为一个系数，用来保证领域D为奇数；(x，y)为目标图像I_t中像素的位置坐标，(x′，y′)为变换后的源图像I_s′中相应像素的位置坐标；

所述相似张量分别经过全卷积预测网络的两个分支得到光流场和匹配度掩码。

5.根据权利要求1所述的一种由粗到细的图像稠密匹配方法，其特征在于，利用所述光流场对变换后的源图像进行光流映射表示为：

(x，y)＝F_s→t(x′，y′)

同一像素在变换后的源图像I_s′与目标图像I_t的位置坐标不同，依次记为(x′，y′)、(x，y)，通过上式在变换后的源图像I_s′中寻找与目标图像I_t中的像素对应的像素，并映射到与目标图像I_t对应像素的位置坐标(x，y)；上式中，F_s→t表示光流映射函数利用光流场F将变换后的源图像I_s′逐像素移动至目标图像I_t相应像素的位置。

6.根据权利要求1或3所述的一种由粗到细的图像稠密匹配方法，其特征在于，所述光流估计网络以端到端的方式训练，输入为通过全局配准的两张图像，即变换后的源图像与目标图像，输出为两张图像的光流场与匹配度掩码；损失函数计算两张图像像素匹配后的重建损失和图像一致性损失；所述重建损失使得两张图像的亮度差最小并且惩罚光流的突变，图像一致性用于保持图像结构对齐的边缘；所述损失函数作为无监督损失函数对光流估计网络进行训练。

7.根据权利要求6所述的一种由粗到细的图像稠密匹配方法，其特征在于，所述损失函数表示为：