CN116664892A

CN116664892A - 基于交叉注意与可形变卷积的多时相遥感图像配准方法

Info

Publication number: CN116664892A
Application number: CN202310690058.2A
Authority: CN
Inventors: 符颖; 陈培艳; 何兵; 胡金蓉; 文武; 吴锡
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-08-29

Abstract

本发明涉及一种基于交叉注意与可形变卷积的多时相遥感图像配准方法，首先，基于主干网络VGG16引入可形变卷积构建可形变卷积块DeVgg以适应不同形状、尺度大小等发生明显几何形变的遥感图像，增强了算法的鲁棒性；其次，将主干网络提取出的特征输入到交叉注意力模块中，用以更好地捕获不同背景变化下的影像的空间对应关系，在保留特征图核心信息的同时，能够高效地识别需要关注的特征信息，进而提高整体的匹配准确性。在特征匹配阶段，为了解决特征点匹配质量不佳问题，使用暴力匹配BFMatcher算法进行粗配准，再结合自适应的约束阈值，筛选出优质匹配点。

Description

基于交叉注意与可形变卷积的多时相遥感图像配准方法

技术领域

本发明涉及遥感图像处理领域，尤其涉及一种基于交叉注意与可形变卷积的多时相遥感图像配准方法。

背景技术

传统的图像配准方法可以分为两类：（1）基于特征的方法；（2）基于区域的方法。对于基于特征的方法，一般分为三种单独的阶段: 特征检测、特征描述和特征匹配。在特征检测阶段，需从每幅图像中检测出像角点这样的显著点作为兴趣点，然后在这些角点周围提取局部描述符。通过最近邻域搜索或者更复杂的匹配算法可找到两者的对应关系从而完成配准。尺度不变特征变化是一种流行且已广泛应用的基于特征的配准方法，但匹配时间长且容易造成细节丢失。基于SIFT的优越性，目前已提出了许多改进的版本来增强其特征提取、描述符和匹配的性能，如RootSIFT、PCA-SIFT、RSIFT等。常见的点特征提取方法还有Harris算子、SURF、ORB和FAST算法。但其手工设计的描述符无法准确的应对非光线性光照、阴影和遮挡所带来的影响，对具有复杂变化的遥感图像匹配效果不佳。为了解决具有复杂背景变化图像在配准中的难以匹配的问题，有学者提出了一种基于特征提取的暹罗卷积网络。

基于区域的图像配准也被称为模板匹配，即找到输入图像与模板图像中最相似的部分。一幅图像中不同的地方拥有不同的相关性区域指标。首先，在输入图像中选择适当大小的模板窗口，将模板图像在输入图像内从指定位置开始滑动，利用极大相关性指标确定待配准图像中的相似区域。Ye等人利用图像间的几何特征构建相似性测量，该算法可以有效抵抗图像间非线性辐射带来的差异，突破了传统相似性测度依赖于灰度信息的局限性，能获得较高的正确匹配率。Liu设计出一种利用孪生网络的多模态配准方法，进一步的提高了多模态图像的配准精度。

在完成特征粗匹配后，常用RANSAC算法消除配准中的错误点剔除。但其内点的筛选依靠自设定的参数阈值，而不同类型的图像存在不同的差异，使得阈值的设定尤为重要。MSAC是RANSAC的修改版本，它使用中位数代替均值作为剔除阈值，提高了算法对异常值和数据中其他噪声源的鲁棒性。MLESAC也是在RANSAC的基础之上进行修改，它使用最大似然来估计模型的参数，提供了比RANSAC更稳健和准确的解决方案，尤其是在处理的数据中存在大量的噪声。为了更好的解决这一问题，本文提出了一种自适应阈值的算法，能更好的筛选出优质的匹配对。

在图像配准方面，由神经网络提取关键点和制作特征描述符的方法日渐成熟。LoFTR、D2-net、SuperGlue、Patch2Pix等方法被相继提出。LoFTR方法借鉴Transformer使用了自注意层和互信息层来获取两幅图像的特征描述符，能够在低纹理、运动模糊或图片模式重复的区域产生高质量的匹配结果。D2-net方法相较传统的先提取关键点再制作描述符的方法，设计出同时提取关键点和描述子的策略，使得特征模块和描述模块是高度耦合的，能提取到鲁棒性高的描述子。SuperGlue方法结合特征检测器和匹配器作为一个完整的pipeline，将检测和匹配合并到一个网络里，利用Transformer的注意力机制来自适应增强特征的全局信息，提高匹配精度.然而，注意力机制也带来了计算需求的增加。Patch2Pix方法提出了一种新的角度来学习对应关系，它从匹配网络中直接优化特征，而不需要明确定义特征点，但由于其依赖补丁的原理，可能会导致全局上下文信息的丢失，同时Patch2Pix对所选特定超参数敏感，需要仔细调整。D2-net所用的训练数据是在近30多万个深度信息所获取到的像素级对应关系的图像对，在具有较大光照差异、角度变化的图像中能获得很好的提取效果，但也带来了更大的计算量，难以实现配准精度与配准实时性的统一。

但现有技术存在以下不足：

1、在对具有复杂的背景变化遥感图像中提取共同特征时能力不足

传统的CNN具有局部感知域，这意味着它们在提取特征时只关注输入图像的局部区域。这可能导致在寻找全局对应关系时，这些网络无法捕捉到更大范围的上下文信息。

2、对发生了形变的图像提取特征的能力不足

在多时相遥感图像中，由于光照和视角差异的影响，同一地物可能表现出不同的变化信息。现有的卷积神经网络方法往往是采用固定的几何结构模块，难以有效的应用于发生了形变的图像。

3、使用RANSAC算法需要人为设定一个固定阈值，难以有效的剔除误匹配点

在完成特征粗匹配后，常用RANSAC算法消除配准中的错误点剔除。但其内点的筛选依靠自设定的参数阈值，而不同类型的图像存在不同的差异，使得阈值的设定尤为重要。而传统的RANSAC的阈值设定往往是凭借作者经验，难以适应性的应用于具有复杂背景变化的图像。

发明内容

针对现有技术之不足，本发明提出一种基于交叉注意与可形变卷积的多时相遥感图像配准方法，所述配准方法首先构建多时相遥感图像配准模型，所述配准模型包括特征提取模块和特征匹配模块，通过交叉注意力机制加强局部特征与全局特征的空间对应关系，并利用可形变卷积块提高了形变特征的表达能力，在特征提取阶段采用自适应性的阈值约束，以得到优质匹配点，所述配准方法具体包括：

步骤1：准备待配准的遥感配准图像对，所述图像对包括待配准影像和参考影像；

步骤2：构建端到端多时相遥感配准模型，通过特征提取模块获得多时相遥感图像特征，再通过特征匹配模块完成粗匹配、错误点剔除和精匹配操作，具体为：

步骤21：所述特征提取模块包括交叉注意力模块和可形变卷积块，将参考影像与待配准影像分别输入到前三个堆叠的可形变卷积块中，得到所述参考影像的第一特征图F₁和所述待配准影像的第二特征图F₂；

步骤22：在第三个可形变卷积块后加入交叉注意力模块，将参考影像的第一特征图F₁和待配准影像的第二特征图F₂分别输入到交叉注意力模块进行特征融合，实现加强全局特征与局部特征的空间对应关系，输出经过特征融合后的参考影像的第三特征图F₃和待配准影像的第四特征图F₄，交叉注意力模块的操作具体为：

步骤221：在提取参考影像的特征时，交叉注意力模块将参考影像的第一特征图F₁作为主要输入，待配准影像的第二特征图F₂作为跨模态输入；

步骤222：通过线性变换将第一特征图和第二特征图转换为特征向量，采用点积操作将两个特征向量逐元素相乘计算两者之间的相似度，再根据相似度计算结果计算出注意力权重分布，通过Softmax函数进行归一化后得到特征矩阵Y，再根据注意力权重分布将所述特征矩阵Y与主要输入转换的特征向量进行加权求和，最后进行特征融合输出参考影像的第三特征图F₃；

步骤223：在提取待配准影像的特征时，交叉注意力模块将待配准影像的第二特征图F₂作为主要输入，将参考影像的第一特征图作为跨模态输入，经过与步骤222相同的操作后，输出待配准影像的第四特征图F₄；

步骤23：在第四个可形变卷积模块中，将步骤22得到的融合特征第三特征图F₃和待配准影像的第四特征图F₄分别作为输入，通过可形变卷积操作，对输入的融合特征进行迭代采样，采用平均池化，将特征图的大小调整为输入图像的1/4，得到参考影像的最终特征图F_out1和待配准影像的最终特征图F_out2；

步骤3：参考影像的最终特征图F_out1和待配准影像的最终特征图F_out2作为输入，所述特征匹配模块对输入的特征图进行特征点筛选和制作描述符，所述特征匹配模块包括粗匹配模块和精匹配模块；

步骤31：所述粗匹配模块由特征点初步筛选和暴力匹配算法两个阶段完成，通过在通道方向和局部平面内采用最大筛选策略得到参考影像初步的第一匹配点集I₁和待配准影像初步的第二匹配点集I₂与特征描述符，再使用暴力匹配算法计算参考影像和待配准影像的特征描述符之间的欧氏距离完成粗匹配；

步骤32：所述精匹配模块通过自适应阈值模块对第一匹配点集I₁和第二匹配点集I₂进行过滤筛选，实现精匹配，具体为：

步骤321：对所述第一匹配点集I₁和所述第二匹配点集I₂计算差值平均值集合；

步骤322：从步骤31过滤筛选后的第一匹配点集和第二匹配点集中分别选取10对具有对应关系的特征点建立约束方程，使其能够准确地描述两个视图之间的透视变换关系，从而约束单应性矩阵的参数估计；

步骤323：对获取的差值平均值集合进行降序排序，剔除前5%和后10%的数据，将剩余的数据求和取平均作为自适应阈值模块的内点筛选约束阈值，当每对待匹配的特征点特征距离小于约束阈值时，便将其作为内点，反之将其剔除；

步骤324：当内部点数不再发生变化时，更新参数模型并结束迭代；

步骤325：经过以上特征点错误剔除后，输出最终影像匹配结果。

根据一种优选的实施方式，可形变卷积块的计算可分为两个阶段：

第一阶段是通过在输入特征图上引入偏移量，使得卷积核能够在当前位置附近进行灵活的采样；

第二阶段则根据预测出的偏移量使用双线插值法进行采样，利用可形变卷积动态地调整感受野的采样位置，最终输出的特征图与输入特征图像具有相同的维度。

本发明的有益效果在于：

1、本发明设计的交叉注意力模块能更有效地捕捉待配准图像和参考图像之间的局部与全局对应关系，模型更有效地关注并提取图像中的关键特征，同时增强特征表示。通过实现特征互动和融合，可以保留特征图核心信息的同时，能够高效地识别需要关注的特征信息，进而提高整体的匹配准确性。

2、本发明的可形变卷积网络，能够对发生了形变的图像进行了可形变卷积，能够更为准确的提取出在多时相遥感图像中发生了几何形变的特征，增强了算法的鲁棒性。

3、针对现有的RANSAC算法固定阈值存在的不足，本发明设计出了一种自适应性的阈值筛选方法，自适应阈值能够更好的适应不同图像之间的查以型，有效的保留了优质的匹配点，能够根据图像自身更有针对性的进行误匹配剔除增强了RANSAC算法的稳定性。

附图说明

图1是本发明多时相遥感图像配准模型的结构示意图；

图2是本发明可形变卷积与传统卷积的效果对比图；

图3是在Google Earth数据集上的实验效果对比图；

图4是在Hpatches数据集上的实验效果对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

下面结合附图进行详细说明。

本发明的多时相遥感图像配准模型CMRM：CNN Multitemporal Remote SensingMatching。

本发明的可形变卷积块DeVgg：Deformable VGG16。

本发明的RANSAC是指随机抽样一致性算法。

针对现有技术存在的不足，本发明提出一种基于交叉注意与可形变卷积的多时相遥感图像配准方法，配准方法首先构建多时相遥感图像配准模型。图1是本发明多时相遥感图像配准网络CMRM的结构示意图。如图1所示，配准模型包括特征提取模块和特征匹配模块，通过交叉注意力机制加强局部特征与全局特征的空间对应关系，并利用可形变卷积块提高了形变特征的表达能力，在特征提取阶段采用自适应性的阈值约束，以得到优质匹配点，配准方法具体包括：

步骤1：准备待配准的遥感配准图像对，图像对包括待配准影像和参考影像；

步骤21：特征提取模块包括交叉注意力模块和可形变卷积块，将参考影像与待配准影像分别输入到前三个堆叠的可形变卷积块中，得到参考影像的第一特征图F₁和待配准影像的第二特征图F₂；

主干网络为VGG16，分别在VGG16的第一、二、三和四层的池化层后面引入可形变卷积，构建四个可形变卷积块DeVgg。

可形变卷积块具体为：可形变卷积是一种改进的卷积操作，通过引入偏移量来使传统卷积核在每个采样点处能够进行自适应的位置采样。

可形变卷积块的计算可分为两个阶段：

第一阶段是通过在输入特征图上引入偏移量，使得卷积核能够在当前位置附近进行灵活的采样，第二阶段则根据预测出的偏移量使用双线插值法进行采样，利用可形变卷积动态地调整感受野的采样位置，最终输出的特征图与输入特征图像具有相同的维度。

在多时相遥感影像中，拍摄物往往会发生较大的形变差异，因此，可形变卷积块相比普通卷积更能提取出有效的特征信息。

图2是本发明可形变卷积与传统卷积的效果对比图，从左往右依次是原始图像、输入图像与第一卷积层至第五卷积层的特征提取可视化图，图2（a）是可形变卷积提取特征的效果图，图2（b）是普通卷积提取特征效果图。其相较普通卷积的对比效果如图2所示，可以从图2中看出可形变卷积能更好的反映出图像的基本轮廓特征，也更好的铺捉到目标的细节和局部特征，

步骤22：在第三个可形变卷积块后加入交叉注意力模块，将参考影像的第一特征图F₁和待配准影像的第二特征图F₂分别输入到交叉注意力模块进行特征融合，实现加强全局特征与局部特征的空间对应关系，输出经过特征融合后的参考影像的第三特征图F₃和待配准影像的第四特征图F₄；

为了避免特征图信息的丢失，增强图像特征的不变表达能力，将第三个可行变卷积块中的池化层的步长由2改为1，对输入特征图进行迭代采样，将最大池化改为平均池化。同时，特征图的大小可以调整为输入图像的1/4，定位精度也可以提高一倍。

交叉注意力模块的操作具体为：

步骤222：通过线性变换将第一特征图和第二特征图转换为特征向量，采用点积操作将两个特征向量逐元素相乘计算两者之间的相似度，再根据相似度计算结果计算出注意力权重分布，通过Softmax函数进行归一化后得到特征矩阵Y，再根据注意力权重分布将特征矩阵Y与主要输入转换的特征向量进行加权求和，最后进行特征融合输出参考影像的第三特征图F₃；

这样可以综合整个主要特征映射与跨模态特征映射位置之间的非局部相关性，并保留主要特征映射在待计算的特征位置的原始信息；

本发明去掉了VGG16的第五层（Conv5_1+Conv5_2+Conv5_3+Pool5）和VGG16末端的全连接层。考虑到网络在卷积层中大量的卷积运算会产生一定数量的负值输出，而经过ReLU的激活函数后，这些负值会被替换为0，这样会导致大量特征信息的损失，进而影响特征检测器。因此，在本发明所提配准网络中，将所有卷积层中的ReLU激活函数改为Mish激活函数；

步骤3：参考影像的最终特征图F_out1和待配准影像的最终特征图F_out2作为输入，特征匹配模块对输入的特征图进行特征点筛选和制作描述符，特征匹配模块包括粗匹配模块和精匹配模块；

步骤31：粗匹配模块由特征点初步筛选和暴力匹配算法两个阶段完成，通过在通道方向和局部平面内采用最大筛选策略得到参考影像初步的第一匹配点集I₁和待配准影像初步的第二匹配点集I₂与特征描述符，再使用暴力匹配算法BFMatcher计算参考影像和待配准影像的特征描述符之间的欧氏距离完成粗匹配；

如果直接使用最终特征图F_out1、F_out2中的全部像素点作为特征进行粗匹配，特征则会过于密集和不够显著，因此首先需要由粗匹配模块进行特征筛选。

步骤32：精匹配模块通过自适应阈值模块对第一匹配点集I₁和第二匹配点集I₂进行过滤筛选，实现精匹配，具体为：

步骤321：对第一匹配点集I₁和第二匹配点集I₂计算差值平均值集合；差值平均值集合用于后续计算内点筛选约束阈值，保留优质匹配点。

在粗匹配后，不可避免会存在一些错误匹配，因此需要结合自适应阈值方法对第一匹配点集I₁、和第二匹配点集I₂进行过滤筛选，实现精匹配。

一种具体的实施方式，假设第一匹配点集I₁中的每一个特征点为，在特征点集I₂中选取其欧氏距离最小的两个点分别记为/>和/>，待配准影像中所提取出来的特征点总个数为n，则获得其差值平均值集合G_D，计算方法如数学表达式如下所示；

单应性矩阵可以在不同尺度、不同视角的影像进行对齐，便于特征匹配。

步骤324：当内部点数不再发生变化时，更新参数模型并结束迭代；通过步骤323中提取自适应阈值能够好的适应不同影像之间的差异性，这有效地保留了优质的匹配点，并增强了RANSAC算法的稳定性。

为了进一步说明本发明所提方法的有效性，采用客观评价标准正确匹配点数量(NCM)进行对比，它被广泛应用于其他匹配任务，以及特征点个数、匹配点均方根误差(RMSE)、匹配消耗时间(MT)以及平均匹配精度MMA(Mean Matching Accuracy，MMA)作为评价指标。其中，RMSE越小，表示测量的精度越高。

本发明在三组遥感图像上进行实验，与现有几种采用的配准方法进行对比，分别在MRSI数据集、Google Earth和HPatches数据集上与一些经典的图像配准算法对比，具体结果如下所示。在MRSI数据集上与方法1RIFT方法、方法2CoFSM方法、进行对比，实验结果如表1所示。

表1在MRSI数据集上平均正确匹配点数量值对比

根据分析表1可知，在方法1RIFT方法中所有图像对的平均NCM为412.52，平均标准差为5.294，RIFT方法具有较高的匹配精度和鲁棒性，但计算复杂度较高，需要大量的计算资源和时间。方法2CoFSM方法中所有图像对的平均NCM为498.52，平均标准差为2.956，在这六组实验数据中匹配效果优异，这是因为CoFSM方法通过将图像配准问题转化为一个组合优化问题使之具有较高的配准精度和计算效率，但对输入图像的光照和噪声等干扰较为敏感。CMRM所有图像对的平均NCM为486.83，平均标准差为3.118，本发明方法在多时相影像与地图光学影像上表现优异，但在深度光学和SAR光学数据集表现不理想，这是因为他们存在巨大的模态差异。

在Google Earth数据集上与方法1RIFT、方法3CFOG、方法4CMM-Net和方法5DELF算法进行对比，所选的五种方法都是基于局部特征的图像匹配优秀算法。其中RIFT方法和CFOG方法是近两年的多模态配准算法中具有代表性的算法，DELF方法和CMM-Net方法基于卷积神经网络，在背景杂乱、部分遮挡的配准任务中表现优异。结果如表2所示。

表2不同方法在Google Earth数据集上检测结果对比

通过分析表2可知，在此6组实验中，本发明CMRM算法均能匹配出一定正确值的匹配点，并且本发明CMRM所提取的特征点分布均匀，定位精准。CMRM的RMSE值平均小于其余4种配准方法，这说明在此实验中的配准效果好，图像之间的信息利用率高；RIFT方法和DELF方法都可以取得较多的匹配点，但是在存在较大的尺度变换影像中，RIFT方法的匹配性明显降低；CMM-Net方法在背景变化剧烈的影像中也能较好的发挥其能力，CFOG方法只取得了很少的匹配数量。由此说明，在以上的6种匹配算法中，CMRM算法在多时相配准中性能最优。

图3是本发明在Google Earth数据集上的实验效果对比图，如图3所示，展示了本发明配准模型的特征匹配能力。其中，图3第一行是RIFT方法的匹配结果，图3第二行是CFOG方法的匹配结果，图3第三行是本发明方法的匹配结果，图3第四行是DELF方法的匹配结果，图3第五行是CMM-Net方法的匹配结果。从图3中可以直观的看出，本发明均能匹配出一定正确值的匹配点，并且本发明方法所提取的特征点分布均匀，定位精准。从图3中可以看出，RIFT方法和DELF方法都可以取得较多的匹配点，但是在存在较大的尺度变换影像中，RIFT方法的匹配性明显降低；CMM-Net方法在背景变化剧烈的影像中也能较好的发挥其能力，CFOG只取得了很少的匹配数量。

为了证明本发明可形变卷积和交叉注意力的有益性，在HPatches数据集上进行消融实验验证，结果如表3和图4所示。

表3消融实验结果

在HPatches数据集中，将误差阈值为3-5时的平均匹配精度MMA作为评价指标，平均匹配精度MMA是考虑多个像素错误阈值的图像对中正确匹配的平均值。

从表3中可以看出，仅加入交叉注意力模块时，在数据集上较基线网络的平均匹配精度MMA分别提高了0.24、0.248和0.147，有效的验证了当添加了注意力模块时，网络对多时相遥感图像的特征之间的空间对应关系的表达能力有所提高；仅加入可变形卷积块DeVgg时，在特征的提取能力与配准能力上明显高于未加入可变形卷积块DeVgg，这验证了可变形卷积块DeVgg的有效性。主要原因在于训练过程中，训练数据具有明显的背景变化，使得网络所提取的特征具有稳健的表达性加强了形变的特征表达能力。通过结合交叉注意力和可变形卷积块，在公开数据集上较基线网络的平均匹配精度MMA值分别提升了0.251、0.254和0.214，验证了所提算法的有效性。

图4为消融实验效果对比图，图4（a）为加入交叉注意力模块和可形变卷积后的匹配结果，图4（b）为未加交叉注意力模块和可形变卷积后匹配结果。可以看出在同一场景下，在加入可形变卷积模块与交叉注意力模块后，特征匹配点数明显增加，原因是通过可形变卷积块，加强了网络对发生形变的特征提取能力。交叉注意力模块实现参考影像与待配准影像之间的信息交互和关联。本发明的多时遥感图像配准方法不仅能在多时相遥感影像配准任务中表现优异，且在地图光学、日夜这类图像上也能取得不错的表现。

需要注意的是，上述具体实施例是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白，本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims

1.基于交叉注意与可形变卷积的多时相遥感图像配准方法，其特征在于，所述配准方法首先构建多时相遥感图像配准模型，所述配准模型包括特征提取模块和特征匹配模块，通过交叉注意力机制加强局部特征与全局特征的空间对应关系，并利用可形变卷积块提高了形变特征的表达能力，在特征提取阶段采用自适应性的阈值约束，以得到优质匹配点，所述配准方法具体包括：

步骤31：所述粗匹配模块由特征点初步筛选和暴力匹配算法两个阶段完成，通过在通道方向和局部平面内采用最大筛选策略得到参考影像初步的第一匹配点集I₁、待配准影像初步的第二匹配点集I₂和特征描述符，再使用暴力匹配算法计算参考影像和待配准影像的特征描述符之间的欧氏距离完成粗匹配；

2.如权利要求1所述的遥感图像配准方法，其特征在于，可形变卷积块的计算可分为两个阶段：