CN115331029A

CN115331029A - 基于跨模态转换网络与最优传输理论的异源图像匹配方法

Info

Publication number: CN115331029A
Application number: CN202210998060.1A
Authority: CN
Inventors: 缑水平; 杨华; 姚瑶; 陈云志; 郭璋; 李晟; 毛莎莎
Original assignee: Xidian University; Hangzhou Vocational and Technical College
Current assignee: Xidian University; Hangzhou Vocational and Technical College
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2022-11-11
Anticipated expiration: 2042-08-19
Also published as: CN115331029B

Abstract

本发明公开了一种基于跨模态转换网络与最优传输理论的异源图像匹配方法，主要解决现有技术对于大尺寸异源图像对难以平衡匹配速度和精度的问题。其实现方案为：根据开源数据集构建训练集和测试集；构建相关图约束Segformer特征提取骨架；建立跨模态交叉注意力Transformer网络，并将其与特征提取骨架级联，构成跨模态转换匹配网络；利用训练集数据端到端地训练匹配网络；将测试集图像输入到训练好的匹配网络得到输出特征，根据输出特征计算测试图像的相似性矩阵，并使用最优传输优化该矩阵，优化后相似性矩阵中最大值点的坐标即为测试图像对的匹配点。本发明提高了异源图像匹配的准确率和匹配速度，可用于飞行器的辅助制导。

Description

基于跨模态转换网络与最优传输理论的异源图像匹配方法

技术领域

本发明属于计算机视觉图像处理技术领域，特别涉及一种异源图像的匹配方法，可用于飞行器的辅助制导。

背景技术

遥感信息随着技术的发展展现出多传感器、多模态、数据量大的特性，从海量的遥感图像中获取信息已经成为一项重要的信息渠道。不同的星载传感器能获取不同模态的遥感数据，传统可见光遥感系统获取的遥感图像采用被动式成像模式，接收太阳光照射到地表目标之后反射、散射的电磁辐射，语义清晰、直观，是最常用的遥感图像类型。但受限于被动式传感器，夜间及云雾遮挡的情况下光学遥感的性能将收到较大的影响。而随着合成孔径雷达SAR这一技术的不断发展，其在地理测绘、军事侦察等方面被广泛的应用。SAR相对于传统可见光波段的遥感技术而言，由于SAR使用主动式的传感器发射微波波段的辐射并接收回波，所以SAR具有全天时、全天候的观测能力，同时不受大气云层的影响。传统可见光遥感图像能弥补SAR图像语义不直观的问题，SAR能补充可见光传感器夜间的观测能力。不同模态的图像中包含有相同地物不同的电磁散射特征和几何空间信息，所以将异源的SAR与可见光图像进行结合对于实际应用具有很重要的意义。模板匹配是在给定的大尺寸图像中寻找某一小尺寸的图像的精确位置的图像处理技术，在众多场景中均有应用。而对于异源的图像的匹配而言，由于模态的差异，相同地物在不同的模态之中的显著程度是不同的；其次由于SAR成像方式，SAR图像本身还有大量的乘性噪声，两者共同增加了异源图像之间进行匹配的难度。

目前已有的多模态图像匹配方法主要分为传统方法和基于神经网络的方法。

对于传统方法，其主要分为两类：

其中一类传统方法直接利用图像的像素灰度信息，根据不同模态图像的灰度信息，以两幅图像之间灰度的归一化互相关NCC、互信息MI等作为相似度度量标准来寻找对应的匹配位置。Liang等人利用空间互信息法结合蚁群优化算法实现图像之间局部区域相似性度量；Patel等人为了提高基于互信息的匹配方法的速度，提出了一种基于最大似然估计的方法用于计算互信息。基于灰度的方法出发点简单，实现容易，但由于不同模态的图像中同一区域的灰度分布可能会存在较大的差异，因此这类方法并不能很好的适应多模态的图像之间的匹配。一方面，直接使用相似性度量准则需要适应图像灰度畸变造成的变化，另一方面需要准确区分不同对象之间的差异。这两个要求之间是有冲突的，灰度畸变造成的变化和对象间的差异无法通过灰度值区分，而且对于异源图像来说，图像间的灰度映射无法体现出稳定的规律性，所以有着很大的局限性；

另一类传统方法是基于人为手工设计的图像特征，在两幅图像中提取到特征描述子后，计算特征描述子的相似性，根据计算得到的相似性度量获取相似性最大的位置作为匹配位置。此类方法在同源图像上应用十分广泛，如应用非常广泛的尺度不变特征变换SIFT特征描述子。除此之外。众多学者开发了针对于异源图像的特征描述子，Ye等人提出了相位一致性直方图HOPC，该方法利用具有光照和对比度不变性的相位一致性模型构建几何结构特征描述子，基于该异源影像间的结构特征进行匹配。Xiang等人着眼于解决模态间的差异，使用哈里斯尺度空间的模态特定梯度算子，能较好的应对不同模态中同一区域辐射强度的差异带来的匹配误差。人为手工设计的特征描述子的提出具有较好的数理可解释性，在该描述子的假设前提下通常具有很高的性能，但实际应用场景中的情况复杂多变，假设的先决条件不一定能保证满足。尤其在地物场景本身较复杂的区域，图像的信息量更大，纹理细节等更加复杂外加成像中的噪声干扰等因素，共同造成了手工设计方法难以在实际的应用中发挥出理想的效果。

对于基于深度学习的匹配方法近年来取得了长足的进步。本质上而言，深度学习也是基于特征的方法，但与传统方法不同的是深度特征是在训练模型的过程中模型从大量的训练数据中抽象、提取出的特征，而非人为设计。基于深度学习可以实现端到端的训练、端到端的推理。同时由于深度模型强大的特征提取能力，提取到的深度特征通常比手工设计的特征更加符合实际的数据分布情况。Han等人提出了匹配网络MatchNet，该网络通过卷积神经网络提取特征，之后利用几个全连接层的连接，将输出的结果作为匹配程度的度量。Merkle等人提出了一种孪生网络结构，模板图与源图像之间的相对位移来判断匹配的位置。Mou等人将匹配定义为一个二元分类问题，并训练一个伪孪生网络来预测SAR和光学贴片之间的中心像素对应关系。Citak提出了使用SAR和光学视觉显著性图谱作为孪生匹配网络特征提取臂的注意机制。Wang等人利用自学习深度神经网络直接学习源图像和参考图像之间的映射，目的是应用该映射遥感图像配准。Hoffmann等人训练了一个全卷积网络FCN，以学习对于SAR和光学块对之间的小仿射变换不变的相似性度量。Ma等人提出了一种基于微调VGG16模型特征提取精确配准方法。

上述这些基于深度学习的匹配方法虽说大大提高了匹配的准确率，但这类方法的弊端在于：如果要找到模板图在源图像中的位置，就需要逐像素滑窗计算，通过判断每一对图像块是否匹配来找到匹配的位置，这种做法应用在大尺寸的图像上，不仅会大大增加匹配的时间，同时也难以区分正确匹配位置的图像块与正确位置周围邻域内相似的图像块之间的区别，造成像素级上的较大的误差。

发明内容

本发明的目的在于针对上述现有技术匹配精度和匹配速度上的不足，提出基于跨模态注意力与最优传输理论的异源图像匹配方法，以提升匹配速度，提高匹配准确率。

本发明的技术思路是：通过构建端到端的跨模态Transformer匹配网络，提高匹配速度，让可见光和SAR两个模态有更好的交互，并得到SAR图像和可见光图像的相似性度量；通过最优传输对匹配结果进行优化，提高匹配的准确率。

根据上述思路，本发明基于跨模态转换网络与最优传输理论的异源图像匹配方法的实现方案，包括如下：

1.基于跨模态转换网络与最优传输理论的异源图像匹配方法，其特征在于，包括：

(1)构建异源图像匹配的训练数据和测试数据：

(1a)从开源数据集OS Dataset中选择尺寸为512×512的图像对作为选用数据集，该数据集包含成对的已经完成配准的SAR和可见光图像；

(1b)将选用数据集每对图像中的可见光图像作为搜索图像，在每幅可见光对应的SAR图像中随机选择像素作为左上角坐标，剪裁出256×256的图像作为模板图像，并保存该左上角坐标作为该图像对的真实标签；

(1c)将成对的剪裁后的SAR图像和对应的可见光图像中80％的图像对作为训练集，20％的图像对作为测试集；

(2)构建跨模态Transformer匹配网络N1：

(2a)设置包含相关图约束的Segformer特征提取骨架；

(2b)建立包含跨模态交叉注意力的Transformer网络N0；

(2c)将包含相关图约束的Segformer特征提取骨架、包含跨模态交叉注意力的Transformer网络依次级联，组成跨模态Transformer匹配网络N1；

(3)利用训练数据和最优传输理论，使用Adam算法对匹配网络N1进行迭代训练，得到训练好的匹配网络N2；

(4)利用最优传输理论和训练好的匹配网络N2对测试集的图像对进行匹配。

本发明与现有技术相比，具有以下优点：

1.具有更高的准确率和更小的匹配误差

本发明通过构建基于Transformer的匹配网络模型，在Segformer网络结构中加入了相关图约束及跨模态注意力对搜索图中特征的重要性进行了约束，并进行了基于最优传输的匹配优化，提高了匹配的精度。

2.具有更快的匹配速度

本发明采用余弦相似度进行特征相似性度量，无需进行非常耗时的逐像素的互相关运算，并且整个网络进行端到端的推理，匹配时间与现有深度学习方法相比更少，提高了匹配速度。

3.更能适应不同的地物场景

本发明使用了基于注意力机制的特征提取能力强的Segformer作为特征提取骨架，面对复杂多变的地物场景，网络能提取到更有效的特征表示，并得到准确的匹配结果，提高了泛化能力。

附图说明

图1是本发明的实现流程图；

图2是本发明中构建添加相关图约束的Segformer特征提取骨架结构图；

图3是本发明中构建的跨模态注意力Tranformer网络结构图；

图4是用本发明和现有的八种算法分别在开源数据集OS Dataset中对一副城市区域图像上的SAR图像与可见光图像进行匹配的结果对比图；

图5是用本发明和现有的八种算法分别在开源数据集OS Dataset中对一副机场区域图像上的SAR图像与可见光图像进行匹配的结果对比图。

具体实施方式

下面结合附图对本发明的实施例和效果作进一步详细描述。

参照图1，本发明的实现步骤如下：

步骤1.构建异源图像匹配的训练数据和测试数据。

(1.1)从开源数据集OS Dataset中选择尺寸为512×512的图像对作为选用数据集，该数据集包含成对的已经完成配准的SAR和可见光图像；

(1.2)将选用数据集中每对图像中的可见光图像作为搜索图像，在每幅可见光图像对应的SAR图像中随机选择像素作为左上角坐标，剪裁出256×256的图像作为模板图像，并保存该左上角坐标作为该图像对的真实标签；

(1.3)将成对的剪裁后SAR图像和对应的可见光图像中80％的图像对作为训练集，20％的图像对作为测试集。

步骤2.构建跨模态Transformer匹配网络N1。

(2.1)构建包含相关图约束的Segformer特征提取骨架：

本步骤的具体实现是对现有的Segformer网络进行改进，该Segformer网络包含4个Transformer Block和两个多层感知机MLP；每个Transformer Block中包含N个高效自注意力模块Efficient Self-Attention和混合前馈神经网络Mix-FFN的级联结构，以及最后的一个重叠块合并Overlap Patch Merging模块。其中高效自注意力模块为带序列压缩的自注意力模块，该模块计算输入特征的注意力分数；混合前馈神经网络Mix-FFN为带有零填充的卷积核大小为3的卷积前馈神经网络；重叠块合并模块为卷积核为7、零填充为4、步长为2的卷积层。网络接收输入后经过每个Transformer Block，对各个图像块的特征进行合并得到Transformer Block的输出；通过第一个多层感知机对多个不同分辨率的Transformer Block的输出特征进行融合得到融合后的特征，再将融合后的特征输入第二个多层感知机得到该Segformer的最终输出特征。

参照图2，本步骤对现有的Segformer网络的改进是在其中加入相关图约束，具体实现如下：

(2.1.1)对现有的Segformer网络中第1个、第3个Transformer Block输出SAR图像特征和可见光图像特征分别计算其各自的互相关矩阵Cor₁和Cor₃；

(2.1.2)分别构建两个尺寸为

和

的零矩阵

和

作为初始的第一相关图和第二相关图；

(2.1.3)对第一相关图和第二相关图分别进行迭代，得到各自最终的相关图：

设对

迭代的总迭代次数为Cor₁中的元素个数，每轮迭代不重复地从Cor₁中选取一个点(x,y)得到本轮迭代的修改范围

将

中修改范围内的值修改为

与Cor₁(x,y)之间的最大值，迭代结束得到最终的第一相关图

其中，Cor₁(x,y)为Cor₁在点(x,y)处的值；

设对

迭代的总迭代次数为Cor₃中的元素个数，每轮迭代不重复地从Cor₃中选取一个点(x,y)得到本轮迭代的修改范围

将

中修改范围内的值修改为

与Cor₃(x,y)之间的最大值，迭代结束得到最终的第二相关图

其中，Cor₃(x,y)为Cor₃在点(x,y)处的值；

(2.1.4)将最终的第一相关图

与第1个Transformer Block输出的可见光图像特征相乘作为第2个Transformer Block的输入，将最终的第二相关图

与第3个Transformer Block输出的可见光图像特征相乘作为第4个Transformer Block的输入，完成相关图约束的添加，得到包含相关图约束的Segformer特征提取骨架；

(2.2)构建包含跨模态交叉注意力的Transformer网络N0：

参照图3，本步骤建立包含跨模态交叉注意力的Transformer网络，是通过对现有Segformer网络的改进建立，具体实现如下：

(2.2.1)将现有Segformer网络中的第3、第4个Transformer Block去除；

(2.2.2)交换第1个Transformer Block中的可见光图像特征查询

和SAR图像特征查询

(2.2.3)交换第2个Transformer Block中的可见光图像特征查询

和SAR图像特征查询

得到包含跨模态交叉注意力的Transformer网络N0；

(2.3)将包含相关图约束的Segformer特征提取骨架与跨模态交叉注意力的Transformer网络N0依次级联，得到跨模态Transformer匹配网络N1。

步骤3.利用训练数据和最优传输理论，使用Adam算法对网络N1进行迭代训练得到训练好的匹配网络N2。

(3.1)选择训练集中的一对SAR图像和可见光图像，依次将SAR图像和可见光图像输入到步骤2中构建的跨模态Transformer匹配网络N1，得到SAR图像特征图f_s和可见光图像特征图f_o；

(3.2)对SAR图像特征图f_s和可见光图像特征图f_o计算相似性矩阵M：

其中T表示矩阵的转置，|| ||表示取模；

(3.3)根据训练集SAR图像特征和可见光图像特征的相似性矩阵M使用最优传输计算其最优匹配概率C^*：

(3.3.1)设置一个矩阵C作为SAR图像到可见光图像的匹配概率；

(3.3.2)为了避免平凡解，将跨模态交叉注意力的Transformer匹配网络第二个Tranformer Block输出SAR图像特征和可见光图像特征的类激活图CAM分别作为最优传输的约束条件μ_sar和μ_opt；

(3.3.3)通过Sinkhorn-Knopp算法求解如下最优传输问题，得到训练集SAR图像和可见光图像的最优匹配概率C^*：

其中，C_ij为矩阵C在(i,j)处的值，M_ij代表矩阵M在(i,j)处的值，h_s,w_s分别表示SAR图像特征的高度和宽度，h_o,w_o分别表示可见光图像特征的高度和宽度；

表示大小为h_sw_s的单位列向量；

表示大小为h_ow_o的单位列向量；

表示矩阵C每行的和，

表示矩阵C每列的和，T表示矩阵的转置；

(3.4)将(3.3.3)得到的最优匹配概率C^*与(3.2)得到的相似性矩阵M相乘得到优化后的训练集相似性度量矩阵M_opt：

M_opt＝C^*⊙M

其中，⊙表示矩阵中对应位置的元素相乘；

(3.5)将M_opt中最大值点的坐标作为匹配点

并计算匹配点与真实标签之间的损失函数Loss：

其中，(x_t,y_t)是真实标签坐标；

(3.6)重复(3.1)～(3.5)，根据每次迭代的损失函数值更新网络各层的参数，直到达到设定的迭代次数E＝300，得到训练好的跨模态Transformer匹配网络N2。

步骤4.利用最优传输理论和训练好的匹配网络N2对测试集的图像对进行匹配。

(4.1)将测试集中的SAR图像和可见光图像输入到训练好的匹配网络N2中，得到测试图像对的SAR图像特征f_s′和可见光图像特征f_o′；

(4.2)计算测试图像对输出特征的相似性矩阵M′：

其中，T表示矩阵的转置，|| ||表示取模；

(4.3)根据测试图像对输出特征的相似性矩阵M′，利用最优传输计算测试图像对最优匹配概率C^*′：

(4.3.1)设置一个矩阵C′作为测试集SAR图像与可见光图像的匹配概率；

(4.3.2)将跨模态交叉注意力的Transformer匹配网络第二个Tranformer Block输出SAR图像特征和可见光图像特征的类激活图CAM分别作为测试图像最优传输的约束条件μ′_sar和μ′_opt；

(4.3.3)通过Sinkhorn-Knopp算法求解如下问题，得到测试图像的最优匹配概率C^*′：

其中，C′_ij为矩阵C′在(i,j)处的值，M′_ij代表矩阵M′在(i,j)处的值，h′_s,w′_s分别表示测试集SAR图像特征的高度和宽度，h′_o,w′_o分别表示测试集可见光图像特征的高度和宽度；

表示大小为h′_sw′_s的单位列向量；

表示大小为h′_ow′_o的单位列向量；

表示矩阵C′每行的和，

表示矩阵C′每列的和，T表示矩阵的转置；

(4.4)将测试图像最优匹配概率C^*′与其相似性矩阵M′相乘，得到优化后的相似性度量矩阵M′_opt：

M′_opt＝C^*′⊙M′

其中，⊙表示矩阵中对应位置的元素相乘；

(4.5)将M′_opt中最大值点的坐标作为匹配点

该点即为测试集中SAR图像在可见光图像中的对应匹配位置，完成异源图像的匹配。

本发明的效果可通过以下实验进一步说明：

1.实验条件

本实验使用的服务器配置为3.2GHz的Intel Core i7-9700K CPU和一张12-GB的NVIDIA GeForce RTX2080Ti GPU，使用PyTorch 1.5.1代码框架实现深度网络模型，编程开发语言为Python 3.7。

实验用到的数据集为开源数据集OS Dataset，包括1300对异源图像和其标签，SAR图像的尺寸为256×256，SAR图像采集自中国多极化c波段SAR卫星高分3号，分辨率为1米。可见光图像的尺寸为512×512，图像采集自谷歌地球平台，并重新采样至1米分辨率；

本实例将80％的图像作为训练集，20％图像作为测试集，实验在测试集上的受试者误差小于等于5个像素的匹配准确率、正确匹配图像的平均误差、所有图像的平均误差和匹配时间；

实验使用的对比方法有八种，分别是归一化互相关算法NCC，归一化互信息算法NMI，定向梯度的通道特征算法CFOG，相位一致性直方图HOPC，辐射变化不敏感特征变换算法RIFT，伪孪生卷积神经网络算法PSiam，基于视觉显著性特征的深度匹配网络VSMatch以及分步级联匹配网络SCMNet。

2.实验内容

实验一，在上述实验条件下，使用本发明和现有八种NCC，NMI，HOPC，CFOG，RIFT，PSiam，VSMatch，SCMNet算法，对上述测试集中一对城市区域的SAR图像和可见光图像进行匹配，结果如图4所示，其中：

图4(a)为SAR图像模板，

图4(b)为真实标签，

图4(c)为NCC算法的匹配结果，

图4(d)为NMI算法的匹配结果，

图4(e)为HOPC算法的匹配结果，

图4(f)为CFOG算法的匹配结果，

图4(g)为可见光图像，

图4(h)为RIFT算法的匹配结果，

图4(i)为PSiam算法的匹配结果，

图4(j)为VSMatch算法的匹配结果，

图4(k)为SCMNet算法的匹配结果，

图4(l)为本发明方法的匹配结果。

每幅图中的实线正方形框为真实的匹配位置，虚线正方形框为各个方法得到的预测匹配位置，当虚线预测框的位置越接近实线框真实匹配位置，则该算法的匹配效果越好。

从图4的结果可以看出，对比方法的预测位置与真实位置相比都有所偏移，而本方法对应的图4(l)在局部特征差异较小的城市区域，预测位置和真实位置完全重合，表明本发明能够在相似的地物场景中实现精确的匹配。

实验二，在上述实验条件下，使用本发明和现有八种NCC，NMI，HOPC，CFOG，RIFT，PSiam，VSMatch，SCMNet算法，对上述测试集中一对机场区域的SAR图像和可见光图像进行匹配，结果如图5所示，其中：

图5(a)为SAR图像模板，

图5(b)为真实标签，

图5(c)为NCC算法的匹配结果，

图5(d)为NMI算法的匹配结果，

图5(e)为HOPC算法的匹配结果，

图5(f)为CFOG算法的匹配结果，

图5(g)为可见光图像，

图5(h)为RIFT算法的匹配结果，

图5(i)为PSiam算法的匹配结果，

图5(j)为VSMatch算法的匹配结果，

图5(k)为SCMNet算法的匹配结果，

图5(l)为本发明提出算法的匹配结果。

从图5的结果可以看出，实验图像中飞机的存在使得场景的局部特征差异较大，而且由于SAR图像的成像方式使得飞机在SAR图像中产生更多的相干斑噪声，使精确匹配更加困难，所有对比方法的匹配结果均出现了较大的误差，而本发明在此区域的预测位置与真实位置一致，实现了精确的匹配。

实验三，将测试集中的SAR图像和可见光图像进行匹配，根据所有匹配结果和标签计算其评价指标，结果如表1：

表1本发明和现有8种方法的评价指标

由表1的结果可以看出，本发明在实验中准确率达到了81.67％，显著提高了异源图像匹配的准确率；相较于参与对比的同类深度学习匹配方法，本发明完成匹配所需时间有明显减少，大幅提高了匹配速度，且在实验中本发明正确匹配图像的平均误差和所有图像的平均误差均最低，提高了匹配的精度。

综上，本发明构建的基于跨模态转换网络与最优传输理论的异源图像匹配方法，与现有的NCC，NMI，CFOG，HOPC，RIFT，PSiam，VSMatch，SCMNet算法相比，能够得到更好的匹配结果，结果具有更高的匹配准确率和更小的平均误差，匹配时间在同类基于深度学习的算法中处于领先地位，对不同类型地物场景的适应性良好，具有更强的泛化能力。

Claims

1.跨模态转换网络与最优传输理论的异源图像匹配方法，其特征在于，包括：

(1)构建异源图像匹配的训练数据和测试数据：

(1a)从开源数据集OSDataset中选择尺寸为512×512的图像对作为选用数据集，该数据集包含成对的已经完成配准的SAR和可见光图像；

(2)构建跨模态Transformer匹配网络N1：

(2a)设置包含相关图约束的Segformer特征提取骨架；

(2b)建立包含跨模态交叉注意力的Transformer网络N0；

(2c)将包含相关图约束的Segformer特征提取骨架、包含跨模态交叉注意力的Transformer网络级联，组成跨模态Transformer匹配网络N1；

(4)利用最优传输和训练好的匹配网络N2对测试集的图像对进行匹配：

(4a)将测试集中的SAR图像和可见光图像输入到训练好的匹配网络N2中，得到测试图像对的SAR图像特征f_s′和可见光图像特征f_o′；

(4b)计算测试图像对输出特征的相似性矩阵M′：

其中，T表示矩阵的转置，||||表示取模；

(4c)根据测试图像对输出特征的相似性矩阵M′利用最优传输优化计算测试图像对最优匹配概率C^*′；

(4d)将测试图像最优匹配概率C^*′与其相似性矩阵M′相乘，得到优化后的相似性度量矩阵M′_opt：

M′_opt＝C^*′⊙M′

其中，⊙表示矩阵中对应位置的元素相乘；

(4e)将M′_opt中最大值点的坐标作为匹配点(x_test,y_test)，该点即为测试集中SAR模板图像在可见光图像中的对应匹配位置，完成异源图像的匹配。

2.根据权利要求1所述的方法，其特征在于，所述(2a)中设置包含相关图约束的Segformer特征提取骨架，实现如下：

(2a1)在已有的Segformer网络中，设第1个Transformer Block输出SAR图像的输出特征图尺寸为

可见光图像的输出特征图尺寸为

构建一个尺寸为

的零矩阵

作为待修正的第一相关图；

(2a2)计算Segformer网络中第1个Transformer Block输出SAR图像和可见光特征的互相关矩阵Cor₁，根据Cor₁对第一相关图

进行修正，得到修正后的第一相关图

并将

与第1个Transformer Block输出的特征相乘作为第2个Transformer Block的输入；

(2a3)在已有的Segformer网络中，设第3个Transformer Block输出SAR图像的输出特征图尺寸为

可见光图像的输出特征图尺寸为

构建一个尺寸为

的零矩阵

作为待修正的第二相关图；

(2a4)计算Segformer网络中第3个Transformer Block输出SAR图像和可见光特征的互相关矩阵Cor₃，根据Cor₃对第二相关图

进行修正，得到修正后的第二相关图

将

与第3个Transformer Block输出的特征相乘作为第4个Transformer Block的输入。

3.根据权利要求2所述的方法，其特征在于，所述(2a2)中根据Cor₁对第一相关图

进行修正，是依次以Cor₁中的每个点(x,y)为修正范围的左上角坐标对第一相关图

进行修正，即：

先设置每次修正时左上角坐标(x,y)对应的修正范围为：

再根据该修正范围将第一相关图

中的值修改为

得到修正后的相关图

其中：

表示

中点(i,j)处的值，Cor₁(x,y)为Cor₁中点(x,y)处的值；

表示取

和Cor₁(x,y)之间的最大值。

4.根据权利要求2所述的方法，其特征在于，所述(2a4)中根据Cor₃对第二相关图

进行修正，实现如下：

首先，设置每次修正时Cor₃中的每个点(x,y)对应的修正范围

然后，根据所设置的修正范围将第二相关图

中的值修改为

得到修正后的相关图

其中：

表示

中点(i,j)处的值，Cor₃(x,y)为Cor₃中点(x,y)处的值；

表示取

和Cor₃(x,y)之间的最大值。

5.根据权利要求1所述的方法，其特征在于，所述(2b)中建立包含跨模态交叉注意力的Transformer网络N1，是通过对现有Segformer网络的改进建立，具体实现如下：

首先，将现有Segformer网络中的第3、第4个Transformer Block去除；

然后，交换第1个Transformer Block中的可见光图像特征查询

和SAR图像特征查询

最后，交换第2个Transformer Block中的可见光图像特征查询

和SAR图像特征查询

得到包含跨模态交叉注意力的Transformer网络N1。

6.根据权利要求1所述的方法，其特征在于，所述(3)中利用训练数据和最优传输，使用Adam算法对匹配网络N1进行迭代训练，实现如下：

(3a)选取训练集中的一对SAR图像和可见光图像输入到跨模态Transformer匹配网络N1中，得到f_o；

(3b)计算训练集的SAR图像特征f_s和可见光图像特征的相似性矩阵：

其中，T表示矩阵的转置，||||表示取模；

(3c)根据训练集SAR图像特征和可见光图像特征的相似性矩阵M利用最优传输计算其最优匹配概率：

(3c1)设置一个矩阵C作为SAR图像到可见光图像的匹配概率；

(3c2)将跨模态交叉注意力的Transformer匹配网络第二个Tranformer Block输出SAR图像特征和可见光图像特征的类激活图CAM分别作为最优传输的约束条件μ_sar和μ_opt；

(3c3)通过Sinkhorn-Knopp算法求解如下问题，得到训练集SAR图像和可见光图像的最优匹配概率C^*：

表示大小为h_sw_s的单位列向量；

表示大小为h_ow_o的单位列向量；

表示矩阵C每行的和，

表示矩阵C每列的和，T表示矩阵的转置；

(3d)将(3c3)得到的最优匹配概率C^*与(3b)得到的相似性矩阵M相乘得到优化后的训练集相似性度量矩阵M_opt：

M_opt＝C^*⊙M

其中，⊙表示矩阵中对应位置的元素相乘；

(3e)将M_opt中最大值点的坐标作为匹配点

并计算匹配点与真实标签之间的损失函数Loss：

其中，(x_t,y_t)是真实标签坐标；

(3f)重复(3a)～(3e)，根据每次迭代的损失函数值更新网络各层的参数，直到达到设定的迭代次数E＝300，得到训练好的跨模态Transformer匹配网络N2。

7.根据权利要求1所述的方法，其特征在于，所述(4c)中根据相似性矩阵M′利用最优传输计算最优匹配概率C^*′，实现如下：

首先，设置一个矩阵C′作为SAR图像与可见光图像的匹配概率；

然后，将跨模态交叉注意力的Transformer匹配网络第二个Tranformer Block输出SAR图像特征和可见光图像特征的类激活图CAM分别作为最优传输的约束条件μ′_sar和μ′_opt；

最后，通过Sinkhorn-Knopp算法求解如下问题即可得到最优匹配概率C^*′：

其中，C_ij′为矩阵C′在(i,j)处的值，M_ij′代表矩阵M′在(i,j)处的值，h′_s,w′_s分别表示测试集SAR图像特征的高度和宽度，h′_o,w′_o分别表示测试集可见光图像特征的高度和宽度；

表示大小为h′_sw′_s的单位列向量；

表示大小为h′_ow′_o的单位列向量；

表示矩阵C′每行的和，

表示矩阵C′每列的和，T表示矩阵的转置。