CN115331029A - 基于跨模态转换网络与最优传输理论的异源图像匹配方法 - Google Patents

基于跨模态转换网络与最优传输理论的异源图像匹配方法 Download PDF

Info

Publication number
CN115331029A
CN115331029A CN202210998060.1A CN202210998060A CN115331029A CN 115331029 A CN115331029 A CN 115331029A CN 202210998060 A CN202210998060 A CN 202210998060A CN 115331029 A CN115331029 A CN 115331029A
Authority
CN
China
Prior art keywords
image
matching
matrix
network
visible light
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210998060.1A
Other languages
English (en)
Other versions
CN115331029B (zh
Inventor
缑水平
杨华
姚瑶
陈云志
郭璋
李晟
毛莎莎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Hangzhou Vocational and Technical College
Original Assignee
Xidian University
Hangzhou Vocational and Technical College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University, Hangzhou Vocational and Technical College filed Critical Xidian University
Priority to CN202210998060.1A priority Critical patent/CN115331029B/zh
Publication of CN115331029A publication Critical patent/CN115331029A/zh
Application granted granted Critical
Publication of CN115331029B publication Critical patent/CN115331029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/143Sensing or illuminating at different wavelengths
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于跨模态转换网络与最优传输理论的异源图像匹配方法,主要解决现有技术对于大尺寸异源图像对难以平衡匹配速度和精度的问题。其实现方案为:根据开源数据集构建训练集和测试集;构建相关图约束Segformer特征提取骨架;建立跨模态交叉注意力Transformer网络,并将其与特征提取骨架级联,构成跨模态转换匹配网络;利用训练集数据端到端地训练匹配网络;将测试集图像输入到训练好的匹配网络得到输出特征,根据输出特征计算测试图像的相似性矩阵,并使用最优传输优化该矩阵,优化后相似性矩阵中最大值点的坐标即为测试图像对的匹配点。本发明提高了异源图像匹配的准确率和匹配速度,可用于飞行器的辅助制导。

Description

基于跨模态转换网络与最优传输理论的异源图像匹配方法
技术领域
本发明属于计算机视觉图像处理技术领域,特别涉及一种异源图像的匹配方法,可用于飞行器的辅助制导。
背景技术
遥感信息随着技术的发展展现出多传感器、多模态、数据量大的特性,从海量的遥感图像中获取信息已经成为一项重要的信息渠道。不同的星载传感器能获取不同模态的遥感数据,传统可见光遥感系统获取的遥感图像采用被动式成像模式,接收太阳光照射到地表目标之后反射、散射的电磁辐射,语义清晰、直观,是最常用的遥感图像类型。但受限于被动式传感器,夜间及云雾遮挡的情况下光学遥感的性能将收到较大的影响。而随着合成孔径雷达SAR这一技术的不断发展,其在地理测绘、军事侦察等方面被广泛的应用。SAR相对于传统可见光波段的遥感技术而言,由于SAR使用主动式的传感器发射微波波段的辐射并接收回波,所以SAR具有全天时、全天候的观测能力,同时不受大气云层的影响。传统可见光遥感图像能弥补SAR图像语义不直观的问题,SAR能补充可见光传感器夜间的观测能力。不同模态的图像中包含有相同地物不同的电磁散射特征和几何空间信息,所以将异源的SAR与可见光图像进行结合对于实际应用具有很重要的意义。模板匹配是在给定的大尺寸图像中寻找某一小尺寸的图像的精确位置的图像处理技术,在众多场景中均有应用。而对于异源的图像的匹配而言,由于模态的差异,相同地物在不同的模态之中的显著程度是不同的;其次由于SAR成像方式,SAR图像本身还有大量的乘性噪声,两者共同增加了异源图像之间进行匹配的难度。
目前已有的多模态图像匹配方法主要分为传统方法和基于神经网络的方法。
对于传统方法,其主要分为两类:
其中一类传统方法直接利用图像的像素灰度信息,根据不同模态图像的灰度信息,以两幅图像之间灰度的归一化互相关NCC、互信息MI等作为相似度度量标准来寻找对应的匹配位置。Liang等人利用空间互信息法结合蚁群优化算法实现图像之间局部区域相似性度量;Patel等人为了提高基于互信息的匹配方法的速度,提出了一种基于最大似然估计的方法用于计算互信息。基于灰度的方法出发点简单,实现容易,但由于不同模态的图像中同一区域的灰度分布可能会存在较大的差异,因此这类方法并不能很好的适应多模态的图像之间的匹配。一方面,直接使用相似性度量准则需要适应图像灰度畸变造成的变化,另一方面需要准确区分不同对象之间的差异。这两个要求之间是有冲突的,灰度畸变造成的变化和对象间的差异无法通过灰度值区分,而且对于异源图像来说,图像间的灰度映射无法体现出稳定的规律性,所以有着很大的局限性;
另一类传统方法是基于人为手工设计的图像特征,在两幅图像中提取到特征描述子后,计算特征描述子的相似性,根据计算得到的相似性度量获取相似性最大的位置作为匹配位置。此类方法在同源图像上应用十分广泛,如应用非常广泛的尺度不变特征变换SIFT特征描述子。除此之外。众多学者开发了针对于异源图像的特征描述子,Ye等人提出了相位一致性直方图HOPC,该方法利用具有光照和对比度不变性的相位一致性模型构建几何结构特征描述子,基于该异源影像间的结构特征进行匹配。Xiang等人着眼于解决模态间的差异,使用哈里斯尺度空间的模态特定梯度算子,能较好的应对不同模态中同一区域辐射强度的差异带来的匹配误差。人为手工设计的特征描述子的提出具有较好的数理可解释性,在该描述子的假设前提下通常具有很高的性能,但实际应用场景中的情况复杂多变,假设的先决条件不一定能保证满足。尤其在地物场景本身较复杂的区域,图像的信息量更大,纹理细节等更加复杂外加成像中的噪声干扰等因素,共同造成了手工设计方法难以在实际的应用中发挥出理想的效果。
对于基于深度学习的匹配方法近年来取得了长足的进步。本质上而言,深度学习也是基于特征的方法,但与传统方法不同的是深度特征是在训练模型的过程中模型从大量的训练数据中抽象、提取出的特征,而非人为设计。基于深度学习可以实现端到端的训练、端到端的推理。同时由于深度模型强大的特征提取能力,提取到的深度特征通常比手工设计的特征更加符合实际的数据分布情况。Han等人提出了匹配网络MatchNet,该网络通过卷积神经网络提取特征,之后利用几个全连接层的连接,将输出的结果作为匹配程度的度量。Merkle等人提出了一种孪生网络结构,模板图与源图像之间的相对位移来判断匹配的位置。Mou等人将匹配定义为一个二元分类问题,并训练一个伪孪生网络来预测SAR和光学贴片之间的中心像素对应关系。Citak提出了使用SAR和光学视觉显著性图谱作为孪生匹配网络特征提取臂的注意机制。Wang等人利用自学习深度神经网络直接学习源图像和参考图像之间的映射,目的是应用该映射遥感图像配准。Hoffmann等人训练了一个全卷积网络FCN,以学习对于SAR和光学块对之间的小仿射变换不变的相似性度量。Ma等人提出了一种基于微调VGG16模型特征提取精确配准方法。
上述这些基于深度学习的匹配方法虽说大大提高了匹配的准确率,但这类方法的弊端在于:如果要找到模板图在源图像中的位置,就需要逐像素滑窗计算,通过判断每一对图像块是否匹配来找到匹配的位置,这种做法应用在大尺寸的图像上,不仅会大大增加匹配的时间,同时也难以区分正确匹配位置的图像块与正确位置周围邻域内相似的图像块之间的区别,造成像素级上的较大的误差。
发明内容
本发明的目的在于针对上述现有技术匹配精度和匹配速度上的不足,提出基于跨模态注意力与最优传输理论的异源图像匹配方法,以提升匹配速度,提高匹配准确率。
本发明的技术思路是:通过构建端到端的跨模态Transformer匹配网络,提高匹配速度,让可见光和SAR两个模态有更好的交互,并得到SAR图像和可见光图像的相似性度量;通过最优传输对匹配结果进行优化,提高匹配的准确率。
根据上述思路,本发明基于跨模态转换网络与最优传输理论的异源图像匹配方法的实现方案,包括如下:
1.基于跨模态转换网络与最优传输理论的异源图像匹配方法,其特征在于,包括:
(1)构建异源图像匹配的训练数据和测试数据:
(1a)从开源数据集OS Dataset中选择尺寸为512×512的图像对作为选用数据集,该数据集包含成对的已经完成配准的SAR和可见光图像;
(1b)将选用数据集每对图像中的可见光图像作为搜索图像,在每幅可见光对应的SAR图像中随机选择像素作为左上角坐标,剪裁出256×256的图像作为模板图像,并保存该左上角坐标作为该图像对的真实标签;
(1c)将成对的剪裁后的SAR图像和对应的可见光图像中80%的图像对作为训练集,20%的图像对作为测试集;
(2)构建跨模态Transformer匹配网络N1:
(2a)设置包含相关图约束的Segformer特征提取骨架;
(2b)建立包含跨模态交叉注意力的Transformer网络N0;
(2c)将包含相关图约束的Segformer特征提取骨架、包含跨模态交叉注意力的Transformer网络依次级联,组成跨模态Transformer匹配网络N1;
(3)利用训练数据和最优传输理论,使用Adam算法对匹配网络N1进行迭代训练,得到训练好的匹配网络N2;
(4)利用最优传输理论和训练好的匹配网络N2对测试集的图像对进行匹配。
本发明与现有技术相比,具有以下优点:
1.具有更高的准确率和更小的匹配误差
本发明通过构建基于Transformer的匹配网络模型,在Segformer网络结构中加入了相关图约束及跨模态注意力对搜索图中特征的重要性进行了约束,并进行了基于最优传输的匹配优化,提高了匹配的精度。
2.具有更快的匹配速度
本发明采用余弦相似度进行特征相似性度量,无需进行非常耗时的逐像素的互相关运算,并且整个网络进行端到端的推理,匹配时间与现有深度学习方法相比更少,提高了匹配速度。
3.更能适应不同的地物场景
本发明使用了基于注意力机制的特征提取能力强的Segformer作为特征提取骨架,面对复杂多变的地物场景,网络能提取到更有效的特征表示,并得到准确的匹配结果,提高了泛化能力。
附图说明
图1是本发明的实现流程图;
图2是本发明中构建添加相关图约束的Segformer特征提取骨架结构图;
图3是本发明中构建的跨模态注意力Tranformer网络结构图;
图4是用本发明和现有的八种算法分别在开源数据集OS Dataset中对一副城市区域图像上的SAR图像与可见光图像进行匹配的结果对比图;
图5是用本发明和现有的八种算法分别在开源数据集OS Dataset中对一副机场区域图像上的SAR图像与可见光图像进行匹配的结果对比图。
具体实施方式
下面结合附图对本发明的实施例和效果作进一步详细描述。
参照图1,本发明的实现步骤如下:
步骤1.构建异源图像匹配的训练数据和测试数据。
(1.1)从开源数据集OS Dataset中选择尺寸为512×512的图像对作为选用数据集,该数据集包含成对的已经完成配准的SAR和可见光图像;
(1.2)将选用数据集中每对图像中的可见光图像作为搜索图像,在每幅可见光图像对应的SAR图像中随机选择像素作为左上角坐标,剪裁出256×256的图像作为模板图像,并保存该左上角坐标作为该图像对的真实标签;
(1.3)将成对的剪裁后SAR图像和对应的可见光图像中80%的图像对作为训练集,20%的图像对作为测试集。
步骤2.构建跨模态Transformer匹配网络N1。
(2.1)构建包含相关图约束的Segformer特征提取骨架:
本步骤的具体实现是对现有的Segformer网络进行改进,该Segformer网络包含4个Transformer Block和两个多层感知机MLP;每个Transformer Block中包含N个高效自注意力模块Efficient Self-Attention和混合前馈神经网络Mix-FFN的级联结构,以及最后的一个重叠块合并Overlap Patch Merging模块。其中高效自注意力模块为带序列压缩的自注意力模块,该模块计算输入特征的注意力分数;混合前馈神经网络Mix-FFN为带有零填充的卷积核大小为3的卷积前馈神经网络;重叠块合并模块为卷积核为7、零填充为4、步长为2的卷积层。网络接收输入后经过每个Transformer Block,对各个图像块的特征进行合并得到Transformer Block的输出;通过第一个多层感知机对多个不同分辨率的Transformer Block的输出特征进行融合得到融合后的特征,再将融合后的特征输入第二个多层感知机得到该Segformer的最终输出特征。
参照图2,本步骤对现有的Segformer网络的改进是在其中加入相关图约束,具体实现如下:
(2.1.1)对现有的Segformer网络中第1个、第3个Transformer Block输出SAR图像特征和可见光图像特征分别计算其各自的互相关矩阵Cor1和Cor3
(2.1.2)分别构建两个尺寸为
Figure BDA0003806193630000051
Figure BDA0003806193630000059
的零矩阵
Figure BDA0003806193630000052
Figure BDA0003806193630000053
作为初始的第一相关图和第二相关图;
(2.1.3)对第一相关图和第二相关图分别进行迭代,得到各自最终的相关图:
设对
Figure BDA0003806193630000054
迭代的总迭代次数为Cor1中的元素个数,每轮迭代不重复地从Cor1中选取一个点(x,y)得到本轮迭代的修改范围
Figure BDA0003806193630000055
Figure BDA0003806193630000056
中修改范围内的值修改为
Figure BDA0003806193630000057
与Cor1(x,y)之间的最大值,迭代结束得到最终的第一相关图
Figure BDA0003806193630000058
其中,Cor1(x,y)为Cor1在点(x,y)处的值;
设对
Figure BDA0003806193630000061
迭代的总迭代次数为Cor3中的元素个数,每轮迭代不重复地从Cor3中选取一个点(x,y)得到本轮迭代的修改范围
Figure BDA0003806193630000062
Figure BDA0003806193630000063
中修改范围内的值修改为
Figure BDA0003806193630000064
与Cor3(x,y)之间的最大值,迭代结束得到最终的第二相关图
Figure BDA0003806193630000065
其中,Cor3(x,y)为Cor3在点(x,y)处的值;
(2.1.4)将最终的第一相关图
Figure BDA0003806193630000066
与第1个Transformer Block输出的可见光图像特征相乘作为第2个Transformer Block的输入,将最终的第二相关图
Figure BDA0003806193630000067
与第3个Transformer Block输出的可见光图像特征相乘作为第4个Transformer Block的输入,完成相关图约束的添加,得到包含相关图约束的Segformer特征提取骨架;
(2.2)构建包含跨模态交叉注意力的Transformer网络N0:
参照图3,本步骤建立包含跨模态交叉注意力的Transformer网络,是通过对现有Segformer网络的改进建立,具体实现如下:
(2.2.1)将现有Segformer网络中的第3、第4个Transformer Block去除;
(2.2.2)交换第1个Transformer Block中的可见光图像特征查询
Figure BDA0003806193630000068
和SAR图像特征查询
Figure BDA0003806193630000069
(2.2.3)交换第2个Transformer Block中的可见光图像特征查询
Figure BDA00038061936300000610
和SAR图像特征查询
Figure BDA00038061936300000611
得到包含跨模态交叉注意力的Transformer网络N0;
(2.3)将包含相关图约束的Segformer特征提取骨架与跨模态交叉注意力的Transformer网络N0依次级联,得到跨模态Transformer匹配网络N1。
步骤3.利用训练数据和最优传输理论,使用Adam算法对网络N1进行迭代训练得到训练好的匹配网络N2。
(3.1)选择训练集中的一对SAR图像和可见光图像,依次将SAR图像和可见光图像输入到步骤2中构建的跨模态Transformer匹配网络N1,得到SAR图像特征图fs和可见光图像特征图fo
(3.2)对SAR图像特征图fs和可见光图像特征图fo计算相似性矩阵M:
Figure BDA00038061936300000612
其中T表示矩阵的转置,|| ||表示取模;
(3.3)根据训练集SAR图像特征和可见光图像特征的相似性矩阵M使用最优传输计算其最优匹配概率C*
(3.3.1)设置一个矩阵C作为SAR图像到可见光图像的匹配概率;
(3.3.2)为了避免平凡解,将跨模态交叉注意力的Transformer匹配网络第二个Tranformer Block输出SAR图像特征和可见光图像特征的类激活图CAM分别作为最优传输的约束条件μsar和μopt
(3.3.3)通过Sinkhorn-Knopp算法求解如下最优传输问题,得到训练集SAR图像和可见光图像的最优匹配概率C*
Figure BDA0003806193630000071
其中,Cij为矩阵C在(i,j)处的值,Mij代表矩阵M在(i,j)处的值,hs,ws分别表示SAR图像特征的高度和宽度,ho,wo分别表示可见光图像特征的高度和宽度;
Figure BDA0003806193630000072
表示大小为hsws的单位列向量;
Figure BDA0003806193630000073
表示大小为howo的单位列向量;
Figure BDA0003806193630000074
表示矩阵C每行的和,
Figure BDA0003806193630000075
表示矩阵C每列的和,T表示矩阵的转置;
(3.4)将(3.3.3)得到的最优匹配概率C*与(3.2)得到的相似性矩阵M相乘得到优化后的训练集相似性度量矩阵Mopt
Mopt=C*⊙M
其中,⊙表示矩阵中对应位置的元素相乘;
(3.5)将Mopt中最大值点的坐标作为匹配点
Figure BDA0003806193630000076
并计算匹配点与真实标签之间的损失函数Loss:
Figure BDA0003806193630000077
其中,(xt,yt)是真实标签坐标;
(3.6)重复(3.1)~(3.5),根据每次迭代的损失函数值更新网络各层的参数,直到达到设定的迭代次数E=300,得到训练好的跨模态Transformer匹配网络N2。
步骤4.利用最优传输理论和训练好的匹配网络N2对测试集的图像对进行匹配。
(4.1)将测试集中的SAR图像和可见光图像输入到训练好的匹配网络N2中,得到测试图像对的SAR图像特征fs′和可见光图像特征fo′;
(4.2)计算测试图像对输出特征的相似性矩阵M′:
Figure BDA0003806193630000081
其中,T表示矩阵的转置,|| ||表示取模;
(4.3)根据测试图像对输出特征的相似性矩阵M′,利用最优传输计算测试图像对最优匹配概率C*′:
(4.3.1)设置一个矩阵C′作为测试集SAR图像与可见光图像的匹配概率;
(4.3.2)将跨模态交叉注意力的Transformer匹配网络第二个Tranformer Block输出SAR图像特征和可见光图像特征的类激活图CAM分别作为测试图像最优传输的约束条件μ′sar和μ′opt
(4.3.3)通过Sinkhorn-Knopp算法求解如下问题,得到测试图像的最优匹配概率C*′:
Figure BDA0003806193630000082
其中,C′ij为矩阵C′在(i,j)处的值,M′ij代表矩阵M′在(i,j)处的值,h′s,w′s分别表示测试集SAR图像特征的高度和宽度,h′o,w′o分别表示测试集可见光图像特征的高度和宽度;
Figure BDA0003806193630000083
表示大小为h′sw′s的单位列向量;
Figure BDA0003806193630000084
表示大小为h′ow′o的单位列向量;
Figure BDA0003806193630000085
表示矩阵C′每行的和,
Figure BDA0003806193630000086
表示矩阵C′每列的和,T表示矩阵的转置;
(4.4)将测试图像最优匹配概率C*′与其相似性矩阵M′相乘,得到优化后的相似性度量矩阵M′opt
M′opt=C*′⊙M′
其中,⊙表示矩阵中对应位置的元素相乘;
(4.5)将M′opt中最大值点的坐标作为匹配点
Figure BDA0003806193630000091
该点即为测试集中SAR图像在可见光图像中的对应匹配位置,完成异源图像的匹配。
本发明的效果可通过以下实验进一步说明:
1.实验条件
本实验使用的服务器配置为3.2GHz的Intel Core i7-9700K CPU和一张12-GB的NVIDIA GeForce RTX2080Ti GPU,使用PyTorch 1.5.1代码框架实现深度网络模型,编程开发语言为Python 3.7。
实验用到的数据集为开源数据集OS Dataset,包括1300对异源图像和其标签,SAR图像的尺寸为256×256,SAR图像采集自中国多极化c波段SAR卫星高分3号,分辨率为1米。可见光图像的尺寸为512×512,图像采集自谷歌地球平台,并重新采样至1米分辨率;
本实例将80%的图像作为训练集,20%图像作为测试集,实验在测试集上的受试者误差小于等于5个像素的匹配准确率、正确匹配图像的平均误差、所有图像的平均误差和匹配时间;
实验使用的对比方法有八种,分别是归一化互相关算法NCC,归一化互信息算法NMI,定向梯度的通道特征算法CFOG,相位一致性直方图HOPC,辐射变化不敏感特征变换算法RIFT,伪孪生卷积神经网络算法PSiam,基于视觉显著性特征的深度匹配网络VSMatch以及分步级联匹配网络SCMNet。
2.实验内容
实验一,在上述实验条件下,使用本发明和现有八种NCC,NMI,HOPC,CFOG,RIFT,PSiam,VSMatch,SCMNet算法,对上述测试集中一对城市区域的SAR图像和可见光图像进行匹配,结果如图4所示,其中:
图4(a)为SAR图像模板,
图4(b)为真实标签,
图4(c)为NCC算法的匹配结果,
图4(d)为NMI算法的匹配结果,
图4(e)为HOPC算法的匹配结果,
图4(f)为CFOG算法的匹配结果,
图4(g)为可见光图像,
图4(h)为RIFT算法的匹配结果,
图4(i)为PSiam算法的匹配结果,
图4(j)为VSMatch算法的匹配结果,
图4(k)为SCMNet算法的匹配结果,
图4(l)为本发明方法的匹配结果。
每幅图中的实线正方形框为真实的匹配位置,虚线正方形框为各个方法得到的预测匹配位置,当虚线预测框的位置越接近实线框真实匹配位置,则该算法的匹配效果越好。
从图4的结果可以看出,对比方法的预测位置与真实位置相比都有所偏移,而本方法对应的图4(l)在局部特征差异较小的城市区域,预测位置和真实位置完全重合,表明本发明能够在相似的地物场景中实现精确的匹配。
实验二,在上述实验条件下,使用本发明和现有八种NCC,NMI,HOPC,CFOG,RIFT,PSiam,VSMatch,SCMNet算法,对上述测试集中一对机场区域的SAR图像和可见光图像进行匹配,结果如图5所示,其中:
图5(a)为SAR图像模板,
图5(b)为真实标签,
图5(c)为NCC算法的匹配结果,
图5(d)为NMI算法的匹配结果,
图5(e)为HOPC算法的匹配结果,
图5(f)为CFOG算法的匹配结果,
图5(g)为可见光图像,
图5(h)为RIFT算法的匹配结果,
图5(i)为PSiam算法的匹配结果,
图5(j)为VSMatch算法的匹配结果,
图5(k)为SCMNet算法的匹配结果,
图5(l)为本发明提出算法的匹配结果。
每幅图中的实线正方形框为真实的匹配位置,虚线正方形框为各个方法得到的预测匹配位置,当虚线预测框的位置越接近实线框真实匹配位置,则该算法的匹配效果越好。
从图5的结果可以看出,实验图像中飞机的存在使得场景的局部特征差异较大,而且由于SAR图像的成像方式使得飞机在SAR图像中产生更多的相干斑噪声,使精确匹配更加困难,所有对比方法的匹配结果均出现了较大的误差,而本发明在此区域的预测位置与真实位置一致,实现了精确的匹配。
实验三,将测试集中的SAR图像和可见光图像进行匹配,根据所有匹配结果和标签计算其评价指标,结果如表1:
表1本发明和现有8种方法的评价指标
Figure BDA0003806193630000111
由表1的结果可以看出,本发明在实验中准确率达到了81.67%,显著提高了异源图像匹配的准确率;相较于参与对比的同类深度学习匹配方法,本发明完成匹配所需时间有明显减少,大幅提高了匹配速度,且在实验中本发明正确匹配图像的平均误差和所有图像的平均误差均最低,提高了匹配的精度。
综上,本发明构建的基于跨模态转换网络与最优传输理论的异源图像匹配方法,与现有的NCC,NMI,CFOG,HOPC,RIFT,PSiam,VSMatch,SCMNet算法相比,能够得到更好的匹配结果,结果具有更高的匹配准确率和更小的平均误差,匹配时间在同类基于深度学习的算法中处于领先地位,对不同类型地物场景的适应性良好,具有更强的泛化能力。

Claims (7)

1.跨模态转换网络与最优传输理论的异源图像匹配方法,其特征在于,包括:
(1)构建异源图像匹配的训练数据和测试数据:
(1a)从开源数据集OSDataset中选择尺寸为512×512的图像对作为选用数据集,该数据集包含成对的已经完成配准的SAR和可见光图像;
(1b)将选用数据集每对图像中的可见光图像作为搜索图像,在每幅可见光对应的SAR图像中随机选择像素作为左上角坐标,剪裁出256×256的图像作为模板图像,并保存该左上角坐标作为该图像对的真实标签;
(1c)将成对的剪裁后的SAR图像和对应的可见光图像中80%的图像对作为训练集,20%的图像对作为测试集;
(2)构建跨模态Transformer匹配网络N1:
(2a)设置包含相关图约束的Segformer特征提取骨架;
(2b)建立包含跨模态交叉注意力的Transformer网络N0;
(2c)将包含相关图约束的Segformer特征提取骨架、包含跨模态交叉注意力的Transformer网络级联,组成跨模态Transformer匹配网络N1;
(3)利用训练数据和最优传输理论,使用Adam算法对匹配网络N1进行迭代训练,得到训练好的匹配网络N2;
(4)利用最优传输和训练好的匹配网络N2对测试集的图像对进行匹配:
(4a)将测试集中的SAR图像和可见光图像输入到训练好的匹配网络N2中,得到测试图像对的SAR图像特征fs′和可见光图像特征fo′;
(4b)计算测试图像对输出特征的相似性矩阵M′:
Figure FDA0003806193620000011
其中,T表示矩阵的转置,||||表示取模;
(4c)根据测试图像对输出特征的相似性矩阵M′利用最优传输优化计算测试图像对最优匹配概率C*′;
(4d)将测试图像最优匹配概率C*′与其相似性矩阵M′相乘,得到优化后的相似性度量矩阵M′opt
M′opt=C*′⊙M′
其中,⊙表示矩阵中对应位置的元素相乘;
(4e)将M′opt中最大值点的坐标作为匹配点(xtest,ytest),该点即为测试集中SAR模板图像在可见光图像中的对应匹配位置,完成异源图像的匹配。
2.根据权利要求1所述的方法,其特征在于,所述(2a)中设置包含相关图约束的Segformer特征提取骨架,实现如下:
(2a1)在已有的Segformer网络中,设第1个Transformer Block输出SAR图像的输出特征图尺寸为
Figure FDA0003806193620000021
可见光图像的输出特征图尺寸为
Figure FDA0003806193620000022
构建一个尺寸为
Figure FDA0003806193620000023
的零矩阵
Figure FDA0003806193620000024
作为待修正的第一相关图;
(2a2)计算Segformer网络中第1个Transformer Block输出SAR图像和可见光特征的互相关矩阵Cor1,根据Cor1对第一相关图
Figure FDA0003806193620000025
进行修正,得到修正后的第一相关图
Figure FDA0003806193620000026
并将
Figure FDA0003806193620000027
与第1个Transformer Block输出的特征相乘作为第2个Transformer Block的输入;
(2a3)在已有的Segformer网络中,设第3个Transformer Block输出SAR图像的输出特征图尺寸为
Figure FDA0003806193620000028
可见光图像的输出特征图尺寸为
Figure FDA0003806193620000029
构建一个尺寸为
Figure FDA00038061936200000210
的零矩阵
Figure FDA00038061936200000211
作为待修正的第二相关图;
(2a4)计算Segformer网络中第3个Transformer Block输出SAR图像和可见光特征的互相关矩阵Cor3,根据Cor3对第二相关图
Figure FDA00038061936200000212
进行修正,得到修正后的第二相关图
Figure FDA00038061936200000213
Figure FDA00038061936200000214
与第3个Transformer Block输出的特征相乘作为第4个Transformer Block的输入。
3.根据权利要求2所述的方法,其特征在于,所述(2a2)中根据Cor1对第一相关图
Figure FDA0003806193620000031
进行修正,是依次以Cor1中的每个点(x,y)为修正范围的左上角坐标对第一相关图
Figure FDA0003806193620000032
进行修正,即:
先设置每次修正时左上角坐标(x,y)对应的修正范围为:
Figure FDA0003806193620000033
再根据该修正范围将第一相关图
Figure FDA0003806193620000034
中的值修改为
Figure FDA0003806193620000035
得到修正后的相关图
Figure FDA0003806193620000036
其中:
Figure FDA0003806193620000037
表示
Figure FDA0003806193620000038
中点(i,j)处的值,Cor1(x,y)为Cor1中点(x,y)处的值;
Figure FDA0003806193620000039
表示取
Figure FDA00038061936200000310
和Cor1(x,y)之间的最大值。
4.根据权利要求2所述的方法,其特征在于,所述(2a4)中根据Cor3对第二相关图
Figure FDA00038061936200000311
进行修正,实现如下:
首先,设置每次修正时Cor3中的每个点(x,y)对应的修正范围
Figure FDA00038061936200000312
然后,根据所设置的修正范围将第二相关图
Figure FDA00038061936200000313
中的值修改为
Figure FDA00038061936200000314
得到修正后的相关图
Figure FDA00038061936200000315
其中:
Figure FDA00038061936200000316
表示
Figure FDA00038061936200000317
中点(i,j)处的值,Cor3(x,y)为Cor3中点(x,y)处的值;
Figure FDA00038061936200000318
表示取
Figure FDA00038061936200000319
和Cor3(x,y)之间的最大值。
5.根据权利要求1所述的方法,其特征在于,所述(2b)中建立包含跨模态交叉注意力的Transformer网络N1,是通过对现有Segformer网络的改进建立,具体实现如下:
首先,将现有Segformer网络中的第3、第4个Transformer Block去除;
然后,交换第1个Transformer Block中的可见光图像特征查询
Figure FDA00038061936200000320
和SAR图像特征查询
Figure FDA00038061936200000321
最后,交换第2个Transformer Block中的可见光图像特征查询
Figure FDA0003806193620000041
和SAR图像特征查询
Figure FDA0003806193620000042
得到包含跨模态交叉注意力的Transformer网络N1。
6.根据权利要求1所述的方法,其特征在于,所述(3)中利用训练数据和最优传输,使用Adam算法对匹配网络N1进行迭代训练,实现如下:
(3a)选取训练集中的一对SAR图像和可见光图像输入到跨模态Transformer匹配网络N1中,得到fo
(3b)计算训练集的SAR图像特征fs和可见光图像特征的相似性矩阵:
Figure FDA0003806193620000043
其中,T表示矩阵的转置,||||表示取模;
(3c)根据训练集SAR图像特征和可见光图像特征的相似性矩阵M利用最优传输计算其最优匹配概率:
(3c1)设置一个矩阵C作为SAR图像到可见光图像的匹配概率;
(3c2)将跨模态交叉注意力的Transformer匹配网络第二个Tranformer Block输出SAR图像特征和可见光图像特征的类激活图CAM分别作为最优传输的约束条件μsar和μopt
(3c3)通过Sinkhorn-Knopp算法求解如下问题,得到训练集SAR图像和可见光图像的最优匹配概率C*
Figure FDA0003806193620000044
其中,Cij为矩阵C在(i,j)处的值,Mij代表矩阵M在(i,j)处的值,hs,ws分别表示SAR图像特征的高度和宽度,ho,wo分别表示可见光图像特征的高度和宽度;
Figure FDA0003806193620000045
表示大小为hsws的单位列向量;
Figure FDA0003806193620000051
表示大小为howo的单位列向量;
Figure FDA0003806193620000052
表示矩阵C每行的和,
Figure FDA0003806193620000053
表示矩阵C每列的和,T表示矩阵的转置;
(3d)将(3c3)得到的最优匹配概率C*与(3b)得到的相似性矩阵M相乘得到优化后的训练集相似性度量矩阵Mopt
Mopt=C*⊙M
其中,⊙表示矩阵中对应位置的元素相乘;
(3e)将Mopt中最大值点的坐标作为匹配点
Figure FDA0003806193620000056
并计算匹配点与真实标签之间的损失函数Loss:
Figure FDA0003806193620000054
其中,(xt,yt)是真实标签坐标;
(3f)重复(3a)~(3e),根据每次迭代的损失函数值更新网络各层的参数,直到达到设定的迭代次数E=300,得到训练好的跨模态Transformer匹配网络N2。
7.根据权利要求1所述的方法,其特征在于,所述(4c)中根据相似性矩阵M′利用最优传输计算最优匹配概率C*′,实现如下:
首先,设置一个矩阵C′作为SAR图像与可见光图像的匹配概率;
然后,将跨模态交叉注意力的Transformer匹配网络第二个Tranformer Block输出SAR图像特征和可见光图像特征的类激活图CAM分别作为最优传输的约束条件μ′sar和μ′opt
最后,通过Sinkhorn-Knopp算法求解如下问题即可得到最优匹配概率C*′:
Figure FDA0003806193620000055
其中,Cij′为矩阵C′在(i,j)处的值,Mij′代表矩阵M′在(i,j)处的值,h′s,w′s分别表示测试集SAR图像特征的高度和宽度,h′o,w′o分别表示测试集可见光图像特征的高度和宽度;
Figure FDA0003806193620000061
表示大小为h′sw′s的单位列向量;
Figure FDA0003806193620000062
表示大小为h′ow′o的单位列向量;
Figure FDA0003806193620000063
表示矩阵C′每行的和,
Figure FDA0003806193620000064
表示矩阵C′每列的和,T表示矩阵的转置。
CN202210998060.1A 2022-08-19 2022-08-19 基于跨模态转换网络与最优传输理论的异源图像匹配方法 Active CN115331029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210998060.1A CN115331029B (zh) 2022-08-19 2022-08-19 基于跨模态转换网络与最优传输理论的异源图像匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210998060.1A CN115331029B (zh) 2022-08-19 2022-08-19 基于跨模态转换网络与最优传输理论的异源图像匹配方法

Publications (2)

Publication Number Publication Date
CN115331029A true CN115331029A (zh) 2022-11-11
CN115331029B CN115331029B (zh) 2025-05-16

Family

ID=83925541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210998060.1A Active CN115331029B (zh) 2022-08-19 2022-08-19 基于跨模态转换网络与最优传输理论的异源图像匹配方法

Country Status (1)

Country Link
CN (1) CN115331029B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115829988A (zh) * 2022-12-15 2023-03-21 欧冶链金再生资源有限公司 一种基于Segformer的废钢识别分割方法
CN115932823A (zh) * 2023-01-09 2023-04-07 中国人民解放军国防科技大学 基于异源区域特征匹配的飞行器对地面目标定位方法
CN116168221A (zh) * 2023-04-25 2023-05-26 中国人民解放军火箭军工程大学 基于Transformer的跨模态图像匹配定位方法及装置
CN116433735A (zh) * 2023-03-10 2023-07-14 西安电子科技大学 一种基于特征对抗网络的异源图像模板匹配方法
CN116597177A (zh) * 2023-03-08 2023-08-15 西北工业大学 一种基于双分支并行深度交互协同的多源图像块匹配方法
CN117474963A (zh) * 2023-10-18 2024-01-30 南京国础科学技术研究院有限公司 多源卫星图像配准方法、系统、存储介质和电子设备
CN118968249A (zh) * 2024-10-16 2024-11-15 东华理工大学南昌校区 一种耦合相位结构和深度特征的多模态遥感图像匹配方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210012150A1 (en) * 2019-07-11 2021-01-14 Xidian University Bidirectional attention-based image-text cross-modal retrieval method
CN114140700A (zh) * 2021-12-01 2022-03-04 西安电子科技大学 基于级联网络的分步异源图像模板匹配方法
CN114358150A (zh) * 2021-12-21 2022-04-15 中国电子科技集团公司第五十四研究所 一种sar-可见光遥感图像匹配方法
CN114445468A (zh) * 2022-01-27 2022-05-06 西安电子科技大学 一种异源遥感图像配准方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210012150A1 (en) * 2019-07-11 2021-01-14 Xidian University Bidirectional attention-based image-text cross-modal retrieval method
CN114140700A (zh) * 2021-12-01 2022-03-04 西安电子科技大学 基于级联网络的分步异源图像模板匹配方法
CN114358150A (zh) * 2021-12-21 2022-04-15 中国电子科技集团公司第五十四研究所 一种sar-可见光遥感图像匹配方法
CN114445468A (zh) * 2022-01-27 2022-05-06 西安电子科技大学 一种异源遥感图像配准方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张皓;李娜;王陆;: "基于多尺度结构特征的快速异源图像匹配", 红外技术, no. 05, 20 May 2020 (2020-05-20) *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115829988A (zh) * 2022-12-15 2023-03-21 欧冶链金再生资源有限公司 一种基于Segformer的废钢识别分割方法
CN115932823A (zh) * 2023-01-09 2023-04-07 中国人民解放军国防科技大学 基于异源区域特征匹配的飞行器对地面目标定位方法
CN116597177A (zh) * 2023-03-08 2023-08-15 西北工业大学 一种基于双分支并行深度交互协同的多源图像块匹配方法
CN116433735A (zh) * 2023-03-10 2023-07-14 西安电子科技大学 一种基于特征对抗网络的异源图像模板匹配方法
CN116168221A (zh) * 2023-04-25 2023-05-26 中国人民解放军火箭军工程大学 基于Transformer的跨模态图像匹配定位方法及装置
CN116168221B (zh) * 2023-04-25 2023-07-25 中国人民解放军火箭军工程大学 基于Transformer的跨模态图像匹配定位方法及装置
CN117474963A (zh) * 2023-10-18 2024-01-30 南京国础科学技术研究院有限公司 多源卫星图像配准方法、系统、存储介质和电子设备
CN117474963B (zh) * 2023-10-18 2024-04-19 南京国础科学技术研究院有限公司 多源卫星图像配准方法、系统、存储介质和电子设备
CN118968249A (zh) * 2024-10-16 2024-11-15 东华理工大学南昌校区 一种耦合相位结构和深度特征的多模态遥感图像匹配方法

Also Published As

Publication number Publication date
CN115331029B (zh) 2025-05-16

Similar Documents

Publication Publication Date Title
CN115331029A (zh) 基于跨模态转换网络与最优传输理论的异源图像匹配方法
Li et al. Building and optimization of 3D semantic map based on Lidar and camera fusion
Wang et al. 3d lidar and stereo fusion using stereo matching network with conditional cost volume normalization
Costea et al. Creating roadmaps in aerial images with generative adversarial networks and smoothing-based optimization
CN116486038B (zh) 一种三维构建网络训练方法、三维模型生成方法以及装置
US20220044072A1 (en) Systems and methods for aligning vectors to an image
CN114140700A (zh) 基于级联网络的分步异源图像模板匹配方法
CN114972748B (zh) 一种可解释边缘注意力和灰度量化网络的红外语义分割方法
CN115393404A (zh) 双光图像配准方法、装置及设备、存储介质
CN114076919A (zh) 毫米波雷达与相机联合标定方法和装置、服务器、计算机可读存储介质
Wei et al. From lines to polygons: Polygonal building contour extraction from high-resolution remote sensing imagery
CN116630937A (zh) 一种多模态融合的3d目标检测方法
CN118501878A (zh) 一种不动产测绘方法
CN114820733A (zh) 一种可解释的热红外可见光图像配准方法及系统
CN111695480B (zh) 基于单帧图像的实时目标检测与3d定位方法
Hu et al. Intra-and inter-modal graph attention network and contrastive learning for SAR and optical image registration
CN113627480B (zh) 一种基于强化学习的极化sar影像分类方法
Zhang et al. Multi-source remote sensing image registration based on local deep learning feature
Li et al. SAR–Optical Image Matching With Semantic Position Probability Distribution
CN118799549A (zh) 一种基于图像语义标签和点云数据融合的目标检测方法
Hu et al. NSAW: an efficient and accurate transformer for vehicle lidar object detection
CN117974803A (zh) 一种多传感器融合标定的方法及相关装置
Chenguang et al. Application of Improved YOLO V5s Model for Regional Poverty Assessment Using Remote Sensing Image Target Detection
CN116798016A (zh) 用于自动驾驶的多模态三维目标检测方法、系统及存储介质
EP4423716A1 (en) Systems and methods for processing multi-modal images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant