CN115496928B - 基于多重特征匹配的多模态图像特征匹配方法 - Google Patents

基于多重特征匹配的多模态图像特征匹配方法 Download PDF

Info

Publication number
CN115496928B
CN115496928B CN202211217811.8A CN202211217811A CN115496928B CN 115496928 B CN115496928 B CN 115496928B CN 202211217811 A CN202211217811 A CN 202211217811A CN 115496928 B CN115496928 B CN 115496928B
Authority
CN
China
Prior art keywords
image
matching
matrix
feature
coordinates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211217811.8A
Other languages
English (en)
Other versions
CN115496928A (zh
Inventor
廖赟
邸一得
周豪
朱开军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan Lanyi Network Technology Co ltd
Yunnan University YNU
Original Assignee
Yunnan Lanyi Network Technology Co ltd
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan Lanyi Network Technology Co ltd, Yunnan University YNU filed Critical Yunnan Lanyi Network Technology Co ltd
Priority to CN202211217811.8A priority Critical patent/CN115496928B/zh
Publication of CN115496928A publication Critical patent/CN115496928A/zh
Application granted granted Critical
Publication of CN115496928B publication Critical patent/CN115496928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于多重特征匹配的多模态图像特征匹配方法,该方法使用数据增强,对不同模态的一组图像进行仿射变换和随机裁剪,生成增强后的图像数据和相应的匹配矩阵GT_Matrix;设计卷积神经网络和特征金字塔提取多尺度的图像特征;设计Transformer网络进一步对1/8尺寸的粗粒度特征进行提取,生成粗粒度的注意力特征;使用双向softmax处理细粒度的注意力特征,生成置信度矩阵,以匹配矩阵GT_Matrix为标签进行粗匹配;设计局部特征窗口,通过Transformer和卷积神经网络特征融合和特征提取,进行精化回归;使用精化回归对粗匹配的预测结果进行再调整,最终实现精确的多模态图像特征匹配。

Description

基于多重特征匹配的多模态图像特征匹配方法
技术领域
本发明属于图像处理技术领域,涉及一种基于多重特征匹配的多模态图像特征匹配方法。
背景技术
图像间的局部特征匹配是计算机视觉中的一个关键问题,特别是对于具有不同形态的图像。例如,光学图像、SAR图像、近红外图像、短波红外图像和深度图像是5种典型的模态图像,它们所包含的信息内容可以相互补充。图像分类、图像拼接、图像融合、图像匹配等多模态图像处理任务都是在配准良好的图像上进行的,因此设计一种高效的特征匹配方法是非常重要的。
特征匹配是多模态图像处理中最重要的任务,许多其他任务都是以特征匹配为基础的。近年来,人们提出了许多特征匹配方法,大致可分为两类:基于检测器的局部特征匹配和无检测器的局部特征匹配。
基于检测器的局部特征匹配方法减少了匹配的搜索空间,获得了足以满足各种类型任务的稀疏对应关系。基于特征描述符的方法大致可以分为三类,分别是基于区域的特征描述符方法、手工特征描述符方法和基于学习的特征描述符方法。基于区域的特征描述符方法是通过对区域变换后的像素信息和像素强度的相似性度量来实现两幅图像的配准;基于区域的特征描述符方法在图像细节较少的情况下可以获得良好的性能,但在计算复杂度高、图像失真、强度变化大的情况下性能较差。手工特征描述符方法是专家学者利用视觉领域的先进知识,在空间几何约束下推导和设计有效的局部特征描述符,建立可靠的对应关系;对于基于学习的特征描述符方法,通过深度学习技术学习深度特征和非线性表达式,可以发现更多有价值的隐藏信息。在处理多模态图像时,由于多模态图像的成像机制差异较大,且含有大量的几何畸变和散斑噪声,特征检测器可能无法在多模态图像之间提取出足够的特征点,使用特征描述符的方法是两阶段方法,两阶段方法的过程是首先通过关键点检测方法提取关键点,然后基于特征点生成图像补丁,并将图像补丁的正确对应作为模型训练的标签。传统方法要求关键点检测方法先检测关键点,再根据关键点训练特征描述符,误差较大,计算速度较慢。
无检测器的局部特征匹配方法是一阶段方法,它不需要提取关键点,减少了关键点检测的误差。像素级密集匹配方法从密集匹配中选择可靠性高的匹配。然而,卷积神经网络(CNN)提取的密集特征只有有限的接受域,可能无法区分模糊区域。大量的科学研究证明了大的接受区域在多模态图像的特征匹配中是非常重要的。
随着深度学习的发展,Transformer已经成为自然语言处理(NLP)中序列建模的新标准。近年来,Transformer逐渐被应用到计算机视觉领域的各种任务中,并取得了良好的效果。考虑到基于描述符的多模态图像特征匹配方法的局限性和Transformer在计算机视觉领域的发展,提出了一种新的基于多重特征匹配的多模态图像特征匹配方法FeMIT。
发明内容
本发明实施例的目的在于提供一种基于多重特征匹配的多模态图像特征匹配方法,以更好地解决多模态图像的特征匹配问题,使其具有更佳的匹配能力和匹配精准度,并且在多种不同模态图像之间都具有很强的泛化性。
本发明所采用的技术方案是,一种基于多重特征匹配的多模态图像特征匹配方法包括以下步骤:
S1:使用数据增强方法,对不同模态的一组图像进行仿射变换和随机裁剪,生成增强后的图像数据和相应的匹配矩阵GT_Matrix;
S2:设计卷积神经网络和特征金字塔提取多尺度的图像特征,分别为1/8尺寸特征和1/2尺寸特征;
S3:设计Transformer网络进一步对1/8尺寸的粗粒度特征进行提取,生成粗粒度的注意力特征;
S4:使用双向softmax函数处理粗粒度的注意力特征,生成置信度矩阵,再以匹配矩阵GT_Matrix为标签进行粗匹配;
S5:设计局部特征窗口,通过Transformer和卷积神经网络特征融合和特征提取,进行精化回归;
S6:使用精化回归对粗匹配的预测结果进行再调整,最终实现精确的多模态图像特征匹配。
进一步的,所述S1中,生成增强后的图像数据和相应的匹配矩阵GT_Matrix,具体如下:
输入为不同模态的索引图Imgq和参考图Imgr,输出分别为原始图像的随机增强图像Iq、Ir,以及增强图像Iq和Ir之间的补丁级匹配标签GT矩阵;
对两种不同模态的图像分别进行随机裁剪,如果裁剪后的Imgq和Imgr重叠,则重叠部分可以相互转化;Iq和Ir的获取方式如下:
Iq=RandomCrop(QM×Imgq)
Ir=RandomCrop(RM×Imgr)
其中,在图像增强过程中,RM是在索引图Imgq上的随机仿射矩阵,QM是在参考图Imgr上的随机仿射矩阵;RandomCrop表示在图像上的随机仿射变换。
进一步的,所述S1中,生成相应的匹配矩阵GT_Matrix,具体如下:
将增强图像Iq划分为N=W/p×H/p网格,其中N为网格数,W和H为图像的高度和宽度,p×p为网格单元格大小;对于每个网格单元,定义一个网格单元坐标,其中第n个网格单元坐标
Figure BDA0003873656210000031
计算如下:
Figure BDA0003873656210000032
上式中,
Figure BDA0003873656210000033
是Iq图像的网格单元格坐标,n为网格数,W为图像的高度,p是网格单元格的边长,其中
Figure BDA0003873656210000034
将增强图像Iq中所有网格的中心点作为查询点,其索引点像素坐标
Figure BDA0003873656210000035
定义如下:
Figure BDA0003873656210000036
上式中,
Figure BDA0003873656210000037
是Iq图像的网格单元格坐标,
Figure BDA0003873656210000038
是获取索引点坐标的函数,p是网格单元格的边长;
将参考图Imgr中与查询点对应的点定义为参考点,其参考点的像素坐标定义为
Figure BDA0003873656210000039
Figure BDA00038736562100000310
参考点是通过从查询点获得的,使用的是与图像仿射变换相同的矩阵;通过变换从查询点得到参考点,其表达式如下:
Figure BDA00038736562100000311
上式中,
Figure BDA00038736562100000312
是索引点像素坐标,
Figure BDA00038736562100000313
是获取参考点坐标的函数;
获得参考点的像素坐标
Figure BDA00038736562100000314
后,提取参考点的网格单元坐标为:
Figure BDA00038736562100000315
上式中,
Figure BDA00038736562100000316
是Ir图像的网格单元格坐标,
Figure BDA00038736562100000317
是获取网格单元格坐标的函数,[]表示向下取整数;
Iq的网格单元在Ir中的映射计算如下:
Figure BDA0003873656210000041
上式中,由于Ir只与Iq部分重叠,
Figure BDA0003873656210000042
可能在Ir图像的内部或外部,如果
Figure BDA0003873656210000043
在Ir图像中,则:
Figure BDA0003873656210000044
GT矩阵是N×N的方阵,GT(i,j)表示GT矩阵第i行第j列的元素,如果GT(i,j)=1,则表示图像Iq中的第i个网格单元与图像Ir中的第j个网格单元匹配。
进一步的,所述S2中,设计卷积神经网络和特征金字塔提取多尺度的图像特征,具体如下:
网络接受大小为320×320×3的数据,输出大小为1/8尺寸特征和1/2尺寸特征,1/8尺寸特征是40×40×512,1/2尺寸特征是160×160×320,结合带有特征金字塔的卷积神经网络融合低分辨率语义信息和高分辨率空间信息的特征图,增强后的数据通过带有特征金字塔的卷积神经网络生成两组不同尺度的特征。
进一步的,所述S3中,设计Transformer网络进一步对1/8尺寸的粗粒度特征进行提取,生成粗粒度的注意力特征,具体如下:
设计的Transformer网络使用线性注意力机制代替点积注意力机制;
设计的Transformer包含自我注意层和交叉注意层,输入序列f是由特征Fq加上它的位置数据p得到的;位置编码以正弦格式为每个元素提供唯一的位置信息,通过添加位置编码,转换后的特征变得与位置相关,使基于多重特征匹配的多模态图像特征匹配方法即使在模糊的区域也能生成匹配;
在自我注意层中,Q、K和V由相同的输入序列f产生,从而学习到一张图片内部特征之间的关系;在交叉注意层中,Q由一个输入序列fi生成,K和V由另一个输入序列fj生成,从而学习不同模态的成对图像之间的关系;特征通过4个交替的自注意层和交叉注意层生成输出数据
Figure BDA0003873656210000045
and
Figure BDA0003873656210000046
用于进一步的粗匹配。
进一步的,所述S4中,使用双向softmax函数处理粗粒度的注意力特征,生成置信度矩阵,具体如下:
在粗匹配模块中,输出数据
Figure BDA0003873656210000047
Figure BDA0003873656210000048
先通过多重感知器进行特征提取,然后设计一个双向softmax算子来构造置信度矩阵,在这两个维度上都使用Softmax算法来获得软互最近邻匹配的概率,匹配概率P可定义为:
P(i,j)=softmax(S(i,·))j·softmax(S(·,j))i
上式中,softmax()是归一化指数函数,将多分类的结果以概率的形式展现出来;此处的函数是双向softmax函数,即softmax(S(i,·))j指的是对第i行的所有元素做softmax的运算,得到一个总和为1,不同概率分布的行向量;softmax(S(·,j))i指的是对第j列的所有元素做softmax的运算,得到一个总和为1,不同概率分布的列向量;再将两个结果相乘,可获得一个概率矩阵,即置信度矩阵。
进一步的,所述S4中,以匹配矩阵GT_Matrix为标签进行粗匹配,计算置信度矩阵和GT矩阵的交叉熵损失然后得到粗匹配,粗匹配度预测函数如下:
Figure BDA0003873656210000051
上式中,Lc表示粗匹配度预测函数,N代表样本数量,∑k表示对k个样本求和,Lk表示求第k个样本的概率预测函数,GTi,j为GT矩阵的具体的标签样本,P(i,j)表示匹配正确的概率。
进一步的,所述S5中,设计局部特征窗口,通过Transformer和卷积神经网络特征融合和特征提取,进行精化回归,具体如下:
Figure BDA0003873656210000052
Figure BDA0003873656210000053
的粗匹配点位置分别在精细级位置上进行精确定位,定位分别为
Figure BDA0003873656210000054
其中
Figure BDA0003873656210000055
是1/8尺度的索引图上的单位向量;
Figure BDA0003873656210000056
是1/8尺度的参考图上的单位向量;
Figure BDA0003873656210000057
是1/2尺度的索引图上的单位向量;
Figure BDA0003873656210000058
是1/2尺度的参考图上的单位向量;然后以精细级位置
Figure BDA0003873656210000059
Figure BDA00038736562100000510
为中心设计两组W×W-sized局部特征窗口;
将d通道的精细特征图和粗特征图通过局部特征窗口合并在一起,生成2d通道的特征图
Figure BDA00038736562100000511
Figure BDA00038736562100000512
接下来将
Figure BDA00038736562100000513
Figure BDA00038736562100000514
送入Transformer和卷积神经网络,生成d通道特征映射
Figure BDA00038736562100000515
Figure BDA00038736562100000516
在进行精化回归之前,
Figure BDA00038736562100000517
Figure BDA00038736562100000518
被合并到一个具有2d通道的特征图fq+r,最后,利用全连接层和L2距离损失得到最终的精化回归;
精化回归具体过程如下:
Figure BDA00038736562100000519
映射到原始查询图像的坐标为
Figure BDA00038736562100000520
Figure BDA00038736562100000521
映射到参考图像的坐标为
Figure BDA00038736562100000522
Figure BDA00038736562100000523
通过如下公式可得
Figure BDA00038736562100000524
Figure BDA00038736562100000525
Figure BDA0003873656210000061
Figure BDA0003873656210000062
上式中
Figure BDA0003873656210000063
是获取原始查询图像坐标的函数,
Figure BDA0003873656210000064
表示原始查询图像上坐标的单位向量;
Figure BDA0003873656210000065
是获取参考图像坐标的函数,
Figure BDA0003873656210000066
Figure BDA0003873656210000067
表示原始参考图像上坐标的单位向量;
接下来,原始查询图像上坐标为
Figure BDA0003873656210000068
的点被映射到原始参考图像,其映射坐标为
Figure BDA0003873656210000069
由如下公式可得:
Figure BDA00038736562100000610
上式中,
Figure BDA00038736562100000611
是获取映射坐标的函数,RM是在索引图上的随机仿射矩阵,QM是在参考图上的随机仿射矩阵。
进一步的,所述S5中,设计局部特征窗口,通过Transformer和卷积神经网络特征融合和特征提取,进行精化回归的过程是在原始图像上自动生成像素级标签,使基于多重特征匹配的多模态图像特征匹配方法能够在只有图像级标签数据可用的情况下执行像素级匹配操作。
进一步的,所述S6中使用精化回归对粗匹配的预测结果进行再调整,最终实现精确的多模态图像特征匹配,具体如下:
将精化回归结果(Δx,Δy)定义为预测坐标
Figure BDA00038736562100000612
与实际坐标
Figure BDA00038736562100000613
的差值,
Figure BDA00038736562100000614
上式中,L是最终损失函数Loss function的简略表示,S为特征点个数,
Figure BDA00038736562100000615
表示原始查询图像映射到参考图像上的坐标的单位向量,Δx和Δy分别为精化回归得到的水平偏差和垂直偏差。
本发明的有益效果是:本发明解决了多模态图像的特征匹配问题,具有优秀的匹配能力和匹配精准度,并且能够在各种不同模态间都有非常好的泛化性,具有很高的实用价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的基于多重特征匹配的多模态图像特征匹配方法的流程图。
图2是本发明实施例所取的不同特征匹配方法在多模态图像上匹配效果对比图。由上到下使用的方法分别是:FeMIT、MatchosNet和HardNet。其中FeMIT是无检测器方法,MatchosNet和HardNet是基于检测器的方法。
图3是本发明实施例的基于多重特征匹配的多模态图像特征匹配方法的总体架构图。
图4是本发明实施例的数据增强方法示意图。
图5是本发明实施例的GT矩阵生成图。
图6是本发明实施例的带有特征金字塔(FPN)的卷积神经网络(CNN)结构图。
图7是本发明实施例的Transformer构造图。
图8是本发明实施例的粗匹配模块图。
图9是本发明实施例的精化回归的模块图。
图10a是本发明实施例的SEN12MS数据集下相同场景NIR-RGB模态的多种方法的平均匹配精确率对比图。
图10b是本发明实施例的SEN12MS数据集下相同场景SAR-SWIR模态的多种方法的平均匹配精确率对比图。
图10c是本发明实施例的SEN12MS数据集下相同场景SAR-NIR模态的多种方法的平均匹配精确率对比图。
图10d是本发明实施例的SEN12MS数据集下相同场景NIR-SWIR模态的多种方法的平均匹配精确率对比图。
图11a是本发明实施例的NYU-Depth V2数据集下不同场景不同模态的多种方法的平均匹配精确率对比图。
图11b是本发明实施例的Optical-SAR数据集下不同场景不同模态的多种方法的平均匹配精确率对比图。
图11c是本发明实施例的RGB-NIR Scene数据集下不同场景不同模态的多种方法的平均匹配精确率对比图。
图11d是本发明实施例的WHU-OPT-SAR数据集下不同场景不同模态的多种方法的平均匹配精确率对比图。
图12是本发明实施例的消融实验的平均匹配精确率对比图。图中(1)是将损失函数替换为L1损失函数。(2)是将transformer替换为CNN。(3)是将FeMIT模型扩充两倍大小。(4)是完整的FeMIT方法。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1、图3所示,本实施例公开了一种基于多重特征匹配的多模态图像特征匹配方法(FeMIT),实现了在多模态数据下的特征匹配,包括以下步骤:
S1:使用数据增强方法,对不同模态的一组图像进行仿射变换和随机裁剪,生成增强后的图像数据和相应的匹配矩阵GT_Matrix。
进一步地,生成增强后的图像数据和相应的匹配矩阵GT_Matrix,流程如图4所示,具体如下:
输入为不同模态的索引图(Imgq)和参考图(Imgr),输出分别为原始图像的随机增强图像Iq、Ir,以及增强图像Iq和Ir之间的补丁级匹配标签GT矩阵(Ground Truth Matrix),Iq和Ir保证了训练样本的多样性,在线生成的GT矩阵标签保证了FeMIT对粗匹配训练过程的有效监督。
对两种不同模态的图像分别进行随机裁剪,如果裁剪后的Imgq和Imgr重叠,则重叠部分可以相互转化;Iq和Ir的获取方式如下:
Iq=RandomCrop(QM×Imgq)
Ir=RandomCrop(RM×Imgr)
其中,在图像增强过程中,RM是在索引图(Imgq)上的随机仿射矩阵,QM是在参考图(Imgr)上的随机仿射矩阵;RandomCrop表示在图像上的随机仿射变换。
进一步地,生成相应的匹配矩阵GT_Matrix的过程如下,流程如图5所示,
在图像之间进行粗匹配训练,需要图像之间的匹配标签,称为GT矩阵;上述在增强图像Iq和Ir之间的补丁级匹配标签GT矩阵(GroundTruthMatrix),在线生成的GT矩阵,将Iq划分为N=W/p×H/p网格,其中N为网格数,W和H为图像的高度和宽度,p×p为网格单元格大小;对于每个网格单元,定义一个网格单元坐标,其中第n个网格单元坐标
Figure BDA0003873656210000091
计算如下:
Figure BDA0003873656210000092
上式中,
Figure BDA0003873656210000093
是Iq图像的网格单元格坐标,n为网格数,W为图像的高度,p是网格单元格的边长,其中
Figure BDA0003873656210000094
将Iq中所有网格的中心点作为查询点,其索引点像素坐标
Figure BDA0003873656210000095
定义如下:
Figure BDA0003873656210000096
上式中,
Figure BDA0003873656210000097
是Iq图像的网格单元格坐标,
Figure BDA0003873656210000098
是获取索引点坐标的函数,p是网格单元格的边长。
将Imgr中与查询点对应的点定义为参考点,其参考点的像素坐标定义为
Figure BDA0003873656210000099
参考点是通过从查询点获得的,使用的是与图像仿射变换相同的矩阵;由于索引图(Imgq)和参考图(Imgr)是不同模态数据的对应集,因此可以通过一系列变换从查询点得到参考点,其表达式如下:
Figure BDA00038736562100000910
上式中,
Figure BDA00038736562100000911
是索引点像素坐标,
Figure BDA00038736562100000912
是获取参考点坐标的函数,RM是在索引图(Imgq)上的随机仿射矩阵,QM是在参考图(Imgr)上的随机仿射矩阵。
获得参考点的像素坐标
Figure BDA00038736562100000913
后,提取参考点的网格单元坐标为:
Figure BDA00038736562100000914
上式中,
Figure BDA00038736562100000915
是Ir图像的网格单元格坐标,
Figure BDA00038736562100000916
是获取网格单元格坐标的函数,[]表示向下取整数。
Iq的网格单元在Ir空间中的映射计算如下:
Figure BDA00038736562100000917
上式中,
Figure BDA00038736562100000918
是Iq中网格单元的坐标,
Figure BDA00038736562100000919
Figure BDA00038736562100000920
映射到Ir空间的网格单元坐标,由于Ir只与Iq部分重叠,
Figure BDA00038736562100000921
可能在Ir图像的内部或外部,如果
Figure BDA00038736562100000922
在Ir图像中:
Figure BDA0003873656210000101
GT矩阵是N×N的方阵,GT(i,j)表示GT矩阵第i行第j列的元素,如果GT(i,j)=1,则表示图像Iq中的第i个网格单元与图像Ir中的第j个网格单元匹配。
S2:设计卷积神经网络(CNN)和特征金字塔(FPN)提取多尺度的图像特征,分别为1/8尺寸特征(粗粒度特征)和1/2尺寸特征(细粒度特征)。
如图6所示,本发明设计了一种带有特征金字塔(FPN)的卷积神经网络(CNN),用于提取不同层次的特征。网络接受大小为320×320×3的数据,输出大小为40×40×512(1/8大小)和160×160×320(1/2大小)的特征。结合特征金字塔(FPN)的卷积神经网络(CNN)可以融合低分辨率语义信息和高分辨率空间信息的特征图。增强后的数据通过带特征金字塔(FPN)的卷积网络生成两组不同尺度的特征。
Figure BDA0003873656210000102
表示粗粒度特征,是扩充数据Iq,Ir的1/8大小,用于后续的粗级特征匹配。
Figure BDA0003873656210000103
表示细粒度特征,是增强数据Iq,Ir的1/2大小,用于实现后续的精化回归模块。
S3:设计Transformer网络进一步对1/8尺寸的粗粒度特征进行提取,生成粗粒度的注意力特征。
Transformer是用来处理自然语言处理问题的,不适合用于图像特征匹配,因此在FeMIT方法中,对Transformer进行了修改和调整,去掉解码器组件。
L层Transformer的计算公式为:
Tl(f)=Hl(Al(f)+f);
上式中,Tl(f)是Transformer生成的特征,Hl(Al(f)+f)是前馈网络的函数,Al(f)是作用于序列的自我注意函数,用于计算所有位置特征表示的加权平均值,f是输入序列。
Transformer的自我注意层和交叉注意层的输入向量均为查询向量Q、键向量K和值向量V,其三者是由输入序列f通过三个矩阵导出:
Q=fWQ,
K=FWK,
V=fWV
上式中,WQ、WK和WV分别表示查询向量Q、键向量K和值向量V的权重。
Transformer原本采用点积注意,可表示为:
Figure BDA0003873656210000104
上式中,Al(f)是作用于序列的自我注意函数,用于计算所有位置特征表示的加权平均值;首先将查询向量Q和键向量K做点积注意计算,之后将点积注意计算除以
Figure BDA00038736562100001110
D为键向量K的维度,再将计算结果通过softmax归一化处理,得到我们所需要的权重值,最后,将权重值与值向量V进行点乘并加权求和,得到该序列的自我注意函数。
原始Transformer中,Q和K的点积注意计算代价为O(N2),其中N表示序列长度,但图像数据比自然语言数据大得多,处理图像问题时O(N2)的计算复杂度是不合适的,本文用线性注意代替点积注意。线性Transformer用核函数代替指数核,定义如下:
Figure BDA0003873656210000111
φ(·)=elu(·)+1
上式中,
Figure BDA0003873656210000112
是指数函数,sin(Q,K)是相似度函数,elu(·)表示指数线性单位。
根据以上两个公式,可以得到:
Figure BDA0003873656210000113
由于
Figure BDA0003873656210000114
Figure BDA0003873656210000115
可以计算一次并在每次查询中重用,所以线性Transformer中的线性注意是O(N),其中N表示序列长度。
如图7所示,本发明设计的Transformer包含自我注意层和交叉注意层。输入序列f是由特征Fq加上它的位置数据p得到的。位置编码以正弦格式为每个元素提供唯一的位置信息。通过添加位置编码,转换后的特征变得与位置相关,使FeMIT即使在模糊的区域也能生成匹配。在自我注意层中,Q、K和V由相同的输入序列f产生,从而学习到一张图片内部特征之间的关系。在交叉注意层中,Q由一个输入序列fi生成,K和V由另一个输入序列fj生成,从而学习不同模态的成对图像之间的关系。特征通过4个交替的自注意层和交叉注意层生成输出数据
Figure BDA0003873656210000116
and
Figure BDA0003873656210000117
用于进一步的粗匹配。
S4:使用双向softmax函数处理粗粒度的注意力特征,生成置信度矩阵,再以匹配矩阵GT_Matrix为标签进行粗匹配。
如图8所示,在粗匹配模块中,
Figure BDA0003873656210000118
Figure BDA0003873656210000119
首先通过多重感知器(MLP)进行特征提取。然后设计一个双向softmax算子来构造置信度矩阵。在这两个维度上都使用Softmax算法来获得软互最近邻匹配的概率,匹配概率P可定义为:
P(i,j)=softmax(S(i,·))j·softmax(S(·,j))i
上式中,softmax()是归一化指数函数,将多分类的结果以概率的形式展现出来。此处的函数是双向softmax函数,即softmax(S(i,·))j指的是对第i行的所有元素做softmax的运算,得到一个总和为1,不同概率分布的行向量;softmax(S(·,j))i指的是对第j列的所有元素做softmax的运算,得到一个总和为1,不同概率分布的列向量;再将两个结果相乘,即可获得一个概率矩阵,即为本发明需要的置信度矩阵。
计算置信度矩阵和GT矩阵的交叉熵损失,得到最终的粗匹配。粗匹配度预测函数如下:
Figure BDA0003873656210000121
上式中,Lc表示粗匹配度预测函数(Loss_coarse),N代表样本数量,∑k表示对k个样本求和,Lk表示求第k个样本的概率预测函数,GTi,j为GT矩阵的具体的标签样本,P(i,j)表示匹配正确的概率。
S5:设计局部特征窗口,通过Transformer和卷积神经网络(CNN)特征融合和特征提取,进行精化回归。
此过程在原始图像上自动生成像素级标签,使FeMIT能够在只有图像级标签数据可用的情况下执行像素级匹配操作。
如图9所示,粗粒度特征上的一个单元对应于细粒度特征上的4x4个单元,位置
Figure BDA0003873656210000122
Figure BDA0003873656210000123
的粗匹配点位于精细级位置分别为
Figure BDA0003873656210000124
其中
Figure BDA0003873656210000125
是粗匹配特征图(1/8尺度)的索引图(query)上的单位向量;
Figure BDA0003873656210000126
是粗匹配特征图(1/8尺度)的参考图(refer)上的单位向量;
Figure BDA0003873656210000127
是精匹配特征图(1/2尺度)的索引图(query)上的单位向量;
Figure BDA0003873656210000128
是精匹配特征图(1/2尺度)的参考图(refer)上的单位向量。然后以精细级位置
Figure BDA0003873656210000129
Figure BDA00038736562100001210
为中心设计了两组W×W-sized局部特征窗口,将d通道的精细特征图和粗特征图通过局部特征窗口合并在一起,生成2d通道的特征图
Figure BDA00038736562100001211
Figure BDA00038736562100001212
接下来,
Figure BDA00038736562100001213
Figure BDA00038736562100001214
被送入Transformer和卷积神经网络,生成d通道特征映射
Figure BDA00038736562100001215
Figure BDA00038736562100001216
在进行精化回归之前,
Figure BDA00038736562100001217
Figure BDA00038736562100001218
被合并到一个具有2d通道的特征图fq+r,最后,利用全连接层和L2距离损失得到最终的精化回归。
其精化回归具体过程如下:
Figure BDA00038736562100001219
映射到原始查询图像的坐标为
Figure BDA00038736562100001220
Figure BDA00038736562100001221
映射到参考图像的坐标为
Figure BDA00038736562100001222
Figure BDA00038736562100001223
通过如下公式可得
Figure BDA00038736562100001224
Figure BDA00038736562100001225
Figure BDA0003873656210000131
Figure BDA0003873656210000132
上式中
Figure BDA0003873656210000133
是获取原始查询图像坐标的函数,
Figure BDA0003873656210000134
表示原始查询图像上坐标的单位向量;
Figure BDA0003873656210000135
是获取参考图像坐标的函数,
Figure BDA0003873656210000136
Figure BDA0003873656210000137
表示原始参考图像上坐标的单位向量。
接下来,原始查询图像上坐标为
Figure BDA0003873656210000138
的点被映射到原始参考图像,其映射坐标为
Figure BDA0003873656210000139
由如下公式可得:
Figure BDA00038736562100001310
上式中,
Figure BDA00038736562100001311
是获取映射坐标的函数,RM是在索引图上的随机仿射矩阵,QM是在参考图上的随机仿射矩阵。
S6:使用精化回归对粗匹配的预测结果进行再调整,最终实现精确的多模态图像特征匹配。
将精细回归结果(Δx,Δy)定义为预测坐标
Figure BDA00038736562100001312
与实际坐标
Figure BDA00038736562100001313
的差值。
Figure BDA00038736562100001314
上式中,L是最终损失函数Loss function的简略表示,S为特征点个数,
Figure BDA00038736562100001315
表示原始查询图像映射到参考图像上的坐标的单位向量,Δx和Δy分别为精化回归得到的水平偏差和垂直偏差。
实施例1
本实施例公开了一种基于多重特征匹配的多模态图像特征匹配方法(FeMIT),在其他客观环境相同的情况下,与其他多种方法进行对比实验,从而验证本发明设计的方法的匹配效果。
一、评价指标:
1、平均精度估计(Mean Matching Accuracy(MMA))
对于每个图像对,平均精度估计(MMA)使用只接受相互最近邻的算法来匹配每种方法提取的特征,如果同质性估计的重投影误差低于给定的匹配阈值,则认为匹配是正确的。MMA得分是考虑多个像素错误阈值的图像对中正确匹配的平均百分比,并显示所有图像对中每个阈值的平均得分。
2、单映性估计(Homography estimation)
在每个测试序列中,一幅参考图像与五幅其他图像配对,正确性标识符由经过估计的
Figure BDA0003873656210000141
扭曲的图像与地面真实值H之间的角误差计算得到,角误差达到不同阈值的累积曲线下区域应单独报告。
二、实验过程:
1、验证在相同场景的不同模态下,不同方法的匹配效果。
如图10a~图10d所示,在SEN12MS数据集的多模态图像上测试不同的方法进行MMA估计。MMA图的横坐标是像素阈值,纵坐标是平均匹配准确率,计算不同方法在像素值从1到10的平均匹配精度。MMA曲线越靠上、靠左,说明该方法的特征匹配性能越好。从图10a~图10d可以看出,FeMIT在SEN12MS数据集不同模态下的MMA曲线都是最好的,实施例1所取的不同特征匹配方法在多模态图像上特征匹配的效果对比图如图2所示,图2由上到下使用的方法分别是:FeMIT、MatchosNet和HardNet,其中FeMIT是无检测器方法,MatchosNet和HardNet是基于检测器的方法;实验结果见表1。
表1 SEN12MS数据集的相同场景的不同模态上多种方法进行单映性估计对比实验
Figure BDA0003873656210000142
Figure BDA0003873656210000151
如表1所示,表中所展示的是单映性估计的累计曲线(AUC)下角误差分别达到阈值3、5和10像素的区域。在相同像素阈值下,单映性估计的数值越高代表其特征匹配效果越好,在对同一幅图像的不同模态的实验中可以看出,FeMIT在单应性估计方面具有良好的性能。实验证明,在相同图像的不同模态下,FeMIT方法与其他方法相比具有良好的性能。
2、验证在不同场景的不同模态下,不同方法的匹配效果。
如图11a~图11d所示,在new-depth V2、optics-sar、RGB-NIR和WHU-OPT-SAR数据集的多模态图像上测试了不同的方法来进行平均精度估计。从图11a~图11d可以看出,在不同的多模态数据集上,FeMIT方法的MMA指数均优于其他方法,证明FeMIT方法在处理多模态数据时具有良好的准确性和泛化性,实验结果见表2。
表2不同数据集(不同场景)的不同模态上多种方法进行单映性估计对比实验
Figure BDA0003873656210000152
Figure BDA0003873656210000161
如表2所示,不同的方法在NYU-Depth V2、Optical-SAR、RGB-NIR和WHU-OPT-SAR数据集的多模态图像上进行单应性估计,单映性估计的数值越高代表其特征匹配效果越好,FeMIT在对不同图像进行不同模态单应性估计的实验中表现最好。
实施例2
本实施例中,对FeMIT分别设计不同的变体,对实施例1中的特征匹配方法进行对比实验,从而验证本发明设计的FeMIT算法的性能。
表3消融实验:对FeMIT分别设计不同的变体,进行对比实验
Figure BDA0003873656210000171
本发明为了充分了解不同模块在FeMIT中的作用,设计了几种不同的变体来进行消融实验。(1)将损失函数替换为L1损失函数。(2)将transformer替换为CNN。(3)将FeMIT模型扩充两倍大小,Nc=8,Nf=2。(4)完整的FeMIT方法。如图12和表3所示,FeMIT的性能优于所有变体,说明目前FeMIT算法的设计在网络结构和损失函数上都是最合理、最有效的。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (7)

1.基于多重特征匹配的多模态图像特征匹配方法,其特征在于,包括以下步骤:
S1:使用数据增强方法,对不同模态的一组图像进行仿射变换和随机裁剪,生成增强后的图像数据和相应的匹配矩阵GT_Matrix;
S2:设计卷积神经网络和特征金字塔提取多尺度的图像特征,分别为1/8尺寸特征和1/2尺寸特征;
S3:设计Transformer网络进一步对1/8尺寸的粗粒度特征进行提取,生成粗粒度的注意力特征;
S4:使用双向softmax函数处理粗粒度的注意力特征,生成置信度矩阵,再以匹配矩阵GT_Matrix为标签进行粗匹配;
S5:设计局部特征窗口,通过Transformer和卷积神经网络特征融合和特征提取,进行精化回归;
S6:使用精化回归对粗匹配的预测结果进行再调整,最终实现精确的多模态图像特征匹配;
所述S1中,生成增强后的图像数据和相应的匹配矩阵GT_Matrix,具体如下:
输入为不同模态的索引图Imgq和参考图Imgr,输出分别为原始图像的随机增强图像Iq、Ir,以及增强图像Iq和Ir之间的补丁级匹配标签GT矩阵;
对两种不同模态的图像分别进行随机裁剪,如果裁剪后的Imgq和Imgr重叠,则重叠部分可以相互转化;Iq和Ir的获取方式如下:
Iq=RandomCrop(QM×Imgq)
Ir=RandomCrop(RM×Imgr)
其中,在图像增强过程中,RM是在索引图Imgq上的随机仿射矩阵,QM是在参考图Imgr上的随机仿射矩阵;RandomCrop表示在图像上的随机仿射变换;
所述S1中,生成相应的匹配矩阵GT_Matrix,具体如下:
将增强图像Iq划分为N=W/p×H/p网格,其中N为网格数,W和H为图像的高度和宽度,p×p为网格单元格大小;对于每个网格单元,定义一个网格单元坐标,其中第n个网格单元坐标
Figure FDA0004111418050000011
计算如下:
Figure FDA0004111418050000012
上式中,
Figure FDA0004111418050000013
是Iq图像的网格单元格坐标,n为网格数,W为图像的高度,p是网格单元格的边长,其中
Figure FDA0004111418050000014
将增强图像Iq中所有网格的中心点作为查询点,其索引点像素坐标
Figure FDA0004111418050000021
定义如下:
Figure FDA0004111418050000022
上式中,
Figure FDA0004111418050000023
是Iq图像的网格单元格坐标,
Figure FDA0004111418050000024
是获取索引点坐标的函数,p是网格单元格的边长;
将参考图Imgr中与查询点对应的点定义为参考点,其参考点的像素坐标定义为
Figure FDA0004111418050000025
Figure FDA0004111418050000026
参考点是通过从查询点获得的,使用的是与图像仿射变换相同的矩阵;通过变换从查询点得到参考点,其表达式如下:
Figure FDA0004111418050000027
上式中,
Figure FDA0004111418050000028
是索引点像素坐标,
Figure FDA0004111418050000029
是获取参考点坐标的函数;
获得参考点的像素坐标
Figure FDA00041114180500000210
后,提取参考点的网格单元坐标为:
Figure FDA00041114180500000211
上式中,
Figure FDA00041114180500000212
是Ir图像的网格单元格坐标,
Figure FDA00041114180500000213
是获取网格单元格坐标的函数,[]表示向下取整数;
Iq的网格单元在Ir中的映射计算如下:
Figure FDA00041114180500000214
上式中,由于Ir只与Iq部分重叠,
Figure FDA00041114180500000215
可能在Ir图像的内部或外部,如果
Figure FDA00041114180500000216
在Ir图像中,则:
Figure FDA00041114180500000217
GT矩阵是N×N的方阵,GT(i,j)表示GT矩阵第i行第j列的元素,如果GT(i,j)=1,则表示图像Iq中的第i个网格单元与图像Ir中的第j个网格单元匹配;
所述S3中,设计Transformer网络进一步对1/8尺寸的粗粒度特征进行提取,生成粗粒度的注意力特征,具体如下:
设计的Transformer网络使用线性注意力机制代替点积注意力机制;
设计的Transformer包含自我注意层和交叉注意层,输入序列f是由特征Fq加上它的位置数据p得到的;位置编码以正弦格式为每个元素提供唯一的位置信息,通过添加位置编码,转换后的特征变得与位置相关,使基于多重特征匹配的多模态图像特征匹配方法即使在模糊的区域也能生成匹配;
在自我注意层中,Q、K和V由相同的输入序列f产生,从而学习到一张图片内部特征之间的关系;在交叉注意层中,Q由一个输入序列fi生成,K和V由另一个输入序列fj生成,从而学习不同模态的成对图像之间的关系;特征通过4个交替的自注意层和交叉注意层生成输出数据
Figure FDA0004111418050000031
and
Figure FDA0004111418050000035
用于进一步的粗匹配。
2.根据权利要求1所述的基于多重特征匹配的多模态图像特征匹配方法,其特征在于,所述S2中,设计卷积神经网络和特征金字塔提取多尺度的图像特征,具体如下:
网络接受大小为320×320×3的数据,输出大小为1/8尺寸特征和1/2尺寸特征,1/8尺寸特征是40×40×512,1/2尺寸特征是160×160×320,结合带有特征金字塔的卷积神经网络融合低分辨率语义信息和高分辨率空间信息的特征图,增强后的数据通过带有特征金字塔的卷积神经网络生成两组不同尺度的特征。
3.根据权利要求1所述的基于多重特征匹配的多模态图像特征匹配方法,其特征在于,所述S4中,使用双向softmax函数处理粗粒度的注意力特征,生成置信度矩阵,具体如下:
在粗匹配模块中,输出数据
Figure FDA0004111418050000032
Figure FDA0004111418050000033
先通过多重感知器进行特征提取,然后设计一个双向softmax算子来构造置信度矩阵,在这两个维度上都使用Softmax算法来获得软互最近邻匹配的概率,匹配概率P可定义为:
P(i,j)=softmax(S(i,·))j·softmax(S(·,j))i
上式中,softmax()是归一化指数函数,将多分类的结果以概率的形式展现出来;此处的函数是双向softmax函数,即softmax(S(i,·))j指的是对第i行的所有元素做softmax的运算,得到一个总和为1,不同概率分布的行向量;softmax(S(·,j))i指的是对第j列的所有元素做softmax的运算,得到一个总和为1,不同概率分布的列向量;再将两个结果相乘,可获得一个概率矩阵,即置信度矩阵。
4.根据权利要求1或3所述的基于多重特征匹配的多模态图像特征匹配方法,其特征在于,所述S4中,以匹配矩阵GT_Matrix为标签进行粗匹配,计算置信度矩阵和GT矩阵的交叉熵损失然后得到粗匹配,粗匹配度预测函数如下:
Figure FDA0004111418050000034
上式中,Lc表示粗匹配度预测函数,N代表样本数量,∑k表示对k个样本求和,Lk表示求第k个样本的概率预测函数,GTi,j为GT矩阵的具体的标签样本,P(i,j)表示匹配正确的概率。
5.根据权利要求1所述的基于多重特征匹配的多模态图像特征匹配方法,其特征在于,所述S5中,设计局部特征窗口,通过Transformer和卷积神经网络特征融合和特征提取,进行精化回归,具体如下:
Figure FDA0004111418050000041
Figure FDA0004111418050000042
的粗匹配点位置分别在精细级位置上进行精确定位,定位分别为
Figure FDA0004111418050000043
其中
Figure FDA0004111418050000044
是1/8尺度的索引图上的单位向量;
Figure FDA0004111418050000045
是1/8尺度的参考图上的单位向量;
Figure FDA0004111418050000046
是1/2尺度的索引图上的单位向量;
Figure FDA0004111418050000047
是1/2尺度的参考图上的单位向量;然后以精细级位置
Figure FDA0004111418050000048
Figure FDA0004111418050000049
为中心设计两组W×W-sized局部特征窗口;
将d通道的精细特征图和粗特征图通过局部特征窗口合并在一起,生成2d通道的特征图
Figure FDA00041114180500000410
Figure FDA00041114180500000411
接下来将
Figure FDA00041114180500000412
Figure FDA00041114180500000413
送入Transformer和卷积神经网络,生成d通道特征映射
Figure FDA00041114180500000414
Figure FDA00041114180500000415
在进行精化回归之前,
Figure FDA00041114180500000416
Figure FDA00041114180500000417
被合并到一个具有2d通道的特征图fq+r,最后,利用全连接层和L2距离损失得到最终的精化回归;
精化回归具体过程如下:
Figure FDA00041114180500000418
映射到原始查询图像的坐标为
Figure FDA00041114180500000419
Figure FDA00041114180500000420
映射到参考图像的坐标为
Figure FDA00041114180500000421
Figure FDA00041114180500000422
通过如下公式可得
Figure FDA00041114180500000423
Figure FDA00041114180500000424
Figure FDA00041114180500000425
Figure FDA00041114180500000426
上式中
Figure FDA00041114180500000427
是获取原始查询图像坐标的函数,
Figure FDA00041114180500000428
表示原始查询图像上坐标的单位向量;
Figure FDA00041114180500000429
是获取参考图像坐标的函数,
Figure FDA00041114180500000430
Figure FDA00041114180500000431
表示原始参考图像上坐标的单位向量;
接下来,原始查询图像上坐标为
Figure FDA00041114180500000432
的点被映射到原始参考图像,其映射坐标为
Figure FDA00041114180500000433
由如下公式可得:
Figure FDA00041114180500000434
上式中,
Figure FDA0004111418050000051
是获取映射坐标的函数,RM是在索引图上的随机仿射矩阵,QM是在参考图上的随机仿射矩阵。
6.根据权利要求1或5所述的基于多重特征匹配的多模态图像特征匹配方法,其特征在于,所述S5中,设计局部特征窗口,通过Transformer和卷积神经网络特征融合和特征提取,进行精化回归的过程是在原始图像上自动生成像素级标签,使基于多重特征匹配的多模态图像特征匹配方法能够在只有图像级标签数据可用的情况下执行像素级匹配操作。
7.根据权利要求1所述的基于多重特征匹配的多模态图像特征匹配方法,其特征在于,所述S6中使用精化回归对粗匹配的预测结果进行再调整,最终实现精确的多模态图像特征匹配,具体如下:
将精化回归结果(Δx,Δy)定义为预测坐标
Figure FDA0004111418050000052
与实际坐标
Figure FDA0004111418050000053
的差值,
Figure FDA0004111418050000054
上式中,L是最终损失函数Loss function的简略表示,S为特征点个数,
Figure FDA0004111418050000055
表示原始查询图像映射到参考图像上的坐标的单位向量,Δx和Δy分别为精化回归得到的水平偏差和垂直偏差。
CN202211217811.8A 2022-09-30 2022-09-30 基于多重特征匹配的多模态图像特征匹配方法 Active CN115496928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211217811.8A CN115496928B (zh) 2022-09-30 2022-09-30 基于多重特征匹配的多模态图像特征匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211217811.8A CN115496928B (zh) 2022-09-30 2022-09-30 基于多重特征匹配的多模态图像特征匹配方法

Publications (2)

Publication Number Publication Date
CN115496928A CN115496928A (zh) 2022-12-20
CN115496928B true CN115496928B (zh) 2023-04-18

Family

ID=84472967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211217811.8A Active CN115496928B (zh) 2022-09-30 2022-09-30 基于多重特征匹配的多模态图像特征匹配方法

Country Status (1)

Country Link
CN (1) CN115496928B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115908879B (zh) * 2023-03-09 2023-06-16 中国科学技术大学 基于点引导注意力机制的自适应局部图像特征匹配方法
CN116150417B (zh) * 2023-04-19 2023-08-04 上海维智卓新信息科技有限公司 一种多尺度多融合的图像检索方法及装置
CN116452936B (zh) * 2023-04-22 2023-09-29 安徽大学 融合光学和sar影像多模态信息的旋转目标检测方法
CN117078982B (zh) * 2023-10-16 2024-01-26 山东建筑大学 基于深度学习的大倾角立体像对准密集特征匹配方法
CN118135256A (zh) * 2023-10-24 2024-06-04 西北工业大学 一种基于边缘引导的从粗到细的异源图像匹配方法
CN117635986B (zh) * 2023-11-27 2024-07-05 哈工大郑州研究院 一种适用大尺度场景下基于特征匹配网络的特征识别方法
CN117557605A (zh) * 2023-12-29 2024-02-13 中国科学院长春光学精密机械与物理研究所 红外与可见光遥感图像的配准方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11348227B2 (en) * 2018-09-04 2022-05-31 The Trustees Of The University Of Pennsylvania Image registration using a fully convolutional network
CN113378989B (zh) * 2021-07-06 2022-05-17 武汉大学 基于复式协同结构特征重组网络的多模态数据融合方法
CN114241273B (zh) * 2021-12-01 2022-11-04 电子科技大学 基于Transformer网络和超球空间学习的多模态图像处理方法及系统
CN114926746B (zh) * 2022-05-25 2024-03-01 西北工业大学 基于多尺度差分特征注意力机制的sar图像变化检测方法

Also Published As

Publication number Publication date
CN115496928A (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
CN115496928B (zh) 基于多重特征匹配的多模态图像特征匹配方法
CN112347859B (zh) 一种光学遥感图像显著性目标检测方法
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN110163286B (zh) 一种基于混合池化的领域自适应图像分类方法
CN115240121B (zh) 一种用于增强行人局部特征的联合建模方法和装置
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN112036260B (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN113744153B (zh) 双分支图像修复伪造检测方法、系统、设备及存储介质
CN110414616B (zh) 一种利用空间关系的遥感图像字典学习分类方法
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、系统及设备
CN117152416A (zh) 一种基于detr改进模型的稀疏注意力目标检测方法
CN111898566B (zh) 姿态估计方法、装置、电子设备和存储介质
CN114926742B (zh) 一种基于二阶注意力机制的回环检测及优化方法
CN112580480A (zh) 一种高光谱遥感影像分类方法及装置
CN114973305B (zh) 一种针对拥挤人群的精确人体解析方法
CN117809339A (zh) 一种基于可变形卷积编码网络和特征区域关注的人体姿态估计方法
CN117422978A (zh) 基于动态双级视觉信息融合的接地视觉问答方法
CN110555406B (zh) 一种基于Haar-like特征及CNN匹配的视频运动目标识别方法
CN113159053A (zh) 图像识别方法、装置及计算设备
CN116863223A (zh) 语义注意力特征嵌入Swin Transformer网络的遥感图像场景分类的方法
CN116311345A (zh) 一种基于Transformer的遮挡行人重识别方法
Sun et al. Vehicle classification approach based on the combined texture and shape features with a compressive DL
CN114596433A (zh) 一种绝缘子识别方法
Lei et al. STDC‐MA network for semantic segmentation
Yuan et al. Research approach of hand gesture recognition based on improved YOLOV3 network and Bayes classifier

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Liao Bin

Inventor after: Di Yide

Inventor after: Zhou Hao

Inventor after: Zhu Kaijun

Inventor after: Duan Qing

Inventor after: Liu Junhui

Inventor before: Liao Bin

Inventor before: Di Yide

Inventor before: Zhou Hao

Inventor before: Zhu Kaijun