CN115496928B - 基于多重特征匹配的多模态图像特征匹配方法 - Google Patents
基于多重特征匹配的多模态图像特征匹配方法 Download PDFInfo
- Publication number
- CN115496928B CN115496928B CN202211217811.8A CN202211217811A CN115496928B CN 115496928 B CN115496928 B CN 115496928B CN 202211217811 A CN202211217811 A CN 202211217811A CN 115496928 B CN115496928 B CN 115496928B
- Authority
- CN
- China
- Prior art keywords
- image
- matching
- matrix
- feature
- coordinates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 96
- 239000011159 matrix material Substances 0.000 claims abstract description 91
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 33
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims abstract description 24
- 230000009466 transformation Effects 0.000 claims abstract description 14
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 10
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 38
- 238000013507 mapping Methods 0.000 claims description 18
- 125000004432 carbon atom Chemical group C* 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 4
- 150000001875 compounds Chemical class 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 41
- 238000002474 experimental method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000013461 design Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于多重特征匹配的多模态图像特征匹配方法,该方法使用数据增强,对不同模态的一组图像进行仿射变换和随机裁剪,生成增强后的图像数据和相应的匹配矩阵GT_Matrix;设计卷积神经网络和特征金字塔提取多尺度的图像特征;设计Transformer网络进一步对1/8尺寸的粗粒度特征进行提取,生成粗粒度的注意力特征;使用双向softmax处理细粒度的注意力特征,生成置信度矩阵,以匹配矩阵GT_Matrix为标签进行粗匹配;设计局部特征窗口,通过Transformer和卷积神经网络特征融合和特征提取,进行精化回归;使用精化回归对粗匹配的预测结果进行再调整,最终实现精确的多模态图像特征匹配。
Description
技术领域
本发明属于图像处理技术领域,涉及一种基于多重特征匹配的多模态图像特征匹配方法。
背景技术
图像间的局部特征匹配是计算机视觉中的一个关键问题,特别是对于具有不同形态的图像。例如,光学图像、SAR图像、近红外图像、短波红外图像和深度图像是5种典型的模态图像,它们所包含的信息内容可以相互补充。图像分类、图像拼接、图像融合、图像匹配等多模态图像处理任务都是在配准良好的图像上进行的,因此设计一种高效的特征匹配方法是非常重要的。
特征匹配是多模态图像处理中最重要的任务,许多其他任务都是以特征匹配为基础的。近年来,人们提出了许多特征匹配方法,大致可分为两类:基于检测器的局部特征匹配和无检测器的局部特征匹配。
基于检测器的局部特征匹配方法减少了匹配的搜索空间,获得了足以满足各种类型任务的稀疏对应关系。基于特征描述符的方法大致可以分为三类,分别是基于区域的特征描述符方法、手工特征描述符方法和基于学习的特征描述符方法。基于区域的特征描述符方法是通过对区域变换后的像素信息和像素强度的相似性度量来实现两幅图像的配准;基于区域的特征描述符方法在图像细节较少的情况下可以获得良好的性能,但在计算复杂度高、图像失真、强度变化大的情况下性能较差。手工特征描述符方法是专家学者利用视觉领域的先进知识,在空间几何约束下推导和设计有效的局部特征描述符,建立可靠的对应关系;对于基于学习的特征描述符方法,通过深度学习技术学习深度特征和非线性表达式,可以发现更多有价值的隐藏信息。在处理多模态图像时,由于多模态图像的成像机制差异较大,且含有大量的几何畸变和散斑噪声,特征检测器可能无法在多模态图像之间提取出足够的特征点,使用特征描述符的方法是两阶段方法,两阶段方法的过程是首先通过关键点检测方法提取关键点,然后基于特征点生成图像补丁,并将图像补丁的正确对应作为模型训练的标签。传统方法要求关键点检测方法先检测关键点,再根据关键点训练特征描述符,误差较大,计算速度较慢。
无检测器的局部特征匹配方法是一阶段方法,它不需要提取关键点,减少了关键点检测的误差。像素级密集匹配方法从密集匹配中选择可靠性高的匹配。然而,卷积神经网络(CNN)提取的密集特征只有有限的接受域,可能无法区分模糊区域。大量的科学研究证明了大的接受区域在多模态图像的特征匹配中是非常重要的。
随着深度学习的发展,Transformer已经成为自然语言处理(NLP)中序列建模的新标准。近年来,Transformer逐渐被应用到计算机视觉领域的各种任务中,并取得了良好的效果。考虑到基于描述符的多模态图像特征匹配方法的局限性和Transformer在计算机视觉领域的发展,提出了一种新的基于多重特征匹配的多模态图像特征匹配方法FeMIT。
发明内容
本发明实施例的目的在于提供一种基于多重特征匹配的多模态图像特征匹配方法,以更好地解决多模态图像的特征匹配问题,使其具有更佳的匹配能力和匹配精准度,并且在多种不同模态图像之间都具有很强的泛化性。
本发明所采用的技术方案是,一种基于多重特征匹配的多模态图像特征匹配方法包括以下步骤:
S1:使用数据增强方法,对不同模态的一组图像进行仿射变换和随机裁剪,生成增强后的图像数据和相应的匹配矩阵GT_Matrix;
S2:设计卷积神经网络和特征金字塔提取多尺度的图像特征,分别为1/8尺寸特征和1/2尺寸特征;
S3:设计Transformer网络进一步对1/8尺寸的粗粒度特征进行提取,生成粗粒度的注意力特征;
S4:使用双向softmax函数处理粗粒度的注意力特征,生成置信度矩阵,再以匹配矩阵GT_Matrix为标签进行粗匹配;
S5:设计局部特征窗口,通过Transformer和卷积神经网络特征融合和特征提取,进行精化回归;
S6:使用精化回归对粗匹配的预测结果进行再调整,最终实现精确的多模态图像特征匹配。
进一步的,所述S1中,生成增强后的图像数据和相应的匹配矩阵GT_Matrix,具体如下:
输入为不同模态的索引图Imgq和参考图Imgr,输出分别为原始图像的随机增强图像Iq、Ir,以及增强图像Iq和Ir之间的补丁级匹配标签GT矩阵;
对两种不同模态的图像分别进行随机裁剪,如果裁剪后的Imgq和Imgr重叠,则重叠部分可以相互转化;Iq和Ir的获取方式如下:
Iq=RandomCrop(QM×Imgq)
Ir=RandomCrop(RM×Imgr)
其中,在图像增强过程中,RM是在索引图Imgq上的随机仿射矩阵,QM是在参考图Imgr上的随机仿射矩阵;RandomCrop表示在图像上的随机仿射变换。
进一步的,所述S1中,生成相应的匹配矩阵GT_Matrix,具体如下:
Iq的网格单元在Ir中的映射计算如下:
GT矩阵是N×N的方阵,GT(i,j)表示GT矩阵第i行第j列的元素,如果GT(i,j)=1,则表示图像Iq中的第i个网格单元与图像Ir中的第j个网格单元匹配。
进一步的,所述S2中,设计卷积神经网络和特征金字塔提取多尺度的图像特征,具体如下:
网络接受大小为320×320×3的数据,输出大小为1/8尺寸特征和1/2尺寸特征,1/8尺寸特征是40×40×512,1/2尺寸特征是160×160×320,结合带有特征金字塔的卷积神经网络融合低分辨率语义信息和高分辨率空间信息的特征图,增强后的数据通过带有特征金字塔的卷积神经网络生成两组不同尺度的特征。
进一步的,所述S3中,设计Transformer网络进一步对1/8尺寸的粗粒度特征进行提取,生成粗粒度的注意力特征,具体如下:
设计的Transformer网络使用线性注意力机制代替点积注意力机制;
设计的Transformer包含自我注意层和交叉注意层,输入序列f是由特征Fq加上它的位置数据p得到的;位置编码以正弦格式为每个元素提供唯一的位置信息,通过添加位置编码,转换后的特征变得与位置相关,使基于多重特征匹配的多模态图像特征匹配方法即使在模糊的区域也能生成匹配;
在自我注意层中,Q、K和V由相同的输入序列f产生,从而学习到一张图片内部特征之间的关系;在交叉注意层中,Q由一个输入序列fi生成,K和V由另一个输入序列fj生成,从而学习不同模态的成对图像之间的关系;特征通过4个交替的自注意层和交叉注意层生成输出数据and用于进一步的粗匹配。
进一步的,所述S4中,使用双向softmax函数处理粗粒度的注意力特征,生成置信度矩阵,具体如下:
P(i,j)=softmax(S(i,·))j·softmax(S(·,j))i
上式中,softmax()是归一化指数函数,将多分类的结果以概率的形式展现出来;此处的函数是双向softmax函数,即softmax(S(i,·))j指的是对第i行的所有元素做softmax的运算,得到一个总和为1,不同概率分布的行向量;softmax(S(·,j))i指的是对第j列的所有元素做softmax的运算,得到一个总和为1,不同概率分布的列向量;再将两个结果相乘,可获得一个概率矩阵,即置信度矩阵。
进一步的,所述S4中,以匹配矩阵GT_Matrix为标签进行粗匹配,计算置信度矩阵和GT矩阵的交叉熵损失然后得到粗匹配,粗匹配度预测函数如下:
上式中,Lc表示粗匹配度预测函数,N代表样本数量,∑k表示对k个样本求和,Lk表示求第k个样本的概率预测函数,GTi,j为GT矩阵的具体的标签样本,P(i,j)表示匹配正确的概率。
进一步的,所述S5中,设计局部特征窗口,通过Transformer和卷积神经网络特征融合和特征提取,进行精化回归,具体如下:
将和的粗匹配点位置分别在精细级位置上进行精确定位,定位分别为其中是1/8尺度的索引图上的单位向量;是1/8尺度的参考图上的单位向量;是1/2尺度的索引图上的单位向量;是1/2尺度的参考图上的单位向量;然后以精细级位置和为中心设计两组W×W-sized局部特征窗口;
将d通道的精细特征图和粗特征图通过局部特征窗口合并在一起,生成2d通道的特征图和接下来将和送入Transformer和卷积神经网络,生成d通道特征映射和在进行精化回归之前,和被合并到一个具有2d通道的特征图fq+r,最后,利用全连接层和L2距离损失得到最终的精化回归;
精化回归具体过程如下:
进一步的,所述S5中,设计局部特征窗口,通过Transformer和卷积神经网络特征融合和特征提取,进行精化回归的过程是在原始图像上自动生成像素级标签,使基于多重特征匹配的多模态图像特征匹配方法能够在只有图像级标签数据可用的情况下执行像素级匹配操作。
进一步的,所述S6中使用精化回归对粗匹配的预测结果进行再调整,最终实现精确的多模态图像特征匹配,具体如下:
本发明的有益效果是:本发明解决了多模态图像的特征匹配问题,具有优秀的匹配能力和匹配精准度,并且能够在各种不同模态间都有非常好的泛化性,具有很高的实用价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的基于多重特征匹配的多模态图像特征匹配方法的流程图。
图2是本发明实施例所取的不同特征匹配方法在多模态图像上匹配效果对比图。由上到下使用的方法分别是:FeMIT、MatchosNet和HardNet。其中FeMIT是无检测器方法,MatchosNet和HardNet是基于检测器的方法。
图3是本发明实施例的基于多重特征匹配的多模态图像特征匹配方法的总体架构图。
图4是本发明实施例的数据增强方法示意图。
图5是本发明实施例的GT矩阵生成图。
图6是本发明实施例的带有特征金字塔(FPN)的卷积神经网络(CNN)结构图。
图7是本发明实施例的Transformer构造图。
图8是本发明实施例的粗匹配模块图。
图9是本发明实施例的精化回归的模块图。
图10a是本发明实施例的SEN12MS数据集下相同场景NIR-RGB模态的多种方法的平均匹配精确率对比图。
图10b是本发明实施例的SEN12MS数据集下相同场景SAR-SWIR模态的多种方法的平均匹配精确率对比图。
图10c是本发明实施例的SEN12MS数据集下相同场景SAR-NIR模态的多种方法的平均匹配精确率对比图。
图10d是本发明实施例的SEN12MS数据集下相同场景NIR-SWIR模态的多种方法的平均匹配精确率对比图。
图11a是本发明实施例的NYU-Depth V2数据集下不同场景不同模态的多种方法的平均匹配精确率对比图。
图11b是本发明实施例的Optical-SAR数据集下不同场景不同模态的多种方法的平均匹配精确率对比图。
图11c是本发明实施例的RGB-NIR Scene数据集下不同场景不同模态的多种方法的平均匹配精确率对比图。
图11d是本发明实施例的WHU-OPT-SAR数据集下不同场景不同模态的多种方法的平均匹配精确率对比图。
图12是本发明实施例的消融实验的平均匹配精确率对比图。图中(1)是将损失函数替换为L1损失函数。(2)是将transformer替换为CNN。(3)是将FeMIT模型扩充两倍大小。(4)是完整的FeMIT方法。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1、图3所示,本实施例公开了一种基于多重特征匹配的多模态图像特征匹配方法(FeMIT),实现了在多模态数据下的特征匹配,包括以下步骤:
S1:使用数据增强方法,对不同模态的一组图像进行仿射变换和随机裁剪,生成增强后的图像数据和相应的匹配矩阵GT_Matrix。
进一步地,生成增强后的图像数据和相应的匹配矩阵GT_Matrix,流程如图4所示,具体如下:
输入为不同模态的索引图(Imgq)和参考图(Imgr),输出分别为原始图像的随机增强图像Iq、Ir,以及增强图像Iq和Ir之间的补丁级匹配标签GT矩阵(Ground Truth Matrix),Iq和Ir保证了训练样本的多样性,在线生成的GT矩阵标签保证了FeMIT对粗匹配训练过程的有效监督。
对两种不同模态的图像分别进行随机裁剪,如果裁剪后的Imgq和Imgr重叠,则重叠部分可以相互转化;Iq和Ir的获取方式如下:
Iq=RandomCrop(QM×Imgq)
Ir=RandomCrop(RM×Imgr)
其中,在图像增强过程中,RM是在索引图(Imgq)上的随机仿射矩阵,QM是在参考图(Imgr)上的随机仿射矩阵;RandomCrop表示在图像上的随机仿射变换。
进一步地,生成相应的匹配矩阵GT_Matrix的过程如下,流程如图5所示,
在图像之间进行粗匹配训练,需要图像之间的匹配标签,称为GT矩阵;上述在增强图像Iq和Ir之间的补丁级匹配标签GT矩阵(GroundTruthMatrix),在线生成的GT矩阵,将Iq划分为N=W/p×H/p网格,其中N为网格数,W和H为图像的高度和宽度,p×p为网格单元格大小;对于每个网格单元,定义一个网格单元坐标,其中第n个网格单元坐标计算如下:
将Imgr中与查询点对应的点定义为参考点,其参考点的像素坐标定义为参考点是通过从查询点获得的,使用的是与图像仿射变换相同的矩阵;由于索引图(Imgq)和参考图(Imgr)是不同模态数据的对应集,因此可以通过一系列变换从查询点得到参考点,其表达式如下:
Iq的网格单元在Ir空间中的映射计算如下:
GT矩阵是N×N的方阵,GT(i,j)表示GT矩阵第i行第j列的元素,如果GT(i,j)=1,则表示图像Iq中的第i个网格单元与图像Ir中的第j个网格单元匹配。
S2:设计卷积神经网络(CNN)和特征金字塔(FPN)提取多尺度的图像特征,分别为1/8尺寸特征(粗粒度特征)和1/2尺寸特征(细粒度特征)。
如图6所示,本发明设计了一种带有特征金字塔(FPN)的卷积神经网络(CNN),用于提取不同层次的特征。网络接受大小为320×320×3的数据,输出大小为40×40×512(1/8大小)和160×160×320(1/2大小)的特征。结合特征金字塔(FPN)的卷积神经网络(CNN)可以融合低分辨率语义信息和高分辨率空间信息的特征图。增强后的数据通过带特征金字塔(FPN)的卷积网络生成两组不同尺度的特征。表示粗粒度特征,是扩充数据Iq,Ir的1/8大小,用于后续的粗级特征匹配。表示细粒度特征,是增强数据Iq,Ir的1/2大小,用于实现后续的精化回归模块。
S3:设计Transformer网络进一步对1/8尺寸的粗粒度特征进行提取,生成粗粒度的注意力特征。
Transformer是用来处理自然语言处理问题的,不适合用于图像特征匹配,因此在FeMIT方法中,对Transformer进行了修改和调整,去掉解码器组件。
L层Transformer的计算公式为:
Tl(f)=Hl(Al(f)+f);
上式中,Tl(f)是Transformer生成的特征,Hl(Al(f)+f)是前馈网络的函数,Al(f)是作用于序列的自我注意函数,用于计算所有位置特征表示的加权平均值,f是输入序列。
Transformer的自我注意层和交叉注意层的输入向量均为查询向量Q、键向量K和值向量V,其三者是由输入序列f通过三个矩阵导出:
Q=fWQ,
K=FWK,
V=fWV;
上式中,WQ、WK和WV分别表示查询向量Q、键向量K和值向量V的权重。
Transformer原本采用点积注意,可表示为:
上式中,Al(f)是作用于序列的自我注意函数,用于计算所有位置特征表示的加权平均值;首先将查询向量Q和键向量K做点积注意计算,之后将点积注意计算除以D为键向量K的维度,再将计算结果通过softmax归一化处理,得到我们所需要的权重值,最后,将权重值与值向量V进行点乘并加权求和,得到该序列的自我注意函数。
原始Transformer中,Q和K的点积注意计算代价为O(N2),其中N表示序列长度,但图像数据比自然语言数据大得多,处理图像问题时O(N2)的计算复杂度是不合适的,本文用线性注意代替点积注意。线性Transformer用核函数代替指数核,定义如下:
φ(·)=elu(·)+1
根据以上两个公式,可以得到:
如图7所示,本发明设计的Transformer包含自我注意层和交叉注意层。输入序列f是由特征Fq加上它的位置数据p得到的。位置编码以正弦格式为每个元素提供唯一的位置信息。通过添加位置编码,转换后的特征变得与位置相关,使FeMIT即使在模糊的区域也能生成匹配。在自我注意层中,Q、K和V由相同的输入序列f产生,从而学习到一张图片内部特征之间的关系。在交叉注意层中,Q由一个输入序列fi生成,K和V由另一个输入序列fj生成,从而学习不同模态的成对图像之间的关系。特征通过4个交替的自注意层和交叉注意层生成输出数据and用于进一步的粗匹配。
S4:使用双向softmax函数处理粗粒度的注意力特征,生成置信度矩阵,再以匹配矩阵GT_Matrix为标签进行粗匹配。
如图8所示,在粗匹配模块中,和首先通过多重感知器(MLP)进行特征提取。然后设计一个双向softmax算子来构造置信度矩阵。在这两个维度上都使用Softmax算法来获得软互最近邻匹配的概率,匹配概率P可定义为:
P(i,j)=softmax(S(i,·))j·softmax(S(·,j))i
上式中,softmax()是归一化指数函数,将多分类的结果以概率的形式展现出来。此处的函数是双向softmax函数,即softmax(S(i,·))j指的是对第i行的所有元素做softmax的运算,得到一个总和为1,不同概率分布的行向量;softmax(S(·,j))i指的是对第j列的所有元素做softmax的运算,得到一个总和为1,不同概率分布的列向量;再将两个结果相乘,即可获得一个概率矩阵,即为本发明需要的置信度矩阵。
计算置信度矩阵和GT矩阵的交叉熵损失,得到最终的粗匹配。粗匹配度预测函数如下:
上式中,Lc表示粗匹配度预测函数(Loss_coarse),N代表样本数量,∑k表示对k个样本求和,Lk表示求第k个样本的概率预测函数,GTi,j为GT矩阵的具体的标签样本,P(i,j)表示匹配正确的概率。
S5:设计局部特征窗口,通过Transformer和卷积神经网络(CNN)特征融合和特征提取,进行精化回归。
此过程在原始图像上自动生成像素级标签,使FeMIT能够在只有图像级标签数据可用的情况下执行像素级匹配操作。
如图9所示,粗粒度特征上的一个单元对应于细粒度特征上的4x4个单元,位置和的粗匹配点位于精细级位置分别为其中是粗匹配特征图(1/8尺度)的索引图(query)上的单位向量;是粗匹配特征图(1/8尺度)的参考图(refer)上的单位向量;是精匹配特征图(1/2尺度)的索引图(query)上的单位向量;是精匹配特征图(1/2尺度)的参考图(refer)上的单位向量。然后以精细级位置和为中心设计了两组W×W-sized局部特征窗口,将d通道的精细特征图和粗特征图通过局部特征窗口合并在一起,生成2d通道的特征图和接下来,和被送入Transformer和卷积神经网络,生成d通道特征映射和在进行精化回归之前,和被合并到一个具有2d通道的特征图fq+r,最后,利用全连接层和L2距离损失得到最终的精化回归。
其精化回归具体过程如下:
S6:使用精化回归对粗匹配的预测结果进行再调整,最终实现精确的多模态图像特征匹配。
实施例1
本实施例公开了一种基于多重特征匹配的多模态图像特征匹配方法(FeMIT),在其他客观环境相同的情况下,与其他多种方法进行对比实验,从而验证本发明设计的方法的匹配效果。
一、评价指标:
1、平均精度估计(Mean Matching Accuracy(MMA))
对于每个图像对,平均精度估计(MMA)使用只接受相互最近邻的算法来匹配每种方法提取的特征,如果同质性估计的重投影误差低于给定的匹配阈值,则认为匹配是正确的。MMA得分是考虑多个像素错误阈值的图像对中正确匹配的平均百分比,并显示所有图像对中每个阈值的平均得分。
2、单映性估计(Homography estimation)
二、实验过程:
1、验证在相同场景的不同模态下,不同方法的匹配效果。
如图10a~图10d所示,在SEN12MS数据集的多模态图像上测试不同的方法进行MMA估计。MMA图的横坐标是像素阈值,纵坐标是平均匹配准确率,计算不同方法在像素值从1到10的平均匹配精度。MMA曲线越靠上、靠左,说明该方法的特征匹配性能越好。从图10a~图10d可以看出,FeMIT在SEN12MS数据集不同模态下的MMA曲线都是最好的,实施例1所取的不同特征匹配方法在多模态图像上特征匹配的效果对比图如图2所示,图2由上到下使用的方法分别是:FeMIT、MatchosNet和HardNet,其中FeMIT是无检测器方法,MatchosNet和HardNet是基于检测器的方法;实验结果见表1。
表1 SEN12MS数据集的相同场景的不同模态上多种方法进行单映性估计对比实验
如表1所示,表中所展示的是单映性估计的累计曲线(AUC)下角误差分别达到阈值3、5和10像素的区域。在相同像素阈值下,单映性估计的数值越高代表其特征匹配效果越好,在对同一幅图像的不同模态的实验中可以看出,FeMIT在单应性估计方面具有良好的性能。实验证明,在相同图像的不同模态下,FeMIT方法与其他方法相比具有良好的性能。
2、验证在不同场景的不同模态下,不同方法的匹配效果。
如图11a~图11d所示,在new-depth V2、optics-sar、RGB-NIR和WHU-OPT-SAR数据集的多模态图像上测试了不同的方法来进行平均精度估计。从图11a~图11d可以看出,在不同的多模态数据集上,FeMIT方法的MMA指数均优于其他方法,证明FeMIT方法在处理多模态数据时具有良好的准确性和泛化性,实验结果见表2。
表2不同数据集(不同场景)的不同模态上多种方法进行单映性估计对比实验
如表2所示,不同的方法在NYU-Depth V2、Optical-SAR、RGB-NIR和WHU-OPT-SAR数据集的多模态图像上进行单应性估计,单映性估计的数值越高代表其特征匹配效果越好,FeMIT在对不同图像进行不同模态单应性估计的实验中表现最好。
实施例2
本实施例中,对FeMIT分别设计不同的变体,对实施例1中的特征匹配方法进行对比实验,从而验证本发明设计的FeMIT算法的性能。
表3消融实验:对FeMIT分别设计不同的变体,进行对比实验
本发明为了充分了解不同模块在FeMIT中的作用,设计了几种不同的变体来进行消融实验。(1)将损失函数替换为L1损失函数。(2)将transformer替换为CNN。(3)将FeMIT模型扩充两倍大小,Nc=8,Nf=2。(4)完整的FeMIT方法。如图12和表3所示,FeMIT的性能优于所有变体,说明目前FeMIT算法的设计在网络结构和损失函数上都是最合理、最有效的。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (7)
1.基于多重特征匹配的多模态图像特征匹配方法,其特征在于,包括以下步骤:
S1:使用数据增强方法,对不同模态的一组图像进行仿射变换和随机裁剪,生成增强后的图像数据和相应的匹配矩阵GT_Matrix;
S2:设计卷积神经网络和特征金字塔提取多尺度的图像特征,分别为1/8尺寸特征和1/2尺寸特征;
S3:设计Transformer网络进一步对1/8尺寸的粗粒度特征进行提取,生成粗粒度的注意力特征;
S4:使用双向softmax函数处理粗粒度的注意力特征,生成置信度矩阵,再以匹配矩阵GT_Matrix为标签进行粗匹配;
S5:设计局部特征窗口,通过Transformer和卷积神经网络特征融合和特征提取,进行精化回归;
S6:使用精化回归对粗匹配的预测结果进行再调整,最终实现精确的多模态图像特征匹配;
所述S1中,生成增强后的图像数据和相应的匹配矩阵GT_Matrix,具体如下:
输入为不同模态的索引图Imgq和参考图Imgr,输出分别为原始图像的随机增强图像Iq、Ir,以及增强图像Iq和Ir之间的补丁级匹配标签GT矩阵;
对两种不同模态的图像分别进行随机裁剪,如果裁剪后的Imgq和Imgr重叠,则重叠部分可以相互转化;Iq和Ir的获取方式如下:
Iq=RandomCrop(QM×Imgq)
Ir=RandomCrop(RM×Imgr)
其中,在图像增强过程中,RM是在索引图Imgq上的随机仿射矩阵,QM是在参考图Imgr上的随机仿射矩阵;RandomCrop表示在图像上的随机仿射变换;
所述S1中,生成相应的匹配矩阵GT_Matrix,具体如下:
Iq的网格单元在Ir中的映射计算如下:
GT矩阵是N×N的方阵,GT(i,j)表示GT矩阵第i行第j列的元素,如果GT(i,j)=1,则表示图像Iq中的第i个网格单元与图像Ir中的第j个网格单元匹配;
所述S3中,设计Transformer网络进一步对1/8尺寸的粗粒度特征进行提取,生成粗粒度的注意力特征,具体如下:
设计的Transformer网络使用线性注意力机制代替点积注意力机制;
设计的Transformer包含自我注意层和交叉注意层,输入序列f是由特征Fq加上它的位置数据p得到的;位置编码以正弦格式为每个元素提供唯一的位置信息,通过添加位置编码,转换后的特征变得与位置相关,使基于多重特征匹配的多模态图像特征匹配方法即使在模糊的区域也能生成匹配;
2.根据权利要求1所述的基于多重特征匹配的多模态图像特征匹配方法,其特征在于,所述S2中,设计卷积神经网络和特征金字塔提取多尺度的图像特征,具体如下:
网络接受大小为320×320×3的数据,输出大小为1/8尺寸特征和1/2尺寸特征,1/8尺寸特征是40×40×512,1/2尺寸特征是160×160×320,结合带有特征金字塔的卷积神经网络融合低分辨率语义信息和高分辨率空间信息的特征图,增强后的数据通过带有特征金字塔的卷积神经网络生成两组不同尺度的特征。
3.根据权利要求1所述的基于多重特征匹配的多模态图像特征匹配方法,其特征在于,所述S4中,使用双向softmax函数处理粗粒度的注意力特征,生成置信度矩阵,具体如下:
P(i,j)=softmax(S(i,·))j·softmax(S(·,j))i
上式中,softmax()是归一化指数函数,将多分类的结果以概率的形式展现出来;此处的函数是双向softmax函数,即softmax(S(i,·))j指的是对第i行的所有元素做softmax的运算,得到一个总和为1,不同概率分布的行向量;softmax(S(·,j))i指的是对第j列的所有元素做softmax的运算,得到一个总和为1,不同概率分布的列向量;再将两个结果相乘,可获得一个概率矩阵,即置信度矩阵。
5.根据权利要求1所述的基于多重特征匹配的多模态图像特征匹配方法,其特征在于,所述S5中,设计局部特征窗口,通过Transformer和卷积神经网络特征融合和特征提取,进行精化回归,具体如下:
将和的粗匹配点位置分别在精细级位置上进行精确定位,定位分别为其中是1/8尺度的索引图上的单位向量;是1/8尺度的参考图上的单位向量;是1/2尺度的索引图上的单位向量;是1/2尺度的参考图上的单位向量;然后以精细级位置和为中心设计两组W×W-sized局部特征窗口;
将d通道的精细特征图和粗特征图通过局部特征窗口合并在一起,生成2d通道的特征图和接下来将和送入Transformer和卷积神经网络,生成d通道特征映射和在进行精化回归之前,和被合并到一个具有2d通道的特征图fq+r,最后,利用全连接层和L2距离损失得到最终的精化回归;
精化回归具体过程如下:
6.根据权利要求1或5所述的基于多重特征匹配的多模态图像特征匹配方法,其特征在于,所述S5中,设计局部特征窗口,通过Transformer和卷积神经网络特征融合和特征提取,进行精化回归的过程是在原始图像上自动生成像素级标签,使基于多重特征匹配的多模态图像特征匹配方法能够在只有图像级标签数据可用的情况下执行像素级匹配操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211217811.8A CN115496928B (zh) | 2022-09-30 | 2022-09-30 | 基于多重特征匹配的多模态图像特征匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211217811.8A CN115496928B (zh) | 2022-09-30 | 2022-09-30 | 基于多重特征匹配的多模态图像特征匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115496928A CN115496928A (zh) | 2022-12-20 |
CN115496928B true CN115496928B (zh) | 2023-04-18 |
Family
ID=84472967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211217811.8A Active CN115496928B (zh) | 2022-09-30 | 2022-09-30 | 基于多重特征匹配的多模态图像特征匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115496928B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115908879B (zh) * | 2023-03-09 | 2023-06-16 | 中国科学技术大学 | 基于点引导注意力机制的自适应局部图像特征匹配方法 |
CN116150417B (zh) * | 2023-04-19 | 2023-08-04 | 上海维智卓新信息科技有限公司 | 一种多尺度多融合的图像检索方法及装置 |
CN116452936B (zh) * | 2023-04-22 | 2023-09-29 | 安徽大学 | 融合光学和sar影像多模态信息的旋转目标检测方法 |
CN117078982B (zh) * | 2023-10-16 | 2024-01-26 | 山东建筑大学 | 基于深度学习的大倾角立体像对准密集特征匹配方法 |
CN118135256A (zh) * | 2023-10-24 | 2024-06-04 | 西北工业大学 | 一种基于边缘引导的从粗到细的异源图像匹配方法 |
CN117635986B (zh) * | 2023-11-27 | 2024-07-05 | 哈工大郑州研究院 | 一种适用大尺度场景下基于特征匹配网络的特征识别方法 |
CN117557605A (zh) * | 2023-12-29 | 2024-02-13 | 中国科学院长春光学精密机械与物理研究所 | 红外与可见光遥感图像的配准方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11348227B2 (en) * | 2018-09-04 | 2022-05-31 | The Trustees Of The University Of Pennsylvania | Image registration using a fully convolutional network |
CN113378989B (zh) * | 2021-07-06 | 2022-05-17 | 武汉大学 | 基于复式协同结构特征重组网络的多模态数据融合方法 |
CN114241273B (zh) * | 2021-12-01 | 2022-11-04 | 电子科技大学 | 基于Transformer网络和超球空间学习的多模态图像处理方法及系统 |
CN114926746B (zh) * | 2022-05-25 | 2024-03-01 | 西北工业大学 | 基于多尺度差分特征注意力机制的sar图像变化检测方法 |
-
2022
- 2022-09-30 CN CN202211217811.8A patent/CN115496928B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115496928A (zh) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115496928B (zh) | 基于多重特征匹配的多模态图像特征匹配方法 | |
CN112347859B (zh) | 一种光学遥感图像显著性目标检测方法 | |
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN110163286B (zh) | 一种基于混合池化的领域自适应图像分类方法 | |
CN115240121B (zh) | 一种用于增强行人局部特征的联合建模方法和装置 | |
CN110782420A (zh) | 一种基于深度学习的小目标特征表示增强方法 | |
CN112036260B (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及系统 | |
CN113744153B (zh) | 双分支图像修复伪造检测方法、系统、设备及存储介质 | |
CN110414616B (zh) | 一种利用空间关系的遥感图像字典学习分类方法 | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、系统及设备 | |
CN117152416A (zh) | 一种基于detr改进模型的稀疏注意力目标检测方法 | |
CN111898566B (zh) | 姿态估计方法、装置、电子设备和存储介质 | |
CN114926742B (zh) | 一种基于二阶注意力机制的回环检测及优化方法 | |
CN112580480A (zh) | 一种高光谱遥感影像分类方法及装置 | |
CN114973305B (zh) | 一种针对拥挤人群的精确人体解析方法 | |
CN117809339A (zh) | 一种基于可变形卷积编码网络和特征区域关注的人体姿态估计方法 | |
CN117422978A (zh) | 基于动态双级视觉信息融合的接地视觉问答方法 | |
CN110555406B (zh) | 一种基于Haar-like特征及CNN匹配的视频运动目标识别方法 | |
CN113159053A (zh) | 图像识别方法、装置及计算设备 | |
CN116863223A (zh) | 语义注意力特征嵌入Swin Transformer网络的遥感图像场景分类的方法 | |
CN116311345A (zh) | 一种基于Transformer的遮挡行人重识别方法 | |
Sun et al. | Vehicle classification approach based on the combined texture and shape features with a compressive DL | |
CN114596433A (zh) | 一种绝缘子识别方法 | |
Lei et al. | STDC‐MA network for semantic segmentation | |
Yuan et al. | Research approach of hand gesture recognition based on improved YOLOV3 network and Bayes classifier |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Liao Bin Inventor after: Di Yide Inventor after: Zhou Hao Inventor after: Zhu Kaijun Inventor after: Duan Qing Inventor after: Liu Junhui Inventor before: Liao Bin Inventor before: Di Yide Inventor before: Zhou Hao Inventor before: Zhu Kaijun |