CN116597183A - 基于空间和通道双维度注意的多模态图像特征匹配方法 - Google Patents

基于空间和通道双维度注意的多模态图像特征匹配方法 Download PDF

Info

Publication number
CN116597183A
CN116597183A CN202310557121.5A CN202310557121A CN116597183A CN 116597183 A CN116597183 A CN 116597183A CN 202310557121 A CN202310557121 A CN 202310557121A CN 116597183 A CN116597183 A CN 116597183A
Authority
CN
China
Prior art keywords
attention
channel
matching
spatial
softmax
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310557121.5A
Other languages
English (en)
Inventor
刘俊晖
廖赟
段清
吴旭宁
邸一得
周豪
朱开军
刘沛瑜
潘志轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan Lanyi Network Technology Co ltd
Yunnan University YNU
Original Assignee
Yunnan Lanyi Network Technology Co ltd
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan Lanyi Network Technology Co ltd, Yunnan University YNU filed Critical Yunnan Lanyi Network Technology Co ltd
Priority to CN202310557121.5A priority Critical patent/CN116597183A/zh
Publication of CN116597183A publication Critical patent/CN116597183A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于空间和通道双维度注意的多模态图像特征匹配方法,所述方法设计了一种包含空间和通道双维度注意力的注意机制,可以同时对空间和通道双维度进行特征提取,来提高模型在通道间的信息交互能力,以帮助模型将匹配定位在更加重要的特征上,以此提高匹配效率。基于空间和通道双维度注意的方式,该模型不仅解决了多模态图像下的特征匹配问题,且具有出色的匹配能力和匹配准确度,在多种不同模态的数据集下都有着良好的匹配结果和非常好的泛化性,具有很高的实际应用价值。此外,在使用本模型进行多模态图像下的特征匹配时,只需将待匹配数据集输入训练好的、基于空间和通道双维度的匹配网络中,即可全自动的进行特征匹配。

Description

基于空间和通道双维度注意的多模态图像特征匹配方法
技术领域
本发明涉及图像处理技术领域,尤其涉及到一种基于空间和通道双维度注意的多模态图像特征匹配方法。
背景技术
多模态图像数据间的特征匹配技术在很多方面都有广泛的应用场景,包括视觉定位、运动结构(SfM)、全球测绘等。以往的主流研究是基于检测器的两阶段局部特征匹配方法,常见步骤包括:特征检测、描述符提取和特征匹配。然而,基于检测器的方法依赖于特征点检测器的结果,这在一定程度上导致了有效性的缺失,导致模型匹配效率不高。随着Transformer在自然语言处理领域的优秀表现,也有越来越多的研究集中在将Transformer应用在计算机视觉领域。ViT得益于其出色的全局建模能力,被广泛应用在各种图像处理任务中。
虽然ViT可以帮助模型在空间上进行长程信息交互,但是它缺乏了通道间信息的交互,导致其缺乏定位通道上重要特征的能力,这对于多模态图像下的特征匹配是不利的。其次,大量的研究表明,通道间信息交互对于特征提取也有很大的裨益。因此,构建一个能够同时在空间和通道双维度进行信息交互、性能优异、效率高模型是迫切所需。
发明内容
本发明的主要目的在于提供一种基于空间和通道双维度注意力的多模态图像特征匹配方法,对空间注意的Transformer进行了扩展,增强模型在通道间的信息交互,提高模型定位重要特征的能力,以解决多模态图像特征匹配问题。
为实现上述目的,本发明提供基于空间和通道双维度注意的多模态图像特征匹配方法,所述方法,包括以下步骤:
S1:使用改进的FPN架构对图像的特征进行初步提取;
S2:使用空间注意力在空间维度进行特征交互;
S3:使用位置编码巩固图像位置信息;
S4:在图像的通道维度上进行注意力交互,完成最终的特征提取;
S5:使用双向softmax处理注意力交互后的特征,对模型进行训练,并实现多模态图像下的特征匹配。
可选的,所述改进的FPN架构,具体包括:4个BasicBlock,4个UpConv块,4个Connect块组成,4个用于降维的3×3卷积。
可选的,所述BasicBlock由两个3×3卷积,两个BatchNorm归一化函数,一个ReLU激活组成;所述UpConv块由一个双线性插值函数,一个3×3卷积,一个BatchNorm函数组成;所述Connect块,由一个Concat函数组成。
可选的,所述步骤S2中,使用空间注意力在空间维度进行特征交互步骤的表达式,具体为:
xs=Attention(x)
Q=xWQ
K=xWK
V=xWV
其中,矩阵W是根据输入生成向量Q,K,V的可学习矩阵,d是缩放因子,xs是经过空间信息交互的特征图,x为特征图。
可选的,所述步骤S3中,所述位置编码采用基于卷积的位置编码,由一个3×3卷积,一个GLEU()激活函数组成。
可选的,所述位置编码的表达式,具体为:
xp=GLEU(Conv3×3(xs)+xs
可选的,所述步骤S4,具体包括:
基于xp和三个可学习矩阵Wc,获得查询向量Qc,键向量Kc,值向量Vc;将Kc进行转置;将键向量Kc的转置和值向量Vc相乘,将得到的结果进行softmax归一化操作,得到attention分数;
将Qc转置,将转置的结果同attention分数相乘,相乘的结果将会进行转置操作;经过projection层,得到经过通道信息交互的输出xc
xc将经过一个LayerNorm,一个Mlp,一个Dropout,并和初始xc进行残差,得到最后的输出xF
可选的,所述步骤S4的表达式,具体为:
xF=Dropout(Mlp(LayerNorm(xc)))+xc
其中,@表示矩阵乘法,attn表示attention分数,Proj是一个Linear层,输入和输出维度相同。
可选的,所述步骤S5中,使用双向softmax处理注意力交互后的特征的表达式,具体为:
P(i,j)=softmax(S(i,·))j·softmax(S(·,j))i
其中,softmax表示归一化操作,softmax(S(i,·))j表示对第i行的所有元素做softmax的运算,softmax(S(·,j))i表示对第j列的所有元素做softmax的运算,将两个结果相乘,得到最后的匹配概率矩阵P。
可选的,所述步骤S5中,对模型进行训练的表达式,具体为:
其中,|Mconf|表示匹配的样本总数,∑k(·)表示对k个样本求和,GTi,j表示标签,P(i,j)表示正确匹配的概率。
本发明的有益效果在于:提出了一种新的多模态图像特征匹配方法,设计了一种包含空间和通道双维度注意力的注意机制。改进后的模型可以同时对空间和通道双维度进行特征提取,来提高模型在通道间的信息交互能力,以帮助模型将匹配定位在更加重要的特征上,以此提高匹配效率。基于空间和通道双维度注意的方式,该模型不仅解决了多模态图像下的特征匹配问题,且具有出色的匹配能力和匹配准确度,在多种不同模态的数据集下都有着良好的匹配结果和非常好的泛化性,具有很高的实际应用价值。此外,在使用本模型进行多模态图像下的特征匹配时,只需将待匹配数据集输入训练好的、基于空间和通道双维度的匹配网络中,即可全自动的进行特征匹配。
附图说明
图1是本发明实施例的基于空间和通道双维度的多模态图像特征匹配方法的流程图;
图2是本发明实施例的改进后的FPN进行特征提取的结构图;
图3是本发明实施例的基于空间和通道双维度的多模态图像特征匹配方法的总体架构图。
图4是本发明实施例的Attention Block的结构图;
图5是本发明实施例的Attention Block的具体流程图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供了一种基于空间和通道双维度注意的多模态图像特征匹配方法,参照图1。
如图1所示,本实施例公开了一种基于空间和通道双维度注意力的多模态图像特征匹配方法,实现了在多种图像数据下的特征匹配,包括以下步骤:
S1:使用改进后的FPN模块对一组图像的特征进行初步提取。
如图2所示,本发明的FPN模块中,包含了多次下采样和上采样操作。上采样和下采样操作,主要由3x3卷积,ReLU激活函数、BatchNorm归一化函数组成。
其中,FPN模块的输入是原始特征图,用x1和x2表示。两幅特征图都将经过这个改进的FPN模块,并输出对应于原始大小的1/2特征图和1/8特征图。
对于1/8特征图,它是由1/32,1/16和1/4经过融合生成。具体步骤为:1/32特征图经过上采样、降维操作,与1/16特征图进行在通道上的concat操作,生成新的1/16特征图x1/16。x1/16将首先进行降维操作,使得维度同1/8特征图相同,然后将会被上采样,映射为1/8大小,与原始1/8特征图进行concat操作,生成新的1/8特征图x1/8。进一步,1/4特征图将会进行下采样和升维操作,与x1/8融合,得到最终的1/8特征图xc,作为空间和通道双维度注意交互的输入。
对于1/2特征图,1/4和1/8将同上述操作过程一样,与1/2特征图进行融合,得到最终的1/2特征图xf,用于后续对匹配结果的精炼;
xi=Concat(xi,Up(xi+1))
xc=Concat(x1/8,Down(x1/4))
xj+1=Concat(xjUp(xj+1))
xf=x1/2
其中,Up和Down分别表示上采样、下采样操作。i∈{1/8,1/16,1/32},j∈{1/2,1/4,1/8}。
传统的FPN架构会有一些问题。例如,对于1/2特征图来说,过于粗糙的小特征图(1/32、1/16)可能会对1/2大小的细化需求带来不利影响。而改进后的FPN生成的1/2特征图一定程度上避免了这些不利信息的融合,将更能满足不同尺度图像的匹配需求。
S2:使用空间注意力在空间维度进行特征交互。
如图3所示,基于空间和通道双维度注意力的交互,主要由Attention Block组成。输入xc会先通过绝对位置编码添加位置信息,并经过一系列的Attention Block完成信息增强。每个Attention Block中都包含了空间和通道注意力。
空间注意力分为自我注意力和交叉注意力。在自我注意力的情况下,查询向量Q与键向量K、值向量V来自同一张特征图;在交叉注意力的情况下,查询向量Q与键向量K、值向量V来自两张特征图。向量Q、K、V和空间注意力可由如下公式表示:
Q=xcWQ
K=xcWK
V=xcWV
xs=Attention(xc)
其中,矩阵W是根据输入生成向量Q,K,V的可学习矩阵,d是缩放因子,xs是经过空间信息交互的特征图。
具体地,如图5所示,空间注意力模块包括两个Linear、自我或交叉注意力层(Self-Attn或Cross-Attn)、一个Mlp层组成。第一个Linear即对应生成三个可学习矩阵W,然后经过空间注意力层得到xs。然后,xs会经过一个Linear层,以及一个Mlp层,得到最后的输出:
xs=Mlp(Linear(xs))
S3:使用位置编码巩固位置信息。
如图4所示,在空间注意力和通道注意力之间,会额外加入一个位置编码,来巩固位置信息,以避免在多次迭代中位置信息逐渐模糊或消失的情况。该位置编码基于卷积实现,主要由一个3×3卷积,一个GLEU()激活函数组成,可以表示为:
xp=GLEU(Conv3×3(xs)+xs
其中Conv3×3表示3×3卷积,xp表示加入位置信息后的特征图。
如图5所示,具体展示了位置编码的作用位置。基于卷积的位置编码(ConvPostion)置于空间注意力的Mlp层和通道注意力的Linear层之前。来巩固位置信息,这对通道注意力是十分重要的。
S4:在图像的通道维度上进行注意力交互,完成最终的特征提取。
如图4所示,在通过每个空间注意力(Self-Attn或Cross-Attn)并添加位置编码后,都会经过通道注意力(Channel-Attn),完成通道间的信息交互,以提高模型聚焦重要特征的能力,更好的将匹配集中在重要特征上,以提高匹配效率。
同空间注意力层,通道注意力层基于xp和三个可学习矩阵Wc,首先获得查询向量Qc,键向量Kc,值向量Vc。然后将Kc进行转置,由N×C转置为C×N。进一步的,将键向量Kc的转置和值向量Vc相乘,将得到的结果进行softmax归一化操作,得到attention分数。这个过程可以表示为:
其中,@表示矩阵乘法,attn表示attention分数。
然后将Qc转置,将转置的结果同attention分数相乘。相乘的结果将会进行转置操作,由C×N转置为N×C,最后经过projection层,得到经过通道信息交互的输出xc。具体生成方式如下:
其中,Proj是一个Linear层,输入和输出维度相同。
最后,xc将经过一个LayerNorm,一个Mlp,一个Dropout,并和初始xc进行残差,得到最后的输出xF,具体表示为:
xF=Dropout(Mlp(LayerNorm(xc)))+xc
如图5所示展示了通道注意力的流程。经过ConvPostion的之后,xc通过通道注意力(Channel-Attn)后在过一个Projection层,将得到的结果进行归一化(LayerNorm)操作。最后,通过一个Mlp层和Dropout操作得到最后的输出。
S5:使用双向Softmax处理注意力交互后的特征,对模型进行训练,并实现特征匹配。
如图1所示,经过一系列Attention-Block信息增强后的特征图xF,将会通过双向softmax操作(Dual-Sfotmax)。来获取两幅图之间的最近邻匹配概率,概率矩阵P可以表示为:
P(i,j)=softmax(S(i,·))j·softmax(S(·,j))i
其中,softmax表示归一化操作,softmax(S(i,·))j表示对第i行的所有元素做softmax的运算,softmax(S(·,j))i表示对第j列的所有元素做softmax的运算,将两个结果相乘,变得到最后的匹配概率矩阵P。
对模型进行监督训练所使用的损失函数如下:
其中,|Mconf|表示匹配的样本总数,∑k(·)表示对k个样本求和,GTi,j表示标签,P(i,j)表示正确匹配的概率。
在使用本网络进行多模态图像下的特征匹配时,只需将待匹配数据集输入训练好的基于空间和通道双维度注意的匹配网络中,即可全自动的进行特征匹配。
实施例2
单应性估计(Homography Estimation)实验
(1)数据集:使用三种多模态数据集进行位姿估计有效性验证,包括Optical-SAR,NYU-Depth V2,RGB-NIR Scene三种数据集。
Optical-SAR数据集包括岛屿、平原、河流等六种主要场景。本发明选取16000对图像进行训练,500对图像进行测试。
NYU-Depth V2数据集由各种室内场景的视频序列组成,这些视频序列是用微软Kinect的RGB和深度相关相机拍摄的。它包含来自3个城市的464个场景1449幅图像,本发明选择1049对图像用于训练,400对用于测试。
RGB-NIR Scene数据集由9个类别的4477张图像组成,以RGB和近红外(NIR)拍摄。场景包括:乡村、田野、森林、室内、山脉、古建筑、街道、城市和水。本发明选择了400对图像进行训练,48对图像进行测试。
(2)评价指标:在每个测试序列中,一个参考图像与一个源图像配对。本实例使用Pydegensac进行单应变估计测试的计算,并进一步使用DEGENSAC作为稳健估计。在累积曲线下,分别报告角误差达到阈值3、5和10像素的区域下的精度。
表1在Optical-SAR数据集上的单应性估计
Method @3px @5px @10px
MatchosNet 20.87 42.36 65.38
HardNet 24.19 45.27 67.89
Tfeat 12.74 31.06 56.39
MatchNet 3.78 14.24 38.04
FeMIT 28.89 49.40 70.07
本发明 29.94 50.85 71.70
表2在NYU-Depth V2数据集上的单应性估计
Method @3px @5px @10px
MatchosNet 39.55 55.90 74.63
HardNet 39.03 54.59 73.38
Tfeat 38.01 53.13 71.64
MatchNet 29.51 46.00 65.14
FeMIT 37.56 58.74 78.09
本发明 38.48 59.43 79.07
表3在RGB-NIR Scene数据集上的单应性估计
Method @3px @5px @10px
MatchosNet 12.54 28.80 52.09
HardNet 18.35 39.02 63.37
Tfeat 0.42 2.39 12.33
MatchNet 0.61 3.51 15.35
FeMIT 69.08 80.36 89.72
本发明 38.48 59.43 79.07
(3)结果分析:如表1所示,对于三个像素阈值下的单应性估计,本发明在Optical-SAR数据集上优于其他方法;如表2所示,在NYU-Depth V2数据集上,本发明在5、10两个像素阈值的单应性估计优于其他方法;如表3所示,本发明在RGB-NIR Scene数据集上、三个像素阈值下的单应性估计均优于其他方法。证明了本发明在多模态图像数据集下特征匹配的有效性、鲁棒性和泛化性。
可以理解的是,在本说明书的描述中,参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例~第N实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.基于空间和通道双维度注意的多模态图像特征匹配方法,其特征在于,所述方法,包括以下步骤:
S1:使用改进的FPN架构对图像的特征进行初步提取;
S2:使用空间注意力在空间维度进行特征交互;
S3:使用位置编码巩固图像位置信息;
S4:在图像的通道维度上进行注意力交互,完成最终的特征提取;
S5:使用双向softmax处理注意力交互后的特征,对模型进行训练,并实现多模态图像下的特征匹配。
2.如权利要求1所述的基于空间和通道双维度注意的多模态图像特征匹配方法,其特征在于,所述改进的FPN架构,具体包括:4个BasicBlock,4个UpConv块,4个Connect块组成,4个用于降维的3×3卷积。
3.如权利要求2所述的基于空间和通道双维度注意的多模态图像特征匹配方法,其特征在于,所述BasicBlock由两个3×3卷积,两个BatchNorm归一化函数,一个ReLU激活组成;所述UpConv块由一个双线性插值函数,一个3×3卷积,一个BatchNorm函数组成;所述Connect块,由一个Concat函数组成。
4.如权利要求3所述的基于空间和通道双维度注意的多模态图像特征匹配方法,其特征在于,所述步骤S2中,使用空间注意力在空间维度进行特征交互步骤的表达式,具体为:
xs=Attention(x)
Q=xWQ
K=xWK
V=xWV
其中,矩阵W是根据输入生成向量Q,K,V的可学习矩阵,d是缩放因子,xs是经过空间信息交互的特征图,x为特征图。
5.如权利要求4所述的基于空间和通道双维度注意的多模态图像特征匹配方法,其特征在于,所述步骤S3中,所述位置编码采用基于卷积的位置编码,由一个3×3卷积,一个GLEU()激活函数组成。
6.如权利要求5所述的基于空间和通道双维度注意的多模态图像特征匹配方法,其特征在于,所述位置编码的表达式,具体为:
xp=GLEU(Conv3×3(xs)+xs
其中Conv3×3表示3×3卷积,xp表示加入位置信息后的特征图。
7.如权利要求6所述的基于空间和通道双维度注意的多模态图像特征匹配方法,其特征在于,所述步骤S4,具体包括:
基于xp和三个可学习矩阵Wc,获得查询向量Qc,键向量Kc,值向量Vc;将Kc进行转置;将键向量Kc的转置和值向量Vc相乘,将得到的结果进行softmax归一化操作,得到attention分数;
将Qc转置,将转置的结果同attention分数相乘,相乘的结果将会进行转置操作;经过projection层,得到经过通道信息交互的输出xc
xc将经过一个LayerNorm,一个Mlp,一个Dropout,并和初始xc进行残差,得到最后的输出xF
8.如权利要求7所述的基于空间和通道双维度注意的多模态图像特征匹配方法,其特征在于,所述步骤S4的表达式,具体为:
xF=Dropout(Mlp(LayerNorm(xc)))+xc
其中,@表示矩阵乘法,attn表示attention分数,Proj是一个Linear层,输入和输出维度相同。
9.如权利要求8所述的基于空间和通道双维度注意的多模态图像特征匹配方法,其特征在于,所述步骤S5中,使用双向softmax处理注意力交互后的特征的表达式,具体为:
P(i,j)=softmax(S(i,·))j·softmax(S(·,j))i
其中,softmax表示归一化操作,softmax(S(i,·))j表示对第i行的所有元素做softmax的运算,softmax(S(·,j))i表示对第j列的所有元素做softmax的运算,将两个结果相乘,得到最后的匹配概率矩阵P。
10.如权利要求9所述的基于空间和通道双维度注意的多模态图像特征匹配方法,其特征在于,所述步骤S5中,对模型进行训练的表达式,具体为:
其中,|Mconf|表示匹配的样本总数,∑k(·)表示对k个样本求和,GTi,j表示标签,P(i,j)表示正确匹配的概率。
CN202310557121.5A 2023-05-17 2023-05-17 基于空间和通道双维度注意的多模态图像特征匹配方法 Pending CN116597183A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310557121.5A CN116597183A (zh) 2023-05-17 2023-05-17 基于空间和通道双维度注意的多模态图像特征匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310557121.5A CN116597183A (zh) 2023-05-17 2023-05-17 基于空间和通道双维度注意的多模态图像特征匹配方法

Publications (1)

Publication Number Publication Date
CN116597183A true CN116597183A (zh) 2023-08-15

Family

ID=87598602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310557121.5A Pending CN116597183A (zh) 2023-05-17 2023-05-17 基于空间和通道双维度注意的多模态图像特征匹配方法

Country Status (1)

Country Link
CN (1) CN116597183A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115061A (zh) * 2023-09-11 2023-11-24 北京理工大学 一种多模态图像融合方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115061A (zh) * 2023-09-11 2023-11-24 北京理工大学 一种多模态图像融合方法、装置、设备及存储介质
CN117115061B (zh) * 2023-09-11 2024-04-09 北京理工大学 一种多模态图像融合方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112926396B (zh) 一种基于双流卷积注意力的动作识别方法
CN111563508A (zh) 一种基于空间信息融合的语义分割方法
CN114283430A (zh) 跨模态图文匹配训练方法及装置、存储介质、电子设备
CN113344806A (zh) 一种基于全局特征融合注意力网络的图像去雾方法与系统
CN113343982B (zh) 多模态特征融合的实体关系提取方法、装置和设备
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN116597183A (zh) 基于空间和通道双维度注意的多模态图像特征匹配方法
CN116758130A (zh) 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法
CN115019143A (zh) 一种基于CNN和Transformer混合模型的文本检测方法
CN114529982A (zh) 基于流式注意力的轻量级人体姿态估计方法及系统
Zhai et al. Group-split attention network for crowd counting
CN113343981A (zh) 一种视觉特征增强的字符识别方法、装置和设备
CN113240584B (zh) 一种基于图片边缘信息的多任务手势图片超分辨率方法
CN114240811A (zh) 一种基于多张图像生成新图像的方法
Wang et al. Multi-scale dense and attention mechanism for image semantic segmentation based on improved DeepLabv3+
CN117033609A (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN114549958A (zh) 基于上下文信息感知机理的夜间和伪装目标检测方法
CN111931793B (zh) 一种显著性目标提取方法及系统
Luo et al. An efficient multi-scale channel attention network for person re-identification
CN114693951A (zh) 一种基于全局上下文信息探索的rgb-d显著性目标检测方法
CN114898457A (zh) 一种基于手部关键点和transformer的动态手势识别方法和系统
Huang et al. A lightweight and efficient one-stage detection framework
CN115082295B (zh) 一种基于自注意力机制的图像编辑方法及装置
CN111539922A (zh) 基于多任务网络的单目深度估计与表面法向量估计方法
Ma et al. Image semantic segmentation algorithm based on a multi-expert system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination