CN112489098A - 一种基于空间通道注意力机制神经网络的图像匹配方法 - Google Patents
一种基于空间通道注意力机制神经网络的图像匹配方法 Download PDFInfo
- Publication number
- CN112489098A CN112489098A CN202011461803.9A CN202011461803A CN112489098A CN 112489098 A CN112489098 A CN 112489098A CN 202011461803 A CN202011461803 A CN 202011461803A CN 112489098 A CN112489098 A CN 112489098A
- Authority
- CN
- China
- Prior art keywords
- attention mechanism
- module
- spatial
- input
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 51
- 238000013507 mapping Methods 0.000 claims description 42
- 230000004913 activation Effects 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 14
- 210000002569 neuron Anatomy 0.000 claims description 12
- 239000010410 layer Substances 0.000 claims description 11
- 239000002356 single layer Substances 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 3
- 230000036544 posture Effects 0.000 abstract description 3
- 238000013519 translation Methods 0.000 abstract description 3
- 230000002159 abnormal effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 208000020154 Acnes Diseases 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于空间通道注意力机制神经网络的图像匹配方法。该方法包括步骤:步骤1:根据SIFT方法得到初始匹配集合c;步骤2:通过改进的OANet网络对输入数据进行处理从而得到匹配对为正确匹配的概率;步骤3:对步骤2得到的结果通过加权8点算法进行计算得到本质矩阵;步骤4,根据本质矩阵信息得到准确的相机姿态(旋转和平移)。本发明的网络能够有效地剔除异常值(离群点),同时估计成图像对的相机姿态。本发明的一种基于空间通道注意力机制神经网络的图像匹配方法在mAP5°方法取得很大的提升。
Description
技术领域
本发明涉及图像匹配领域,具体涉及一种基于空间通道注意力机制神经网络的图像匹配方法。
背景技术
特征匹配在三维重建、同时定位和建图、图像拼接、双目立体匹配等计算机视觉任务中扮演着十分重要的角色,是处理计算机视觉任务中的一个基础且重要的步骤。通常,特征匹配包含四个步骤,即特征提取、特征描述,初始匹配获取和误匹配剔除。由于初始匹配存在大尺度的变化、光照变化、遮挡和模糊等情况,所以初始匹配集合中通常包含大量的异常值。因此,误匹配剔除作为一个关键的后处理步骤可以从初始匹配集合中寻找正确的内点并剔除离群点从而得到更加准确的匹配结果。所以,研究一种准确、鲁棒且高效的匹配算法对实现智能视觉有着极为重要的理论研究意义和实际应用价值。
在过去的几十年里许多学者提出了大量不同种类的匹配方法。根据最近的工作,特征匹配方法可分为四类,即采样方法、非参数插值方法、图匹配方法和基于深度学习的方法。其中前三类又可以总结为传统的方法,所以目前匹配的方法可以分为两大类,即传统的方法和基于深度学习的方法。传统的方法通常使用特征点检测算法,例如经典的尺度不变特征变换(SIFT)算法和随机抽样一致性算法(RANSAC)以及最近比较流行的基于网格的运动统计(GMS)和局部保持匹配(LPM)等算法。近年来,受海量数据的影响,基于深度学习的特征匹配算法开始流行起来,并且在大数据集上取得了很好的效果。例如,LFGC提出了一种类似PointNet的体系结构来推断每个匹配的为内点的概率,它主要利用多层感知器(MLPs)来处理每个单独的匹配。LFGC还在整个匹配集上引入了一个简单的非参数上下文正则化(CN)来捕获全局上下文信息。ACNE使用了基于学习的注意力机制上下文标准化(ACN),以获得有用的上下文信息。然而,非参数归一化运算只利用匹配的均值和方差,不加区分地处理每个匹配对。其他基于学习的方法也等价地处理每个匹配对。然而,当异常值在初始对应集中占主导地位时,这种不区分匹配对权重的操作会严重限制网络的性能,影响到最终的匹配结果。因此如何确定匹配对为正确匹配的概率,是进一步提升匹配性能所需要解决的重点和难点问题。
发明内容
本发明的目的在于克服上述技术缺陷,提供一种基于空间通道注意力机制神经网络的图像匹配方法。
为实现上述目的,本发明的技术方案是:一种基于空间通道注意力机制神经网络的图像匹配方法,包括如下步骤:
步骤S1、根据SIFT方法得到图像对I和I'初始匹配集合C;
步骤S2、通过改进的OANet网络对输入数据进行处理从而得到匹配对为正确匹配的概率;
步骤S3、对步骤S2得到的结果通过加权8点算法进行计算得到本质矩阵;
步骤S4、根据本质矩阵信息得到准确的相机姿态。
在本发明一实施例中,步骤S1具体实现如下:
步骤S11、首先使用SIFT算法来提取两幅图像(I,I')的关键点坐标和其对应的描述子;
步骤S12、根据描述子的最近邻相似约束,得到一个初始匹配集合C:
在本发明一实施例中,步骤S2具体实现如下:
步骤S21、由步骤S1得到一个2000×4的初始匹配集合C,即初始内点集合C作为输入,经过一个带有128个神经元的单层感知器,得到一个128维度的特征;
步骤S22、把步骤S21的结果作为输入,经过SCSABlock1模块的处理后,得到一个新的128维度的特征Fout∈R128×2000×1;
其中SCSABlock1模块包含一个空间注意力机制模块、一个通道注意力机制模块和一个连接层;
步骤S23、将步骤S22的输出结果作为输入,依次经过3个PointCN块,得到一个128维度的特征;一个PointCN块由两个相同的PointCN模块组成,PointCN模块包括一个用来捕获全局信息的上下文正则化模块、一个Batch正则化模块、一个ReLU激活函数和一个具有128维的神经元的多层感知器;
步骤S24、将步骤S23的输出结果作为输入,经过DiffPool&DiffUnpool层学习得到一个128维度的特征,获得匹配的局部上下文信息;
步骤S25、将步骤S23和步骤S24输出的特征沿着通道维度连接起来作为输入,经过三个PointCN块捕获得到一个128维度的特征;
步骤S26、将步骤S25的输出特征作为输入,依次经过带有一个神经元的单层感知器、ReLU和tanh的激活函数学习得到匹配对作为内点的概率。
在本发明一实施例中,步骤S22具体实现如下:
步骤S221、设计一个空间注意力机制模块用来捕捉每对匹配的丰富上下文信息;所述空间注意力机制模块,首先,通过使用三个不同的PointCN模块来获取三个不同的特征映射Q,K,V∈R128×2000;然后,通过在Q和V的转置之间执行点乘操作来获得空间相似矩阵,并利用Softmax函数获得空间注意力矩阵SA;空间注意力矩阵的获取公式如下:
SA=Soft max(D(QT,K))
其中,空间注意力矩阵SA∈R2000×2000;D(·)是点乘操作;Soft max(·)是Softmax函数;
最后,在特征映射V和空间注意力矩阵SA的转置之间执行点乘操作,来聚合所有匹配对的全局空间上下文信息,并将结果重塑为R128×2000×1;用函数表示如下:
FS=SAtt(Q,K,V)=D(V,SAT)
其中,FS∈R128×2000×1是空间注意力机制模块的输出,集成了每个匹配的全局上下文信息,并提高了潜在内点的表示能力;SAtt(·)是空间注意力机制模块的函数;Q,K,V∈R128×2000是三个不同的映射;D(·)是点乘操作;SAT∈R2000×2000表示空间注意力矩阵的转置;
步骤S222、设计一个通道注意力机制模块用来捕捉每个通道映射的丰富的全局上下文信息并且通道注意力机制模块能够着重关注重要的通道映射并提高其的表示能力;通道注意力机制矩阵的公式如下:
CA=Soft max(D(F,FT))
其中,CA∈R128×128为通道注意力机制矩阵;Soft max(·)是Softmax函数;D(·)是点乘操作;F∈R128×2000×1为输入特征;
在通道注意力机制矩阵CA∈R128×128和输入特征F∈R128×2000×1的重塑特征之间执行点乘操作,用来聚合所有通道的全局上下文信息,并将结果重塑为R128×2000×1;操作的公式如下:
FC=CAtt(F)=D(CA,F)
其中,FC∈R128×2000×1是通道注意力机制模块的输出特征映射;CAtt(·)是通道关注力机制模块的函数;D(·)是点乘操作;CA为通道注意力机制矩阵;F∈R128×2000×1为输入特征映射;
步骤S223,结合两个注意力机制模块的输出,沿着它们的通道维度对两个模块的输出进行连接操作,然后使用PointCN模块处理用于把特征映射恢复到128维通道的连接特征映射;连接操作的公式如下:
F'=Point CN(Concat(FS,FC))
其中,F'∈R128×2000×1是信息连接操作的输出结果;PointCN(·)表示PointCN模块的操作函数;Concat(·)连接操作函数;FS∈RC×N×1是空间注意力机制模块的输出;FC∈RC ×N×1是通道注意力机制模块的输出;
在执行连接操作后的空间-通道注意力机制模块的输入特征映射F和信息融合输出特征F'之间进行逐元素求和操作;此过程用公式表示如下:
Fout=F+αF'
其中,Fout是空间-通道注意力机制模块的输出特征映射;α是一个学习的超参数,它被初始化为0,逐渐学习更合适的权重;F∈R128×2000×1为输入特征映射;F'∈R128×2000×1是信息连接操作的输出结果。
在本发明一实施例中,步骤S24具体实现如下:
步骤S241、首先使用一个可微池化块映射2000对匹配到500个聚类,即特征映射从Frow∈R128×2000×1到Fpool∈R128×500×1;
步骤S242、将特征映射Fpool∈R128×500×1输入空间-通道注意力机制块,捕获500个聚类丰富的全局上下文信息并增益重要聚类和通道的表示能力;
步骤S243、将步骤S242学习到的特征作为输入,经过三个Order-Aware过滤模块,可以捕获到新的特征;其中,Order-Aware过滤模块可以捕获聚类的全局上下文信息;
步骤S244、将步骤S243捕获到的特征作为输入,经过可微上池化模块将将特征由2000个匹配对映射到500个聚类;可微上池化模块是可微池化模块的逆过程,将特征由500个聚类重新映射回到2000个匹配对。
在本发明一实施例中,步骤S26具体实现如下:
步骤S261、将步骤S25的输出特征作为输入,经过带有一个神经元的单层感知器把128维的特征转换为1维的逻辑值o;函数表示如下:
o=fθ(C)
其中,o为逻辑值;fθ(·)为我们网络的函数表示;θ是相关网络参数;
步骤S262、将步骤S261的逻辑值作为输入,依次经过ReLU和tanh的激活函数学习得到每个匹配作为内点的概率,相应的概率集合w={w1,w2,...,wN},其中wi∈[0,1);用函数表示如下:
w=tanh(ReLU(o))
其中,wi∈[0,1)为每个匹配作为内点的概率;tanh(·)表示tanh激活函数;ReLU(·)表示ReLU激活函数;
迭代使用两次SCSA-Net网络,将第一次得到的每个匹配作为内点的概率wi∈[0,1)和残差信息作为输入再次经过我们的网络,得到每个匹配作为内点的新的概率wi'∈[0,1)。
在本发明一实施例中,步骤S3中,对步骤S2得到的结果通过加权8点算法进行计算得到本质矩阵,其函数表示如下:
相较于现有技术,本发明具有以下有益效果:
本发明提出了一种基于空间通道注意力机制神经网络的图像匹配方法,在该方法中,本发明引入了两种类型的注意力机制模块,即空间和通道注意力机制模块。这两种类型的注意力机制模块能够分别通过选择性地聚集空间维度和通道维度中的相互信息来捕获特征映射的复杂的全局上下文信息。同时,结合两个模块的输出获得丰富的全局上下文信息并得到具有较强代表性性的特征映射。本发明的网络能够有效地剔除离群点,同时估计匹配对的相机姿态。这些可靠的匹配和相机姿态对于许多计算机视觉任务至关重要,如SfM、SLAM和立体声匹配。在离群点剔除和姿态估计任务方面的很多实验表明,本发明SCSA-Net比目前最先进的方法在室外和室内数据集上有了很好的性能改进并且在mAP5°方面表现突出。
附图说明
图1为本发明实施例的方法流程示意图。
图2为为改进的OANet的整体的框架图。
图3为空间注意力机制模块图。
图4为通道注意力机制模块图。
图5为本发明实施例在YFCC100M数据集进行特征匹配的效果图;其中,(a)、(b)与(c)分别为三种场景示意图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明提供一种基于空间通道注意力机制神经网络的图像匹配方法,包括如下步骤:
步骤S1、根据SIFT方法得到图像对I和I'初始匹配集合C;
步骤S2、通过改进的OANet网络对输入数据进行处理从而得到匹配对为正确匹配的概率;
步骤S3、对步骤S2得到的结果通过加权8点算法进行计算得到本质矩阵;
步骤S4、根据本质矩阵信息得到准确的相机姿态。
以下为本发明的具体实现过程。
需要指出的是,以下详细说明均为示例性的,旨在对本发明申请提供进一步的解释说明。除另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
参考附图1,本发明主要由四个步骤组成:步骤1:根据SIFT方法得到初始匹配集合C;步骤2:通过改进的OANet网络对输入数据进行处理从而得到匹配对为正确匹配的概率;步骤3:对步骤2得到的结果通过加权8点算法进行计算得到本质矩阵;步骤4,根据本质矩阵信息得到准确的相机姿态(旋转和平移)。
步骤1:根据SIFT方法得到图像对I和I'初始匹配集合C,包括以下步骤:
步骤1.1,首先使用传统的SIFT算法来提取两幅图像(I,I')的关键点坐标和其对应的描述子;
步骤1.2,根据描述子的最近邻相似约束,可以得到一个初始匹配集合C:
步骤2,如图2所示,通过改进的网络对输入数据进行处理从而得到匹配对为正确匹配的概率,具体如下:
步骤2.1,由步骤1得到了一个2000×4的初始内点集合C作为输入,经过一个带有128个神经元的单层感知器,可以得到一个128维度的特征。
步骤2.2,把步骤2.1的结果作为输入,经过SCSABlock1模块的处理后,得到一个新的128维度的特征Fout∈R128×2000×1。
其中SCSABlock1模块包含一个空间注意力机制模块(SA)、一个通道注意力机制模块(CA)和一个连接层。
步骤2.2.1,设计了一个空间注意力机制(SA)模块用来捕捉每对匹配的丰富上下文信息,从而提高潜在内点的表示能力,并抑制潜在离群点的表示能力。其构成图3所示。该模块通过使用三个不同的PointCN模块来获取三个不同的特征映射Q,K,V∈R128×2000。然后,通过在Q和V的转置之间执行点乘操作来获得空间相似矩阵,并利用Softmax函数获得空间注意力矩阵SA(SA∈R2000×2000)。
空间注意力矩阵的获取公式如下:SA=Soft max(D(QT,K))
其中,空间注意力矩阵SA∈R2000×2000;D(·)是点乘操作;Soft max(·)是Softmax函数。
最后,在特征映射V和空间注意力矩阵SA的转置之间执行点乘操作,来聚合所有匹配对的全局空间上下文信息,并将结果重塑为R128×2000×1。
用函数表示如下:FS=SAtt(Q,K,V)=D(V,SAT)
其中,FS∈R128×2000×1是空间注意力机制模块的输出,集成了每个匹配的全局上下文信息,并提高了潜在内点的表示能力;SAtt(·)是空间注意力机制模块的函数;Q,K,V∈R128×2000是三个不同的映射;D(·)是点乘操作;SAT∈R2000×2000表示空间注意力矩阵的转置。
步骤2.2.2,设计了一个通道注意力机制(CA)模块用来捕捉每个通道映射的丰富的全局上下文信息并且的通道注意力机制(CA)模块能够着重关注一些重要的通道映射并提高其的表示能力。其构成图4所示。
通道注意力机制矩阵的公式如下:CA=Soft max(D(F,FT))
其中,CA∈R128×128为通道注意力机制矩阵;Soft max(·)是Softmax函数;D(·)是点乘操作;F∈R128×2000×1为输入特征。
最后,在通道注意力机制矩阵CA∈R128×128和输入特征F∈R128×2000×1之间执行点乘操作,用来聚合所有通道的全局上下文信息,并将结果重塑为R128×2000×1。
一系列操作的公式如下:FC=CAtt(F)=D(CA,F)
其中,FC∈R128×2000×1是通道注意力机制模块的输出特征映射;CAtt(·)是通道关注力机制模块的函数;D(·)是点乘操作;CA为通道注意力机制矩阵;F∈R128×2000×1为输入特征映射。
步骤2.2.3,为了获得更强的特征映射,结合了两个注意力机制模块的输出。沿着它们的通道维度对两个模块的输出进行了连接操作。然后使用PointCN模块处理用于把特征映射恢复到128维通道的连接特征映射。
连接操作的公式如下:F'=PointCN(Concat(FS,FC))
其中,F'∈R128×2000×1是信息连接操作的输出结果;PointCN(·)表示PointCN模块的操作函数;Concat(·)连接操作函数;FS∈RC×N×1是空间注意力机制模块的输出;FC∈RC ×N×1是通道注意力机制模块的输出特征映射。
然后在空间-通道注意力机制模块(SCSA)的输入特征映射F和信息融合输出特征F'之间进行逐元素求和操作。
此过程用公式表示如下:Fout=F+αF'
其中,Fout是空间-通道注意力机制模块(SCSA)的输出特征映射;α是一个学习的超参数,它被初始化为0,逐渐学习更合适的权重;F∈R128×2000×1为输入特征映射;F'∈R128 ×2000×1是信息连接操作的输出结果。
步骤2.3,将步骤2.2的输出结果作为输入,依次经过3个PointCN块,得到一个128维度的特征。
一个PointCN块由两个相同的PointCN模块(一个用来捕获全局信息的上下文正则化(CN)模块、一个Batch正则化模块、一个ReLU激活函数和一个具有128维的神经元的多层感知器)组成。
步骤2.4,将步骤2.3的输出结果作为输入,经过DiffPool&DiffUnpool层学习得到一个128维度的特征,获得匹配的局部上下文信息。
DiffPool&DiffUnpool层包括一个可微池化块、一个空间-通道自注意机制块(SCSA)、三个Order-Aware过滤块和一个可微上池化块。
步骤2.4.1,它首先使用一个可微池化块映射2000对匹配到500个聚类,即特征映射从Frow∈R128×2000×1到Fpool∈R128×500×1。
步骤2.4.2,将特征映射Fpool∈R128×500×1输入空间-通道注意力机制块(SCSA),捕获500个聚类丰富的全局上下文信息并增益重要聚类和通道的表示能力。
步骤2.4.3,将步骤2.4.2学习到的特征作为输入,经过三个Order-Aware过滤模块,可以捕获到新的特征。
其中,Order-Aware过滤模块可以捕获聚类的全局上下文信息。
步骤2.4.4,将步骤2.4.3捕获到的特征作为输入,经过可微上池化模块将将特征由2000个匹配对映射到500个聚类;可微上池化模块是可微池化模块的逆过程,将特征由500个聚类重新映射回到2000个匹配对。
步骤2.5,将步骤2.4的输出特征作为输入,经过三个PointCN块捕获得到一个128维度的特征。
步骤2.6,将步骤2.5的输出特征作为输入,依次经过带有一个神经元的单层感知器、ReLU和tanh的激活函数学习得到匹配对作为内点的概率。
步骤2.6.1,将步骤2.5的输出特征作为输入,经过带有一个神经元的单层感知器把128维的特征转换为1维的逻辑值o。
函数表示如下:o=fθ(C)
其中,o为逻辑值;fθ(·)为网络的函数表示;θ是相关网络参数。
步骤2.6.2,将步骤2.6.1的逻辑值作为输入,依次经过ReLU和tanh的激活函数学习得到每个匹配作为内点的概率,相应的概率集合w={w1,w2,...,wN},其中wi∈[0,1)。
用函数表示如下:w=tanh(ReLU(o))
其中,wi∈[0,1)为每个匹配作为内点的概率;tanh(·)表示tanh激活函数;ReLU(·)表示ReLU激活函数。
迭代使用两次SCSA-Net网络,将第一次得到的每个匹配作为内点的概率wi∈[0,1)和残差信息作为输入再次经过的网络,得到每个匹配作为内点的新的概率wi'∈[0,1)
步骤4,根据本质矩阵信息得到准确的相机姿态(旋转和平移)
选取PointNet++、DFE、LFGC、ACNet、OANet、OANet++和的SCSA-Net算法分别在YFC100M和SUN3D数据集进行配准实验得到mAP5°的结果,如方法效果对比表1所示。在每个数据集上进行试验然后将获得最好的mAP5°的数值进行加粗。
方法效果对比表1
将本发明的方法在不同的数据集上进行实验,实验的结果显示,本发明在所有的对比方法上取得了最好的效果,其中在YFCC100M数据集上离群点剔除的可视化结果如图5所示。结合实际可知,本发明可以在三维重建和快速地实现无人机遥感图像的拼接等领域进行广泛的应用。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (7)
1.一种基于空间通道注意力机制神经网络的图像匹配方法,其特征在于,包括如下步骤:
步骤S1、根据SIFT方法得到图像对I和I'初始匹配集合C;
步骤S2、通过改进的OANet网络对输入数据进行处理从而得到匹配对为正确匹配的概率;
步骤S3、对步骤S2得到的结果通过加权8点算法进行计算得到本质矩阵;
步骤S4、根据本质矩阵信息得到准确的相机姿态。
3.根据权利要求1所述的一种基于空间通道注意力机制神经网络的图像匹配方法,其特征在于,步骤S2具体实现如下:
步骤S21、由步骤S1得到一个2000×4的初始匹配集合C,即初始内点集合C作为输入,经过一个带有128个神经元的单层感知器,得到一个128维度的特征;
步骤S22、把步骤S21的结果作为输入,经过SCSA Block1模块的处理后,得到一个新的128维度的特征Fout∈R128×2000×1;
其中SCSA Block1模块包含一个空间注意力机制模块、一个通道注意力机制模块和一个连接层;
步骤S23、将步骤S22的输出结果作为输入,依次经过3个PointCN块,得到一个128维度的特征;一个PointCN块由两个相同的PointCN模块组成,PointCN模块包括一个用来捕获全局信息的上下文正则化模块、一个Batch正则化模块、一个ReLU激活函数和一个具有128维的神经元的多层感知器;
步骤S24、将步骤S23的输出结果作为输入,经过DiffPool&DiffUnpool层学习得到一个128维度的特征,获得匹配的局部上下文信息;
步骤S25、将步骤S23和步骤S24输出的特征沿着通道维度连接起来作为输入,经过三个PointCN块捕获得到一个128维度的特征;
步骤S26、将步骤S25的输出特征作为输入,依次经过带有一个神经元的单层感知器、ReLU和tanh的激活函数学习得到匹配对作为内点的概率。
4.根据权利要求3所述的一种基于空间通道注意力机制神经网络的图像匹配方法,其特征在于,步骤S22具体实现如下:
步骤S221、设计一个空间注意力机制模块用来捕捉每对匹配的丰富上下文信息;所述空间注意力机制模块,首先,通过使用三个不同的PointCN模块来获取三个不同的特征映射Q,K,V∈R128×2000;然后,通过在Q和V的转置之间执行点乘操作来获得空间相似矩阵,并利用Softmax函数获得空间注意力矩阵SA;空间注意力矩阵的获取公式如下:
SA=Softmax(D(QT,K))
其中,空间注意力矩阵SA∈R2000×2000;D(·)是点乘操作;Softmax(·)是Softmax函数;
最后,在特征映射V和空间注意力矩阵SA的转置之间执行点乘操作,来聚合所有匹配对的全局空间上下文信息,并将结果重塑为R128×2000×1;用函数表示如下:
FS=SAtt(Q,K,V)=D(V,SAT)
其中,FS∈R128×2000×1是空间注意力机制模块的输出,集成了每个匹配的全局上下文信息,并提高了潜在内点的表示能力;SAtt(·)是空间注意力机制模块的函数;Q,K,V∈R128 ×2000是三个不同的映射;D(·)是点乘操作;SAT∈R2000×2000表示空间注意力矩阵的转置;
步骤S222、设计一个通道注意力机制模块用来捕捉每个通道映射的丰富的全局上下文信息并且通道注意力机制模块能够着重关注重要的通道映射并提高其的表示能力;通道注意力机制矩阵的公式如下:
CA=Softmax(D(F,FT))
其中,CA∈R128×128为通道注意力机制矩阵;Softmax(·)是Softmax函数;D(·)是点乘操作;F∈R128×2000×1为输入特征;
在通道注意力机制矩阵CA∈R128×128和输入特征F∈R128×2000×1的重塑特征之间执行点乘操作,用来聚合所有通道的全局上下文信息,并将结果重塑为R128×2000×1;操作的公式如下:
FC=CAtt(F)=D(CA,F)
其中,FC∈R128×2000×1是通道注意力机制模块的输出特征映射;CAtt(·)是通道关注力机制模块的函数;D(·)是点乘操作;CA为通道注意力机制矩阵;F∈R128×2000×1为输入特征映射;
步骤S223,结合两个注意力机制模块的输出,沿着它们的通道维度对两个模块的输出进行连接操作,然后使用PointCN模块处理用于把特征映射恢复到128维通道的连接特征映射;连接操作的公式如下:
F'=PointCN(Concat(FS,FC))
其中,F'∈R128×2000×1是信息连接操作的输出结果;PointCN(·)表示PointCN模块的操作函数;Concat(·)连接操作函数;FS∈RC×N×1是空间注意力机制模块的输出;FC∈RC×N×1是通道注意力机制模块的输出;
在执行连接操作后的空间-通道注意力机制模块的输入特征映射F和信息融合输出特征F'之间进行逐元素求和操作;此过程用公式表示如下:
Fout=F+αF'
其中,Fout是空间-通道注意力机制模块的输出特征映射;α是一个学习的超参数,它被初始化为0,逐渐学习更合适的权重;F∈R128×2000×1为输入特征映射;F'∈R128×2000×1是信息连接操作的输出结果。
5.根据权利要求4所述的一种基于空间通道注意力机制神经网络的图像匹配方法,其特征在于,步骤S24具体实现如下:
步骤S241、首先使用一个可微池化块映射2000对匹配到500个聚类,即特征映射从Frow∈R128×2000×1到Fpool∈R128×500×1;
步骤S242、将特征映射Fpool∈R128×500×1输入空间-通道注意力机制块,捕获500个聚类丰富的全局上下文信息并增益重要聚类和通道的表示能力;
步骤S243、将步骤S242学习到的特征作为输入,经过三个Order-Aware过滤模块,可以捕获到新的特征;其中,Order-Aware过滤模块可以捕获聚类的全局上下文信息;
步骤S244、将步骤S243捕获到的特征作为输入,经过可微上池化模块将将特征由2000个匹配对映射到500个聚类;可微上池化模块是可微池化模块的逆过程,将特征由500个聚类重新映射回到2000个匹配对。
6.根据权利要求3所述的一种基于空间通道注意力机制神经网络的图像匹配方法,其特征在于,步骤S26具体实现如下:
步骤S261、将步骤S25的输出特征作为输入,经过带有一个神经元的单层感知器把128维的特征转换为1维的逻辑值o;函数表示如下:
o=fθ(C)
其中,o为逻辑值;fθ(·)为我们网络的函数表示;θ是相关网络参数;
步骤S262、将步骤S261的逻辑值作为输入,依次经过ReLU和tanh的激活函数学习得到每个匹配作为内点的概率,相应的概率集合w={w1,w2,...,wN},其中wi∈[0,1);用函数表示如下:
w=tanh(ReLU(o))
其中,wi∈[0,1)为每个匹配作为内点的概率;tanh(·)表示tanh激活函数;ReLU(·)表示ReLU激活函数;
迭代使用两次SCSA-Net网络,将第一次得到的每个匹配作为内点的概率wi∈[0,1)和残差信息作为输入再次经过我们的网络,得到每个匹配作为内点的新的概率wi'∈[0,1)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011461803.9A CN112489098B (zh) | 2020-12-09 | 2020-12-09 | 一种基于空间通道注意力机制神经网络的图像匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011461803.9A CN112489098B (zh) | 2020-12-09 | 2020-12-09 | 一种基于空间通道注意力机制神经网络的图像匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112489098A true CN112489098A (zh) | 2021-03-12 |
CN112489098B CN112489098B (zh) | 2024-04-09 |
Family
ID=74917496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011461803.9A Active CN112489098B (zh) | 2020-12-09 | 2020-12-09 | 一种基于空间通道注意力机制神经网络的图像匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112489098B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949841A (zh) * | 2021-05-13 | 2021-06-11 | 德鲁动力科技(成都)有限公司 | 一种基于Attention的CNN神经网络的训练方法 |
CN112949765A (zh) * | 2021-04-07 | 2021-06-11 | 闽江学院 | 融合局部和全局信息的图像匹配方法 |
CN114266911A (zh) * | 2021-12-10 | 2022-04-01 | 四川大学 | 基于可微k-均值的嵌入式可解释图像聚类方法 |
CN114398972A (zh) * | 2022-01-07 | 2022-04-26 | 福建农林大学 | 一种基于联合表示注意力机制的深度学习图像匹配方法 |
CN116030285A (zh) * | 2023-03-28 | 2023-04-28 | 武汉大学 | 基于关系感知注意力机制的两视图对应估计方法 |
CN116503628A (zh) * | 2023-06-29 | 2023-07-28 | 华侨大学 | 自动化农业机械的图像匹配算法、装置、设备及存储介质 |
CN117455994A (zh) * | 2023-11-07 | 2024-01-26 | 暨南大学 | 一种相机位姿估计方法、系统、电子设备及可读介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751018A (zh) * | 2019-09-03 | 2020-02-04 | 上海交通大学 | 一种基于混合注意力机制的群组行人重识别方法 |
CN110765841A (zh) * | 2019-09-03 | 2020-02-07 | 上海交通大学 | 基于混合注意力机制的群组行人重识别系统及终端 |
CN111488938A (zh) * | 2020-04-15 | 2020-08-04 | 闽江学院 | 一种基于两步可切换归一化深度神经网络的图像匹配方法 |
CN111832399A (zh) * | 2020-06-03 | 2020-10-27 | 东南大学 | 一种融合注意力机制的跨域道路航标配准算法 |
US20200372660A1 (en) * | 2019-05-21 | 2020-11-26 | Beihang University | Image salient object segmentation method and apparatus based on reciprocal attention between foreground and background |
-
2020
- 2020-12-09 CN CN202011461803.9A patent/CN112489098B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200372660A1 (en) * | 2019-05-21 | 2020-11-26 | Beihang University | Image salient object segmentation method and apparatus based on reciprocal attention between foreground and background |
CN110751018A (zh) * | 2019-09-03 | 2020-02-04 | 上海交通大学 | 一种基于混合注意力机制的群组行人重识别方法 |
CN110765841A (zh) * | 2019-09-03 | 2020-02-07 | 上海交通大学 | 基于混合注意力机制的群组行人重识别系统及终端 |
CN111488938A (zh) * | 2020-04-15 | 2020-08-04 | 闽江学院 | 一种基于两步可切换归一化深度神经网络的图像匹配方法 |
CN111832399A (zh) * | 2020-06-03 | 2020-10-27 | 东南大学 | 一种融合注意力机制的跨域道路航标配准算法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949765A (zh) * | 2021-04-07 | 2021-06-11 | 闽江学院 | 融合局部和全局信息的图像匹配方法 |
CN112949841A (zh) * | 2021-05-13 | 2021-06-11 | 德鲁动力科技(成都)有限公司 | 一种基于Attention的CNN神经网络的训练方法 |
CN112949841B (zh) * | 2021-05-13 | 2022-08-16 | 德鲁动力科技(成都)有限公司 | 一种基于Attention的CNN神经网络的行人重识别方法 |
CN114266911A (zh) * | 2021-12-10 | 2022-04-01 | 四川大学 | 基于可微k-均值的嵌入式可解释图像聚类方法 |
CN114398972A (zh) * | 2022-01-07 | 2022-04-26 | 福建农林大学 | 一种基于联合表示注意力机制的深度学习图像匹配方法 |
CN116030285A (zh) * | 2023-03-28 | 2023-04-28 | 武汉大学 | 基于关系感知注意力机制的两视图对应估计方法 |
CN116503628A (zh) * | 2023-06-29 | 2023-07-28 | 华侨大学 | 自动化农业机械的图像匹配算法、装置、设备及存储介质 |
CN117455994A (zh) * | 2023-11-07 | 2024-01-26 | 暨南大学 | 一种相机位姿估计方法、系统、电子设备及可读介质 |
CN117455994B (zh) * | 2023-11-07 | 2024-06-14 | 暨南大学 | 一种相机位姿估计方法、系统、电子设备及可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112489098B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112489098B (zh) | 一种基于空间通道注意力机制神经网络的图像匹配方法 | |
Liu et al. | Finger vein recognition based on deep learning | |
CN111814661B (zh) | 基于残差-循环神经网络的人体行为识别方法 | |
CN111582044B (zh) | 基于卷积神经网络和注意力模型的人脸识别方法 | |
Dong et al. | Vehicle type classification using a semisupervised convolutional neural network | |
CN102930302B (zh) | 基于在线序贯极限学习机的递增式人体行为识别方法 | |
Yu et al. | A vision-based robotic grasping system using deep learning for 3D object recognition and pose estimation | |
CN105718889B (zh) | 基于GB(2D)2PCANet深度卷积模型的人脸身份识别方法 | |
Liu et al. | Pgfnet: Preference-guided filtering network for two-view correspondence learning | |
CN109190513A (zh) | 结合图像显著性检测和神经网络的车辆重识别方法与系统 | |
CN114398972A (zh) | 一种基于联合表示注意力机制的深度学习图像匹配方法 | |
CN106529441B (zh) | 基于模糊边界分片的深度动作图人体行为识别方法 | |
CN107203747A (zh) | 基于自适应选择机制的稀疏联合模型目标跟踪方法 | |
CN115063717A (zh) | 一种基于重点区域实景建模的视频目标检测与跟踪方法 | |
CN112308128A (zh) | 一种基于注意力机制神经网络的图像匹配方法 | |
Planamente et al. | Self-supervised joint encoding of motion and appearance for first person action recognition | |
AU2020102476A4 (en) | A method of Clothing Attribute Prediction with Auto-Encoding Transformations | |
Nguyen et al. | Skeleton-based hand gesture recognition by learning SPD matrices with neural networks | |
CN112949765A (zh) | 融合局部和全局信息的图像匹配方法 | |
Naveenkumar et al. | Spatio temporal joint distance maps for skeleton-based action recognition using convolutional neural networks | |
Zhu et al. | Research on denoising of finger vein image based on deep convolutional neural network | |
CN115439930A (zh) | 一种基于时空维度筛选的多特征融合步态识别方法 | |
Puchała et al. | Feature engineering techniques for skeleton-based two-person interaction classification in video | |
Khezerlou et al. | Multi-stream CNNs with orientation-magnitude response maps and weighted inception module for human action recognition | |
Wang et al. | A saliency detection model combined local and global features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |