CN114926742A - 一种基于二阶注意力机制的回环检测及优化方法 - Google Patents
一种基于二阶注意力机制的回环检测及优化方法 Download PDFInfo
- Publication number
- CN114926742A CN114926742A CN202210690435.8A CN202210690435A CN114926742A CN 114926742 A CN114926742 A CN 114926742A CN 202210690435 A CN202210690435 A CN 202210690435A CN 114926742 A CN114926742 A CN 114926742A
- Authority
- CN
- China
- Prior art keywords
- image
- images
- loop
- netvlad
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000001514 detection method Methods 0.000 title claims abstract description 27
- 230000007246 mechanism Effects 0.000 title claims abstract description 20
- 238000005457 optimization Methods 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000013140 knowledge distillation Methods 0.000 claims abstract description 9
- 238000012795 verification Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 44
- 230000006870 function Effects 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 230000000644 propagated effect Effects 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000005070 sampling Methods 0.000 abstract 1
- 230000008859 change Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于二阶注意力机制的回环检测及优化方法,属于计算机视觉图像技术领域,解决了传统方法忽略图像局部特征之间相关性的问题。其技术方案为:包括以下步骤:步骤1)、构建融合VGG16、二阶注意力机制和NetVLAD的网络模型SOA‑NetVLAD;步骤2)、采用知识蒸馏的方式训练网络模型得到最优参数;步骤3)、提取图像的全局特征;步骤4)、采用局部敏感哈希方法对图像的全局特征降维,并计算图像之间的余弦相似度;步骤5)、采用几何验证方式进行回环验证;步骤6)、采用随机采样一致性算法消除误匹配。本发明的有益效果为:本发明的网络模型中加入了注意力机制,能有效的学习局部特征之间的相关性。
Description
技术领域
本发明涉及计算机视觉图像技术领域,尤其涉及一种基于二阶注意力机制的回环检测及优化方法。
背景技术
同步定位与建图(Simultaneous Localization and Mapping,SLAM)在自主移动机器人和智能交通领域起着关键的作用,它可以在未知的环境中进行地图的构建,同时准确的估计机器人的位置。然而,因为环境条件的影响,会使得机器人估计的轨迹出现一些累计漂移。回环检测是SLAM系统的一个重要组件,它可以通过识别机器人是否已经返回之前的位置来修正累计误差,真正的回环检测可以提供精确的位姿估计,提高整个SLAM系统的精度。
回环检测提升了SLAM的性能,目前回环检测方法主要分为两大类:传统方法和深度学习方法。词袋(BoW)框架(Gálvez-López D,Tardos J D.Bags of binary words forfast place recognition in image sequences[J].IEEE Transactions on Robotics,2012,28(5):1188-1197.)在传统方法中得到了广泛的应用,大多数使用BoW框架的回环检测方法,通过将描述符空间量化为视觉单词,然后应用TF-IDF技术,可以将图像使用紧凑的向量来表示。最后,结合到排序索引的方法快速计算当前查询图像和之前图像之前的相似度,从而找到回环候选帧。然而,传统的方法对光照变化和视点变化缺乏鲁棒性,且过度依赖于纹理信息,容易产生感知混淆问题。当面对真实场景,例如光照的变化和视点变化等情况时,描述符的性能可能会降低。基于深度学习的方法有很多,R.Arandjelovic等人提出了NetVLAD(Arandjelovic R,Gronat P,Torii A,et al.NetVLAD:CNN architecture forweakly supervised place recognition[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition.2016:5297-5307.)网络,但该方法忽略了局部特征之间的相似性,对视点变化比较敏感。在复杂环境中可能会失败。
目前面对的问题是回环检测的精度和实时性还有待进一步提高,如何解决上述技术问题为本发明面临的课题。
发明内容
为了解决以上技术问题,本发明的目的在于提供一种基于二阶注意力机制的回环检测及优化方法,通过比较图像全局特征帮助机器人判断是否回到之前访问过的地方,提高了回环检测的准确率,减少位姿漂移误差,进一步提升定位的精度,且大大减少了运算量,在实时性方面表现的更加优秀。
本发明的发明思想为:本发明是通过构建融合VGG16、二阶注意力模块(SOA)和NetVLAD的网络模型SOA-NetVLAD;并采用知识蒸馏的方式训练网络模型得到最优参数;对图像进行预处理并输入到SOA-NetVLAD网络中,提取图像的全局特征;采用局部敏感哈希(LSH)方法对图像的全局特征降维,并计算图像之间的余弦相似度,根据相似度得到回环候选帧;采用几何验证方式进行回环验证;采用随机采样一致性算法(RANSAC)消除误匹配。基于二阶注意力机制的回环检测及优化方法,可以有效的学习局部特征之间的相关性,克服了传统回环检测方法对视点变化和光照变化敏感等问题,加入几何验证的方式可以对回环检测的结果进一步验证,提高了回环检测的准确率。
本发明是通过以下措施实现的,一种基于二阶注意力机制的回环检测及优化方法,包括以下步骤:
步骤(1)、构建融合VGG16、二阶注意力机制(SOA)和NetVLAD的网络模型SOA-NetVLAD:对VGG16进行裁剪,然后在VGG16的conv5_3层后面加入SOA模块,并在最后一层加入池化层NetVLAD;
步骤(2)、采用知识蒸馏的方式训练网络模型得到最优参数;
步骤(3)、步骤(3)、对待查询图像和数据库图像进行预处理,然后输入到SOA-NetVALD网络中,提取查询图像和数据库图像的全局特征;
步骤(4)、对步骤(3)得到的全局特征向量使用局部敏感哈希(LSH)方法降低维度,并计算图像间的余弦相似度,按照相似度得分对数据库图像进行排序,将排序好的前k个数据库图像作为回环候选帧;
步骤(5)、引入几何验证,判断查询图像与回环候选图像是否构成真正的回环,首先提取查询图像与回环候选图像的SURF特征,然后使用CasHash算法进行成对图像匹配;
步骤(6)、使用随机采样一致性算法(RANSAC)消除误匹配,选择最后的回环候选帧。
进一步地,在上述方法中,所述步骤(1)中,构建融合VGG16、二阶注意力机制(SOA)和NetVLAD的网络模型VGG-VLAD:具体为:
步骤(1-1)、对VGG16网络进行修改,删除最后一个卷积层conv5_3之后的池化层和全连接层,包括RELU激活函数,并将SOA模块连接到卷积层conv5_3之后,得到二阶特征图。最后,将NetVLAD层连接到在SOA模块的后面作为新的池化层。NetVLAD层将VLAD的思想引入到了卷积神经网络中。
步骤(1-2)、对于VGG16输出的C×W×H维的特征图x∈RC×W×H,可以看作是总数为W×H的C维局部描述符xij(i=1,2,...W,j=1,2,......,H)。我们首先通过与D个输出通道的1×1卷积生成表示为f(x)和g(x)的两个映射,然后经过批归一化层和swish激活,其中D=2×C。然后将映射f(x)和g(x)展平为D×HW的大小。二阶注意力图的结果如下:
m=softmax(α·f(x)Tg(x))
其中α表示比例因子,f(x)T是f(x)的转置。由此得到的二阶注意力图m的尺寸为HW×HW,其值表示特征图m中局部描述符之间的相关性。最后,将特征图x和二阶注意力图m合并得到二阶注意力模块SOA(x)的输出:
SOA(x)=x+v(m′)
其中m′是形状为HW×H×W的张量由注意力图m改变尺寸得到,v是1×1的卷积函数,恢复从HW到C的通道尺寸。二阶特征图SOA(X)的大小为C×W×H,与输入特征图x的大小相同。
步骤(1-3)、在二阶注意力模块后面添加一个可训练的NetVLAD层,可以把二阶特征图SOA(x)聚合成紧凑的全局描述符。VLAD是一种常用于图像检索和图像分类的描述方法,把聚集起来的局部描述子构造成一个向量,用该向量作为图像的全局描述子。若VLAD的输入为单幅图像的N个D维特征向量{xi},参数为K个聚类中心ck,则输出为一个K×D维的特征向量,将其写成矩阵的形式,记做V,计算公式如下:
其中xi(j)和ck(j)分别代表第i个特征向量和第k个聚类中心的第j个元素,ak(xi)表示第i个特征向量对应第k个聚类中心的权重,当该特征属于这个聚类中心时,权重为1,否则为0。由于VLAD是一个离散函数,无法通过反向传播,所以NetVLAD层采用了一种近似的方式,将ak(xi)软分配到多个聚类中心,使其可微:
进一步地,在上述方法中,所述步骤(2)中,采用知识蒸馏的方式训练网络模型得到最优参数具体为:
步骤(2-1)、在Google Landmark数据集上采用知识蒸馏的方式训练构建网络模型,获得最优的参数。
步骤(2-2)、将全局特征提取网络SOA-NetVLAD作为学生网络,将以VGG16为骨干的预训练的NetVLAD网络作为教师网络。通过最小化教师网络预测的全局特征与学生网络预测的全局特征之间的均方误差(MSE)损失来训练我们的全局特征提取网络;
进一步地,在所述步骤(3)中,将待查询图像和数据库图像进行预处理,然后输入到卷积神经网络提取特征中具体为:
步骤(3-1)、首先将图像大小调整为224×224像素,并减去RGB通道的均值数据。然后将图像输入到已在数据集上训练好的网络模型中,将最后NetVLAD层的输出作为图像的全局特征表示。
进一步地,在上述方法中,在所述步骤(4)中,对步骤(3)得到的全局特征向量使用局部敏感哈希(LSH)方法降低维度,并计算图像间的余弦相似度,并根据相似度得到回环候选帧具体为:
其中r是从d维空间生成的单位长度的球对称随机向量,v表示图像的全局特征向量。通过定义k个随机向量r,可以实现卷积特征向量的降维,即特征向量可以用长度为k的字节来表示。对于两个全局特征向量u,v,则:
因此,可以得到u,v之间的余弦相似度:
sim(u,v)=cos(θ(u,v))=cos((1-Pr[hr(u)=hr(v)])π)
步骤(4-2)、计算查询图像与数据库图像全局特征向量之间的余弦相似度,根据余弦相似度对数据库图像进行从高到低排序。选取排序结果中排名靠前的k张数据库图像作为回环候选图像。
进一步地,在上述方法中,在所述步骤(4-1)中,在数据库图像采集过程中,相邻图像间有较高的相似性,可能导致错误的回环。为了避免查询图像的相邻图像成为回环候选帧,造成假阳性,我们引入了一个约束来限制查询图像匹配范围。在查询图像的匹配范围内具体为:
R=N-f·T
其中,R表示查询图像的匹配范围;N表示在查询图像之前的所有图像的集合;f为相机的帧率;T为预定义参数;f·T为在当前图像之前的f·T帧图像的集合。通过加入这个约束,可以避免环路闭合检测假阳性问题。
若数据库图像在查询图像的匹配范围R内,则根据这两张图像分别对应的全局特征向量计算这两张图像之间的相似度。
进一步地,在上述方法中,在所述步骤(5)中,对查询图像与回环候选图像分别提取SURF特征具体为:
对当前查询图像Ii与回环候选图像In提取SURF特征的过程相同,对于图像的特征,通过CasHash的方式将其从粗到细映射成二进制编码。CasHash算法使用有m位的哈希表L,然后每个特征p被分配到一个桶gl(p)。L函数gl(q)用以下公式表示,其中hs,l(1≤s≤m,1≤l≤L)是从一个局部敏感族H中独立、均匀地随机生成的。
gl(q)=(h1,l(q),h2,l(q),...,hm,l(q)),l=1,2,...,L
原始的SURF特征具有128维浮点描述符,而使用CasHash可以将这些特征更改为m位的二进制编码。
进一步地,在上述方法中,在所述步骤(5)中,对两幅图像的描述符进行匹配具体为:
采用二进制编码进行比率测试,二进制比率测试阈值ε定义为:
其中,H(·)表示汉明距离,Ca是图像Ia中描述符fa的二进制编码,和是图像Ib中两个最接近的描述符和的二进制编码。比ε2低的特征匹配将被视为好的匹配,并被馈送到RANSAC计算查询和回环候选图像之间的基本矩阵T。如果回环候选无法计算T或两个图像之间的内点数目小于参数τ,则忽略该回环候选。
与现有技术相比,本发明的有益效果在于:
1、本发明在NetVLAD网络模型上进行改进重新设计了网络,以VGG16作为网络的主干部分,并加入了二阶注意力模块,可以有效地学习特征之间的相关性,然后在网络的最后一层加入了一个可以训练的局部聚集描述符向量(NetVALD),可以生成固定长度的全局特征,本发明通过加入的注意力机制,使得网络模型生成的全局特征在视点变化和光照变化的场景下有更好的鲁棒性。
2、本发明采用几何验证的方式,判断回环候选图像与当前查询图像之间是否构成回环。首先提取图像的SURF特征,然后通过CasHash算法将其转换为二进制哈希编码来进行图像间的特征匹配,每个特征被编码为哈希编码以后占用内存空间小,在移动机器人的应用程序中非常重要,因此该方法既可以减少计算量,又可以验证回环是否正确。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明的整体结构流程图。
图2为基于VGG16、SOA和NetVLAD的网络模型示意图。
图3为SOA模块网络结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和具体实施方式对本发明进行详细说明。
实施例1
参见图1至图3,本实施例提供了一种基于二阶注意力机制的回环检测及优化方法,如图1所示,具体包括以下步骤:
步骤(1)、构建融合VGG16、二阶注意力机制(SOA)和NetVLAD的网络模型。图2为构建好的网络模示意型图。网络分为VGG16部分结构、SOA模块和NetVLAD池化层三部分,第一部分去掉了VGG16最后一个卷积层conv5_3层后面的池化层和全连接层。并在后面加入SOA模块,可以学习所有空间位置之间的相关性,SOA模块如图3所示。NetVLAD层作为网络的最后一层。
步骤(2)、采用知识蒸馏的方式训练网络模型得到最优参数具体为:
步骤(2-1)、在Google Landmark数据集上采用知识蒸馏的方式训练构建网络模型,获得最优的参数。
步骤(2-2)、将全局特征提取网络作为学生网络,将以VGG16为骨干的预训练的NetVLAD网络作为教师网络。通过最小化教师网络预测的全局特征与学生网络预测的全局特征之间的均方误差(MSE)损失来训练我们的全局特征提取网络;
步骤(3)、对待查询图像和数据库图像进行预处理,然后输入到SOA-NetVALD网络中,提取查询图像和数据库图像的全局特征具体为:
步骤(3-1)、首先将图像大小调整为224×224像素,并减去RGB通道的均值数据。然后将图像输入到已在数据集上训练好的网络模型中,将最后NetVLAD层的输出作为图像的全局特征表示。
步骤(4)、对步骤(3)得到的全局特征向量使用局部敏感哈希(LSH)方法降低维度,并计算图像间的余弦相似度,并根据相似度得到回环候选帧具体为:
其中r是从d维空间生成的单位长度的球对称随机向量,v表示图像的全局特征向量。通过定义k个随机向量r,可以实现卷积特征向量的降维,即特征向量可以用长度为k的字节来表示。对于两个全局特征向量u,v,则:
因此,可以得到u,v之间的余弦相似度:
sim(u,v)=cos(θ(u,v))=cos((1-Pr[hr(u)=hr(v)])π)
步骤(4-2)、计算查询图像与数据库图像全局特征向量之间的余弦相似度,根据余弦相似度对数据库图像进行从高到低排序。选取排序结果中排名靠前的k张数据库图像作为回环候选图像。
步骤(5)、引入几何验证,判断查询图像与回环候选图像是否构成真正的回环,首先提取查询图像与回环候选图像的SURF特征,然后使用CasHash算法进行成对图像匹配具体为:
对当前查询图像Ii与回环候选图像In提取SURF特征的过程相同,对于图像的特征,通过CasHash的方式将其从粗到细映射成二进制编码。CasHash算法使用有m位的哈希表L,然后每个特征p被分配到一个桶gl(p)。L函数gl(q)用以下公式表示,其中hs,l(1≤s≤m,1≤l≤L)是从一个局部敏感族H中独立、均匀地随机生成的。
gl(q)=(h1,l(q),h2,l(q),...,hm,l(q)),l=1,2,...,L
原始的SURF特征具有128维浮点描述符,而使用CasHash可以将这些特征更改为m位的二进制编码。
步骤(6)、使用随机采样一致性算法(RANSAC)消除误匹配,选择最后的回环候选帧具体为:
采用二进制编码进行比率测试,二进制比率测试阈值ε定义为:
其中,H(·)表示汉明距离,Ca是图像Ia中描述符fa的二进制编码,和是图像Ib中两个最接近的描述符和的二进制编码。比ε2低的特征匹配将被视为好的匹配,并被馈送到RANSAC以计算查询和回环候选图像之间的基本矩阵T。如果回环候选无法计算T或两个图像之间的内点数目小于参数τ,则忽略该回环候选。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种基于二阶注意力机制的回环检测及优化方法,其特征在于:包括以下步骤:
步骤(1)、构建融合VGG16、二阶注意力机制SOA和NetVLAD的网络模型SOA-NetVLAD:对VGG16进行裁剪,在VGG16的conv5_3层后面加入SOA模块,并在最后一层加入池化层NetVLAD;
步骤(2)、采用知识蒸馏的方式训练网络模型得到最优参数;
步骤(3)、对待查询图像和数据库图像进行预处理,然后输入到SOA-NetVALD网络中,提取查询图像和数据库图像的全局特征;
步骤(4)、对步骤(3)得到的全局特征向量使用局部敏感哈希LSH方法降低维度,并计算图像间的余弦相似度,按照相似度得分对数据库图像进行排序,将排序好的前k个数据库图像作为回环候选帧;
步骤(5)、引入几何验证,判断查询图像与回环候选图像是否构成真正的回环,首先提取查询图像与回环候选图像的SURF特征,然后使用CasHash算法进行成对图像匹配;
步骤(6)、使用随机采样一致性算法RANSAC消除误匹配,选择最后的回环候选帧。
2.根据权利要求1所述的一种基于二阶注意力机制的回环检测及优化方法,其特征在于,所述的步骤(1)包括如下步骤:
步骤(1-1)、对VGG16网络进行修改,删除最后一个卷积层conv5_3之后的池化层和全连接层,包括RELU激活函数,并将SOA模块连接到卷积层conv5_3之后,得到二阶特征图,最后,将NetVLAD层连接到在SOA模块的后面作为新的池化层,NetVLAD层将VLAD的思想引入到了卷积神经网络中;
步骤(1-2)、对于VGG16输出的C×W×H维的特征图x∈RC×W×H,看作是总数为W×H的C维局部描述符xij(i=1,2,...W,j=1,2,......,H),首先通过与D个输出通道的1×1卷积生成表示为f(x)和g(x)的两个映射,然后经过批归一化层和swish激活,其中D=2×C,然后将映射f(x)和g(x)展平为D×HW的大小,二阶注意力图的结果如下:
m=softmax(α·f(x)Tg(x))
其中α表示比例因子,f(x)T是f(x)的转置,由此得到的二阶注意力图m的尺寸为HW×HW,其值表示特征图m中局部描述符之间的相关性,最后,将特征图x和二阶注意力图m合并得到二阶注意力模块SOA(x)的输出:
SOA(x)=x+v(m′)
其中m′是形状为HW×H×W的张量由注意力图m改变尺寸得到,v是1×1的卷积函数,恢复从HW到C的通道尺寸,二阶特征图SOA(X)的大小为C×W×H,与输入特征图x的大小相同;
步骤(1-3)、在二阶注意力模块后面添加一个可训练的NetVLAD层,把二阶特征图SOA(x)聚合成紧凑的全局描述符,VLAD是常用于图像检索和图像分类的描述方法,把聚集起来的局部描述子构造成一个向量,用该向量作为图像的全局描述子,若VLAD的输入为单幅图像的N个D维特征向量{xi},参数为K个聚类中心ck,则输出为一个K×D维的特征向量,将其写成矩阵的形式,记做V,计算公式如下:
其中xi(j)和ck(j)分别代表第i个特征向量和第k个聚类中心的第j个元素,ak(xi)表示第i个特征向量对应第k个聚类中心的权重,当该特征属于这个聚类中心时,权重为1,否则为0,由于VLAD是一个离散函数,无法通过反向传播,所以NetVLAD层采用了一种近似的方式,将ak(xi)软分配到多个聚类中心,使其可微:
3.根据权利要求1所述的一种基于二阶注意力机制的回环检测及优化方法,其特征在于:所述步骤(2)包括如下步骤:
步骤(2-1)、在Google Landmark数据集上采用知识蒸馏的方式训练构建网络模型,获得最优的参数;
步骤(2-2)、将全局特征提取网络SOA-NetVLAD作为学生网络,将以VGG16为骨干的预训练的NetVLAD网络作为教师网络,通过最小化教师网络预测的全局特征与学生网络预测的全局特征之间的均方误差(MSE)损失来训练全局特征提取网络。
4.根据权利要求1所述的一种基于二阶注意力机制的回环检测及优化方法,其特征在于,所述步骤(3)包括以下内容:
步骤(3-1)、首先将图像大小调整为224×224像素,并减去RGB通道的均值数据,然后将图像输入到已在数据集上训练好的网络模型中,将最后NetVLAD层的输出作为图像的全局特征表示。
5.根据权利要求1所述的一种基于二阶注意力机制的回环检测及优化方法,其特征在于,所述骤(4)包括以下步骤:
其中r是从d维空间生成的单位长度的球对称随机向量,v表示图像的全局特征向量,通过定义k个随机向量r,实现卷积特征向量的降维,即特征向量用长度为k的字节来表示,对于两个全局特征向量u,v,则:
因此,得到u,v之间的余弦相似度:
sim(u,v)=cos(θ(u,v))=cos((1-Pr[hr(u)=hr(v)])π)步骤(4-2)、计算查询图像与数据库图像全局特征向量之间的余弦相似度,根据余弦相似度对数据库图像进行从高到低排序,选取排序结果中排名靠前的k张数据库图像作为回环候选图像。
6.根据权利要求5所述的一种基于二阶注意力机制的回环检测及优化方法,其特征在于,所述骤(4-2)包括以下内容:
在数据库图像采集过程中,相邻图像间有较高的相似性,会导致错误的回环,为了避免查询图像的相邻图像成为回环候选帧,造成假阳性,引入一个约束来限制查询图像匹配范围,在查询图像的匹配范围内具体为:
R=N-f·T
其中,R表示查询图像的匹配范围;N表示在查询图像之前的所有图像的集合;f为相机的帧率;T为预定义参数;f·T为在当前图像之前的f·T帧图像的集合,通过加入这个约束,避免环路闭合检测假阳性问题;
若数据库图像在查询图像的匹配范围R内,则根据这两张图像分别对应的全局特征向量计算这两张图像之间的相似度。
7.根据权利要求1所述的一种基于二阶注意力机制的回环检测及优化方法,其特征在于,所述骤(5)包括以下内容:
对当前查询图像Ii与回环候选图像In提取SURF特征的过程相同,对于图像的特征,通过CasHash的方式将其从粗到细映射成二进制编码,CasHash算法使用有m位的哈希表L,然后每个特征p被分配到一个桶gl(p),L函数gl(q)用以下公式表示,其中hs,l(1≤s≤m,1≤l≤L)是从一个局部敏感族H中独立、均匀地随机生成的;
gl(q)=(h1,l(q),h2,l(q),…,hm,l(q)),l=1,2,…,L
原始的SURF特征具有128维浮点描述符,而使用CasHash可以将这些特征更改为m位的二进制编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210690435.8A CN114926742B (zh) | 2022-06-17 | 2022-06-17 | 一种基于二阶注意力机制的回环检测及优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210690435.8A CN114926742B (zh) | 2022-06-17 | 2022-06-17 | 一种基于二阶注意力机制的回环检测及优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114926742A true CN114926742A (zh) | 2022-08-19 |
CN114926742B CN114926742B (zh) | 2024-09-24 |
Family
ID=82815360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210690435.8A Active CN114926742B (zh) | 2022-06-17 | 2022-06-17 | 一种基于二阶注意力机制的回环检测及优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114926742B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115631319A (zh) * | 2022-11-02 | 2023-01-20 | 北京科技大学 | 一种基于交叉注意力网络的回环检测方法 |
CN116563649A (zh) * | 2023-07-10 | 2023-08-08 | 西南交通大学 | 基于张量映射网络的高光谱图像轻量化分类方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781790A (zh) * | 2019-10-19 | 2020-02-11 | 北京工业大学 | 基于卷积神经网络与vlad的视觉slam闭环检测方法 |
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
-
2022
- 2022-06-17 CN CN202210690435.8A patent/CN114926742B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
CN110781790A (zh) * | 2019-10-19 | 2020-02-11 | 北京工业大学 | 基于卷积神经网络与vlad的视觉slam闭环检测方法 |
Non-Patent Citations (1)
Title |
---|
余宇;胡峰;: "基于深度学习的视觉SLAM回环检测方法", 计算机工程与设计, no. 02, 16 February 2020 (2020-02-16) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115631319A (zh) * | 2022-11-02 | 2023-01-20 | 北京科技大学 | 一种基于交叉注意力网络的回环检测方法 |
CN116563649A (zh) * | 2023-07-10 | 2023-08-08 | 西南交通大学 | 基于张量映射网络的高光谱图像轻量化分类方法及装置 |
CN116563649B (zh) * | 2023-07-10 | 2023-09-08 | 西南交通大学 | 基于张量映射网络的高光谱图像轻量化分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114926742B (zh) | 2024-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN111581405B (zh) | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 | |
CN111291212B (zh) | 基于图卷积神经网络的零样本草图图像检索方法和系统 | |
CN113936339B (zh) | 基于双通道交叉注意力机制的打架识别方法和装置 | |
CN112926396A (zh) | 一种基于双流卷积注意力的动作识别方法 | |
CN114926742B (zh) | 一种基于二阶注意力机制的回环检测及优化方法 | |
CN112199532B (zh) | 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置 | |
CN111027576B (zh) | 基于协同显著性生成式对抗网络的协同显著性检测方法 | |
CN111241326B (zh) | 基于注意力金字塔图网络的图像视觉关系指代定位方法 | |
CN112507778B (zh) | 一种基于线特征的改进词袋模型的回环检测方法 | |
CN112036260A (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及系统 | |
CN112035689A (zh) | 一种基于视觉转语义网络的零样本图像哈希检索方法 | |
CN115186673A (zh) | 科技信息管理系统及其管理方法 | |
CN113065409A (zh) | 一种基于摄像分头布差异对齐约束的无监督行人重识别方法 | |
Wu et al. | Variant semiboost for improving human detection in application scenes | |
Zhang et al. | DHNet: Salient object detection with dynamic scale-aware learning and hard-sample refinement | |
Zheng et al. | Learning from the web: Webly supervised meta-learning for masked face recognition | |
CN114168773A (zh) | 一种基于伪标签和重排序的半监督草图图像检索方法 | |
CN117152504A (zh) | 一种空间相关性引导的原型蒸馏小样本分类方法 | |
CN110516640B (zh) | 一种基于特征金字塔联合表示的车辆再辨识方法 | |
CN115640418B (zh) | 基于残差语义一致性跨域多视角目标网站检索方法及装置 | |
CN115240120B (zh) | 一种基于对抗网络的行为识别方法及电子设备 | |
CN116311345A (zh) | 一种基于Transformer的遮挡行人重识别方法 | |
CN113032612B (zh) | 一种多目标图像检索模型的构建方法及检索方法和装置 | |
CN115601745A (zh) | 一种面向应用端的多视图三维物体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |