CN114926742A

CN114926742A - 一种基于二阶注意力机制的回环检测及优化方法

Info

Publication number: CN114926742A
Application number: CN202210690435.8A
Authority: CN
Inventors: 张晓峰; 陈哲; 欧垚君; 丁红; 陶秦; 施正阳; 魏东
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-08-19
Anticipated expiration: 2042-06-17
Also published as: CN114926742B

Abstract

本发明公开了一种基于二阶注意力机制的回环检测及优化方法，属于计算机视觉图像技术领域，解决了传统方法忽略图像局部特征之间相关性的问题。其技术方案为：包括以下步骤：步骤1)、构建融合VGG16、二阶注意力机制和NetVLAD的网络模型SOA‑NetVLAD；步骤2)、采用知识蒸馏的方式训练网络模型得到最优参数；步骤3)、提取图像的全局特征；步骤4)、采用局部敏感哈希方法对图像的全局特征降维，并计算图像之间的余弦相似度；步骤5)、采用几何验证方式进行回环验证；步骤6)、采用随机采样一致性算法消除误匹配。本发明的有益效果为：本发明的网络模型中加入了注意力机制，能有效的学习局部特征之间的相关性。

Description

一种基于二阶注意力机制的回环检测及优化方法

技术领域

本发明涉及计算机视觉图像技术领域，尤其涉及一种基于二阶注意力机制的回环检测及优化方法。

背景技术

同步定位与建图(Simultaneous Localization and Mapping，SLAM)在自主移动机器人和智能交通领域起着关键的作用，它可以在未知的环境中进行地图的构建，同时准确的估计机器人的位置。然而，因为环境条件的影响，会使得机器人估计的轨迹出现一些累计漂移。回环检测是SLAM系统的一个重要组件，它可以通过识别机器人是否已经返回之前的位置来修正累计误差，真正的回环检测可以提供精确的位姿估计，提高整个SLAM系统的精度。

回环检测提升了SLAM的性能，目前回环检测方法主要分为两大类：传统方法和深度学习方法。词袋(BoW)框架(Gálvez-López D,Tardos J D.Bags of binary words forfast place recognition in image sequences[J].IEEE Transactions on Robotics,2012,28(5):1188-1197.)在传统方法中得到了广泛的应用，大多数使用BoW框架的回环检测方法，通过将描述符空间量化为视觉单词，然后应用TF-IDF技术，可以将图像使用紧凑的向量来表示。最后，结合到排序索引的方法快速计算当前查询图像和之前图像之前的相似度，从而找到回环候选帧。然而，传统的方法对光照变化和视点变化缺乏鲁棒性，且过度依赖于纹理信息，容易产生感知混淆问题。当面对真实场景，例如光照的变化和视点变化等情况时，描述符的性能可能会降低。基于深度学习的方法有很多，R.Arandjelovic等人提出了NetVLAD(Arandjelovic R,Gronat P,Torii A,et al.NetVLAD:CNN architecture forweakly supervised place recognition[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition.2016:5297-5307.)网络，但该方法忽略了局部特征之间的相似性，对视点变化比较敏感。在复杂环境中可能会失败。

目前面对的问题是回环检测的精度和实时性还有待进一步提高，如何解决上述技术问题为本发明面临的课题。

发明内容

为了解决以上技术问题，本发明的目的在于提供一种基于二阶注意力机制的回环检测及优化方法，通过比较图像全局特征帮助机器人判断是否回到之前访问过的地方，提高了回环检测的准确率，减少位姿漂移误差，进一步提升定位的精度，且大大减少了运算量，在实时性方面表现的更加优秀。

本发明的发明思想为：本发明是通过构建融合VGG16、二阶注意力模块(SOA)和NetVLAD的网络模型SOA-NetVLAD；并采用知识蒸馏的方式训练网络模型得到最优参数；对图像进行预处理并输入到SOA-NetVLAD网络中，提取图像的全局特征；采用局部敏感哈希(LSH)方法对图像的全局特征降维，并计算图像之间的余弦相似度，根据相似度得到回环候选帧；采用几何验证方式进行回环验证；采用随机采样一致性算法(RANSAC)消除误匹配。基于二阶注意力机制的回环检测及优化方法，可以有效的学习局部特征之间的相关性，克服了传统回环检测方法对视点变化和光照变化敏感等问题，加入几何验证的方式可以对回环检测的结果进一步验证，提高了回环检测的准确率。

本发明是通过以下措施实现的，一种基于二阶注意力机制的回环检测及优化方法，包括以下步骤：

步骤(1)、构建融合VGG16、二阶注意力机制(SOA)和NetVLAD的网络模型SOA-NetVLAD：对VGG16进行裁剪，然后在VGG16的conv5_3层后面加入SOA模块，并在最后一层加入池化层NetVLAD；

步骤(2)、采用知识蒸馏的方式训练网络模型得到最优参数；

步骤(3)、步骤(3)、对待查询图像和数据库图像进行预处理，然后输入到SOA-NetVALD网络中，提取查询图像和数据库图像的全局特征；

步骤(4)、对步骤(3)得到的全局特征向量使用局部敏感哈希(LSH)方法降低维度，并计算图像间的余弦相似度，按照相似度得分对数据库图像进行排序，将排序好的前k个数据库图像作为回环候选帧；

步骤(5)、引入几何验证，判断查询图像与回环候选图像是否构成真正的回环，首先提取查询图像与回环候选图像的SURF特征，然后使用CasHash算法进行成对图像匹配；

步骤(6)、使用随机采样一致性算法(RANSAC)消除误匹配，选择最后的回环候选帧。

进一步地，在上述方法中，所述步骤(1)中，构建融合VGG16、二阶注意力机制(SOA)和NetVLAD的网络模型VGG-VLAD：具体为：

步骤(1-1)、对VGG16网络进行修改，删除最后一个卷积层conv5_3之后的池化层和全连接层，包括RELU激活函数，并将SOA模块连接到卷积层conv5_3之后，得到二阶特征图。最后，将NetVLAD层连接到在SOA模块的后面作为新的池化层。NetVLAD层将VLAD的思想引入到了卷积神经网络中。

步骤(1-2)、对于VGG16输出的C×W×H维的特征图x∈R^C×W×H，可以看作是总数为W×H的C维局部描述符x_ij(i＝1，2，...W，j＝1，2，......，H)。我们首先通过与D个输出通道的1×1卷积生成表示为f(x)和g(x)的两个映射，然后经过批归一化层和swish激活，其中D＝2×C。然后将映射f(x)和g(x)展平为D×HW的大小。二阶注意力图的结果如下：

m＝softmax(α·f(x)^Tg(x))

其中α表示比例因子，f(x)^T是f(x)的转置。由此得到的二阶注意力图m的尺寸为HW×HW，其值表示特征图m中局部描述符之间的相关性。最后，将特征图x和二阶注意力图m合并得到二阶注意力模块SOA(x)的输出：

SOA(x)＝x+v(m′)

其中m′是形状为HW×H×W的张量由注意力图m改变尺寸得到，v是1×1的卷积函数，恢复从HW到C的通道尺寸。二阶特征图SOA(X)的大小为C×W×H，与输入特征图x的大小相同。

步骤(1-3)、在二阶注意力模块后面添加一个可训练的NetVLAD层，可以把二阶特征图SOA(x)聚合成紧凑的全局描述符。VLAD是一种常用于图像检索和图像分类的描述方法，把聚集起来的局部描述子构造成一个向量，用该向量作为图像的全局描述子。若VLAD的输入为单幅图像的N个D维特征向量{x_i}，参数为K个聚类中心c_k，则输出为一个K×D维的特征向量，将其写成矩阵的形式，记做V，计算公式如下：

其中x_i(j)和c_k(j)分别代表第i个特征向量和第k个聚类中心的第j个元素，a_k(x_i)表示第i个特征向量对应第k个聚类中心的权重，当该特征属于这个聚类中心时，权重为1，否则为0。由于VLAD是一个离散函数，无法通过反向传播，所以NetVLAD层采用了一种近似的方式，将a_k(x_i)软分配到多个聚类中心，使其可微：

其中w_k＝2αc_k，b_k＝-α||c_k||²，α是一个大于0的参数，α→∞时，

越来趋势于0和1，上述公式就是softmax函数。最终NetVLAD层输出的特征向量为：

进一步地，在上述方法中，所述步骤(2)中，采用知识蒸馏的方式训练网络模型得到最优参数具体为：

步骤(2-1)、在Google Landmark数据集上采用知识蒸馏的方式训练构建网络模型，获得最优的参数。

步骤(2-2)、将全局特征提取网络SOA-NetVLAD作为学生网络，将以VGG16为骨干的预训练的NetVLAD网络作为教师网络。通过最小化教师网络预测的全局特征与学生网络预测的全局特征之间的均方误差(MSE)损失来训练我们的全局特征提取网络；

进一步地，在所述步骤(3)中，将待查询图像和数据库图像进行预处理，然后输入到卷积神经网络提取特征中具体为：

步骤(3-1)、首先将图像大小调整为224×224像素，并减去RGB通道的均值数据。然后将图像输入到已在数据集上训练好的网络模型中，将最后NetVLAD层的输出作为图像的全局特征表示。

进一步地，在上述方法中，在所述步骤(4)中，对步骤(3)得到的全局特征向量使用局部敏感哈希(LSH)方法降低维度，并计算图像间的余弦相似度，并根据相似度得到回环候选帧具体为：

步骤(4-1)、将最后NetVLAD层的输出作为图像的全局特征表示为V_i(I)，

其中I表示图像，d表示全局特征向量的维度。对于我们的全局特征，哈希函数定义如下：

其中r是从d维空间生成的单位长度的球对称随机向量，v表示图像的全局特征向量。通过定义k个随机向量r，可以实现卷积特征向量的降维，即特征向量可以用长度为k的字节来表示。对于两个全局特征向量u，v，则：

因此，可以得到u，v之间的余弦相似度：

sim(u，v)＝cos(θ(u，v))＝cos((1-P_r[h_r(u)＝h_r(v)])π)

步骤(4-2)、计算查询图像与数据库图像全局特征向量之间的余弦相似度，根据余弦相似度对数据库图像进行从高到低排序。选取排序结果中排名靠前的k张数据库图像作为回环候选图像。

进一步地，在上述方法中，在所述步骤(4-1)中，在数据库图像采集过程中，相邻图像间有较高的相似性，可能导致错误的回环。为了避免查询图像的相邻图像成为回环候选帧，造成假阳性，我们引入了一个约束来限制查询图像匹配范围。在查询图像的匹配范围内具体为：

R＝N-f·T

其中，R表示查询图像的匹配范围；N表示在查询图像之前的所有图像的集合；f为相机的帧率；T为预定义参数；f·T为在当前图像之前的f·T帧图像的集合。通过加入这个约束，可以避免环路闭合检测假阳性问题。

若数据库图像在查询图像的匹配范围R内，则根据这两张图像分别对应的全局特征向量计算这两张图像之间的相似度。

进一步地，在上述方法中，在所述步骤(5)中，对查询图像与回环候选图像分别提取SURF特征具体为：

对当前查询图像I_i与回环候选图像I_n提取SURF特征的过程相同，对于图像的特征，通过CasHash的方式将其从粗到细映射成二进制编码。CasHash算法使用有m位的哈希表L，然后每个特征p被分配到一个桶g_l(p)。L函数g_l(q)用以下公式表示，其中h_s，l(1≤s≤m，1≤l≤L)是从一个局部敏感族H中独立、均匀地随机生成的。

g_l(q)＝(h_1，l(q)，h_2，l(q)，...，h_m，l(q))，l＝1，2，...，L

原始的SURF特征具有128维浮点描述符，而使用CasHash可以将这些特征更改为m位的二进制编码。

进一步地，在上述方法中，在所述步骤(5)中，对两幅图像的描述符进行匹配具体为：

采用二进制编码进行比率测试，二进制比率测试阈值ε定义为：

其中，H(·)表示汉明距离，C_a是图像I_a中描述符f_a的二进制编码，

和

是图像I_b中两个最接近的描述符

和

的二进制编码。比ε²低的特征匹配将被视为好的匹配，并被馈送到RANSAC计算查询和回环候选图像之间的基本矩阵T。如果回环候选无法计算T或两个图像之间的内点数目小于参数τ，则忽略该回环候选。

与现有技术相比，本发明的有益效果在于：

1、本发明在NetVLAD网络模型上进行改进重新设计了网络，以VGG16作为网络的主干部分，并加入了二阶注意力模块，可以有效地学习特征之间的相关性，然后在网络的最后一层加入了一个可以训练的局部聚集描述符向量(NetVALD)，可以生成固定长度的全局特征，本发明通过加入的注意力机制，使得网络模型生成的全局特征在视点变化和光照变化的场景下有更好的鲁棒性。

2、本发明采用几何验证的方式，判断回环候选图像与当前查询图像之间是否构成回环。首先提取图像的SURF特征，然后通过CasHash算法将其转换为二进制哈希编码来进行图像间的特征匹配，每个特征被编码为哈希编码以后占用内存空间小，在移动机器人的应用程序中非常重要，因此该方法既可以减少计算量，又可以验证回环是否正确。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明的整体结构流程图。

图2为基于VGG16、SOA和NetVLAD的网络模型示意图。

图3为SOA模块网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和具体实施方式对本发明进行详细说明。

实施例1

参见图1至图3，本实施例提供了一种基于二阶注意力机制的回环检测及优化方法，如图1所示，具体包括以下步骤：

步骤(1)、构建融合VGG16、二阶注意力机制(SOA)和NetVLAD的网络模型。图2为构建好的网络模示意型图。网络分为VGG16部分结构、SOA模块和NetVLAD池化层三部分，第一部分去掉了VGG16最后一个卷积层conv5_3层后面的池化层和全连接层。并在后面加入SOA模块，可以学习所有空间位置之间的相关性，SOA模块如图3所示。NetVLAD层作为网络的最后一层。

步骤(2)、采用知识蒸馏的方式训练网络模型得到最优参数具体为：

步骤(2-2)、将全局特征提取网络作为学生网络，将以VGG16为骨干的预训练的NetVLAD网络作为教师网络。通过最小化教师网络预测的全局特征与学生网络预测的全局特征之间的均方误差(MSE)损失来训练我们的全局特征提取网络；

步骤(3)、对待查询图像和数据库图像进行预处理，然后输入到SOA-NetVALD网络中，提取查询图像和数据库图像的全局特征具体为：

步骤(4)、对步骤(3)得到的全局特征向量使用局部敏感哈希(LSH)方法降低维度，并计算图像间的余弦相似度，并根据相似度得到回环候选帧具体为：

步骤(4-1)、将将最后NetVLAD层的输出作为图像的全局特征表示为V_i(I)，

因此，可以得到u，v之间的余弦相似度：

sim(u，v)＝cos(θ(u，v))＝cos((1-P_r[h_r(u)＝h_r(v)])π)

步骤(5)、引入几何验证，判断查询图像与回环候选图像是否构成真正的回环，首先提取查询图像与回环候选图像的SURF特征，然后使用CasHash算法进行成对图像匹配具体为：

g_l(q)＝(h_1，l(q)，h_2，l(q)，...，h_m，l(q))，l＝1，2，...，L

步骤(6)、使用随机采样一致性算法(RANSAC)消除误匹配，选择最后的回环候选帧具体为：

和

是图像I_b中两个最接近的描述符

和

的二进制编码。比ε²低的特征匹配将被视为好的匹配，并被馈送到RANSAC以计算查询和回环候选图像之间的基本矩阵T。如果回环候选无法计算T或两个图像之间的内点数目小于参数τ，则忽略该回环候选。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于二阶注意力机制的回环检测及优化方法，其特征在于：包括以下步骤：

步骤(1)、构建融合VGG16、二阶注意力机制SOA和NetVLAD的网络模型SOA-NetVLAD：对VGG16进行裁剪，在VGG16的conv5_3层后面加入SOA模块，并在最后一层加入池化层NetVLAD；

步骤(2)、采用知识蒸馏的方式训练网络模型得到最优参数；

步骤(3)、对待查询图像和数据库图像进行预处理，然后输入到SOA-NetVALD网络中，提取查询图像和数据库图像的全局特征；

步骤(4)、对步骤(3)得到的全局特征向量使用局部敏感哈希LSH方法降低维度，并计算图像间的余弦相似度，按照相似度得分对数据库图像进行排序，将排序好的前k个数据库图像作为回环候选帧；

步骤(6)、使用随机采样一致性算法RANSAC消除误匹配，选择最后的回环候选帧。

2.根据权利要求1所述的一种基于二阶注意力机制的回环检测及优化方法，其特征在于，所述的步骤(1)包括如下步骤：

步骤(1-1)、对VGG16网络进行修改，删除最后一个卷积层conv5_3之后的池化层和全连接层，包括RELU激活函数，并将SOA模块连接到卷积层conv5_3之后，得到二阶特征图，最后，将NetVLAD层连接到在SOA模块的后面作为新的池化层，NetVLAD层将VLAD的思想引入到了卷积神经网络中；

步骤(1-2)、对于VGG16输出的C×W×H维的特征图x∈R^C×W×H，看作是总数为W×H的C维局部描述符x_ij(i＝1,2,...W,j＝1,2,......,H)，首先通过与D个输出通道的1×1卷积生成表示为f(x)和g(x)的两个映射，然后经过批归一化层和swish激活，其中D＝2×C，然后将映射f(x)和g(x)展平为D×HW的大小，二阶注意力图的结果如下：

m＝softmax(α·f(x)^Tg(x))

其中α表示比例因子，f(x)^T是f(x)的转置，由此得到的二阶注意力图m的尺寸为HW×HW，其值表示特征图m中局部描述符之间的相关性，最后，将特征图x和二阶注意力图m合并得到二阶注意力模块SOA(x)的输出：

SOA(x)＝x+v(m′)

其中m′是形状为HW×H×W的张量由注意力图m改变尺寸得到，v是1×1的卷积函数，恢复从HW到C的通道尺寸，二阶特征图SOA(X)的大小为C×W×H，与输入特征图x的大小相同；

步骤(1-3)、在二阶注意力模块后面添加一个可训练的NetVLAD层，把二阶特征图SOA(x)聚合成紧凑的全局描述符，VLAD是常用于图像检索和图像分类的描述方法，把聚集起来的局部描述子构造成一个向量，用该向量作为图像的全局描述子，若VLAD的输入为单幅图像的N个D维特征向量{x_i}，参数为K个聚类中心c_k，则输出为一个K×D维的特征向量，将其写成矩阵的形式，记做V，计算公式如下：

其中x_i(j)和c_k(j)分别代表第i个特征向量和第k个聚类中心的第j个元素，a_k(x_i)表示第i个特征向量对应第k个聚类中心的权重，当该特征属于这个聚类中心时，权重为1，否则为0，由于VLAD是一个离散函数，无法通过反向传播，所以NetVLAD层采用了一种近似的方式，将a_k(x_i)软分配到多个聚类中心，使其可微：

其中w_k＝2αc_k,b_k＝-α‖c_k‖²，α是一个大于0的参数，α→∞时，

越来趋势于0和1，上述公式是softmax函数，最终NetVLAD层输出的特征向量为：

3.根据权利要求1所述的一种基于二阶注意力机制的回环检测及优化方法，其特征在于：所述步骤(2)包括如下步骤：

步骤(2-1)、在Google Landmark数据集上采用知识蒸馏的方式训练构建网络模型，获得最优的参数；

步骤(2-2)、将全局特征提取网络SOA-NetVLAD作为学生网络，将以VGG16为骨干的预训练的NetVLAD网络作为教师网络，通过最小化教师网络预测的全局特征与学生网络预测的全局特征之间的均方误差(MSE)损失来训练全局特征提取网络。

4.根据权利要求1所述的一种基于二阶注意力机制的回环检测及优化方法，其特征在于,所述步骤(3)包括以下内容：

步骤(3-1)、首先将图像大小调整为224×224像素，并减去RGB通道的均值数据，然后将图像输入到已在数据集上训练好的网络模型中，将最后NetVLAD层的输出作为图像的全局特征表示。

5.根据权利要求1所述的一种基于二阶注意力机制的回环检测及优化方法，其特征在于，所述骤(4)包括以下步骤：

其中I表示图像，d表示全局特征向量的维度，对于全局特征，哈希函数定义如下：

其中r是从d维空间生成的单位长度的球对称随机向量，v表示图像的全局特征向量，通过定义k个随机向量r，实现卷积特征向量的降维，即特征向量用长度为k的字节来表示，对于两个全局特征向量u，v，则：

因此，得到u,v之间的余弦相似度：

sim(u,v)＝cos(θ(u,v))＝cos((1-P_r[h_r(u)＝h_r(v)])π)步骤(4-2)、计算查询图像与数据库图像全局特征向量之间的余弦相似度，根据余弦相似度对数据库图像进行从高到低排序，选取排序结果中排名靠前的k张数据库图像作为回环候选图像。

6.根据权利要求5所述的一种基于二阶注意力机制的回环检测及优化方法，其特征在于,所述骤(4-2)包括以下内容：

在数据库图像采集过程中，相邻图像间有较高的相似性，会导致错误的回环，为了避免查询图像的相邻图像成为回环候选帧，造成假阳性，引入一个约束来限制查询图像匹配范围，在查询图像的匹配范围内具体为：

R＝N-f·T

其中，R表示查询图像的匹配范围；N表示在查询图像之前的所有图像的集合；f为相机的帧率；T为预定义参数；f·T为在当前图像之前的f·T帧图像的集合，通过加入这个约束，避免环路闭合检测假阳性问题；

7.根据权利要求1所述的一种基于二阶注意力机制的回环检测及优化方法，其特征在于,所述骤(5)包括以下内容：

对当前查询图像I_i与回环候选图像I_n提取SURF特征的过程相同，对于图像的特征，通过CasHash的方式将其从粗到细映射成二进制编码，CasHash算法使用有m位的哈希表L，然后每个特征p被分配到一个桶g_l(p)，L函数g_l(q)用以下公式表示，其中h_s,l(1≤s≤m,1≤l≤L)是从一个局部敏感族H中独立、均匀地随机生成的；

g_l(q)＝(h_1,l(q),h_2,l(q),…,h_m,l(q)),l＝1,2,…,L

8.根据权利要求1所述的一种基于二阶注意力机制的回环检测及优化方法，其特征在于,所述骤(6)包括以下内容：

和

是图像I_b中两个最接近的描述符

和

的二进制编码，比ε²低的特征匹配将被视为好的匹配，并被馈送到RANSAC以计算查询和回环候选图像之间的基本矩阵T，如果回环候选无法计算T或两个图像之间的内点数目小于参数τ，则忽略该回环候选。