CN113313238B

CN113313238B - 一种基于深度学习的视觉slam方法

Info

Publication number: CN113313238B
Application number: CN202110668358.1A
Authority: CN
Inventors: 朱明�; 李志强
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2023-12-29
Anticipated expiration: 2041-06-16
Also published as: CN113313238A

Abstract

本发明公开了一种基于深度学习的视觉SLAM方法。包括以下步骤：建立基于深度可分离卷积的特征点和描述子提取网络，在Superpoint网络基础上，将深度可分离卷积应用于Superpoint网络，改进Superpoint网络描述子解码器的上采样方式和损失函数形式；将改进后的通道剪枝算法应用于深度可分离卷积，将Superpoint网络论文中的提供的模型作为教师网络，剪枝后的模型作为学生网络，并使用知识蒸馏的方式提升剪枝后网络提取特征点和描述子的精度；将轻量级网络应用于ORB‑视觉SLAM2的特征点和描述子提取过程，实现基于深度学习的视觉视觉SLAM系统。本发明能够解决特征点和描述子提取网络的天然劣势以及特征点和描述子提取网络在计算资源有限的设备上运行速度较慢的问题。

Description

一种基于深度学习的视觉SLAM方法

技术领域

本发明涉及视觉视觉SLAM算法技术领域，具体涉及一种基于深度学习的视觉SLAM方法。

背景技术

当前基于特征点的视觉视觉SLAM算法(如ORB-视觉SLAM2)均为基于手工设计的提取特征点和描述子的算法，手工设计的特征点和描述子提取算法的通过数学公式对图片进行进化和抽象来提取信息，其鲁棒性和泛化性较大规模数据集驱动的深度学习具有天然劣势。大数据驱动的深度学习能够比完全手工设计的算法提取更深层次的图像特征，鲁棒性和泛化能力更强。

考虑到基于深度学习的特征点和描述子提取网络将应用于视觉视觉SLAM中，而视觉视觉SLAM对于算法的实时性有着较高要求，传统的卷积方式计算量较大，因此需要将深度可分离卷积应用于Superpoint网络中，替换部分传统卷积，降低网络的参数量和计算量。

在现实生活中的部署卷积神经网络主要面临三大难题：

1.模型大小：上百万可训练的参数使得卷积神经网络性能表现优异，网络的参数和结构信息需要储存在硬盘中，在前向推理期间需要将网络参数和架构加载到内存中。然而一个在ImageNet上预训练好的VGGNet的16层网络模型的大小超过500M，这对于硬件资源有限的嵌入式等设备来说负担较重。

2.网络运行时间占用内存：在前向推理期间，卷积神经网络的中间层储存的值需要的存储空间甚至可能比模型参数的存储空间的大。这对于显存容量大的的GPU来说负担较轻，但是对于计算能力有限的硬件设备来说，可能其内存大小小于网络所需内存，网络不能正常运行。

3.计算量：需要密集计算才能完成在较高分辨率图片上的卷积操作，在计算能力有限的硬件设备上，一个大的卷积神经网络可能要花费几分钟才能处理一张图片，这使得在卷积神经网络很难大范围直接应用。

发明内容

针对现有技术的不足，本发明公开一种基于深度学习的视觉SLAM方法，能够解决特征点和描述子提取网络(应该是手工设计的特征点和描述子提取算法)的天然劣势以及特征点和描述子提取网络在计算资源有限的设备上运行速度较慢的问题。

为实现以上目的，本发明通过以下技术方案予以实现：

一种基于深度学习的视觉SLAM方法，包括以下步骤

S1：建立基于深度可分离卷积的特征点和描述子提取网络，在Superpoint网络基础上，将深度可分离卷积应用于Superpoint网络，改进Superpoint网络描述子解码器的上采样方式和损失函数形式；

S2：将改进后的通道剪枝算法应用于深度可分离卷积，将Superpoint网络论文中的提供的模型作为教师网络，剪枝后的模型作为学生网络，并使用知识蒸馏的方式提升剪枝后网络提取特征点和描述子的精度；

S3：将轻量级网络应用于ORB视觉SLAM2的特征点和描述子提取过程，实现基于深度学习的视觉视觉SLAM系统。

优选的技术方案，在所述步骤S1中将Superpoint网络第一层和最后一层1×1卷积保持不变，其余卷积层均替代为深度可分离卷积，将Superpoint网络和深度可分离卷积进行融合变成计算量和参数量更低的基于深度可分离卷积的Superpoint网络。

优选的技术方案，在所述步骤S1中将描述子解码器中上采样方式更改为更简单，计算量更小最近邻采样的插值方式。

优选的技术方案，使用稀疏采样的方式计算描述子对之间的损失。

优选的技术方案，随机采样N个对应点的描述子对，针对每个对应点采样M个非对应点的描述子对，对描述子特征图采样M×N个点，N和M为超参数，通过控制M使得的对应点和非对应点的描述子对数比例更均衡，通过控制N来控制采样密度，在所述步骤S2中上一层卷积核的删除使得深度卷积输入通道删除，使得深度卷积对应的卷积核删除，深度卷积输出通道也被删除，本层中输出γ中较小的值特征图通道和其对应的逐点卷积卷积核被删除。

优选的技术方案，删除共享编码器最后一层逐点卷积卷积核的时候，需要删除特征点解码器和描述子解码器第一层深度卷积卷积核和逐点卷积卷积核中对应该卷积核的卷积通道。

优选的技术方案，在所述步骤S2中删除批归一化层缩放因子γ较小的特征图通道、产生该通道的逐点卷积卷积核以及下一层与该通道相连的深度卷积和逐点卷积通道。

优选的技术方案，在所述步骤S2中蒸馏过程中将语义分割当成逐个像素分类问题，直接使用知识蒸馏学生网络输出特征图的像素值，将教师网络产生的特征图作为训练学生网络的软目标，通过计算学生网络输出特征图和教师网络输出特征图的像素点KL散度的均值衡量分类差异的逐像素蒸馏损失。

优选的技术方案，在所述步骤S2中利用特征图中的像素相似的信息，使得结构化知识从教师网络转移到学生网络，将像素点相似性应用于逐对蒸馏损失，通过逐对蒸馏损失使得学生网络和教师网络在像素点相似性的分布上接近。

本发明公开一种基于深度学习的视觉SLAM方法，具有以下优点：

针对视觉视觉SLAM中的特征点和描述子算法，本申请提出了基于深度可分离卷积的特征点和描述子提取网络。在Superpoint网络基础上，本申请将深度可分离卷积应用于Superpoint网络，改进了Superpoint网络描述子解码器的上采样方式和损失函数形式，最后将网络层数、卷积核维度和下采样方式进行更改。

针对特征点和描述子提取网络在计算资源有限的设备上运行速度较慢的问题，本申请提出了网络剪枝和知识蒸馏融合的模型压缩算法。本申请将改进后的通道剪枝算法应用于深度可分离卷积并且改变剪枝流程使得剪枝算法能够对本申请网络进行剪枝。针对剪枝压缩率过高导致模型性能下降明显的问题。

本申请使用知识蒸馏的方式提升剪枝后网络提取特征点和描述子的精度。本申请将Superpoint网络论文中的提供的模型作为教师网络，剪枝后的模型作为学生网络。最后实现了在高压缩率的同时网络精度仅有轻微幅度降低。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的深度可分离卷积剪枝过程示意图；

图2是本发明实施例的网络知识蒸馏框架。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请中将Superpoint网络第一层和最后一层1×1卷积保持不变，其余卷积层均替代为深度可分离卷积，将Superpoint网络和深度可分离卷积进行融合变成计算量和参数量更低的基于深度可分离卷积的Superpoint网络。

本申请首先将Superpoint描述子解码器中上采样方式以及损失函数进行更改。改进具体为：

1.本申请描述子解码器中上采样方式更改为更简单，计算量更小最近邻采样的插值方式。Superpoint网络中描述子解码器中上采样方式为双三次插值，但是通过观察损失函数中特征点的标签Y形式，可以发现Y在(h，w)处的值y_hw取值范围为[1，65]，只能取一个值，相当于对应的8×8区域只能最多只有一个特征点，描述子特征图D在(h，w)处的值d_hw可以代表该8×8区域描述子，因此该8×8区域位置描述子均可以设为d_hw，本申请中最近邻采样的插值方式的计算量比双三次插值的计算量也大大减少，实验结果中证明本申请使用的插值方式没有降低特征点和描述子提取的精度。

2.本申请使用稀疏损失代替密集损失。公式

在描述子特征图D上计算所有描述子对之间的损失，总共计算(Hc×Wc)2个对应点和非对应点的描述子对。其中d_hw，d′_h′w′分别表示描述子特征图D，D′在(h，w)，(h′，w′)处的值。

其中对应点的描述子对数为K×(Hc×Wc)个，K为与单应性变换H有关的常数，非对应点的描述子对数(Hc×Wc)2-K×(Hc×Wc)。对应点和非对应点的描述子对数不均衡，计算量也较大。本申请使用稀疏采样的方式计算描述子对之间的损失，本申请随机采样N个对应点的描述子对，针对每个对应点采样M个非对应点的描述子对，对描述子特征图采样M×N个点，N和M为超参数，通过控制M使得的对应点和非对应点的描述子对数比例更均衡，通过控制N来控制采样密度。

然后本申请将基于深度可分离卷积的Superpoint网络的卷积层数、卷积维度和下采样方式进行更改。更改后的网络卷积核如下表所示，表中每一行为一个卷积通道，第一个数字是输入通道，中间两个数字是卷积核大小，最后一个数字是卷积核数目，“(dw)”代表使用深度可分离卷积，“/s2”代表卷积步长为2。

共享编码器	特征点解码器	描述子解码器
			1×3×3×64/s2	256×3×3×256(dw)	256×3×3×256(dw)
64×3×3×64(dw)	256×1×1×65	256×1×1×256
			64×3×3×128(dw)/s2
128×3×3×128(dw)
			128×3×3×256(dw)/s2

Superpoint网络卷积核如下表所示，表中每一行为一个卷积通道，第一个数字是输入通道，中间两个数字是卷积核大小，最后一个数字是卷积核数目，“+池化”是指在卷积后进行步长为2最大池化操作。共享编码器结构类似与VGG网络的卷积结构，前六层每经过两次3×3卷积后紧跟着进行步长为2的2×2最大池化。每个卷积层后面都紧跟着批归一化和非线性激活操作。

共享编码器	特征点解码器	描述子解码器
			1×3×3×64	128×3×3×256	128×3×3×256
64×3×3×64+池化	256×1×1×65	256×1×1×256
			64×3×3×64
64×3×3×64+池化
			64×3×3×128
128×3×3×128+池化
			128×3×3×128
128×3×3×128

对比可以发现，本申请除了将大部分卷积层替换为深度可分离卷积外，共享编码器的层数由原始的8层卷积替换为现在的5层卷积。原始网络中卷积后进行步长为2的2×2最大池化的下采样方式被替换为步长为2的卷积层，步长为2的卷积既保留了卷积操作也满足了下采样要求，并且提取特征的能力几乎没有下降。传统卷积进行步长为2的卷积直接将卷积核移动的步长由1调整为2即可，深度可分离卷积由于分成深度卷积核逐点卷积两部分，深度可分离卷积进行步长为2的卷积与传统卷积的卷积方式不一致，深度可分离卷积首先将深度卷积步长调整为2，从而使得深度卷积输出特征图大小为输入特征图的12，逐点卷积需要保持步长为1，从而实现2倍下采样。假设卷积层输入DF×DF×M的特征图F进行步长为1深度可分离卷积和步长为2的2×2最大池化操作进行下采样，输出通道仍为M，卷积核大小为DK×DK，则这一步骤计算量为：

D_K×D_K×M×D_F×D_F+M×M×D_F×D_F+D_F×D_F×M

而在使用深度可分离卷积在步长为2的条件下进行卷积下采样的情况下，计算量为：

可以发现步长为2的深度可分离卷积不到深度可分离卷积卷积加池化计算量的1/4。为了弥补上述操作带来的特征信息损失，本申请将共享编码器的输出维度设置成256维。

本申请在NS算法基础上进行改进使之应用于深度可分离卷积并且改变剪枝流程使得剪枝算法能够对本申请提出的特征点和描述子提取网络的架构进行剪枝，后续实验证明本节的深度可分离卷积算法能够有效的对深度可分离卷积进行剪枝，在合适的阈值下网络精度几乎没有损失。

NS算法是删除所有批归一化中缩放因子γ中较小的值对应的通道和卷积核。然而在深度可分离卷积中，深度卷积后续操作也是批归一化，但是深度卷积的输入输出通道数应该相同，因此深度卷积缩放因子γ不应当作为通道重要程度的衡量，深度可分离卷积中只能通过逐点卷积中的批归一化中的γ衡量通道重要程度。深度可分离卷积的剪枝过程如图1所示。图中白色部分为被删除的卷积核和特征图通道，上一层卷积核的删除使得深度卷积输入通道删除，使得深度卷积对应的卷积核删除，深度卷积输出通道也被删除。本层中输出γ中较小的值特征图通道和其对应的逐点卷积卷积核被删除。

知识蒸馏将知识从复杂的模型转移到简单的模型以提高简单网络的性能。由于本申请特征点和描述子提取网络是类似语义分割架构，本申请采用与语义分割网络中结构化知识蒸馏架构相似的结构。将复杂的Superpoint论文提供的模型作为教师网络，剪枝后的模型作为学生网络。知识蒸馏的关键是如何衡量教师网络和学生网络输出结果的一致性，因此知识蒸馏重点在于训练过程中的损失函数设计。本申请使用逐像素损失和逐对损失作为蒸馏损失。

逐像素蒸馏是指蒸馏过程中将语义分割当成逐个像素分类问题，直接使用知识蒸馏学生网络输出特征图的像素值。将教师网络产生的特征图作为训练学生网络的软目标。衡量分类差异的逐像素蒸馏损失函数是通过计算学生网络输出特征图和教师网络输出特征图的像素点KL散度的均值实现。逐像素蒸馏损失计算公式3.4如下：

上式中X_Ti和X_Si分别代表教师网络和学生网络的输出特征图第i个像素，W′和H′表示教师网络输出特征图X_T的宽和高，学生网络输出特征图X_S与X_T大小一致，KL(·)表示KL散度的计算公式。

除了上述简单的逐像素蒸馏之外，本申请还使用结构化知识蒸馏方案(逐对蒸馏)，利用特征图中的像素相似的信息，使得结构化知识从教师网络转移到学生网络。本申请将像素点相似性应用于逐对蒸馏损失，通过逐对蒸馏损失使得学生网络和教师网络在像素点相似性的分布上接近，确保了特征图的局部一致性。本申请首先将特征图粒度改为β，β为超参数，通过步长为的/>的平均池化将/>的区域大小改为1×1×β图片粒度变为β，然后计算更改后的特征图像素点之间的相似度，统计教师网络和学生网络相似度的差值的均值，逐对蒸馏损失计算公式3.5如下：

上式中R′代表调整粒度后的特征图中所有点，a_Tij和a_Sij分别表示教师网络和学生网络输出特征图X_T和X_s调整粒度后的第i个和第j个像素点之间的相似度，像素点相似度的计算公式如下：

上式中f_i和f_j代表特征图在第i个和第j个像素点上的值。

本申请知识蒸馏过程中包含三部分损失函数：原始网络损失函数、逐像素蒸馏损失和逐对蒸馏损失，在训练过程中，教师网络保持不变，不进行权重更新，只对学生网络进行优化。网络知识蒸馏的框架如图2所示：

网络训练时输入真实图片I，图中上半部分为简单的学生网络，图中下半部分为教师网络，是Superpoint论文提供的模型，网络特征图之间使用虚线连接代表只能进行前向推理，梯度不进行反向传播，不更新模型权重。逐对蒸馏损失为教师网络和学生网络共享编码器最后一层输出特征图之间的损失，通过逐对蒸馏损失共享编码器输出特征图在像素之间的相似度分布保持一致，实现局部一致性。由于本申请网络输出特征点和描述子两个特征图，因此逐像素蒸馏损失由两部分组成，分别是教师网络和学生网络输出的特征点特征图之间的逐像素蒸馏损失和描述子特征图之间的逐像素蒸馏损失。本申请网络训练时数据标签值为特征点的位置，知识蒸馏时需要保证教师网络的结果和特征点标签相似，因此本申请使用教师网络在真实图片数据集上导出特征点作为训练时的标签，这样保证教师网络的结果和特征点标签相似。描述子损失是真实图片I输入学生网络后产生的描述子与图片I经过单应性变换H后产生的图片I′输入学生网络后产生的描述子之间的损失。由于网络训练过程中一次迭代需要将真实图片I和变换后的图片I′均进行前向推理，通过图像的变换信息获取描述子损失，因此本申请中的逐对蒸馏损失、逐像素蒸馏损失和特征点损失均需要计算两次。本申请训练过程中的损失函数如下：

上式中X、D、Y和M分别是网络输出的特征点特征图、描述子特征图、特征点标签值和共享编码器最后一层输出特征图，下标T和S分别表示是教师网络和学生网络的输出特征图，上标′表示网络输入为变换后的图片I′后产生的特征图，L_t(·)是原始Superpoint网络训练时的损失函数，计算过程如下：

L_t(X，X′，D，D′，Y，Y′，S)＝L_p(X，Y)+L_p(X′，Y′)+λL_d(D，D′，S)

L_pap(·)是逐对蒸馏损失函数，计算过程如下：

L_pap(M_T，M_S，M′_T，M′_S)＝L_pa(M_T，M_S)+L_pa(M′_T，M′_S)

L_pa(·)计算过程如公式3.5所示，L_pap(·)包含两部分逐对蒸馏损失，分别是图片I以及变换后的图片I′输入知识蒸馏框架后的产生的逐对蒸馏损失。

L_pip(·)是逐像素蒸馏损失函数，计算过程如下：

L_pip(X_T，X_S，X′_T，X′_S，D_T，D_S，D′_T，D′_S)＝L_pi(X_T，X_S)+L_pi(X′_T，X′_S)+L_pi(D_T，D_S)+L_pi(D′_T，D′_S)

L_pi(·)计算过程如公式3.4所示，L_pip(·)包含四部分逐像素蒸馏损失，图片I输入蒸馏网络后输出特征点特征图和描述子特征图产生两部分逐像素蒸馏损失，变换后的图片I′输入蒸馏网络后输出特征点特征图和描述子特征图产生两部分逐像素蒸馏损失。

λ₁和λ₂是用来平衡网络训练过程中三种损失的超参数。

需要说明的是，在本申请中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度学习的视觉SLAM方法，其特征在于：包括以下步骤

使用稀疏采样的方式计算描述子对之间的损失；

随机采样N个对应点的描述子对，针对每个对应点采样M个非对应点的描述子对，对描述子特征图采样M×N个点，N和M为超参数，通过控制M使得的对应点和非对应点的描述子对数比例更均衡，通过控制N来控制采样密度，在所述步骤S2中上一层卷积核的删除使得深度卷积输入通道删除，使得深度卷积对应的卷积核删除，深度卷积输出通道也被删除，本层中输出γ中较小的值特征图通道和其对应的逐点卷积卷积核被删除；

2.根据权利要求1所述的基于深度学习的视觉SLAM方法，其特征在于：在所述步骤S1中将Superpoint网络第一层和最后一层1×1卷积保持不变，其余卷积层均替代为深度可分离卷积，将Superpoint网络和深度可分离卷积进行融合变成计算量和参数量更低的基于深度可分离卷积的Superpoint网络。

3.根据权利要求1所述的基于深度学习的视觉SLAM方法，其特征在于：在所述步骤S1中将描述子解码器中上采样方式更改为更简单，计算量更小最近邻采样的插值方式。

4.根据权利要求1所述的基于深度学习的视觉SLAM方法，其特征在于：删除共享编码器最后一层逐点卷积卷积核的时候，需要删除特征点解码器和描述子解码器第一层深度卷积卷积核和逐点卷积卷积核中对应该卷积核的卷积通道。

5.根据权利要求1所述的基于深度学习的视觉SLAM方法，其特征在于：在所述步骤S2中删除批归一化层缩放因子γ较小的特征图通道、产生该通道的逐点卷积卷积核以及下一层与该通道相连的深度卷积和逐点卷积通道。

6.根据权利要求1所述的基于深度学习的视觉SLAM方法，其特征在于：在所述步骤S2中蒸馏过程中将语义分割当成逐个像素分类问题，直接使用知识蒸馏学生网络输出特征图的像素值，将教师网络产生的特征图作为训练学生网络的软目标，通过计算学生网络输出特征图和教师网络输出特征图的像素点KL散度的均值衡量分类差异的逐像素蒸馏损失。

7.根据权利要求1所述的基于深度学习的视觉SLAM方法，其特征在于：在所述步骤S2中利用特征图中的像素相似的信息，使得结构化知识从教师网络转移到学生网络，将像素点相似性应用于逐对蒸馏损失，通过逐对蒸馏损失使得学生网络和教师网络在像素点相似性的分布上接近。