CN114034312B

CN114034312B - 一种轻量级多解耦的视觉里程计实现方法

Info

Publication number: CN114034312B
Application number: CN202111306243.4A
Authority: CN
Inventors: 续欣莹; 杨斌超; 程兰; 谢珺; 张喆
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2024-03-26
Anticipated expiration: 2041-11-05
Also published as: CN114034312A

Abstract

本发明公开了一种轻量级多解耦的视觉里程计实现方法，采用快速光流提取网络和动态语义提取网络得到光流特征和语义图；采用深度位姿网络得到深度位姿特征，其中通过特征融合网络将光流特征、语义图和位于某些中间层的深度位姿特征融合；解耦网络处理输出结果分别连接至全连接层网络，得到位姿数据，接至反卷积层网络得到深度图数据；轻量化网络结构设计用于特征提取。该方法将卷积神经网络应用于视觉里程计中，对静态像素更加敏感，减小全局位姿累积误差；使用特征融合网络将光流特征、深度位姿特征和语义图融合，减小了相对位姿数据误差，取得了更好的效果；视觉里程计实现方法计算量小，精度高，鲁棒性好。

Description

一种轻量级多解耦的视觉里程计实现方法

技术领域

本发明涉及移动车辆自主导航定位技术领域，具体为一种轻量级多解耦的视觉里程计实现方法。

背景技术

定位和地图导航是移动车辆的基本需求，感知自我运动及其周围环境的能力在发展认知和运动控制方面起着至关重要的作用。同样，移动车辆也应该能够使用车载传感器感知环境并估计它们的系统状态，同时为移动车辆在未知环境中的移动而提供增量式的连续定位服务。视觉里程计是基于视觉的同时定位与地图构建系统中的一个极具挑战的开放性问题。其主要任务是依据视觉传感器所传回的图像数据来估计自身的位姿变化。

现有经典方法中基于人工特征构建的模型，例如ORB-SLAM2，其人工设计的特征鲁棒性低、泛化性差，在相对位姿估计中精度较低。此外，现有经典方法中基于人工特征构建的视觉里程计模型依赖于相机参数，存在传统方法中的尺度问题。

现有基于卷积神经网络模型的视觉里程计大多模型复杂，难以达到实时性要求，且精度较低，应用受到严重限制，例如基于光流法的Flow-Net、TV-Net。现实道路环境下的动态物体也会导致相对运动的产生，造成连续帧下图像光度一致性破坏，从而导致精度下降。

发明内容

为解决现有技术存在的不足，本发明在基于卷积神经网络的视觉里程计中引入光流特征和语义图，实现提高视觉里程计定位精度的目的，提供了一种轻量级多解耦的视觉里程计实现方法。

本发明是采用如下技术方案实现的：

一种轻量级多解耦的视觉里程计实现方法，包括如下步骤：

S1、车辆在移动过程中，通过单目相机获取连续视频帧数据。

S2、采用快速光流提取网络和动态语义提取网络学习步骤S1所得的连续视频帧数据，分别得到光流特征和语义图。

S3、采用深度位姿网络学习步骤S1所得的连续视频帧数据，同时，深度位姿网络的中间特征层参与特征融合网络的计算，即：步骤S2所得的光流特征和语义图通过特征融合网络与深度位姿网络的中间特征层进行融合计算；最终通过深度位姿网络得到深度位姿特征。

S4、解耦网络包括一个位姿解耦模块和一个深度解耦模块，分别用于处理步骤S3所得的深度位姿特征；

深度位姿特征连接至位姿解耦模块得到融合后的位姿数据，所述位姿数据包括旋转向量和平移向量；

深度位姿特征连接至深度解耦模块得到融合后的深度图。

S5、累加位姿数据得到全局轨迹。

进一步优选的，步骤S3中，特征融合网络包括四个相同的FusionBlock模块；所述FusionBlock模块包括19个1×1的卷积层以及2个4×4的卷积层；四个FusionBlock模块依次排序，用于深度位姿网络中的四个中间特征层参与特征融合网络的计算。

第i个FusionBlock模块的输出函数公式为：

x_i＝Fusion(Flow,Sem,x_i′)

其中，x_i‘代表深度位姿网络的第i层的融合前特征图，x_i代表深度位姿网络的第i层的融合后的特征图，Fusion代表特征融合网络计算，Flow代表光流特征，Sem代表语义图。

光流特征和语义图分别通过特征融合网络与深度位姿网络的四个中间特征层的深度位姿特征进行融合计算的方法具体如下：

A1、将光流特征和语义图进行通道一致性计算：

Feature_{flow_out}＝Conv_4×4(Flow)

其中，Conv_4×4代表4×4的卷积层计算，Feature_{flow_out}为光流特征通道一致性计算后输出的特征，Feature_{sem_out}为语义图通道一致性计算后输出的特征。

A2、将深度位姿特征分别与光流特征和语义图进行融合计算：

τ_f＝Conv_1×1(Feature_{flow_out})*4

τ_s＝Conv_1×1(Feature_{sem_out})*4

其中，Conv_1×1代表1×1的卷积层计算，*4代表重复4次，*6代表重复6次，τ_f和τ_s分别为光流特征1和语义特征1，和/>分别为光流特征2和语义特征2，ω_f和ω_s分别为光流特征3和语义特征3，x_if和x_is分别为光流特征融合特征和语义图融合特征，x_i′为深度位姿网络的特征层。

A3、将融合后的光流特征和语义图进行融合计算：

x_i＝Conv_1×1(x_if+x_is)

其中，x_i为融合后的特征层，当前融合后的特征层经过卷积后作为下一个FusionBlock模块的输入特征层。

进一步优选的，步骤S4中，所述深度解耦模块包括6个3×3的反卷积层；所述位姿解耦模块包括8个1×1的卷积层，其中4个1×1的卷积层用于旋转向量的计算，4个1×1的卷积层用于平移向量的计算。

位姿解耦模块得到融合后的位姿数据的计算和深度解耦模块得到融合后的深度图具体为：

pose_r＝Conv_1×1(Conv_1×1(Conv_1×1(Conv_1×1(Feature₁₀₂₄))))

pose_t＝Conv_1×1(Conv_1×1(Conv_1×1(Conv_1×1(Feature₁₀₂₄))))

depth＝Conv_3×3(Conv_3×3(Conv_3×3(Conv_3×3(Conv_3×3(Conv_3×3(Feature₁₀₂₄))))))

其中，Feature₁₀₂₄为步骤S3输出的深度位姿特征，pose_r为旋转向量，pose_t为平移向量，depth为深度图；通过对每一个时刻得到的位姿数据进行累加可得到全局轨迹。

本发明所述的轻量级多解耦的视觉里程计实现方法，采用快速光流提取网络和动态语义提取网络得到光流特征和语义图；采用深度位姿网络得到深度位姿特征，其中通过特征融合网络将光流特征、语义图和位于某些中间层的深度位姿特征融合；解耦网络处理输出结果分别连接至全连接层网络，得到位姿数据，接至反卷积层网络得到深度图数据；轻量化网络结构设计用于特征提取。

本发明的优势和有益效果在于：本发明在基于卷积神经网络的视觉里程计中引入光流特征和语义图，避免了视觉道路环境下动态物体对连续帧下光度一致性的破坏，导致相对位姿估计和深度估计的误差；同时利用像素的光流加强像素的匹配计算与特征提取，有效提高视觉里程计的定位精度。

本发明设计合理，该方法将卷积神经网络应用于视觉里程计中，对静态像素更加敏感，减小全局位姿累积误差；使用特征融合网络将光流特征、深度位姿特征和语义图融合，减小了相对位姿数据误差，取得了更好的效果；视觉里程计实现方法计算量小，精度高，鲁棒性好，具有很好的实际应用价值。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1表示本发明方法流程图。

图2表示本发明方法中特征融合网络FusionBlock模块结构图。

图3表示本发明方法中解耦网络结构图。

图4表示本发明方法在公开数据集KITTI的序列10的三维轨迹对比示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

一种轻量级多解耦的视觉里程计实现方法，该视觉里程计包括快速光流提取网络、动态语义提取网络、特征融合网络、深度位姿网络和解耦网络，视觉里程计实现方法包括如下步骤，如图1所示：

步骤S1、车辆在移动过程中，通过单目相机获取连续视频帧数据。

获取连续视频帧数据的具体过程为：车辆在移动过程中，通过搭载在车辆固定位置与视角的单目相机，按照固定帧数实时获取连续视频彩色图像帧数据。

步骤S2、采用快速光流提取网络和动态语义提取网络学习步骤S1所得连续视频帧数据，并得到光流特征和语义图。

快速光流提取网络和动态语义提取网络分别学习连续视频帧数据具体过程为：得到当前时刻t和下一时刻t+1的彩色图像帧，将当前时刻t和下一时刻t+1的彩色图像帧作为快速光流提取网络的输入，将当前时刻t的彩色图像帧作动态语义提取网络的输入。

在本实施例中，将快速光流提取网络PWC-Net运用到视觉里程计中，基于其金字塔处理和图像扭曲，是一种紧凑而高效的CNN模型，可将快速光流提取网络的输出连接到视觉里程计的卷积神经网络中完成端到端的轨迹估计效果。

在本实施例中，将动态语义提取网络DeepLab运用到视觉里程计中，由于其金字塔多尺度的特征，更大感受野的空洞卷积，可将动态语义提取网的输出连接到视觉里程计的卷积神经网络中完成端到端的轨迹估计效果。

步骤S3、采用深度位姿网络学习步骤S1所得连续视频帧数据；同时，深度位姿网络的中间特征层参与特征融合网络的计算，光流特征和语义图通过特征融合网络与深度位姿网络的中间特征层进行融合计算；最终得到深度位姿特征。

深度位姿网络学习所述连续视频帧数据的具体过程为：得到上一时刻t-1、当前时刻t、下一时刻t+1的彩色图像帧，将得到上一时刻t-1、当前时刻t、下一时刻t+1的彩色图像帧共3帧图像作为深度位姿网络的输入。

在本实施例中，考虑到Mobile-Net卷积神经网络模型的诸多优点，例如可以在保持模型特征提取精度的同时，降低模型计算复杂度和模型大小等，采用Mobile-Net卷积神经网络结构作为深度位姿网络。由于基于卷积神经网络的视觉里程计没有全局回环检测矫正计算，这会造成全局轨迹估计中的累积误差，对定位导航和地图重建产生较大影响；并且基于卷积神经网络的视觉里程计对旋转运动的不敏感导致相对位姿估计误差。为了提高全局和相对位姿的估计精度，进而提高视觉里程计的估计精度，使用快速光流提取网络得到的光流特征、动态语义提取网络得到的语义图和深度位姿网络得到的中间特征层(64、128、256、512)的深度位姿特征进行融合，提高模型特征提取能力，强化特征表达；使用多级解耦网络对如深度图、位姿向量中的旋转向量和平移向量等不同的估计变量进行解耦计算以取得更好的效果。

在本实施例中，深度位姿网络的特征层通道数分别为3、32、64、128、256、512、1024，特征融合网络分别对深度位姿网络中的64、128、256、512通道数这四个中间特征层进行特征融合计算，以一种中间特征层的仿射变换的形式与原有特征层进行计算得出融合后的特征层。其中，特征融合前后，通道数不变；对于不同通道间的不同的像素尺度，对光流特征和语义图进行采样得到，其尺度大小与深度位姿特征尺度大小一致。

在本实施例中，特征融合网络包括四个相同的FusionBlock模块。如图2所示，FusionBlock模块包括19个1×1的卷积层以及2个4×4的卷积层；四个FusionBlock模块依次排序(分别用于融合计算深度位姿网络中通道数为64、128、256、512的特征层)。其中，第i个FusionBlock模块的输出函数公式为：

x_i＝Fusion(Flow,Sem,x_i’)

其中，x_i‘代表深度位姿网络的第i层的融合前特征图，x_i代表深度位姿网络的第i层的融合后的特征图，Fusion代表步骤S4中特征融合网络计算，Flow代表光流特征，Sem代表语义图。

具体地，步骤S3中，通过特征融合网络与深度位姿特征进行融合的方法具体包括(如图2所示)：

A1、将光流特征和语义图进行通道一致性计算：

Feature_{flow_out}＝Conv_4×4(Flow)

Feature_{sem_out}＝Conv_4×4(Sem)

其中，Conv_4×4代表4×4的卷积层计算，相对于1×1的卷积层计算有着更大的感受野，同时可以得到一致的通道数，Feature_{flow_out}为光流特征通道一致性计算后输出的特征，Feature_{sem_out}为语义图通道一致性计算后输出的特征。

τ_f＝Conv_1×1(Feature_{flow_out})*4

τ_s＝Conv_1×1(Feature_{sem_out})*4

其中，Conv_1×1代表1×1的卷积层计算，在提取特征的同时减少数据参数量，*4代表重复4次，*6代表重复6次，τ_f和τ_s分别为光流特征1和语义特征1，和/>分别为光流特征2和语义特征2，ω_f和ω_s分别为光流特征3和语义特征3，x_if和x_is分别为光流特征融合特征和语义图融合特征，x_i′为深度位姿网络的特征层。

A3、将融合后的光流特征和语义图进行融合计算：

x_i＝Conv_1×1(x_if+x_is)

步骤S4、解耦网络包括一个位姿解耦模块和一个深度解耦模块，分别用于处理步骤S3所得的深度位姿特征；

深度位姿特征连接至位姿解耦模块得到融合后的位姿数据，所述位姿数据包括旋转向量、平移向量；

深度位姿特征连接至深度解耦模块得到融合后的深度图。

在本实施例中，如图3所示，解耦网络分别为一个深度解耦模块、一个位姿解耦模块组成。位姿解耦模块处理深度位姿特征连接至解耦网络，深度位姿特征包含1024个通道数。

其中，一个位姿解耦模块采用8个1×1的卷积层，其中4个1×1的卷积层用于旋转向量的计算，4个1×1的卷积层用于平移向量的计算。计算得到12个单元的向量结果为融合后的位姿数据，位姿数据包括旋转向量和平移向量。

其中，一个深度解耦模块包括6个3×3的反卷积层；深度解耦模块处理深度位姿网络输出结果连接至反卷积层网络得到融合后的深度图，其反卷积层网络的特征层通道数分别为512，256，128，64，32，1。

pose_r＝Conv_1×1(Conv_1×1(Conv_1×1(Conv_1×1(Feature₁₀₂₄))))

pose_t＝Conv_1×1(Conv_1×1(Conv_1×1(Conv_1×1(Feature₁₀₂₄))))

其中，Feature₁₀₂₄为步骤S3所得深度位姿特征，pose_r为旋转向量，pose_t为平移向量，depth为深度图，通过对每一个时刻得到的位姿数据进行累加可得到全局轨迹。

S5、累加位姿数据得到全局轨迹。

表1显示了本发明所述的轻量级多解耦的视觉里程计实现方法的在边缘计算硬件加速推理后的参数量与运行时间，可以看出可以达到近30帧的处理计算速度，基本满足实时性要求，且参数量较小，易于边缘部署。

表1方法运行时间

表2显示了本发明所述的轻量级多解耦的视觉里程计实现方法的消融对比实验，所使用的数据集为公开的KITTI数据集中的09、10序列，以一种定量的方式对比了融合不同的特征所带来的轨迹估计的结果，可以看出光流特征和语义图的引入明显提高了视觉里程计的估计精度。

表2消融精度对比

图4为本发明所述的轻量级多解耦的视觉里程计实现方法在公开数据集KITTI的序列10所估计得到的三维轨迹与真实三维轨迹图的对比。可以直观的看到，融合后的方案通过提高了特征的信息度，使得位姿误差降低，提高了轨迹的预测精度。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种轻量级多解耦的视觉里程计实现方法，其特征在于，包括如下步骤：

S1、车辆在移动过程中，通过单目相机获取连续视频帧数据；

S2、采用快速光流提取网络和动态语义提取网络学习步骤S1所得的连续视频帧数据，分别得到光流特征和语义图；

S3、采用深度位姿网络学习步骤S1所得的连续视频帧数据，同时，深度位姿网络的中间特征层参与特征融合网络的计算，即：步骤S2所得的光流特征和语义图通过特征融合网络与深度位姿网络的中间特征层进行融合计算；最终得到深度位姿特征；

特征融合网络包括四个相同的FusionBlock模块；所述FusionBlock模块包括19个1×1的卷积层以及2个4×4的卷积层；四个FusionBlock模块依次排序，用于深度位姿网络的四个中间特征层参与特征融合网络的计算；

第i个FusionBlock模块的输出函数公式为：

x_i＝Fusion(Flow，Sem，x_i′)

其中，x_i′代表深度位姿网络的第i层的融合前特征图，x_i代表深度位姿网络的第i层的融合后的特征图，Fusion代表特征融合网络计算，Flow代表光流特征，Sem代表语义图；

光流特征和语义图通过特征融合网络与深度位姿网络的四个中间特征层的深度位姿特征进行融合计算的方法具体如下：

A1、将光流特征和语义图进行通道一致性计算：

Feature_{flow_out}＝Conv_4×4(Flow)

其中，Conv_4×4代表4×4的卷积层计算，Feature_{flow_out}为光流特征通道一致性计算后输出的特征，Feature_{sem_out}为语义图通道一致性计算后输出的特征；

τ_f＝Conv_1×1(Feature_{flow_out})*4

τ_s＝Conv_1×1(Feature_{sem_out})*4

其中，Conv_1×1代表1×1的卷积层计算，*4代表重复4次，*6代表重复6次，τ_f和τ_s分别为光流特征1和语义特征1，和/>分别为光流特征2和语义特征2，ω_f和ω_s分别为光流特征3和语义特征3，x_if和x_is分别为光流特征融合特征和语义图融合特征，x_i′为深度位姿网络的特征层；

A3、将融合后的光流特征和语义图进行融合计算：

x_i＝Vonv_1×1(x_if+x_is)

其中，x_i为融合后的特征层，当前融合后的特征层经过卷积后作为下一个FusionBlock模块的输入特征层；

深度位姿特征连接至一个位姿解耦模块得到融合后的位姿数据，所述位姿数据包括旋转向量、平移向量；

深度位姿特征连接至一个深度解耦模块得到融合后的深度图；

所述深度解耦模块包括6个3×3的反卷积层；位姿解耦模块包括8个1×1的卷积层，其中4个1×1的卷积层用于旋转向量的计算，4个1×1的卷积层用于平移向量的计算；

pose_r＝Conv_1×1(Conv_1×1(Conv_1×1(Conv_1×1(Feature₁₀₂₄))))

pose_t＝Conv_1×1(Conv_1×1(Conv_1×1(Conv_1×1(Feature₁₀₂₄))))

其中，Feature₁₀₂₄为深度位姿特征，pose_r为旋转向量，pose_t为平移向量，depth为深度图；

通过对每一个时刻得到的位姿数据进行累加可得到全局轨迹；

S5、累加位姿数据得到全局轨迹。

2.根据权利要求1所述一种轻量级多解耦的视觉里程计实现方法，其特征在于：步骤S3中，深度位姿网络采用Mobile-Net卷积神经网络结构。

3.根据权利要求2所述一种轻量级多解耦的视觉里程计实现方法，其特征在于：深度位姿网络的特征层通道数分别为3、32、64、128、256、512、1024，特征融合网络分别对深度位姿网络中通道数为64、128、256、512的四个特征层进行特征融合网络计算。

4.根据权利要求1所述一种轻量级多解耦的视觉里程计实现方法，其特征在于：步骤S2中，快速光流提取网络采用PWC-Net，动态语义提取网络采用DeepLab。