CN114034312B - 一种轻量级多解耦的视觉里程计实现方法 - Google Patents
一种轻量级多解耦的视觉里程计实现方法 Download PDFInfo
- Publication number
- CN114034312B CN114034312B CN202111306243.4A CN202111306243A CN114034312B CN 114034312 B CN114034312 B CN 114034312B CN 202111306243 A CN202111306243 A CN 202111306243A CN 114034312 B CN114034312 B CN 114034312B
- Authority
- CN
- China
- Prior art keywords
- pose
- network
- depth
- feature
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000000007 visual effect Effects 0.000 title claims abstract description 35
- 230000004927 fusion Effects 0.000 claims abstract description 78
- 230000003287 optical effect Effects 0.000 claims abstract description 60
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 43
- 239000013598 vector Substances 0.000 claims description 24
- 238000013519 translation Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 5
- 230000003068 static effect Effects 0.000 abstract description 2
- 230000033001 locomotion Effects 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003475 lamination Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C22/00—Measuring distance traversed on the ground by vehicles, persons, animals or other moving solid bodies, e.g. using odometers, using pedometers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种轻量级多解耦的视觉里程计实现方法,采用快速光流提取网络和动态语义提取网络得到光流特征和语义图;采用深度位姿网络得到深度位姿特征,其中通过特征融合网络将光流特征、语义图和位于某些中间层的深度位姿特征融合;解耦网络处理输出结果分别连接至全连接层网络,得到位姿数据,接至反卷积层网络得到深度图数据;轻量化网络结构设计用于特征提取。该方法将卷积神经网络应用于视觉里程计中,对静态像素更加敏感,减小全局位姿累积误差;使用特征融合网络将光流特征、深度位姿特征和语义图融合,减小了相对位姿数据误差,取得了更好的效果;视觉里程计实现方法计算量小,精度高,鲁棒性好。
Description
技术领域
本发明涉及移动车辆自主导航定位技术领域,具体为一种轻量级多解耦的视觉里程计实现方法。
背景技术
定位和地图导航是移动车辆的基本需求,感知自我运动及其周围环境的能力在发展认知和运动控制方面起着至关重要的作用。同样,移动车辆也应该能够使用车载传感器感知环境并估计它们的系统状态,同时为移动车辆在未知环境中的移动而提供增量式的连续定位服务。视觉里程计是基于视觉的同时定位与地图构建系统中的一个极具挑战的开放性问题。其主要任务是依据视觉传感器所传回的图像数据来估计自身的位姿变化。
现有经典方法中基于人工特征构建的模型,例如ORB-SLAM2,其人工设计的特征鲁棒性低、泛化性差,在相对位姿估计中精度较低。此外,现有经典方法中基于人工特征构建的视觉里程计模型依赖于相机参数,存在传统方法中的尺度问题。
现有基于卷积神经网络模型的视觉里程计大多模型复杂,难以达到实时性要求,且精度较低,应用受到严重限制,例如基于光流法的Flow-Net、TV-Net。现实道路环境下的动态物体也会导致相对运动的产生,造成连续帧下图像光度一致性破坏,从而导致精度下降。
发明内容
为解决现有技术存在的不足,本发明在基于卷积神经网络的视觉里程计中引入光流特征和语义图,实现提高视觉里程计定位精度的目的,提供了一种轻量级多解耦的视觉里程计实现方法。
本发明是采用如下技术方案实现的:
一种轻量级多解耦的视觉里程计实现方法,包括如下步骤:
S1、车辆在移动过程中,通过单目相机获取连续视频帧数据。
S2、采用快速光流提取网络和动态语义提取网络学习步骤S1所得的连续视频帧数据,分别得到光流特征和语义图。
S3、采用深度位姿网络学习步骤S1所得的连续视频帧数据,同时,深度位姿网络的中间特征层参与特征融合网络的计算,即:步骤S2所得的光流特征和语义图通过特征融合网络与深度位姿网络的中间特征层进行融合计算;最终通过深度位姿网络得到深度位姿特征。
S4、解耦网络包括一个位姿解耦模块和一个深度解耦模块,分别用于处理步骤S3所得的深度位姿特征;
深度位姿特征连接至位姿解耦模块得到融合后的位姿数据,所述位姿数据包括旋转向量和平移向量;
深度位姿特征连接至深度解耦模块得到融合后的深度图。
S5、累加位姿数据得到全局轨迹。
进一步优选的,步骤S3中,特征融合网络包括四个相同的FusionBlock模块;所述FusionBlock模块包括19个1×1的卷积层以及2个4×4的卷积层;四个FusionBlock模块依次排序,用于深度位姿网络中的四个中间特征层参与特征融合网络的计算。
第i个FusionBlock模块的输出函数公式为:
xi=Fusion(Flow,Sem,xi′)
其中,xi‘代表深度位姿网络的第i层的融合前特征图,xi代表深度位姿网络的第i层的融合后的特征图,Fusion代表特征融合网络计算,Flow代表光流特征,Sem代表语义图。
光流特征和语义图分别通过特征融合网络与深度位姿网络的四个中间特征层的深度位姿特征进行融合计算的方法具体如下:
A1、将光流特征和语义图进行通道一致性计算:
Featureflow_out=Conv4×4(Flow)
其中,Conv4×4代表4×4的卷积层计算,Featureflow_out为光流特征通道一致性计算后输出的特征,Featuresem_out为语义图通道一致性计算后输出的特征。
A2、将深度位姿特征分别与光流特征和语义图进行融合计算:
τf=Conv1×1(Featureflow_out)*4
τs=Conv1×1(Featuresem_out)*4
其中,Conv1×1代表1×1的卷积层计算,*4代表重复4次,*6代表重复6次,τf和τs分别为光流特征1和语义特征1,和/>分别为光流特征2和语义特征2,ωf和ωs分别为光流特征3和语义特征3,xif和xis分别为光流特征融合特征和语义图融合特征,xi′为深度位姿网络的特征层。
A3、将融合后的光流特征和语义图进行融合计算:
xi=Conv1×1(xif+xis)
其中,xi为融合后的特征层,当前融合后的特征层经过卷积后作为下一个FusionBlock模块的输入特征层。
进一步优选的,步骤S4中,所述深度解耦模块包括6个3×3的反卷积层;所述位姿解耦模块包括8个1×1的卷积层,其中4个1×1的卷积层用于旋转向量的计算,4个1×1的卷积层用于平移向量的计算。
位姿解耦模块得到融合后的位姿数据的计算和深度解耦模块得到融合后的深度图具体为:
poser=Conv1×1(Conv1×1(Conv1×1(Conv1×1(Feature1024))))
poset=Conv1×1(Conv1×1(Conv1×1(Conv1×1(Feature1024))))
depth=Conv3×3(Conv3×3(Conv3×3(Conv3×3(Conv3×3(Conv3×3(Feature1024))))))
其中,Feature1024为步骤S3输出的深度位姿特征,poser为旋转向量,poset为平移向量,depth为深度图;通过对每一个时刻得到的位姿数据进行累加可得到全局轨迹。
本发明所述的轻量级多解耦的视觉里程计实现方法,采用快速光流提取网络和动态语义提取网络得到光流特征和语义图;采用深度位姿网络得到深度位姿特征,其中通过特征融合网络将光流特征、语义图和位于某些中间层的深度位姿特征融合;解耦网络处理输出结果分别连接至全连接层网络,得到位姿数据,接至反卷积层网络得到深度图数据;轻量化网络结构设计用于特征提取。
本发明的优势和有益效果在于:本发明在基于卷积神经网络的视觉里程计中引入光流特征和语义图,避免了视觉道路环境下动态物体对连续帧下光度一致性的破坏,导致相对位姿估计和深度估计的误差;同时利用像素的光流加强像素的匹配计算与特征提取,有效提高视觉里程计的定位精度。
本发明设计合理,该方法将卷积神经网络应用于视觉里程计中,对静态像素更加敏感,减小全局位姿累积误差;使用特征融合网络将光流特征、深度位姿特征和语义图融合,减小了相对位姿数据误差,取得了更好的效果;视觉里程计实现方法计算量小,精度高,鲁棒性好,具有很好的实际应用价值。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1表示本发明方法流程图。
图2表示本发明方法中特征融合网络FusionBlock模块结构图。
图3表示本发明方法中解耦网络结构图。
图4表示本发明方法在公开数据集KITTI的序列10的三维轨迹对比示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
一种轻量级多解耦的视觉里程计实现方法,该视觉里程计包括快速光流提取网络、动态语义提取网络、特征融合网络、深度位姿网络和解耦网络,视觉里程计实现方法包括如下步骤,如图1所示:
步骤S1、车辆在移动过程中,通过单目相机获取连续视频帧数据。
获取连续视频帧数据的具体过程为:车辆在移动过程中,通过搭载在车辆固定位置与视角的单目相机,按照固定帧数实时获取连续视频彩色图像帧数据。
步骤S2、采用快速光流提取网络和动态语义提取网络学习步骤S1所得连续视频帧数据,并得到光流特征和语义图。
快速光流提取网络和动态语义提取网络分别学习连续视频帧数据具体过程为:得到当前时刻t和下一时刻t+1的彩色图像帧,将当前时刻t和下一时刻t+1的彩色图像帧作为快速光流提取网络的输入,将当前时刻t的彩色图像帧作动态语义提取网络的输入。
在本实施例中,将快速光流提取网络PWC-Net运用到视觉里程计中,基于其金字塔处理和图像扭曲,是一种紧凑而高效的CNN模型,可将快速光流提取网络的输出连接到视觉里程计的卷积神经网络中完成端到端的轨迹估计效果。
在本实施例中,将动态语义提取网络DeepLab运用到视觉里程计中,由于其金字塔多尺度的特征,更大感受野的空洞卷积,可将动态语义提取网的输出连接到视觉里程计的卷积神经网络中完成端到端的轨迹估计效果。
步骤S3、采用深度位姿网络学习步骤S1所得连续视频帧数据;同时,深度位姿网络的中间特征层参与特征融合网络的计算,光流特征和语义图通过特征融合网络与深度位姿网络的中间特征层进行融合计算;最终得到深度位姿特征。
深度位姿网络学习所述连续视频帧数据的具体过程为:得到上一时刻t-1、当前时刻t、下一时刻t+1的彩色图像帧,将得到上一时刻t-1、当前时刻t、下一时刻t+1的彩色图像帧共3帧图像作为深度位姿网络的输入。
在本实施例中,考虑到Mobile-Net卷积神经网络模型的诸多优点,例如可以在保持模型特征提取精度的同时,降低模型计算复杂度和模型大小等,采用Mobile-Net卷积神经网络结构作为深度位姿网络。由于基于卷积神经网络的视觉里程计没有全局回环检测矫正计算,这会造成全局轨迹估计中的累积误差,对定位导航和地图重建产生较大影响;并且基于卷积神经网络的视觉里程计对旋转运动的不敏感导致相对位姿估计误差。为了提高全局和相对位姿的估计精度,进而提高视觉里程计的估计精度,使用快速光流提取网络得到的光流特征、动态语义提取网络得到的语义图和深度位姿网络得到的中间特征层(64、128、256、512)的深度位姿特征进行融合,提高模型特征提取能力,强化特征表达;使用多级解耦网络对如深度图、位姿向量中的旋转向量和平移向量等不同的估计变量进行解耦计算以取得更好的效果。
在本实施例中,深度位姿网络的特征层通道数分别为3、32、64、128、256、512、1024,特征融合网络分别对深度位姿网络中的64、128、256、512通道数这四个中间特征层进行特征融合计算,以一种中间特征层的仿射变换的形式与原有特征层进行计算得出融合后的特征层。其中,特征融合前后,通道数不变;对于不同通道间的不同的像素尺度,对光流特征和语义图进行采样得到,其尺度大小与深度位姿特征尺度大小一致。
在本实施例中,特征融合网络包括四个相同的FusionBlock模块。如图2所示,FusionBlock模块包括19个1×1的卷积层以及2个4×4的卷积层;四个FusionBlock模块依次排序(分别用于融合计算深度位姿网络中通道数为64、128、256、512的特征层)。其中,第i个FusionBlock模块的输出函数公式为:
xi=Fusion(Flow,Sem,xi’)
其中,xi‘代表深度位姿网络的第i层的融合前特征图,xi代表深度位姿网络的第i层的融合后的特征图,Fusion代表步骤S4中特征融合网络计算,Flow代表光流特征,Sem代表语义图。
具体地,步骤S3中,通过特征融合网络与深度位姿特征进行融合的方法具体包括(如图2所示):
A1、将光流特征和语义图进行通道一致性计算:
Featureflow_out=Conv4×4(Flow)
Featuresem_out=Conv4×4(Sem)
其中,Conv4×4代表4×4的卷积层计算,相对于1×1的卷积层计算有着更大的感受野,同时可以得到一致的通道数,Featureflow_out为光流特征通道一致性计算后输出的特征,Featuresem_out为语义图通道一致性计算后输出的特征。
A2、将深度位姿特征分别与光流特征和语义图进行融合计算:
τf=Conv1×1(Featureflow_out)*4
τs=Conv1×1(Featuresem_out)*4
其中,Conv1×1代表1×1的卷积层计算,在提取特征的同时减少数据参数量,*4代表重复4次,*6代表重复6次,τf和τs分别为光流特征1和语义特征1,和/>分别为光流特征2和语义特征2,ωf和ωs分别为光流特征3和语义特征3,xif和xis分别为光流特征融合特征和语义图融合特征,xi′为深度位姿网络的特征层。
A3、将融合后的光流特征和语义图进行融合计算:
xi=Conv1×1(xif+xis)
其中,xi为融合后的特征层,当前融合后的特征层经过卷积后作为下一个FusionBlock模块的输入特征层。
步骤S4、解耦网络包括一个位姿解耦模块和一个深度解耦模块,分别用于处理步骤S3所得的深度位姿特征;
深度位姿特征连接至位姿解耦模块得到融合后的位姿数据,所述位姿数据包括旋转向量、平移向量;
深度位姿特征连接至深度解耦模块得到融合后的深度图。
在本实施例中,如图3所示,解耦网络分别为一个深度解耦模块、一个位姿解耦模块组成。位姿解耦模块处理深度位姿特征连接至解耦网络,深度位姿特征包含1024个通道数。
其中,一个位姿解耦模块采用8个1×1的卷积层,其中4个1×1的卷积层用于旋转向量的计算,4个1×1的卷积层用于平移向量的计算。计算得到12个单元的向量结果为融合后的位姿数据,位姿数据包括旋转向量和平移向量。
其中,一个深度解耦模块包括6个3×3的反卷积层;深度解耦模块处理深度位姿网络输出结果连接至反卷积层网络得到融合后的深度图,其反卷积层网络的特征层通道数分别为512,256,128,64,32,1。
位姿解耦模块得到融合后的位姿数据的计算和深度解耦模块得到融合后的深度图具体为:
poser=Conv1×1(Conv1×1(Conv1×1(Conv1×1(Feature1024))))
poset=Conv1×1(Conv1×1(Conv1×1(Conv1×1(Feature1024))))
depth=Conv3×3(Conv3×3(Conv3×3(Conv3×3(Conv3×3(Conv3×3(Feature1024))))))
其中,Feature1024为步骤S3所得深度位姿特征,poser为旋转向量,poset为平移向量,depth为深度图,通过对每一个时刻得到的位姿数据进行累加可得到全局轨迹。
S5、累加位姿数据得到全局轨迹。
表1显示了本发明所述的轻量级多解耦的视觉里程计实现方法的在边缘计算硬件加速推理后的参数量与运行时间,可以看出可以达到近30帧的处理计算速度,基本满足实时性要求,且参数量较小,易于边缘部署。
表1方法运行时间
表2显示了本发明所述的轻量级多解耦的视觉里程计实现方法的消融对比实验,所使用的数据集为公开的KITTI数据集中的09、10序列,以一种定量的方式对比了融合不同的特征所带来的轨迹估计的结果,可以看出光流特征和语义图的引入明显提高了视觉里程计的估计精度。
表2消融精度对比
图4为本发明所述的轻量级多解耦的视觉里程计实现方法在公开数据集KITTI的序列10所估计得到的三维轨迹与真实三维轨迹图的对比。可以直观的看到,融合后的方案通过提高了特征的信息度,使得位姿误差降低,提高了轨迹的预测精度。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种轻量级多解耦的视觉里程计实现方法,其特征在于,包括如下步骤:
S1、车辆在移动过程中,通过单目相机获取连续视频帧数据;
S2、采用快速光流提取网络和动态语义提取网络学习步骤S1所得的连续视频帧数据,分别得到光流特征和语义图;
S3、采用深度位姿网络学习步骤S1所得的连续视频帧数据,同时,深度位姿网络的中间特征层参与特征融合网络的计算,即:步骤S2所得的光流特征和语义图通过特征融合网络与深度位姿网络的中间特征层进行融合计算;最终得到深度位姿特征;
特征融合网络包括四个相同的FusionBlock模块;所述FusionBlock模块包括19个1×1的卷积层以及2个4×4的卷积层;四个FusionBlock模块依次排序,用于深度位姿网络的四个中间特征层参与特征融合网络的计算;
第i个FusionBlock模块的输出函数公式为:
xi=Fusion(Flow,Sem,xi′)
其中,xi′代表深度位姿网络的第i层的融合前特征图,xi代表深度位姿网络的第i层的融合后的特征图,Fusion代表特征融合网络计算,Flow代表光流特征,Sem代表语义图;
光流特征和语义图通过特征融合网络与深度位姿网络的四个中间特征层的深度位姿特征进行融合计算的方法具体如下:
A1、将光流特征和语义图进行通道一致性计算:
Featureflow_out=Conv4×4(Flow)
其中,Conv4×4代表4×4的卷积层计算,Featureflow_out为光流特征通道一致性计算后输出的特征,Featuresem_out为语义图通道一致性计算后输出的特征;
A2、将深度位姿特征分别与光流特征和语义图进行融合计算:
τf=Conv1×1(Featureflow_out)*4
τs=Conv1×1(Featuresem_out)*4
其中,Conv1×1代表1×1的卷积层计算,*4代表重复4次,*6代表重复6次,τf和τs分别为光流特征1和语义特征1,和/>分别为光流特征2和语义特征2,ωf和ωs分别为光流特征3和语义特征3,xif和xis分别为光流特征融合特征和语义图融合特征,xi′为深度位姿网络的特征层;
A3、将融合后的光流特征和语义图进行融合计算:
xi=Vonv1×1(xif+xis)
其中,xi为融合后的特征层,当前融合后的特征层经过卷积后作为下一个FusionBlock模块的输入特征层;
S4、解耦网络包括一个位姿解耦模块和一个深度解耦模块,分别用于处理步骤S3所得的深度位姿特征;
深度位姿特征连接至一个位姿解耦模块得到融合后的位姿数据,所述位姿数据包括旋转向量、平移向量;
深度位姿特征连接至一个深度解耦模块得到融合后的深度图;
所述深度解耦模块包括6个3×3的反卷积层;位姿解耦模块包括8个1×1的卷积层,其中4个1×1的卷积层用于旋转向量的计算,4个1×1的卷积层用于平移向量的计算;
位姿解耦模块得到融合后的位姿数据的计算和深度解耦模块得到融合后的深度图具体为:
poser=Conv1×1(Conv1×1(Conv1×1(Conv1×1(Feature1024))))
poset=Conv1×1(Conv1×1(Conv1×1(Conv1×1(Feature1024))))
depth=Conv3×3(Conv3×3(Conv3×3(Conv3×3(Conv3×3(Conv3×3(Feature1024))))))
其中,Feature1024为深度位姿特征,poser为旋转向量,poset为平移向量,depth为深度图;
通过对每一个时刻得到的位姿数据进行累加可得到全局轨迹;
S5、累加位姿数据得到全局轨迹。
2.根据权利要求1所述一种轻量级多解耦的视觉里程计实现方法,其特征在于:步骤S3中,深度位姿网络采用Mobile-Net卷积神经网络结构。
3.根据权利要求2所述一种轻量级多解耦的视觉里程计实现方法,其特征在于:深度位姿网络的特征层通道数分别为3、32、64、128、256、512、1024,特征融合网络分别对深度位姿网络中通道数为64、128、256、512的四个特征层进行特征融合网络计算。
4.根据权利要求1所述一种轻量级多解耦的视觉里程计实现方法,其特征在于:步骤S2中,快速光流提取网络采用PWC-Net,动态语义提取网络采用DeepLab。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111306243.4A CN114034312B (zh) | 2021-11-05 | 2021-11-05 | 一种轻量级多解耦的视觉里程计实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111306243.4A CN114034312B (zh) | 2021-11-05 | 2021-11-05 | 一种轻量级多解耦的视觉里程计实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114034312A CN114034312A (zh) | 2022-02-11 |
CN114034312B true CN114034312B (zh) | 2024-03-26 |
Family
ID=80142957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111306243.4A Active CN114034312B (zh) | 2021-11-05 | 2021-11-05 | 一种轻量级多解耦的视觉里程计实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114034312B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109272493A (zh) * | 2018-08-28 | 2019-01-25 | 中国人民解放军火箭军工程大学 | 一种基于递归卷积神经网络的单目视觉里程计方法 |
CN110132302A (zh) * | 2019-05-20 | 2019-08-16 | 中国科学院自动化研究所 | 融合imu信息的双目视觉里程计定位方法、系统 |
WO2020102417A1 (en) * | 2018-11-15 | 2020-05-22 | Magic Leap, Inc. | Systems and methods for performing self-improving visual odometry |
CN112308918A (zh) * | 2020-10-26 | 2021-02-02 | 杭州电子科技大学 | 一种基于位姿解耦估计的无监督单目视觉里程计方法 |
CN112819853A (zh) * | 2021-02-01 | 2021-05-18 | 太原理工大学 | 一种基于语义先验的视觉里程计方法 |
CN113436254A (zh) * | 2021-06-29 | 2021-09-24 | 杭州电子科技大学 | 一种级联解耦的位姿估计方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10671083B2 (en) * | 2017-09-13 | 2020-06-02 | Tusimple, Inc. | Neural network architecture system for deep odometry assisted by static scene optical flow |
-
2021
- 2021-11-05 CN CN202111306243.4A patent/CN114034312B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109272493A (zh) * | 2018-08-28 | 2019-01-25 | 中国人民解放军火箭军工程大学 | 一种基于递归卷积神经网络的单目视觉里程计方法 |
WO2020102417A1 (en) * | 2018-11-15 | 2020-05-22 | Magic Leap, Inc. | Systems and methods for performing self-improving visual odometry |
CN110132302A (zh) * | 2019-05-20 | 2019-08-16 | 中国科学院自动化研究所 | 融合imu信息的双目视觉里程计定位方法、系统 |
CN112308918A (zh) * | 2020-10-26 | 2021-02-02 | 杭州电子科技大学 | 一种基于位姿解耦估计的无监督单目视觉里程计方法 |
CN112819853A (zh) * | 2021-02-01 | 2021-05-18 | 太原理工大学 | 一种基于语义先验的视觉里程计方法 |
CN113436254A (zh) * | 2021-06-29 | 2021-09-24 | 杭州电子科技大学 | 一种级联解耦的位姿估计方法 |
Non-Patent Citations (4)
Title |
---|
Dyna-VO: A Semantic Visual Odometry in Dynamic Environment;Ma Tianli et al.;《 2021 China Automation Congress (CAC)》;477-82 * |
基于深度卷积神经网络的视觉里程计研究;苏健鹏;黄影平;赵柏淦;胡兴;;光学仪器(第04期);36-43 * |
基于端到端半监督生成对抗网络的视觉里程计;陈晗;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;I138-939 * |
道路环境下动态特征视觉里程计研究;杨斌超等;《计算机工程与应用》;第58卷(第23期);197-204 * |
Also Published As
Publication number | Publication date |
---|---|
CN114034312A (zh) | 2022-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110595466B (zh) | 轻量级的基于深度学习的惯性辅助视觉里程计实现方法 | |
CN110490928B (zh) | 一种基于深度神经网络的相机姿态估计方法 | |
Wang et al. | Sne-roadseg+: Rethinking depth-normal translation and deep supervision for freespace detection | |
Petrovai et al. | Exploiting pseudo labels in a self-supervised learning framework for improved monocular depth estimation | |
CN109242003B (zh) | 基于深度卷积神经网络的车载视觉系统自身运动确定方法 | |
CN110533724B (zh) | 基于深度学习和注意力机制的单目视觉里程计的计算方法 | |
CN111902826A (zh) | 定位、建图和网络训练 | |
WO2022262878A1 (zh) | 基于ltc-dnn的视觉惯导组合导航系统与自学习方法 | |
CN112648994B (zh) | 基于深度视觉里程计和imu的相机位姿估计方法及装置 | |
CN114612556A (zh) | 视觉惯性里程计模型的训练方法、位姿估计方法及装置 | |
Wen et al. | Hybrid semi-dense 3D semantic-topological mapping from stereo visual-inertial odometry SLAM with loop closure detection | |
Dong et al. | Mobilexnet: An efficient convolutional neural network for monocular depth estimation | |
CN111833400B (zh) | 一种相机位姿定位方法 | |
Kluger et al. | Temporally consistent horizon lines | |
CN113160278A (zh) | 一种场景流估计、场景流估计模型的训练方法和装置 | |
CN114526728B (zh) | 一种基于自监督深度学习的单目视觉惯导定位方法 | |
CN115661341A (zh) | 一种基于多传感器融合的实时动态语义建图方法与系统 | |
CN113345032B (zh) | 一种基于广角相机大畸变图的初始化建图方法及系统 | |
CN116188550A (zh) | 一种基于几何约束的自监督深度视觉里程计 | |
CN113255429B (zh) | 一种视频中人体姿态估计与跟踪方法及系统 | |
CN114663488A (zh) | 一种基于深度学习的火箭助推器分离运动参数测量方法 | |
Jo et al. | Mixture density-PoseNet and its application to monocular camera-based global localization | |
CN114034312B (zh) | 一种轻量级多解耦的视觉里程计实现方法 | |
WO2024082602A1 (zh) | 一种端到端视觉里程计方法及装置 | |
Chawla et al. | Image masking for robust self-supervised monocular depth estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |