CN111833400B

CN111833400B - 一种相机位姿定位方法

Info

Publication number: CN111833400B
Application number: CN202010526031.6A
Authority: CN
Inventors: 杨关水; 刘立程
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2023-07-28
Anticipated expiration: 2040-06-10
Also published as: CN111833400A

Abstract

本发明公开了一种相机位姿定位方法，包括以下步骤：S1：获取输入序列，所述输入序列为连续的共T帧的视频流，每一帧代表一张图片；S2：将所述输入序列输入ASPP模块中，所述ASPP模块由一组不同膨胀率的膨胀卷积组成，所述输入序列中的每一张图片经过ASPP模块处理后，输出不同接受域大小的空间特征图；S3：将每一张图片经S2后得到的不同接受域大小的空间特征图串联起来，输入到深度学习网络中进行时间特征提取，获取相机位姿。本发明采用ASPP模块，多尺度提取空间特征，然后将这些空间特征串联起来，输入一个深度学习网络中学习时空信息，通过不同尺度提取前向帧之间和后向帧之间的时空信息，从而得到更精确的相机位姿输出。

Description

一种相机位姿定位方法

技术领域

本发明涉及计算机视觉领域，更具体地，涉及一种相机位姿定位方法。

背景技术

视觉里程计(Visual Odometry)作为姿态估计和机器人定位最重要的技术之一，在过去的几十年里引起了计算机视觉和机器人领域的极大兴趣。它已被广泛应用于各种机器人作为补充GPS、惯性导航系统(INS)等。

在过去的三十年中，人们做了大量的工作来开发一种精确而稳定的视觉里程计系统。一个典型的流程，它通常由摄像机标定、特征检测、特征匹配(或跟踪)、离群点抑制(如RANSAC)、运动估计、尺度估计和局部优化组成(捆绑调整)，基于几何的方法得到迅速发展并被广泛认为是相机定位的黄金法则。尽管基于该流程，一些最先进算法在准确性和鲁棒性方面表现出了出色的性能，但它们通常是经过大量工作硬编码的，流程中的每个模块都需要仔细设计和微调，以确保他们的性能。此外，视觉里程计(VO)必须利用一些额外的信息或先前的知识来估计绝对尺度。

深度学习(Deep Learning)最近已经在许多计算机视觉任务中取得了很好的效果。CN201611191845.9公开了一种基于深度学习的端到端视觉里程计及方法，包括级联的光流网络和帧间估计网络，所述光流网络根据数据集中图像序列中的相邻帧，选取输出光流向量和基准数据之间的光流端点误差为损失函数，进行网络训练后，将生成的光流输出，所述帧间估计网络以光流图像作为输入，基于六自由度输出位姿向量与基准数据之间的距离构建损失函数，迭代训练网络，进行帧间估计。本发明采用不同输入输出数据分别训练光流网络模块和帧间估计网络模块，最后将两者级联构成端到端的视觉里程计模块，再进一步深层次训练，优化参数。但是对于视觉里程计(VO)问题，还没有得到很好的运用。事实上，在视觉里程计(VO)上的工作非常有限，原因是涉及到3D几何问题。现有的深度学习架构和预训练的模型本质上是用来处理识别和分类问题的，而这些问题驱动了深度卷积神经网络(CNNs)从图像中提取高级外观信息。表面特征的学习限制了视觉里程计(VO)的发展，使得视觉里程计(VO)只在经过训练的环境中发挥作用，严重阻碍了视觉里程计(VO)在新场景中的普及。这就是视觉里程计(VO)算法严重依赖于几何特征而不是外观特征的原因。同时，理想的视觉里程计(VO)算法应该通过检查一系列图像上的变化和连接来建模运动动力学，而不是处理单个图像。这意味着我们需要顺序学习，而CNNs还不足以做到这一点。

总的来说，目前用于相机定位的方法主要有两种，一种是发展比较久远而且比较成熟的基于几何的经典方法，但是过程比较复杂；另外一种是近几年比较流行的基于深度学习的人工智能方法，它可以实现端到端的相机定位。

发明内容

本发明提供一种相机位姿定位方法，得到精确的相机位姿输出。

为解决上述技术问题，本发明的技术方案如下：

一种相机位姿定位方法，包括以下步骤：

S1：获取输入序列，所述输入序列为连续的共T帧的视频流，每一帧代表一张图片；

S2：将所述输入序列输入ASPP模块中，所述ASPP模块由一组不同膨胀率的膨胀卷积组成，所述输入序列中的每一张图片经过ASPP模块处理后，输出不同接受域大小的空间特征图；

S3：将每一张图片经S2后得到的不同接受域大小的空间特征图串联起来，输入到深度学习网络中进行时间特征提取，获取相机位姿。

优选地，步骤S2中所述输入序列中每一张图片先经空间特征提取后再输入至ASPP模块进行膨胀卷积。

优选地，所述输入序列中每一张图片先经空间特征提取后得到三维空间特征张量其中，R代表的是三维张量，W、H、M分别代表的是输入图片的长度、宽度和时间。

优选地，所述ASPP模块采用K个卷积膨胀层，其中卷积核为：式中，C_k代表的是第k个膨胀卷积核，c、C代表的是相同的自然数，采用不同的膨胀因子/>r_k表示第k个膨胀因子。

优选地，所述输入序列中的每一张图片经过ASPP模块处理后，输出不同接受域大小的空间特征图按下式处理：

式中，表示扩张卷积操作，T_k表示经第k个膨胀卷积核输出的空间特征图。

优选地，所述第k个膨胀卷积核输出的空间特征图的接收域大小为[(c-1)r_k+1]²。

优选地，步骤S3中将空间特征图串联起来，具体为将空间特征图/>进行求和操作，得到合并后的特征/>KC表示的是K×C，计算如下：

式中，表示元素求和操作。

优选地，步骤S3中所述的深度学习网路为LSTM网络。

优选地，所述LSTM网络为PDB-ConvLSTM网络，所述PDB-ConvLSTM网络采用若干个不同膨胀速率的DB-ConvLSTM网络，提取多尺度时空信息。

优选地，所述DB-ConvLSTM网络包括前向层和后向层，其中：前向层的ConvLSTM单元从第T帧接收空间特征映射作为输入，输出前向序列特征映射/>具体为：

式中，*表示卷积运算符，表示Hadamard运算操作，σ表示Sigmoid函数，/>表示相对于输入特征向量X时输入门的学习权重矩阵，/>表示相对于输入为隐藏状态H时输入门的学习权重矩阵，H_t-1表示t-1时刻的隐藏状态，/>表示相对于输入特征向量X时遗忘门的学习权重矩阵，/>表示相对于输入为隐藏状态H时遗忘门的学习权重矩阵，/>和表示输入为特征向量X和隐藏状态H时输出门各自的学习权重矩阵，/>和/>表示输入为特征向量X和隐藏状态H时记忆门各自的学习权重矩阵，H_t表示t时刻的隐藏状态，所有的门i、f、o、存储单元c、隐藏状态H和可学习权值W都是三维张量，/>和/>表示前向层和后向层的ConvLSTM单元的隐藏状态，/>和/>分别表示前向隐藏状态/>时和后向隐藏状态/>时各自的输出学习权重矩阵，Y_t表示考虑双向时空信息的最终输出；

后向层由接收前向层输出的作为输入的输出特征的后向单元组成，具体为：

式中，分别表示后向第t帧的输入门、遗忘门、输出门、记忆门和隐藏状态的计算结果，/>和/>分别表示输入为前向隐藏状态H^f和后向隐藏状态H^b时各自的输入门学习权重矩阵，/>和/>分别表示输入为前向隐藏状态H^f和后向隐藏状态H^b时各自的遗忘门学习权重矩阵，/>和/>分别表示输入为前向隐藏状态/>和后向隐藏状态/>时各自的输出门学习权重矩阵，/>和/>分别表示输入为前向隐藏状态/>和后向隐藏状态/>时各自的记忆门学习权重矩阵，/>表示前向t时刻的前向隐藏状态值，/>表示t+1时刻后向的隐藏状态值；

然后将前向特征和后向特征/>合并得到最终输出:/>使用公式：

与现有技术相比，本发明技术方案的有益效果是：

本发明采用ASPP模块，多尺度提取空间特征，然后将这些空间特征串联起来，输入一个深度学习网络中学习时空信息，通过不同尺度提取前向帧之间和后向帧之间的时空信息，从而得到更精确的相机位姿输出。

附图说明

图1为本发明的方法流程示意图。

图2为本发明中ASPP模块结构示意图。

图3为实施例中ConvLSTM网络示意图。

图4为实施例中B-ConvLSTM网络示意图。

图5为实施例中DB-ConvLSTM网络示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供一种相机位姿定位方法，如图1，包括以下步骤：

步骤S2中所述输入序列中每一张图片先经空间特征提取后再输入至ASPP模块进行膨胀卷积。

所述输入序列中每一张图片先经空间特征提取后得到三维空间特征张量其中，R代表的是三维张量，W、H、M分别代表的是输入图片的长度、宽度和时间。

如图2，所述ASPP模块采用K个卷积膨胀层，其中卷积核为：式中，C_k代表的是第k个膨胀卷积核，c、C代表的是相同的自然数，采用不同的膨胀因子/>r_k表示第k个膨胀因子。

所述输入序列中的每一张图片经过ASPP模块处理后，输出不同接受域大小的空间特征图按下式处理：

所述第k个膨胀卷积核输出的空间特征图的接收域大小为[(c-1)r_k+1]²。

步骤S3中将空间特征图串联起来，具体为将空间特征图/>进行求和操作，得到合并后的特征/>KC表示的是K×C，计算如下：

式中，表示元素求和操作。

步骤S3中所述的深度学习网路为LSTM网络。

所述LSTM网络为PDB-ConvLSTM网络，所述PDB-ConvLSTM网络采用若干个不同膨胀速率的DB-ConvLSTM网络，提取多尺度时空信息。

所述DB-ConvLSTM网络包括前向层和后向层，其中：

前向层的ConvLSTM单元从第T帧接收空间特征映射作为输入，输出前向序列特征映射/>具体为：

给定一个T帧的输入序列I_t代表的是输入的第t帧图片，我们采用ASPP模块生成相应的多尺度空间显著性特征序列/>X_t代表的是第t张图片从不同膨胀速率所提取的特征之和，然后将这些空间特征输入到一个改进的ConvLSTM结构中，称为金字塔膨胀双向ConvLSTM(PDB-ConvLSTM)，用于解释视频帧的时间特征并自动融合时空特征。PDB-ConvLSTM在两个方面进行了改进。首先，将以往的浅层次、并行的双向特征提取策略替换为更深层次、级联的学习过程，即在前向过程中学习时空特征上建立后向LSTM单元。第二，将金字塔扩张卷积合并到LSTM中，学习多尺度的显著性特征。

ConvLSTM是传统全连接LSTM(FC-LSTM)的卷积版本，它将卷积运算引入到输入到状态和状态到状态的转换中。ConvLSTM保留空间信息以及建模时间相关性。因此，它在动态视觉注意预测、视频超分辨率等许多时空像素级任务中得到了很好的应用。与FC-LSTM类似，ConvLSTM单元由一个存储单元c_t·、一个输入门i_t·、一个输出门o_t和一个遗忘门f_t·组成。存储单元c_t作为状态信息的累加器，通过自参数化控制门(i_t·、o_tt和f_t·)进行访问、更新和清除。当输入到达时，如果输入门被激活，则新数据将被累积到存储单元。同样地，如果开启遗忘门f_t·，则可以忘记过去的细胞状态c_t-1。最新的存储单元的值c_t·是否会被传输到最终状态h_t，则由输出门o_t进一步控制。有了上述定义，ConvLSTM可以是被定义如下：

式中，*表示卷积运算符，表示Hadamard运算操作，σ表示Sigmoid函数，/>表示相对于输入特征向量X时输入门的学习权重矩阵，/>表示相对于输入为隐藏状态H时输入门的学习权重矩阵，H_t-1表示t-1时刻的隐藏状态，/>表示相对于输入特征向量X时遗忘门的学习权重矩阵，/>表示相对于输入为隐藏状态H时遗忘门的学习权重矩阵，/>和表示输入为特征向量X和隐藏状态H时输出门各自的学习权重矩阵，/>和/>表示输入为特征向量X和隐藏状态H时记忆门各自的学习权重矩阵，H_t表示t时刻的隐藏状态，所有的门i、f、o、存储单元c、隐藏状态H和可学习权值W都是三维张量，如图3所示；

可以看出，上面的ConvLSTM只是“记住”了过去的序列，因为它在记忆细胞中积累了过去的信息。然而，在视频序列中，来自前向和后向帧的信息对于预测相机位姿是重要的和互补的。因此，应该使用双向ConvLSTM(B-ConvLSTM)来捕获双向的时间特征，如图4：

其中，和/>表示前向层和后向层的ConvLSTM单元的隐藏状态，/>和分别表示前向隐藏状态/>时和后向隐藏状态/>时各自的输出学习权重矩阵，Y_t表示考虑双向时空信息的最终输出；

在B-ConvLSTM中，前向和后向LSTM单元之间没有信息交换。我们采用改进的B-ConvLSTM，将前向和后向的ConvLSTM单元以更紧密的级联方式组织起来，称为更深的双向ConvLSTM(DB-ConvLSTM)。DB-ConvLSTM有两个层，一个是浅的前向层，一个是更深的后向层，如图5。前向层的ConvLSTM单元从T帧接收空间特征映射作为输入，输出前向序列特征映射/>更深一层是由接收前向层/>作为输入的输出特征的后向单元组成的。总体上，后向ConvLSTM单元表示为：

这样，信息被用于正向和反向对流LSTM单元之间流动，反向单元可以提取更深层次的时空特征

为了提取更强大的时空信息，使网络能够适应不同尺度的突出目标，我们进一步扩展了DB-ConvLSTM。具体来说，输出从空间将ASPP模块反馈到几个并行的DB-ConvLSTMs中。DB-ConvLSTM模块,卷积操作“*”进一步被扩张卷积和采用不同的膨胀因子。这样的设计出现了一个更强大的对流LSTM结构，称为为金字塔扩容双向对流LSTM(PDB-ConvLSTM)。它能够利用不同接受域的不同特征来捕捉更多互补的时空特征。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种相机位姿定位方法，其特征在于，包括以下步骤：

S3：将每一张图片经S2后得到的不同接受域大小的空间特征图串联起来，输入到深度学习网络中进行时间特征提取，获取相机位姿；

步骤S3中所述的深度学习网络为LSTM网络；

所述LSTM网络为PDB-ConvLSTM网络，所述PDB-ConvLSTM网络采用若干个不同膨胀速率的DB-ConvLSTM网络，提取多尺度时空信息；

所述DB-ConvLSTM网络包括前向层和后向层，其中：

式中，分别表示后向第t帧的输入门、遗忘门、输出门、记忆门和隐藏状态的计算结果，/>和/>分别表示输入为前向隐藏状态H^f和后向隐藏状态H^b时各自的输入门学习权重矩阵，/>和/>分别表示输入为前向隐藏状态H^f和后向隐藏状态H^b时各自的遗忘门学习权重矩阵，/>和/>分别表示输入为前向隐藏状态/>和后向隐藏状态/>时各自的输出门学习权重矩阵，/>和/>分别表示输入为前向隐藏状态/>和后向隐藏状态/>时各自的记忆门学习权重矩阵，/>表示前向t时刻的前向隐藏状态值，表示t+1时刻后向的隐藏状态值；

2.根据权利要求1所述的相机位姿定位方法，其特征在于，步骤S2中所述输入序列中每一张图片先经空间特征提取后再输入至ASPP模块进行膨胀卷积。

3.根据权利要求2所述的相机位姿定位方法，其特征在于，所述输入序列中每一张图片先经空间特征提取后得到三维空间特征张量其中，R代表的是三维张量，W、H、M分别代表的是输入图片的长度、宽度和时间。

4.根据权利要求3所述的相机位姿定位方法，其特征在于，所述ASPP模块采用K个卷积膨胀层，其中卷积核为：式中，C_k代表的是第k个膨胀卷积核，c、C代表的是相同的自然数，采用不同的膨胀因子/>r_k表示第k个膨胀因子。

5.根据权利要求4所述的相机位姿定位方法，其特征在于，所述输入序列中的每一张图片经过ASPP模块处理后，输出不同接受域大小的空间特征图按下式处理：

6.根据权利要求5所述的相机位姿定位方法，其特征在于，所述第k个膨胀卷积核输出的空间特征图的接收域大小为[(c-1)r_k+1]²。

7.根据权利要求6所述的相机位姿定位方法，其特征在于，步骤S3中将空间特征图串联起来，具体为将空间特征图/>进行求和操作，得到合并后的特征/>KC表示的是K×C，计算如下：

式中，表示元素求和操作。