CN110473254A

CN110473254A - 一种基于深度神经网络的位姿估计方法及装置

Info

Publication number: CN110473254A
Application number: CN201910768325.7A
Authority: CN
Inventors: 焦继超; 焦剑; 邓中亮; 莫耀凯; 刘炜伦; 袁华宇; 邱德武
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2019-11-19

Abstract

本发明实施例提供了一种基于深度神经网络的位姿估计方法及装置，方法包括：获取目标图像序列，所述目标图像序列是相机在移动中连续拍摄的；将所述目标图像序列输入位姿估计网络模型，得到所述相机拍摄所述目标图像序列中每张图像时的位姿信息；所述位姿估计网络模型是根据训练集预先训练完成的，所述训练集包括：样本图像序列，以及样本位姿信息。由于采用深度神经网络模型进行相机的位姿信息估计，不需要进行关键点的提取和描述子计算过程，降低了计算复杂度，此外，对被测对象的无严格要求，可以适用于被测对象的位移较大的场景。

Description

一种基于深度神经网络的位姿估计方法及装置

技术领域

本发明涉及人工智能技术领域，特别是涉及一种基于深度神经网络的位姿估计方法及装置。

背景技术

随着人工智能的发展，视觉里程计也被广泛应用于机器人技术，自动驾驶技术等。通俗来讲，将相机刚性连接到一个移动的物体上，例如机器人，通过相机拍摄的一系列连续图像序列来推断相机的位姿信息即为视觉里程计。容易理解的，由于相机和机器人刚性连接，因此相机的位姿信息也可以反映机器人的位姿信息。

若仅使用一个相机，则称为单目视觉里程计，若使用多个相机，则称为立体视觉里程计。

目前，在视觉里程计领域中，针对视觉里程计任务，主要存在两种方法，一种是特征点法，另一种是直接法。

第一种特征点法，是通过提取图像的SIFT(Scale Invariant FeatureTransform，尺度不变特征)，SURF(Speeded Up Robust Features，加速稳健特征)等图像特征，进行相邻图像帧的匹配，进而通过最小化重投影误差计算出相邻图像帧的相对位姿。然而这种方法在关键点的提取和描述子计算过程计算复杂度较高，相应的耗时也较多。

第二种直接法，是通过最小化广度误差跟踪关键点，相对于特征点法，省去了关键点描述子计算的计算量及耗时，后续同样通过最小化重投影误差计算图像帧的相对位姿。然而这种方法需要较高的采样率，也就是需要被测对象的位移较小。

发明内容

本发明实施例的目的在于提供一种基于深度神经网络的位姿估计方法及装置，以实现减少位姿估计的计算复杂度，并可适用于被测对象的位移较大的场景。

为实现上述目的，本发明实施例提供了一种基于深度神经网络的位姿估计方法，所述方法包括：

获取目标图像序列，所述目标图像序列是相机在移动中连续拍摄的；

将所述目标图像序列输入位姿估计网络模型，得到所述相机拍摄所述目标图像序列中每张图像时的位姿信息；所述位姿估计网络模型是根据训练集预先训练完成的，所述训练集包括：样本图像序列，以及样本位姿信息。

可选的，所述位姿估计网络模型采用以下步骤训练获得：

获取预设的深度神经网络模型和所述训练集；

将所述训练集中的样本图像序列输入所述深度神经网络模型，得到位姿信息估计集合；

将所述位姿信息估计集合的估计值和所述样本位姿信息的真实值输入预设的损失函数，确定损失值；

根据所述损失值确定所述深度神经网络模型是否收敛；

若否，则调整所述深度神经网络模型中的参数值，并返回所述将所述训练集中的样本图像序列输入所述深度神经网络模型，得到位姿信息估计集合的步骤；

若是，则将当前的深度神经网络模型确定为位姿估计网络模型。

可选的，所述深度神经网络模型包括第一子网络和第二子网络，所述第一子网络为卷积神经网络CNN，所述第二子网络为双向长短期记忆网络BI-LSTM。

可选的，所述损失函数为：

其中，loss表示损失值，N表示每次训练采用的样本图像序列中的图像数量，i表示样本图像的序号，k表示位姿信息中平移量和旋转量的状态序号，p_k表示所述样本位姿信息中平移量的第k个状态的真实值，表示所述位姿信息估计集合中平移量的第k个状态的估计值，表示所述样本位姿信息中旋转量的第k个状态的真实值，表示所述位姿信息估计集合中旋转量的第k个状态的估计值，w表示平衡权重。

为实现上述目的，本发明实施例提供了一种基于深度神经网络的位姿估计装置，所述装置包括：

图像获取模块，用于获取目标图像序列，所述目标图像序列是相机在移动中连续拍摄的；

位姿估计模块，用于将所述目标图像序列输入位姿估计网络模型，得到所述相机拍摄所述目标图像序列中每张图像时的位姿信息；所述位姿估计网络模型是根据训练集预先训练完成的，所述训练集包括：样本图像序列，以及样本位姿信息。

可选的，所述装置还包括训练模块，所述训练模块用于训练所述位姿估计网络模型，

所述训练模块具体用于：获取预设的深度神经网络模型和所述训练集；

根据所述损失值确定所述深度神经网络模型是否收敛；

可选的，所述损失函数为：

为实现上述目的，本发明实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线；其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一方法步骤。

为实现上述目的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法步骤。

可见，采用本发明实施例提供的基于深度神经网络的位姿估计方法及装置，获取目标图像序列，将目标图像序列输入位姿估计网络模型，即可得到相机拍摄所述目标图像序列中每张图像时的位姿信息。其中所述位姿估计网络模型是根据样本图像序列，以及样本位姿信息预先训练完成的。由于采用深度神经网络模型进行相机的位姿信息估计，相比于现有的特征点法，不需要进行关键点的提取和描述子计算过程，降低了计算复杂度，此外，对被测对象的无严格要求，可以适用于被测对象的位移较大的场景。

当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于深度神经网络的位姿估计方法的一种流程图；

图2为本发明实施例提供的训练位姿估计网络模型的一种流程图；

图3为本发明实施例提供的基于深度神经网络的位姿估计装置的一种结构示意图；

图4为本发明实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决视觉里程计领域中计算复杂度较高的技术问题，本发明实施例提供了一种基于深度神经网络的位姿估计方法、装置、电子设备及计算机可读存储介质。下面先对本发明实施例提供的基于深度神经网络的位姿估计方法进行介绍。

参见图1，图1为本发明实施例提供的基于深度神经网络的位姿估计方法的一种流程图，该方法可以包括以下步骤：

S101：获取目标图像序列，所述目标图像序列是相机在移动中连续拍摄的；

为了便于理解，先对本发明的应用场景进行简要介绍。

本发明实施例可以应用于自动控制领域，例如机器人技术，无人驾驶车辆技术等。以无人驾驶车辆为例，可以将相机刚性连接到无人车上，在无人车移动过程中，相机拍摄连续的图像序列，基于这些图像序列可以推断相机的位姿信息，进而得到无人车的位姿信息，以应用于无人车的控制。

在本发明实施例中，为了确定相机拍摄图像过程中的位姿信息，可以先获取相机在移动中连续拍摄的图像序列，记为目标图像序列。

S102：将所述目标图像序列输入位姿估计网络模型，得到所述相机拍摄所述目标图像序列中每张图像时的位姿信息；所述位姿估计网络模型是根据训练集预先训练完成的，所述训练集包括：样本图像序列，以及样本位姿信息。

在本发明实施例中，可以将目标图像序列输入位姿估计网络模型，其中，位姿估计网络模型是根据样本图像序列，以及样本位姿信息训练完成的，因此，位姿估计网络可以输出相机在拍摄目标图像序列中每张图像时的位姿信息。

其中，位姿信息可以包括平移量和旋转量，其中平移量和旋转量都可以包括多个状态，通常为三个，即位姿信息包括三个平移量和三个旋转量，平移量可以用距离来表示，旋转量可以用欧拉角来表示。本发明实施例中，要估计的位姿信息即包含三个平移距离和三个欧拉角的值。

可见，采用本发明实施例提供的基于深度神经网络的位姿估计方法，获取目标图像序列，将目标图像序列输入位姿估计网络模型，即可得到相机拍摄所述目标图像序列中每张图像时的位姿信息。其中所述位姿估计网络模型是根据样本图像序列，以及样本位姿信息预先训练完成的。由于采用深度神经网络模型进行相机的位姿信息估计，相比于现有的特征点法，不需要进行关键点的提取和描述子计算过程，降低了计算复杂度，此外，对被测对象的无严格要求，可以适用于被测对象的位移较大的场景。

参见图2，图2为本发明实施例提供的训练位姿估计网络模型的一种流程图；

在本发明的一种实施例中，位姿估计网络模型可以采用以下步骤进行训练：

S201：获取预设的深度神经网络模型和所述训练集；

本发明实施例中的深度神经网络模型可以包括第一子网络和第二子网络，其中第一子网络用于提取图像特征，并将图像特征传递给第二子网络；第二子网络用于学习图像序列之间的关系，以实现位姿的估计。

具体的，在本发明的一种实施例中，第一子网络为CNN(Convolutional NeuralNetworks，卷积神经网络)，第二子网络为BI-LSTM(Bi-directional Long Short TermMemory，双向长短期记忆网络)。

CNN网络用于提取图像特征，并将图像特征传递给BI-LSTM网络。

本发明的一种实施例中，可以采用表1所示的CNN网络参数进行网络初始设置。

表1.CNN网络初始参数设置

其中，padding和stride为CNN网络中的两个初始参数。

LSTM是一种特定形式的RNN(Recurrent Neural Network，循环神经网络)网络。普通的RNN网络在处理时间序列上距离较远的节点时，会涉及雅可比矩阵的多次相乘，从而可能导致梯度消失或梯度膨胀的问题。相比于普通的RNN网络，LSTM网络增加输入门限，遗忘门限和输出门限，使得自循环的权重是变化的，则在模型参数固定的情况下，不同时刻的积分尺度是可以动态改变的，从而避免了梯度消失和梯度膨胀的问题，能够准确分析较长的序列，此外，本发明实施例采用的BI-LSTM网络还可以基于正向和反向学习序列的规律，能够更好的进行位姿估计。

本发明的一种实施例中，训练集可以采用KITTI数据集，KITTI数据集是自动驾驶场景下的算法评测数据集。可以对数据集中的图像进行适当的裁剪，将其作为样本图像序列。

S202：将所述训练集中的样本图像序列输入所述深度神经网络模型，得到位姿信息估计集合；

本发明实施例中，可以针对训练集中的样本图像序列进行分批次的训练。

例如，将第一批样本图像输入初始设置完成的深度神经网络模型，可以输出相机在拍摄该批样本图像中每一图像时的位姿信息，包括三个平移量和三个旋转量。将得到的相机的多个位姿信息记为位姿信息估计集合。

S203：将所述位姿信息估计集合的估计值和所述样本位姿信息的真实值输入预设的损失函数，确定损失值；

在本发明的一种实施例中，损失函数可以为：

其中，loss表示每次训练的损失值，N表示每次训练采用的样本图像序列中的图像数量，i表示样本图像的序号，k表示位姿信息中平移量和旋转量的状态序号，取值可以为1,2或3。p_k表示所述样本位姿信息中平移量的第k个状态的真实值，表示位姿信息估计集合中平移量的第k个状态的估计值，表示所述样本位姿信息中旋转量的第k个状态的真实值，表示位姿信息估计集合中旋转量的第k个状态的估计值，w是用于平衡平移量和旋转量的权重。

S204：根据所述损失值判断所述深度神经网络模型是否收敛，若否则执行步骤S205；若是则执行步骤S206。

本发明的一种实施方式中，可以预设损失值阈值，若计算出的损失值小于损失值阈值，则深度神经网络模型已收敛。

当然，也可以设置训练次数阈值，当达到训练次数阈值时，可以认为深度神经网络模型已收敛。

S205：调整所述深度神经网络模型中的参数值，返回步骤S202。

若未收敛，则可以基于下一批图像序列继续进行训练，即返回将所述训练集中的样本图像序列输入所述深度神经网络模型，得到位姿信息估计集合的步骤。

S206：将当前的深度神经网络模型确定为位姿估计网络模型。

若深度神经网络模型收敛，则可将其作为位姿估计网络模型。

将目标图像序列输入位姿估计网络模型，即可输出相机拍摄目标图像序列中每张图像时的位姿信息。

可见，本发明实施例中，将CNN网络和BI-LSTM网络相结合来实现视觉里程计领域的同步表示学习和序列建模。相比于现有的视觉里程计领域的特征点法和直接法，能够以端到端的方式进行训练，在位姿估计过程中，不依赖于任何模块，不需要进行关键点的提取和描述子计算过程，降低了计算复杂度，此外，对被测对象的无严格要求，可以适用于被测对象的位移较大的场景。

基于相同的发明构思，根据上述基于深度神经网络的位姿估计方法实施例，本发明实施例还提供了一种基于深度神经网络的位姿估计装置，参见图3，可以包括以下模块：

图像获取模块301，用于获取目标图像序列，所述目标图像序列是相机在移动中连续拍摄的；

位姿估计模块302，用于将所述目标图像序列输入位姿估计网络模型，得到所述相机拍摄所述目标图像序列中每张图像时的位姿信息；所述位姿估计网络模型是根据训练集预先训练完成的，所述训练集包括：样本图像序列，以及样本位姿信息。

可见，采用本发明实施例提供的基于深度神经网络的位姿估计装置，获取目标图像序列，将目标图像序列输入位姿估计网络模型，即可得到相机拍摄所述目标图像序列中每张图像时的位姿信息。其中所述位姿估计网络模型是根据样本图像序列，以及样本位姿信息预先训练完成的。由于采用深度神经网络模型进行相机的位姿信息估计，相比于现有的特征点法，不需要进行关键点的提取和描述子计算过程，降低了计算复杂度，此外，对被测对象的无严格要求，可以适用于被测对象的位移较大的场景。

在本发明的一种实施例中，在图3所示装置基础上，还可以包括训练模块，训练模块用于训练所述位姿估计网络模型，具体用于：

获取预设的深度神经网络模型和所述训练集；

根据所述损失值确定所述深度神经网络模型是否收敛；

在本发明的一种实施例中，深度神经网络模型包括第一子网络和第二子网络，所述第一子网络为卷积神经网络，所述第二子网络为双向长短期记忆网络。

在本发明的一种实施例中，损失函数为：

基于相同的发明构思，根据上述基于深度神经网络的位姿估计方法实施例，本发明实施例还提供了一种电子设备，如图4所示，包括处理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信，

存储器403，用于存放计算机程序；

处理器401，用于执行存储器403上所存放的程序时，实现上述图1所示的基于深度神经网络的位姿估计方法实施例。其中，基于深度神经网络的位姿估计方法包括：

可见，采用本发明实施例提供的电子设备，获取目标图像序列，将目标图像序列输入位姿估计网络模型，即可得到相机拍摄所述目标图像序列中每张图像时的位姿信息。其中所述位姿估计网络模型是根据样本图像序列，以及样本位姿信息预先训练完成的。由于采用深度神经网络模型进行相机的位姿信息估计，相比于现有的特征点法，不需要进行关键点的提取和描述子计算过程，降低了计算复杂度，此外，对被测对象的无严格要求，可以适用于被测对象的位移较大的场景。

上述电子设备提到的通信总线404可以是外设部件互连标准(PeripheralComponent Interconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线404可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口402用于上述电子设备与其他设备之间的通信。

存储器403可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器403还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器401可以是通用处理器，包括中央处理器(Central ProcessingUnit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

基于相同的发明构思，根据上述基于深度神经网络的位姿估计方法实施例，在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述图1所示的基于深度神经网络的位姿估计方法步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于基于深度神经网络的位姿估计装置实施例、电子设备实施例及计算机可读存储介质实施例而言，由于其基本相似于基于深度神经网络的位姿估计方法实施例，所以描述的比较简单，相关之处参见基于深度神经网络的位姿估计方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于深度神经网络的位姿估计方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述位姿估计网络模型采用以下步骤训练获得：

获取预设的深度神经网络模型和所述训练集；

根据所述损失值确定所述深度神经网络模型是否收敛；

3.根据权利要求2所述的方法，其特征在于，所述深度神经网络模型包括第一子网络和第二子网络，所述第一子网络为卷积神经网络CNN，所述第二子网络为双向长短期记忆网络BI-LSTM。

4.根据权利要求2所述的方法，其特征在于，所述损失函数为：

5.一种基于深度神经网络的位姿估计装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述装置还包括训练模块，所述训练模块用于训练所述位姿估计网络模型，

根据所述损失值确定所述深度神经网络模型是否收敛；

7.根据权利要求6所述的装置，其特征在于，所述深度神经网络模型包括第一子网络和第二子网络，所述第一子网络为卷积神经网络CNN，所述第二子网络为双向长短期记忆网络BI-LSTM。

8.根据权利要求6所述的装置，其特征在于，所述损失函数为：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-4任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。