CN112308911A

CN112308911A - 端到端的视觉定位方法及系统

Info

Publication number: CN112308911A
Application number: CN202011154636.3A
Authority: CN
Inventors: 高伟; 万一鸣; 吴毅红
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-02-02

Abstract

本发明涉及一种端到端的视觉定位方法及系统，所述视觉定位方法包括：获取训练数据集，所述训练数据集包括多帧连续源图像；根据各连续源图像，建立位姿回归网络模型；具体包括：针对每一源图像，基于深度卷积神经网络，根据源图像预测对应的深度图；根据相机内部参数及深度图，通过反向投影方法，确定合成图像；根据各源图像及对应的合成图像，确定位姿回归网络模型；基于位姿回归网络模型，根据待测图像，得到待测图像的绝对位姿。本发明基于深度卷积神经网络Depth CNN，根据源图像预测对应的深度图，通过反向投影方法，确定合成图像；进而确定位姿回归网络模型，实现端到端的视觉定位，可准确确定待测图像的绝对位姿，提高定位精度。

Description

端到端的视觉定位方法及系统

技术领域

本发明涉及计算机视觉技术与SLAM(Simultaneous localization and mapping，同步定位与建图)领域，特别涉及一种基于在线几何数据增广策略的端到端的视觉定位方法及系统。

背景技术

视觉定位(Visual Localization)是移动机器人、自动驾驶以及增强现实中的重要环节，是指通过图像估计相机拍摄位姿。

目前主流的视觉定位算法是基于几何的方法。给定拍摄图像，首先需要使用SFM(structure-from-motion)算法对场景进行三维重建，重建得到的三维模型点会被赋予一个或多个特征描述子。当给定一幅查询图像，首先对其提取特征点并计算描述子，之后通过计算描述子距离在三维点云库中搜索与特征点最相似的三维点，得到2D和3D匹配后可以使用基于RANSAC的PnP算法计算出相机的6-Dof位姿。

与图像检索技术相比，这种方法能够得到更加精确的位姿。但是随着三维模型的增大，2D-3D匹配过程会消耗大量时间，使得定位过程非常缓慢。

近年来，随着深度学习技术的发展，很多学者尝试利用深度网络进行端到端的位姿回归。尽管端到端的方法能够克服几何方法的部分缺陷，但是其定位精度受限于训练数据的稀疏性。因为定位数据采集相对困难，端到端模型的训练数据库中的位姿通常只包含定位空间中的一小部分，导致在训练过程中，网络非常容易过拟合。大部分早期的工作集中于设计新的网络结构或者损失函数来提高网络的泛化能力，但是精度提升并不明显。

发明内容

为了解决现有技术中的上述问题，即为了提高定位精度，本发明的目的在于提供一种端到端的视觉定位方法及系统。

为解决上述技术问题，本发明提供了如下方案：

一种端到端的视觉定位方法，所述视觉定位方法包括：

获取训练数据集，所述训练数据集包括多帧连续源图像；

根据各连续源图像，建立位姿回归网络模型；

其中，所述根据各连续源图像，建立位姿回归网络模型，具体包括：

针对每一源图像，基于深度卷积神经网络，根据所述源图像预测对应的深度图；

根据相机内部参数及所述深度图，通过反向投影方法，确定所述源图像的合成图像；

根据各源图像及对应的合成图像，确定位姿回归网络模型；

基于所述位姿回归网络模型，根据待测图像，得到待测图像的绝对位姿。

可选地，所述相机内部参数包括：焦距和光心；

所述根据相机内部参数及所述深度图，通过反向投影方法，确定所述源图像的合成图像，具体包括：

通过焦距、光心及深度图，将所述源图像I_s上的像素点p＝(u，v)^T投影到三维空间，得到在相机坐标系下的3D点P：

其中，P＝(X，Y，Z)^T，f_x、f_y分别表示相机的焦距，c_x、c_y分别表示相机的光心；

根据所述源图像I_s的位姿真值T_s及相对位姿ΔT，确定位姿更新值T_t：

T_t＝T_sΔT；

根据所述位姿更新值T_t，将3D点P转换到全局坐标系下得到点P_g：

根据点P_g，通过反向投影方法，确定所述源图像的合成图像。

可选地，所述根据点P_g，通过反向投影方法，确定所述源图像的合成图像，具体包括：

将点P_g重新投影到图像平面，确定点P_g的对应位置；

将3D点P的像素值填充到所述点P_g的对应位置，确定新视角下的图像，所述新视角下的图像为所述源图像的合成图像。

可选地，根据以下公式确定所述源图像的合成图像：

其中，(u′，v′)表示所述合成图像的像素点坐标，f_x、f_y分别表示相机的焦距，c_x、c_y分别表示相机的光心；(X′，Y′，Z′)表示将3D点P的像素值填充到所述点P_g的对应位置后的位置坐标。

可选地，所述3D点P的像素值通过可微分的双线性插值的方法确定。

可选地，所述根据各源图像及对应的合成图像，确定位姿回归网络模型，具体包括：

根据各源图像及对应的合成图像，采用预训练ResNet，确定位姿回归网络模型，所述位姿回归网络模型用于确定图像的绝对位姿p＝[x，q]，x∈R³表示位置，q∈R⁴表示姿态。

可选地，所述根据各连续源图像，建立位姿回归网络模型，还包括：

根据以下公式，计算位姿回归网络模型的损失值L(I)：

其中，

表示预测的位置，

表示预测的姿态，x_0，k和q_0，k为对应的真值，

和

为可学习变量，R_x(I_k)表示相对位移，R_q(I_k)表示相对旋转，对于每一源图像I₀，通过预测出的深度能够随机合成4个视角的图片(I₁，I₂，I₃，I₄)，k＝1，2，3，4，

表示源图像I₀的位置，

表示源图像I₀的姿态，

表示二范数。

为解决上述技术问题，本发明还提供了如下方案：

一种端到端的视觉定位系统，所述视觉定位系统包括：

获取单元，用于获取训练数据集，所述训练数据集包括多帧连续源图像；

建模单元，用于根据各连续源图像，建立位姿回归网络模型；

其中，所述建模单元包括：

预测模块，用于针对每一源图像，基于深度卷积神经网络，根据所述源图像预测对应的深度图；

合成模块，用于根据相机内部参数及所述深度图，通过反向投影方法，确定所述源图像的合成图像；

确定模块，用于根据各源图像及对应的合成图像，确定位姿回归网络模型；

定位单元，用于基于所述位姿回归网络模型，根据待测图像，得到待测图像的绝对位姿。

为解决上述技术问题，本发明还提供了如下方案：

一种端到端的视觉定位系统，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

获取训练数据集，所述训练数据集包括多帧连续源图像；

根据各连续源图像，建立位姿回归网络模型；

根据各源图像及对应的合成图像，确定位姿回归网络模型；

为解决上述技术问题，本发明还提供了如下方案：

一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

获取训练数据集，所述训练数据集包括多帧连续源图像；

根据各连续源图像，建立位姿回归网络模型；

根据各源图像及对应的合成图像，确定位姿回归网络模型；

根据本发明的实施例，本发明公开了以下技术效果：

本发明基于深度卷积神经网络Depth CNN，根据源图像预测对应的深度图，通过反向投影方法，确定合成图像；进而确定位姿回归网络模型，实现端到端的视觉定位，可准确确定待测图像的绝对位姿，提高定位精度。

附图说明

图1是本发明端到端的视觉定位方法的流程图；

图2是本发明端到端的视觉定位系统的模块结构示意图。

符号说明：

获取单元—1，建模单元—2，预测模块—21，合成模块—22，确定模块—23，定位单元—3。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明的目的是提供一种端到端的视觉定位方法，基于深度卷积神经网络DepthCNN，根据源图像预测对应的深度图，通过反向投影方法，确定合成图像；进而确定位姿回归网络模型，实现端到端的视觉定位，可准确确定待测图像的绝对位姿，提高定位精度。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明端到端的视觉定位方法包括：

步骤100：获取训练数据集，所述训练数据集包括多帧连续源图像；

步骤200：根据各连续源图像，建立位姿回归网络模型；

步骤300：基于所述位姿回归网络模型，根据待测图像，得到待测图像的绝对位姿。

在步骤200中，所述根据各连续源图像，建立位姿回归网络模型，具体包括：

步骤210：针对每一源图像，基于深度卷积神经网络，根据所述源图像预测对应的深度图。

通过Depth CNN首先估计源图像的深度图，Depth CNN的网络结构采用DispNet的结构。

步骤220：根据相机内部参数及所述深度图，通过反向投影方法，确定所述源图像的合成图像。

其中，所述相机内部参数包括：焦距和光心。

步骤230：根据各源图像及对应的合成图像，确定位姿回归网络模型。

在步骤220中，所述根据相机内部参数及所述深度图，通过反向投影方法，确定所述源图像的合成图像，具体包括：

步骤2201：通过焦距、光心及深度图将所述源图像I_s上的像素点p＝(u，v)^T投影到三维空间，得到在相机坐标系下的3D点P：

步骤2202：根据所述源图像I_s的位姿真值T_s及相对位姿ΔT，确定位姿更新值T_t：

T_t＝T_sΔT；

步骤2203：根据所述位姿更新值T_t，将3D点P转换到全局坐标系下得到点P_g：

步骤2204：根据点P_g，通过反向投影方法，确定所述源图像的合成图像。

进一步地，所述根据点P_g，通过反向投影方法，确定所述源图像的合成图像，具体包括：

步骤2204a：将点P_g重新投影到图像平面，确定点P_g的对应位置；

步骤2204b：将3D点P的像素值填充到所述点P_g的对应位置，确定新视角下的图像，所述新视角下的图像为所述源图像的合成图像。

具体地，根据以下公式确定所述源图像的合成图像：

其中，所述3D点P的像素值通过可微分的双线性插值的方法确定。

在本发明中，深度估计采用自监督的方式。例如，给定相邻三帧源图像，通过DepthCNN首先估计I_t帧的深度图，在内参和相邻帧之间的位姿已知的情况下，I_t+1和I_t-1能够通过反向投影的方式分别合成I_t，合成的图片分别表示为

和

损失函数为合成图片和源图片的光度误差。以I_t+1和I_t为例，假设p_t(u，v)是I_t中(u，v)位置的齐次坐标，K是相机内参，D_t表示估计出的I_t的深度，将p_t投影到I_t+1平面，得到其在I_t+1平面的齐次坐标p_t+1：

p_t+1＝KT_t-1→tD_t(u，v)K^-1p_t；

其中，T_t-1→t是I_t和I_t+1之间的相对位姿。因为数据库中图像的位姿是已知的，则T_t-1→t的数值是很容易得到的。其中p_t+1是一个连续的值，通过可微分的双线性插值的方式可以得到p_t+1处的像素值。得到的像素值填充到

平面的(u，v)位置，从而合成I_t。

深度估计部分的损失函数为：

合成的＜I_t，T_t＞对和原始的＜I_s，T_s＞对共同参与训练。在实验中，每张图片在每次参与训练时都随机给定四个不同的相对位姿ΔT，生成4个新视角的图片。随着训练次数的增多，参与训练的＜图像，位姿＞对也不断增多，使得网络不易过拟合。

在深度学习框架中，所有操作必须都可微才能进行端到端训练，所以在本发明的深度学习中，图片的合成采用反向投影的方式。反向投影是已知目标图片的深度图，反向投影到源图片上，最后通过双线性插值利用源图片合成目标图片。通过反向投影，可减少黑点的数量，但是反向投影需要确定目标图片的深度图，在本发明中，采用源图片的深度图近似代替目标图片的深度图。

在步骤230中，所述根据各源图像及对应的合成图像，确定位姿回归网络模型，具体包括：

根据各源图像及对应的合成图像，采用预训练ResNet，确定位姿回归网络模型，所述位姿回归网络模型用于确定图像的绝对位姿p＝[x，q]，x∈R³表示位置，q∈R⁴用四元数表示姿态。

在本实施例中，位姿回归网络采用预训练ResNet50，最后的分类层被替换成两层节点数分别为512和7的全连接层。

进一步地，所述根据各连续源图像，建立位姿回归网络模型，还包括：

根据以下公式，计算位姿回归网络模型的损失值L(I)：

欧式距离损失函数

相对位姿损失函数(源图像与合成图像之间的相对几何关系，在训练过程中，不仅约束绝对位姿和真值一致，还约束源图像I₀与合成图像之间的相对位姿与真值接近)：

其中，

表示预测的位置，

表示预测的姿态，x_0，k和q_0，k为对应的真值，

和

表示源图像I₀的位置，

表示源图像I₀的姿态，

表示二范数。

进一步地，为便于对图像的识别，在执行步骤210之前，所述根据各连续源图像，建立位姿回归网络模型，还包括：对各连续源图像进行预处理，得到处理后的源图像，其中，所述处理后的源图像为RGB图像。

本发明采用Microsoft 7-Scenes作为训练和评测的数据集。7-Scenes包含七个不同场景的室内数据，这七个场景的数据都是由手持的Kinect RGB-D相机采集，分辨率为640×480。相机的位姿由KinectFusion算法得到。每个场景都采集了不同相机运动的多条视频序列，其中包含了运动模糊、无纹理等情况，使得该数据集广泛应用于重定位和跟踪算法的测评。训练和测试数据的划分由数据集本身提供。本发明使用旋转和位移的误差的中值作为衡量指标。

此外，本发明还提供一种端到端的视觉定位系统，可提高定位精度。

如图2所示，本发明端到端的视觉定位系统包括获取单元1、建模单元2及定位单元3。

其中，所述获取单元1用于获取训练数据集，所述训练数据集包括多帧连续源图像；

所述建模单元2用于根据各连续源图像，建立位姿回归网络模型；

所述定位单元3用于基于所述位姿回归网络模型，根据待测图像，得到待测图像的绝对位姿。

进一步地，所述建模单元2包括预测模块21、合成模块22及确定模块23。

所述预测模块21与所述获取单元连接，所述预测模块21用于针对每一源图像，基于深度卷积神经网络，根据所述源图像预测对应的深度图；

所述合成模块22与所述预测模块21连接，所述合成模块22用于根据相机内部参数及所述深度图，通过反向投影方法，确定所述源图像的合成图像；

所述确定模块23分别与所述获取单元1、合成模块22及定位单元3连接，所述确定模块23用于根据各源图像及对应的合成图像，确定位姿回归网络模型；

此外，本发明还提供了一种端到端的视觉定位系统，包括：

处理器；以及

获取训练数据集，所述训练数据集包括多帧连续源图像；

根据各连续源图像，建立位姿回归网络模型；

根据各源图像及对应的合成图像，确定位姿回归网络模型；

此外，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

获取训练数据集，所述训练数据集包括多帧连续源图像；

根据各连续源图像，建立位姿回归网络模型；

根据各源图像及对应的合成图像，确定位姿回归网络模型；

相对于现有技术，本发明端到端的视觉定位系统、计算机可读存储介质与上述端到端的视觉定位方法的有益效果相同，在此不再赘述。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。