CN117392228A

CN117392228A - 视觉里程计算方法、装置、电子设备及存储介质

Info

Publication number: CN117392228A
Application number: CN202311702313.7A
Authority: CN
Inventors: 张兴; 李鹏; 张宜旺; 王伟; 何道敬; 田志宏; 鲁辉; 童超; 夏修理; 王旭东; 刘宏; 肖维
Original assignee: China Resources Digital Technology Co Ltd
Current assignee: China Resources Digital Technology Co Ltd
Priority date: 2023-12-12
Filing date: 2023-12-12
Publication date: 2024-01-12

Abstract

本申请实施例提供了一种视觉里程计算方法、装置、电子设备及存储介质，属于机器视觉和视觉定位技术领域。该方法包括：将目标图像输入至预设的深度估计网络，得到预测深度图，目标图像和源图像输入至预设的姿态估计网络对，得到相对姿态信息。根据相对姿态信息、源图像、目标图像和预测深度图对两组网络进行联合训练。将当前帧图像输入至深度估计网络，得到目标深度图，根据目标深度图对当前帧图像和上一帧图像进行尺度对齐，得到当前帧对齐图像和上一帧对齐图像。将当前帧对齐图像和上一帧对齐图像输入至光流网络进行位姿估计，得到位姿估计数据，若干连续的位姿估计数据汇集成视觉里程，解决了视觉里程中尺度不一致和尺度漂移的问题。

Description

视觉里程计算方法、装置、电子设备及存储介质

技术领域

本申请涉及机器视觉和视觉定位技术领域，尤其涉及一种视觉里程计算方法、装置、电子设备及存储介质。

背景技术

视觉同时定位与地图构建（Simultaneous Localization And Mapping，SLAM）使用视觉传感器来对未知环境中的车辆、机器人进行定位，可应用于机器人导航、虚拟现实(virtual reality,VR)、增强现实（augmented reality,AR）和自动驾驶等场景中，视觉里程计(VisualOdometry,VO)则是视觉SLAM中最为关键的环节，在未进行回环校验的情况下，视觉SLAM的精度取决于视觉里程计。

传统的视觉里程计利用物理模型和几何理论进行求解，主要分为间接方法和直接方法。间接方法通过检测特征点和提取局部描述符作为中间表示，然后在图像之间进行特征匹配，并且使用重投影误差来优化相机位姿。而直接方法则对图像形成过程建模，通过假设灰度不变性对光度误差函数进行优化。

近年来，随着深度学习在计算机视觉领域的成功应用，如物体检测、图像分割，研究人员开始尝试将深度学习技术应用于视觉SLAM任务。与传统方法相比，基于深度学习的视觉SLAM方法可以从大量数据中学习先验知识，其性能不依赖于图像匹配的准确性。但是基于深度学习的视觉SLAM方法直接输出相对位姿，缺乏多视图几何一致性，在大规模场景中，易导致尺度不一致和尺度漂移的问题。因此，如何解决视觉里程中尺度不一致和尺度漂移的问题，成为了亟待解决的技术问题。

发明内容

本申请实施例的主要目的在于提出一种视觉里程计算方法、装置、电子设备及存储介质，旨在解决视觉里程中尺度不一致和尺度漂移的问题。

为实现上述目的，本申请实施例的第一方面提出了一种视觉里程计算方法，所述方法包括：

获取样本数据集；其中，所述样本数据集包括目标图像数据和源图像数据，所述目标图像数据和所述源图像数据属于相邻帧图像；

将所述目标图像数据输入至预设的深度估计网络进行深度估计，得到预测深度图数据；

通过预设的姿态估计网络对所述目标图像数据和所述源图像数据进行姿态估计，得到相对姿态信息；

根据所述相对姿态信息、所述源图像数据、所述目标图像数据和所述预测深度图数据对所述深度估计网络和所述姿态估计网络进行联合训练；

获取当前帧图像数据和上一帧图像数据；

将所述当前帧图像数据输入至所述深度估计网络进行深度估计，得到目标深度图数据；

根据所述目标深度图数据对所述当前帧图像数据和所述上一帧图像数据进行尺度对齐，得到当前帧对齐图像数据和上一帧对齐图像数据；

将所述当前帧对齐图像数据和上一帧对齐图像数据输入至光流网络进行位姿估计，得到位姿估计数据；

根据若干连续的所述位姿估计数据汇集成视觉里程数据。

在一些实施例，所述将所述当前帧对齐图像数据和上一帧对齐图像数据输入至光流网络进行位姿估计，得到位姿估计数据，包括：

将所述上一帧图像数据输入至所述深度估计网络进行深度估计，得到上一帧深度图数据；

从光流网络中获得所述上一帧深度图数据和所述当前帧图像数据的3D-2D匹配关系；

根据所述3D-2D匹配关系，使用PnP方法进行姿态求解，得到所述位姿估计数据。

在一些实施例，从光流网络中获得所述上一帧深度图数据和所述当前帧图像数据的3D-2D匹配关系，包括：

从光流网络中获得所述上一帧深度图数据和所述当前帧图像数据的前向光流和后向光流，根据所述前向光流和所述后向光流计算前后光流一致性；

将所述上一帧深度图数据和所述当前帧图像数据划分为多个区域，在每个区域中筛选出符合所述前后光流一致性的3D-2D匹配关系。

在一些实施例，所述根据所述相对姿态信息、所述源图像数据、所述目标图像数据和所述预测深度图数据对所述深度估计网络和所述姿态估计网络进行联合训练，包括：

根据所述相对姿态信息、所述目标图像数据和预设的相机内参矩阵构建合成图像数据；

根据所述合成图像数据、所述源图像数据和所述目标图像数据构建深度预测损失函数；

根据所述深度预测损失函数对所述深度估计网络和所述姿态估计网络进行联合训练。

在一些实施例，所述根据所述合成图像数据、所述源图像数据和所述目标图像数据构建深度预测损失函数，包括：

根据所述合成图像数据和所述目标图像数据之间的光度误差，构造最小化光度重投影误差损失函数；

根据预设的平均归一化逆深度信息和所述目标图像数据，构造边缘感知平滑损失函数；

根据所述源图像数据和所述目标图像数据之间的深度误差，构建双向一致性深度损失函数；

根据所述源图像数据和所述目标图像数据之间的相对姿态，构造双向姿态一致性损失函数；

对所述最小化光度重投影误差损失函数、所述边缘感知平滑损失函数、所述双向一致性深度损失函数和所述双向姿态一致性损失函数加权求和，得到所述深度预测损失函数。

在一些实施例，所述根据所述合成图像数据和所述目标图像数据之间的光度误差，构造所述最小化光度重投影误差损失函数，包括：

所述最小化光度重投影误差损失函数为：

；

其中，表示最小化光度重投影误差损失函数结果，/>表示所述目标图像数据，表示所述合成图像数据，/>表示由L1损失和结构相似性损失SSIM组成的光度误差；

根据所述合成图像数据和所述目标图像数据之间的深度误差，构建双向一致性深度损失函数，包括：

所述双向一致性深度损失函数为：

；

其中，表示双向一致性深度损失函数结果，/>表示源深度图数据，/>表示预测深度图数据，/>表示由/>经过扭曲计算后得到的对应深度图，/>表示由/>经过扭曲计算后得到的对应深度图。

在一些实施例，所述深度估计网络包括通道-空间注意力模块和深度估计层，所述将所述当前帧图像数据输入至所述深度估计网络进行深度估计，得到目标深度图数据，包括：

对所述当前帧图像数据进行特征提取，得到初步图像特征；

将所述初步图像特征输入至所述通道-空间注意力模块进行自注意力处理，得到高级别特征信息；其中，所述通道-空间注意力模块由原始注意力模块改进得到，改进内容包括：使用tanh函数将初步图像特征的特征大小转换为(-1,1)的范围，并通过激活函数对初步图像特征进行处理，得到所述高级别特征信息；

所述深度估计层对所述高级别特征信息进行深度估计，得到所述目标深度图数据。

为实现上述目的，本申请实施例的第二方面提出了一种视觉里程计算装置，所述装置包括：

第一获取模块，用于获取样本数据集；其中，所述样本数据集包括目标图像数据和源图像数据，所述目标图像数据和所述源图像数据属于相邻帧图像；

第一深度模块，用于将所述目标图像数据输入至预设的深度估计网络进行深度估计，得到预测深度图数据；

姿态模块，用于通过预设的姿态估计网络对所述目标图像数据和所述源图像数据进行姿态估计，得到相对姿态信息；

训练模块，用于根据所述相对姿态信息、所述源图像数据、所述目标图像数据和所述预测深度图数据对所述深度估计网络和所述姿态估计网络进行联合训练；

第二获取模块，用于获取当前帧图像数据和上一帧图像数据；

第二深度模块，用于将所述当前帧图像数据输入至所述深度估计网络进行深度估计，得到目标深度图数据；

对齐模块，用于根据所述目标深度图数据对所述当前帧图像数据和上一帧图像数据进行尺度对齐，得到当前帧对齐图像数据和上一帧对齐图像数据；

估计模块，用于将所述当前帧对齐图像数据和上一帧对齐图像数据输入至光流网络进行位姿估计，得到位姿估计数据；

汇集模块，用于根据若干连续的所述位姿估计数据汇集成视觉里程数据。

为实现上述目的，本申请实施例的第三方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

为实现上述目的，本申请实施例的第四方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。

本申请提出的视觉里程计算方法、装置、电子设备及存储介质,其通过样本数据集对深度估计网络和姿态估计网络进行联合训练，深度估计网络和位姿估计网络联合训练完成后，将深度估计网络预测结果结合多视图几何原理，进行相机位姿估计，得到尺度一致的位姿估计，解决视觉里程中尺度不一致和尺度漂移的问题，提高视觉里程计鲁棒性。

附图说明

图1是本申请实施例提供的视觉里程计算方法的一个可选的流程图；

图2是本申请实施例提供的深度估计网络和姿态估计网络的结构示意图；

图3是图1中的步骤S108的流程图；

图4是图3中的步骤S302的流程图；

图5是图1中的步骤S104的流程图；

图6是图5中的步骤S502的流程图；

图7是图1中的步骤S106的流程图；

图8是本申请实施例提供的视觉里程计算装置的结构示意图；

图9是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

视觉同时定位与地图构建（Simultaneous Localization And Mapping，SLAM）：是机器人领域经典的高计算量任务，希望机器人能够在陌生环境中，通过“定位”与“构图”的不断迭代，实现地图构建和自主导航。SLAM主要包括前端的视觉里程计和后端的非线性优化以及建图，视觉里程计提供移动设备平移和旋转的原始数据，而SLAM使用这些数据来构建环境地图以及计算定位。

视觉里程计(VisualOdometry,VO)：主要任务是处理移动设备上的摄像头拍摄的照片流输入，计算设备的移动距离和旋转角度即估计运动轨迹。

光流：表示当前帧图像的某一像素点在下一帧图像的位移，记录了连续图像中像素的运动速度和方向。

随着深度学习在计算机视觉领域的成功应用，如物体检测、图像分割，研究人员开始尝试将深度学习技术应用于视觉SLAM任务。与传统方法相比，基于深度学习的视觉SLAM方法可以从大量数据中学习先验知识，其性能不依赖于图像匹配的准确性。但是基于深度学习的视觉SLAM方法直接输出相对位姿，缺乏多视图几何一致性，在大规模场景中，易导致尺度不一致和尺度漂移的问题。

基于此，本申请实施例提供了一种视觉里程计算方法、装置、电子设备及存储介质，旨在将深度估计网络预测结果结合多视图集合原理，提出一种尺度对齐原则，得到尺度一致的位姿估计，解决基于深度学习的视觉SLAM方法直接输出相对位姿，缺乏多视图几何一致性，导致尺度不一致和尺度漂移的问题。

本申请实施例提供的视觉里程计算方法、装置、电子设备及存储介质，具体通过如下实施例进行说明，首先描述本申请实施例中的视觉里程计算方法。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能（Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的视觉里程计算方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现视觉里程计算方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

请参照图1，图1是本申请实施例提供的视觉里程计算方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤S101至步骤S109。

步骤S101，获取样本数据集；其中，样本数据集包括目标图像数据和源图像数据，目标图像数据和源图像数据属于相邻帧图像；

步骤S102，将目标图像数据输入至预设的深度估计网络进行深度估计，得到预测深度图数据；

步骤S103，通过预设的姿态估计网络对目标图像数据和源图像数据进行姿态估计，得到相对姿态信息；

步骤S104，根据相对姿态信息、源图像数据、目标图像数据和预测深度图数据对深度估计网络和姿态估计网络进行联合训练；

步骤S105，获取当前帧图像数据和上一帧图像数据；

步骤S106，将当前帧图像数据输入至深度估计网络进行深度估计，得到目标深度图数据；

步骤S107，根据目标深度图数据对当前帧图像数据和上一帧图像数据进行尺度对齐，得到当前帧对齐图像数据和上一帧对齐图像数据；

步骤S108，将当前帧对齐图像数据和上一帧对齐图像数据输入至光流网络进行位姿估计，得到位姿估计数据；

步骤S109，根据若干连续的位姿估计数据汇集成视觉里程数据。

在一些实施例的步骤S101至步骤S104中，首先通过样本数据集对深度估计网络和姿态估计网络进行联合训练，样本数据集为视频序列的连续多帧图像，将样本数据集中当前帧图像作为目标图像数据，当前帧图像的上一帧图像作为源图像数据。

具体的，图2是本申请实施例提供的深度估计网络和姿态估计网络的结构示意图，如图2所示,深度估计网络输入目标图像数据，姿态估计网络输入目标图像数据和源图像数据，深度估计网络经过卷积神经网络处理输出对应的预测深度图数据，姿态估计网络计算出相机运动姿态的变化，输出相对姿态信息。根据两组网络的输出结果共同构建重投影图像，计算重投影误差引入至损失函数中，通过损失函数来反向传播更新模型参数，同时训练深度估计网络和姿态估计网络。其中，预设的深度估计网络可以为Monodepth2网络，Monodepth2网络使用卷积神经网络来实现无监督单目图像深度估计,通过训练模型所输出的深度图像来反映场景下的三维信息。

在一些实施例的步骤S105至步骤S107中，当前帧图像数据和上一帧图像数据为一段视频序列的连续两帧图像，本实施例的目的是计算该段视频序列中的视觉里程数据。先使用深度估计网络对当前帧图像数据和上一帧图像数据进行尺度对齐，从而保证全局尺度一致性。尺度对齐的过程为：将当前帧图像数据输入至深度估计网络进行深度估计，得到目标深度图数据，根据目标深度图数据对当前帧图像数据和上一帧图像数据进行尺度对齐，得到当前帧对齐图像数据和上一帧对齐图像数据。

需要说明的是，使当前帧图像数据和上一帧图像数据的尺度对齐因子保持一致，实现尺度对齐，尺度对齐因子的计算方式如下述公式1：

，（1）

其中，表示尺度对齐因子，/>表示归一化三角测量深度，/>表示目标深度图数据，/>函数表示找出使函数值最小的变量的组合，/>表示尺度因子。

在一些实施例的步骤S107至步骤S109中，将基于手工制作的特征匹配替换为光流网络输出的匹配关系。光流包含了丰富的场景信息，依据光流原理，对于输入光流网络的相邻图像对()，光流描述了/>中的像素运动，这给出了/>中/>的所有像素的对应关系。再基于所有像素的对应关系进行位姿估计，得到位姿估计数据，对视频序列中的所有图像数据都进行位姿估计，得到若干连续的位姿估计数据，根据若干连续的位姿估计数据汇集成视觉里程数据。

本申请实施例所示意的步骤S101至步骤S109，通过样本数据集对深度估计网络和姿态估计网络进行联合训练，深度估计网络和位姿估计网络联合训练完成后，将深度估计网络预测结果结合多视图几何原理，进行相机位姿估计，得到尺度一致的位姿估计，解决视觉里程中尺度不一致和尺度漂移的问题，提高视觉里程计鲁棒性。

请参阅图3，在一些实施例中，步骤S108可以包括但不限于包括步骤S301至步骤S303：

步骤S301，将上一帧图像数据输入至深度估计网络进行深度估计，得到上一帧深度图数据；

步骤S302，从光流网络中获得上一帧深度图数据和当前帧图像数据的3D-2D匹配关系；

步骤S303，根据3D-2D匹配关系，使用PnP方法进行姿态求解，得到位姿估计数据。

在本实施例所示意的步骤S301至步骤S303，为了得到两帧图像数据的3D-2D匹配关系，将上一帧图像数据输入至深度估计网络进行深度估计，得到上一帧深度图数据。获取上一帧深度图数据中的3D匹配点，结合当前帧图像数据对应的2D匹配点，生成3D-2D匹配关系，构造PnP(Perspective-n-Point)问题。然后，通过非线性优化的方式求解PnP，计算出位姿估计数据。本实施例中，当光流过小或尺度对齐误差过大时，则使用PnP方法进行姿态求解，以保证姿态的准确性。

需要说明的是，构建的非线性优化如下述公式2：

，（2）

其中，为相机内参矩阵，/>表示使用PnP方法求解的相机姿态，/>表示相机相对姿态，/>表示有n个特征点，/>表示当前帧图像数据在像素坐标系下第i个特征点的坐标，/>表示第i特征点与坐标原点的距离，/>表示上一帧深度图数据在世界坐标系下第i个特征点的坐标。

请参阅图4，在一些实施例中，步骤S302可以包括但不限于包括步骤S401至步骤S402：

步骤S401，从光流网络中获得上一帧深度图数据和当前帧图像数据的前向光流和后向光流，根据前向光流和后向光流计算前后光流一致性；

步骤S402，将上一帧深度图数据和当前帧图像数据划分为多个区域，在每个区域中筛选出符合前后光流一致性的3D-2D匹配关系。

在一些实施例的步骤S401中，光流网络输出的是上一帧深度图数据和当前帧图像数据之间的密集匹配关系，如果考虑光流网络输出的所有密集匹配关系，则求解运动问题非常耗时，并且理论上只需稀疏的匹配即可求解该问题。通常的做法是从密集匹配的预测中随机均匀的对光流进行采样，得到稀疏匹配，再根据稀疏匹配关系进行位姿估计，得到位姿估计数据。然而，并非所有的光流预测都具有较高的精度，在实际场景中，由于物体遮挡、动态对象等干扰的存在，密集光流并不在所有区域都精确匹配，为了处理遮挡及小位移带来的误差，使用前后光流一致性检查进行初步筛选。计算前后光流一致性如下述公式3所示：

，（3）

其中，表示图像序列/>中第/>个像素点到图像序列/>的前向光流，表示图像序列/>中第/>个像素点到图像序列/>的后向光流，设置/>和/>表示阈值，设置/>=0.2，/>=2。

在一些实施例的步骤S402中，为了得到位置多样性，防止陷入局部极小值，将图像区域划分为个区域，并从每个区域中选择符合前后光流一致性的最佳K个像素点进行匹配，得到K个3D-2D匹配关系。与传统的使用几何特征点进行跟踪相比，进行前后光流一致性筛选后，再划分区域，从每个区域中选择最佳的像素点进行匹配的方法在纹理较差环境下具有更好的鲁棒性。

请参阅图5，在一些实施例中，步骤S104可以包括但不限于包括步骤S501至步骤S503：

步骤S501，根据相对姿态信息、目标图像数据和预设的相机内参矩阵构建合成图像数据；

步骤S502，根据合成图像数据、源图像数据和目标图像数据构建深度预测损失函数；

步骤S503，根据深度预测损失函数对深度估计网络和姿态估计网络进行联合训练。

在一些实施例的步骤S501中，无监督单目深度估计是在没有真实深度信息的情况下估计单个RGB图像的深度图，其主要思想来源于图像合成原理。通过下述公式4构建合成图像数据：

，（4）

其中，表示合成图像数据，/>表示相对姿态信息，/>表示目标图像数据，/>表示预设的相机内参矩阵，/>表示相机内参矩阵的逆矩阵。

在一些实施例的步骤S502至步骤S503中，根据合成图像数据、源图像数据和目标图像数据构建深度预测损失函数，根据深度预测损失函数对深度估计网络和姿态估计网络进行联合训练。

请参阅图6，在一些实施例，步骤S502包括但不限于包括步骤S601至步骤S605：

步骤S601，根据合成图像数据和目标图像数据之间的光度误差，构造最小化光度重投影误差损失函数；

步骤S602，根据预设的平均归一化逆深度信息和目标图像数据，构造边缘感知平滑损失函数；

步骤S603，根据源图像数据和目标图像数据之间的深度误差，构建双向一致性深度损失函数；

步骤S604，根据源图像数据和目标图像数据之间的相对姿态，构造双向姿态一致性损失函数；

步骤S605，对最小化光度重投影误差损失函数、边缘感知平滑损失函数、双向一致性深度损失函数和双向姿态一致性损失函数加权求和，得到深度预测损失函数。

在一些实施例的步骤S601中，最小化光度重投影误差损失函数如下述公式5所示：

，（5）

其中，表示最小化光度重投影误差损失函数结果，/>表示目标图像数据，/>表示合成图像数据，/>表示由L1损失和结构相似性损失SSIM组成的光度误差。

L1损失和结构相似性损失SSIM实际含义如下述公式6-7所示：

，（6）

，（7）

其中，表示目标图像数据，/>表示合成图像数据，/>是/>的灰度平均值，/>是/>的灰度平均值，/>是/>的对比度方差，/>是/>的对比度方差，/>是/>与的对比度协方差，/>和/>是由像素动态范围决定的两个变量，/>设置为0.85。

在一些实施例的步骤S602中，使用边缘感知平滑损失对深度预测进行平滑处理，边缘感知平滑损失函数如下述公式8所示：

，（8）

其中，表示边缘感知平滑损失函数结果,/>是预设的平均归一化逆深度信息，/>表示源图像数据的深度信息，/>表示目标图像数据的平均深度信息，/>表示目标图像数据，/>表示对x轴方向求偏导，/>表示对y轴方向求偏导。

在一些实施例的步骤S603中，深度估计网络预测的深度存在尺度模糊问题。在训练期间，假设任意两个深度图仅在比例不同，并且相应的姿态经过缩放调整，那么合成图像将相同，即光度误差也相同，这意味着深度和姿态在训练过程中共同调整其尺度以最小化光度损失，得到单图像比例一致的深度图，该深度图的深度信息具有长序列不稳定性。为了在整个序列上获得尺度一致性预测，利用网络生成的三维结构信息，建立双向一致性深度损失，双向一致性深度损失函数如下述公式9所示：

，（9）

其中，表示双向一致性深度损失函数结果，/>表示源图像数据/>对应的深度图，/>表示目标图像数据/>对应的深度图,/>表示由/>经过扭曲计算后得到的深度图，表示由/>经过扭曲计算后得到的深度图。

在一些实施例的步骤S604中，深度双向一致性损失利用合成的3D信息，确保视觉里程计的估计全局一致。同时，为了保证相邻帧之间的相对姿态估计双向可逆，进一步提升深度图的稳定性，建立双向姿态一致性损失，双向姿态一致性损失函数如下述公式10所示：

，（10）

其中，表示双向姿态一致性损失函数结果，/>表示单位矩阵，/>表示源图像数据/>到目标图像数据/>的相对姿态，/>表示目标图像数据/>到源图像数据/>的相对姿态，/>与/>互为逆姿态。

在一些实施例的步骤S605中，深度预测损失函数如下述公式11所示：

，（11）

其中，表示深度预测损失函数结果，/>表示最小化光度重投影误差损失函数结果，/>表示边缘感知平滑损失函数结果，/>表示双向一致性深度损失函数结果，/>表示双向姿态一致性损失函数结果，/>、/>和/>分别表示不同的加权系数，通过深度-姿态双向一致性损失解决深度估计网络中的尺度不一致性的问题。

请参阅图7，在一些实施例中，深度估计网络包括通道-空间注意力模块和深度估计层，步骤S106可以包括但不限于包括步骤S701至步骤S703：

步骤S701，对当前帧图像数据进行特征提取，得到初步图像特征；

步骤S702，将初步图像特征输入至通道-空间注意力模块进行自注意力处理，得到高级别特征信息；其中，通道-空间注意力模块由原始注意力模块改进得到，改进内容包括：使用tanh函数将初步图像特征的特征大小转换为(-1,1)的范围，并通过激活函数对初步图像特征进行处理，得到高级别特征信息；

步骤S703，深度估计层对高级别特征信息进行深度估计，得到目标深度图数据。

需要说明的是，典型的卷积神经网络(CNN网络)难以完全理解物体与周围环境之间的关系，因此存在纹理重影，结构不完整等问题。研究表明，注意力机制在聚合上下文信息时有良好的作用，然而，完整的注意力网络结构带来了巨大的计算负担，难以实时运行。通道-空间注意力模块（convolutional block attention module，CBAM）是一个轻量级模块，该模块有通道、空间两个独立的子模块，输入特征与注意力特征相乘，以进行自适应特征细化，聚合深层特征。

MonoDepth2使用跳跃连接的编码器-解码器结构，编码器和相关解码器层之间采用跳跃连接，可以在最终深度输出中保留高级别特征信息。将CBAM其引入到残差网络多尺度特征与卷积网络架构的解码器相关层的跳跃链接中时，发现其并不能完全解决纹理重影和结构不完整等问题。

基于此，对该模块进行了以下改进：使用tanh函数将初步图像特征的特征大小转换为(-1,1)的范围，减少CBAM模块中全局平均池化和最大池化之间的差异；使用激活函数来替换空间子模块和通道子模块卷积层中的/>函数，避免训练期间神经元过度死亡。实验结果表明，改进后的CBAM模块得到了比原CBAM模块更好的深度信息，解决了深度估计中的纹理重影和结构不完整等问题。

请参阅图8，本申请实施例还提供一种视觉里程计算装置，可以实现上述视觉里程计算方法，该装置包括：

第一获取模块801，用于获取样本数据集；其中，样本数据集包括目标图像数据和源图像数据，目标图像数据和源图像数据属于相邻帧图像；

第一深度模块802，用于将目标图像数据输入至预设的深度估计网络进行深度估计，得到预测深度图数据；

姿态模块803，用于通过预设的姿态估计网络对目标图像数据和源图像数据进行姿态估计，得到相对姿态信息；

训练模块804，用于根据相对姿态信息、源图像数据、目标图像数据和预测深度图数据对深度估计网络和姿态估计网络进行联合训练；

第二获取模块805，用于获取当前帧图像数据和上一帧图像数据；

第二深度模块806，用于将当前帧图像数据输入至深度估计网络进行深度估计，得到目标深度图数据；

对齐模块807，用于根据目标深度图数据对当前帧图像数据和上一帧图像数据进行尺度对齐，得到当前帧对齐图像数据和上一帧对齐图像数据；

估计模块808，用于将当前帧对齐图像数据和上一帧对齐图像数据输入至光流网络进行位姿估计，得到位姿估计数据；

汇集模块809，用于根据若干连续的位姿估计数据汇集成视觉里程数据。

该视觉里程计算装置的具体实施方式与上述视觉里程计算方法的具体实施例基本相同，在此不再赘述。

本申请实施例还提供了一种电子设备，电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述视觉里程计算方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。

请参阅图9，图9示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器301，可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器302，可以采用只读存储器（Read Only Memory，ROM）、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory，RAM)等形式实现。存储器302可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器302中，并由处理器301来调用执行本申请实施例的视觉里程计算方法；

输入/输出接口303，用于实现信息输入及输出；

通信接口304，用于实现本设备与其他设备的通信交互，可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信；

总线305，在设备的各个组件（例如处理器301、存储器302、输入/输出接口303和通信接口304）之间传输信息；

其中处理器301、存储器302、输入/输出接口303和通信接口304通过总线305实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述视觉里程计算方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.一种视觉里程计算方法，其特征在于，所述方法包括：

获取当前帧图像数据和上一帧图像数据；

根据若干连续的所述位姿估计数据汇集成视觉里程数据。

2.根据权利要求1所述的方法，其特征在于，所述将所述当前帧对齐图像数据和上一帧对齐图像数据输入至光流网络进行位姿估计，得到位姿估计数据，包括：

3.根据权利要求2所述的方法，其特征在于，从光流网络中获得所述上一帧深度图数据和所述当前帧图像数据的3D-2D匹配关系，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述相对姿态信息、所述源图像数据、所述目标图像数据和所述预测深度图数据对所述深度估计网络和所述姿态估计网络进行联合训练，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述合成图像数据、所述源图像数据和所述目标图像数据构建深度预测损失函数，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述合成图像数据和所述目标图像数据之间的光度误差，构造所述最小化光度重投影误差损失函数，包括：

所述最小化光度重投影误差损失函数为：

；

其中，表示最小化光度重投影误差损失函数结果，/>表示所述目标图像数据，/>表示所述合成图像数据，/>表示由L1损失和结构相似性损失SSIM组成的光度误差；

所述双向一致性深度损失函数为：

；

7.根据权利要求1所述的方法，其特征在于，所述深度估计网络包括通道-空间注意力模块和深度估计层，所述将所述当前帧图像数据输入至所述深度估计网络进行深度估计，得到目标深度图数据，包括：

对所述当前帧图像数据进行特征提取，得到初步图像特征；

8.一种视觉里程计算装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的视觉里程计算方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的视觉里程计算方法。