CN117058474B

CN117058474B - 一种基于多传感器融合的深度估计方法及系统

Info

Publication number: CN117058474B
Application number: CN202311316173.XA
Authority: CN
Inventors: 张聪炫; 冯诚; 陈震; 葛利跃; 卢锋; 王梓歌; 胡卫明; 吕科
Original assignee: Nanchang Hangkong University
Current assignee: Nanchang Hangkong University
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2024-01-12
Anticipated expiration: 2043-10-12
Also published as: CN117058474A

Abstract

本发明公开了一种基于多传感器融合的深度估计方法及系统，涉及多传感器融合深度估计技术领域，该方法包括：构建多传感器融合深度估计模型；构建相机姿态估计模型；构建训练数据集；所述训练数据集包括多帧参考图像、与多帧所述参考图像对应的激光雷达点云、惯性测量单元陀螺仪测量结果、惯性测量单元加速度计测量结果和相机内参矩阵；通过所述训练数据集对所述多传感器融合深度估计模型和所述相机姿态估计模型进行训练；通过训练好的多传感器融合深度估计模型进行深度估计。本发明采用多传感器融合深度估计模型和姿态估计模型，优化模型训练策略，在保持深度估计精度的同时，可在任一传感器故障后继续进行单目深度估计。

Description

一种基于多传感器融合的深度估计方法及系统

技术领域

本发明涉及多传感器融合深度估计技术领域，特别涉及一种基于多传感器融合的深度估计方法及系统。

背景技术

在室外场景中获取深度信息是一项重要的计算机视觉任务，深度信息可以提供大量关于不同物体之间的空间和逻辑关系。基于点云或基于立体匹配的方法都是获取场景深度信息的重要手段，已经有许多工作进行了相应的研究。但是较少工作关注多传感器融合时传感器故障后的鲁棒性问题。

目前，基于卷积神经网络的多传感器融合深度估计技术是多传感器融合深度估计技术中最常采用的一类技术，该类方法通常联合相机与激光雷达作为输入获取稠密的深度估计结果，但是在任一传感器故障时，无法在不切换模型的情况下仅依靠另一传感器完成原有深度估计任务。切换模型往往需要花费十数秒时间，限制了此类方法在各个领域，特别是在自动驾驶车辆上的应用。

发明内容

本发明的目的是提供一种基于多传感器融合的深度估计方法及系统，采用多传感器融合深度估计模型和姿态估计模型，优化模型训练策略，在保持深度估计精度的同时，可在任一传感器故障后继续进行单目深度估计。

为实现上述目的，本发明提供了如下方案：

一种基于多传感器融合的深度估计方法，包括：

构建多传感器融合深度估计模型；所述多传感器融合深度估计模型包括第一金字塔编码器、第二金字塔编码器和深度解码器；所述第一金字塔编码器和所述第二金字塔编码器由十五层卷积层组成；所述深度解码器由十层卷积层组成；

构建相机姿态估计模型；所述相机姿态估计模型包括第三金字塔编码器和姿态解码器；所述第三金字塔编码器由十五层卷积层组成，所述姿态解码器由一层卷积层组成；

构建训练数据集；所述训练数据集包括多帧参考图像、与多帧所述参考图像对应的激光雷达点云、惯性测量单元陀螺仪测量结果、惯性测量单元加速度计测量结果和相机内参矩阵；

通过所述训练数据集对所述多传感器融合深度估计模型和所述相机姿态估计模型进行训练；

通过训练好的多传感器融合深度估计模型进行深度估。

为实现上述目的，本发明还提供了如下方案：

一种基于多传感器融合的深度估计系统，包括：

第一模型构建模块，用于构建多传感器融合深度估计模型；所述多传感器融合深度估计模型包括第一金字塔编码器、第二金字塔编码器和深度解码器；所述第一金字塔编码器和所述第二金字塔编码器由十五层卷积层组成；所述深度解码器由十层卷积层组成；

第二模型构建模块，用于构建相机姿态估计模型；所述相机姿态估计模型包括第三金字塔编码器和姿态解码器；所述第三金字塔编码器由十五层卷积层组成，所述姿态解码器由一层卷积层组成；

数据集构建模块，用于构建训练数据集；所述训练数据集包括多帧参考图像、与多帧所述参考图像对应的激光雷达点云、惯性测量单元陀螺仪测量结果、惯性测量单元加速度计测量结果和相机内参矩阵；

训练模块，用于通过所述训练数据集对所述多传感器融合深度估计模型和所述相机姿态估计模型进行训练；

深度估计模块，用于通过训练好的多传感器融合深度估计模型进行深度估计。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明分别利用多传感器融合深度估计模型的两个金字塔编码器对参考图像和激光雷达点云进行特征提取，再利用多传感器融合深度估计模型的深度解码器进行深度估计，得到深度估计结果和激光雷达点云置信度估计结果，在训练过程中，采用多损失联合方式进行鲁棒训练，在保持深度估计精度的同时，可在任一传感器故障后继续进行单目深度估计。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于多传感器融合的深度估计方法的流程图；

图2为本发明提供的基于多传感器融合的深度估计方法的原理图；

图3为街道场景下的一帧图像示意图；

图4为街道场景下的一帧激光雷达点云的示意图；

图5采用本发明进行深度估计的结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于多传感器融合的深度估计方法及系统，在保持深度估计精度的同时，可在任一传感器故障后继续进行单目深度估计。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

如图1-图2所示，本发明提供的基于多传感器融合的深度估计方法，包括以下步骤：

步骤10：构建多传感器融合深度估计模型；多传感器融合深度估计模型包括第一金字塔编码器、第二金字塔编码器和深度解码器。

第一金字塔编码器和第二金字塔编码器由十五层卷积层组成，用于提取图像和激光雷达点云特征，分别接收一帧彩色图像和一帧激光雷达点云为输入，输出多尺度图像特征图和多尺度激光雷达点云特征图。

深度解码器由十层卷积层组成，用于融合多尺度图像特征图和多尺度激光雷达点云特征图，并计算输出深度估计结果和激光雷达点云置信度结果。

步骤20：构建相机姿态估计模型；相机姿态估计模型包括第三金字塔编码器和姿态解码器。

第三金字塔编码器由十五层卷积层组成，用于提取姿态特征图，分别接收两帧彩色图像和两帧激光雷达点云为输入，输出多尺度姿态特征图。

姿态解码器由一层卷积层组成，用于接收第三金字塔编码器输出的多尺度姿态特征图作为输入，输出姿态估计结果。

步骤30：构建训练数据集；训练数据集包括多帧参考图像、与多帧参考图像对应的激光雷达点云、惯性测量单元陀螺仪测量结果、惯性测量单元加速度计测量结果和相机内参矩阵。

步骤40：通过训练数据集对多传感器融合深度估计模型和相机姿态估计模型进行训练。具体包括：

S41：将当前帧参考图像和当前帧激光雷达点云输入至多传感器融合深度估计模型中，输出深度估计结果和激光雷达置信度估计结果。

分别利用两个金字塔编码器（即第一金字塔编码器和第二金字塔编码器）对参考图像和激光雷达点云/>进行特征金字塔下采样分层，在每层金字塔分别进行三次卷积运算操作，获取五层分辨率不同的图像特征图（即多尺度图像特征图）和五层分辨率不同的激光雷达点云特征图（即多尺度激光雷达点云特征图），计算方式如下：

(1)

式中：运算符号Conv代表了卷积运算操作，其中、/>、/>分别是步长为1、2、3的/>卷积运算操作；/>是第一金字塔编码器输出的多尺度图像特征图；/>是第二金字塔编码器输出的多尺度激光雷达点云特征图，i表示金字塔编码器的第i层，/>为第一金字塔编码器第i-1层提取到的图像特征图，为第二金字塔编码器第i-1层提取到的激光雷达点云特征图。

利用深度解码器对多尺度图像特征图和多尺度激光雷达点云特征图/>进行反向遍历，对每层图像特征图和激光雷达点云特征图进行上采样，并与上一层的图像特征图和激光雷达点云特征图进行融合，获取最终的融合特征图X_i，计算方式如下：

(2)

式中：是融合后的特征图；/>是深度解码器输出的深度估计结果；/>是深度解码器输出的激光雷达置信度估计结果；X_i+1是上一层的融合特征图，/>是上一层的激光雷达点云特征图，/>是上一层的图像特征图，M_i+1是上一层计算的激光雷达置信度估计结果，运算符号/>代表了上采样操作；/>是矩阵逐点相乘运算；运算符号Cat是通道叠加运算。

为上述多传感器融合深度估计模型输入当前帧参考图像I_t和当前帧激光雷达点云P_t，得到当前帧参考图像I_t的深度估计结果D_t和激光雷达点云置信度估计结果。

步骤S42：将当前帧参考图像、上一帧参考图像、当前帧激光雷达点云和上一帧激光雷达点云输入至相机姿态估计模型中，输出姿态估计结果；姿态估计结果包括相机在上一帧参考图像到当前帧参考图像的相对位姿变化、位姿变化协方差估计结果、相机运动速度估计结果和相机重力加速度估计结果。

利用第三金字塔编码器对当前帧参考图像I_t、当前帧激光雷达点云P_t、上一帧参考图像I_t-1和上一帧激光雷达点云P_t-1进行特征金字塔下采样分层，在每层金字塔分别进行三次卷积运算操作，获取五层分辨率不同的姿态特征图，计算方式如下：

(3)

式中：是第三金字塔编码器输出的多尺度姿态特征图。

利用姿态解码器计算相机姿态估计，计算方式如下：

(4)

式中：是相机在上一帧参考图像到当前帧参考图像的相对位姿变化；是对应的位姿变化协方差估计结果；/>是相机运动速度估计结果；/>是相机重力加速度估计结果；/>是第三金字塔编码器输出的最后一层的姿态特征图。

通过相机在上一帧参考图像到当前帧参考图像的相对位姿变化、对应的位姿变化协方差估计结果/>、相机运动速度估计结果/>、相机重力加速度估计结果、当前帧惯性测量单元陀螺仪测量结果/>、上一帧惯性测量单元陀螺仪测量结果、当前帧惯性测量单元加速度计测量结果/>、上一帧惯性测量单元加速度计测量结果，计算融合惯性测量单元测量结果后的相机在上一帧参考图像到当前帧参考图像的相对位姿变化/>，计算方式如下：

(5)

式中：是扩展卡尔曼滤波器。

步骤S43：根据深度估计结果、激光雷达置信度估计结果、相机在上一帧参考图像到当前帧参考图像的相对位姿变化、融合惯性测量单元测量结果后的相机在上一帧参考图像到当前帧参考图像的相对位姿变化以及相机内参矩阵，确定损失函数。

通过分别利用姿态估计模型得到的相机在上一帧参考图像到当前帧参考图像的相对位姿变化和融合惯性测量单元后得到的相机在上一帧参考图像到当前帧参考图像的相对位姿变化/>，结合深度估计结果D_t、由相机内参矩阵K和上一帧参考图像I_t-1，分别计算当前帧合成图像/>和/>（即第一当前帧合成图像和第二当前帧合成图像），计算方式如下：

(6)

式中：是可微分采样器；/>是返回上一帧参考图像I_t-1中投影深度二维坐标的投影函数。

为了评估深度估计结果D_t的准确性，计算当前帧合成图像和/>分别与当前帧参考图像I_t的差异性，计算方式如下：

(7)

式中：；/>是结构相似性评估函数；/>是L1距离计算函数；/>和分别是视觉亮度重建损失和惯性测量单元亮度重建损失，a代指I_t，b代指/>或，pe（.）表示视觉亮度一致性误差计算函数。

为了评估相机姿态估计模型和实际惯性测量单元姿态估计结果的一致性，计算当前帧合成图像和/>的差异性，计算方式如下：

(8)

式中，为视觉-惯性重建一致性损失。

为了评估深度估计结果D_t的准确性，计算深度估计结果和当前帧激光雷达点云P_t的差异性，计算方式如下：

(9)

式中：是L2距离计算函数；/>是激光雷达点云监督损失；/>是二值化函数；M₀是多传感器融合深度估计模型输出的激光雷达点云置信度估计结果；/>是当前帧激光雷达点云P_t的有效掩膜。

为了促进多传感器融合深度估计模型输出正确的激光雷达点云置信度，计算激光雷达点云置信度估计结果M₀和当前帧激光雷达点云P_t的有效掩膜之间的差异性，计算方式如下：

(10)

式中，为置信度掩膜对抗损失。

组合前述各类损失函数，计算本次前向传播损失函数，计算方式如下：

(11)

为了实现单一传感器失效下模型仍能进行准确深度估计，分别将当前帧参考图像I_t和当前帧激光雷达点云P_t设置为全零矩阵作为输入，重新计算式(6)-(11)，得到相机失效下的组合损失函数和激光雷达失效下的组合损失函数/>。本次迭代的最终损失函数计算方式如下：

(12)

步骤S44：通过损失函数对多传感器融合深度估计模型和相机姿态估计模型进行反向传播参数更新，并不断从训练数据集中获取数据样本进行迭代，直至损失函数收敛，完成多传感器融合深度估计模型和相机姿态估计模型的训练。

步骤50：通过训练好的多传感器融合深度估计模型进行深度估计。

训练完成后，输入街道场景图像的一帧图像（如图3所示）和一帧激光雷达点云（如图4所示），输出深度估计结果（如图5所示）。

本发明在训练过程中，对所得到深度估计结果和激光雷达点云置信度结果采用多损失联合方式进行鲁棒训练，能在任意单一传感器故障的同时保持深度估计。

实施例二

为了执行上述实施例一对应的方法，以实现相应的功能和技术效果，下面提供了一种基于多传感器融合的深度估计系统。

该系统包括：

第一模型构建模块，用于构建多传感器融合深度估计模型；多传感器融合深度估计模型包括第一金字塔编码器、第二金字塔编码器和深度解码器；第一金字塔编码器和第二金字塔编码器由十五层卷积层组成；深度解码器由十层卷积层组成。

第二模型构建模块，用于构建相机姿态估计模型；相机姿态估计模型包括第三金字塔编码器和姿态解码器；第三金字塔编码器由十五层卷积层组成，姿态解码器由一层卷积层组成。

数据集构建模块，用于构建训练数据集；训练数据集包括多帧参考图像、与多帧参考图像对应的激光雷达点云、惯性测量单元陀螺仪测量结果、惯性测量单元加速度计测量结果和相机内参矩阵。

训练模块，用于通过训练数据集对多传感器融合深度估计模型和相机姿态估计模型进行训练。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于多传感器融合的深度估计方法，其特征在于，包括：

通过训练好的多传感器融合深度估计模型进行深度估计；

其中，通过所述训练数据集对所述多传感器融合深度估计模型和所述相机姿态估计模型进行训练，具体包括：

将当前帧参考图像和当前帧激光雷达点云输入至所述多传感器融合深度估计模型中，输出深度估计结果和激光雷达置信度估计结果；

将当前帧参考图像、上一帧参考图像、当前帧激光雷达点云和上一帧激光雷达点云输入至所述相机姿态估计模型中，输出姿态估计结果；所述姿态估计结果包括相机在上一帧参考图像到当前帧参考图像的相对位姿变化、位姿变化协方差估计结果、相机运动速度估计结果和相机重力加速度估计结果；

根据所述姿态估计结果、当前帧惯性测量单元陀螺仪测量结果、上一帧惯性测量单元陀螺仪测量结果、当前帧惯性测量单元加速度计测量结果和上一帧惯性测量单元加速度计测量结果，计算融合惯性测量单元测量结果后的相机在上一帧参考图像到当前帧参考图像的相对位姿变化；

根据所述深度估计结果、所述激光雷达置信度估计结果、相机在上一帧参考图像到当前帧参考图像的相对位姿变化、融合惯性测量单元测量结果后的相机在上一帧参考图像到当前帧参考图像的相对位姿变化以及所述相机内参矩阵，确定损失函数；

通过所述损失函数对所述多传感器融合深度估计模型和所述相机姿态估计模型进行反向传播参数更新，并不断从所述训练数据集中获取数据样本进行迭代，直至所述损失函数收敛，完成所述多传感器融合深度估计模型和所述相机姿态估计模型的训练；

其中，根据所述深度估计结果、所述激光雷达置信度估计结果、相机在上一帧参考图像到当前帧参考图像的相对位姿变化、融合惯性测量单元测量结果后的相机在上一帧参考图像到当前帧参考图像的相对位姿变化以及所述相机内参矩阵，确定损失函数，具体包括：

根据所述深度估计结果、相机在上一帧参考图像到当前帧参考图像的相对位姿变化、当前帧参考图像以及所述相机内参矩阵，计算第一当前帧合成图像；

根据所述深度估计结果、融合惯性测量单元测量结果后的相机在上一帧参考图像到当前帧参考图像的相对位姿变化、当前帧参考图像以及所述相机内参矩阵，计算第二当前帧合成图像；

计算所述第一当前帧合成图像与所述当前帧参考图像的差异性，确定视觉亮度重建损失；

计算所述第二当前帧合成图像与所述当前帧参考图像的差异性，确定惯性测量单元亮度重建损失；

计算所述第一当前帧合成图像与所述第二当前帧合成图像的差异性，确定视觉-惯性重建一致性损失；

计算当前帧参考图像的深度估计结果与所述当前帧激光雷达点云的差异性，确定激光雷达点云监督损失；

计算激光雷达置信度估计结果与当前帧激光雷达点云的有效掩膜之间的差异性，确定置信度掩膜对抗损失；

基于所述视觉亮度重建损失、所述惯性测量单元亮度重建损失、所述视觉-惯性重建一致性损失、所述激光雷达点云监督损失以及所述置信度掩膜对抗损失，计算前向传播损失函数；

分别将当前帧参考图像和当前帧激光雷达点云设置为全零矩阵，计算得到相机失效下的组合损失函数和激光雷达失效下的组合损失函数；

基于所述前向传播损失函数、所述相机失效下的组合损失函数以及所述激光雷达失效下的组合损失函数，计算最终的损失函数。

2.根据权利要求1所述的基于多传感器融合的深度估计方法，其特征在于，将当前帧参考图像和当前帧激光雷达点云输入至所述多传感器融合深度估计模型中，输出深度估计结果和激光雷达置信度估计结果，具体包括：

将当前帧参考图像输入至所述第一金字塔编码器中，输出多尺度图像特征图；

将当前帧激光雷达点云输入至所述第二金字塔编码器中，输出多尺度激光雷达点云特征图；

将所述多尺度图像特征图和所述多尺度激光雷达点云特征图输入至所述深度解码器中，输出深度估计结果和激光雷达置信度估计结果。

3.根据权利要求1所述的基于多传感器融合的深度估计方法，其特征在于，将当前帧参考图像、上一帧参考图像、当前帧激光雷达点云和上一帧激光雷达点云输入至所述相机姿态估计模型中，输出姿态估计结果，具体包括：

将当前帧参考图像、上一帧参考图像、当前帧激光雷达点云和上一帧激光雷达点云输入至所述第三金字塔编码器中，输出多尺度姿态特征图；

将所述多尺度姿态特征图输入至所述姿态解码器中，输出姿态估计结果。

4.根据权利要求1所述的基于多传感器融合的深度估计方法，其特征在于，所述视觉亮度重建损失和所述惯性测量单元亮度重建损失的计算公式如下：

；

其中，为视觉亮度重建损失，/>为惯性测量单元亮度重建损失，I_t为当前帧参考图像，/>为第一当前帧合成图像，/>为第二当前帧合成图像，ɑ=0.85，SSIM为结构相似性评估函数，/>为L1距离计算函数，ɑ代指I_t，b代指/>或/>，pe（.）表示视觉亮度一致性误差计算函数。

5.根据权利要求4所述的基于多传感器融合的深度估计方法，其特征在于，所述视觉-惯性重建一致性损失的计算公式如下：

；

其中，为视觉-惯性重建一致性损失。

6.根据权利要求4所述的基于多传感器融合的深度估计方法，其特征在于，所述激光雷达点云监督损失的计算公式如下：

；

其中，为激光雷达点云监督损失，D_t为当前帧参考图像的深度估计结果，P_t为当前帧激光雷达点云，M₀为激光雷达点云置信度估计结果，/>为当前帧激光雷达点云P_t的有效掩膜，/>为L2距离计算函数，/>为二值化函数。

7.根据权利要求6所述的基于多传感器融合的深度估计方法，其特征在于，所述置信度掩膜对抗损失的计算公式如下：

；

其中，为置信度掩膜对抗损失。

8.一种基于多传感器融合的深度估计系统，其特征在于，包括：

深度估计模块，用于通过训练好的多传感器融合深度估计模型进行深度估计；