CN114596474B

CN114596474B - 一种融合多模态信息的单目深度估计方法

Info

Publication number: CN114596474B
Application number: CN202210185451.1A
Authority: CN
Inventors: 马伟; 严武斌
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-02-16
Filing date: 2022-02-16
Publication date: 2024-07-19
Anticipated expiration: 2042-02-16
Also published as: CN114596474A

Abstract

本发明涉及一种融合多模态信息的单目深度估计方法。首先输入单张RGB图像，通过常规主干网络(如ResNet)提取特征后再经过并列的水平和竖直方向上的全局池化算子，跨通道的1x1卷积，多尺度的空洞卷积以及语义分割预测模块。至此，我们得到了两种不同模态的特征图D和S(深度和语义模态)。将S中每一个像素分别隶属于特定语义类别的概率分布向量与D中的深度表征向量相乘，得到多模态融合的相似度矩阵，最后再与特征图D做残差连接得到最后的输出特征图F。除此以外，我们更是重新设计了一种损失函数来适配和训练我们的深度神经网络模型。和与现有方法相比，本发明更能反映场景中不同物体类别的轮廓与更高的深度估计精度。

Description

一种融合多模态信息的单目深度估计方法

技术领域

本发明属于计算机视觉、机器人视觉感知和深度学习等交叉领域，涉及一种融合多模态信息的单目深度估计方法。

背景技术

普通摄像机在成像过程中只能记录场景的颜色信息，无法记录实际物体到摄像机之间的距离信息，即在三维空间投影到二维平面的过程中，丢失了深度信息。相较于通过激光测距仪等各种硬件设备获取物体表面上一定数量点的深度，基于单幅图像的深度估计方法由于不需要昂贵的设备仪器和专业人员，具有更广的应用范围。引入语义线索提高深度估计性能的方法大致可分为两类。第一类利用语义信息，在静态场景中显式预测出物体级别的掩膜或者直接建模图像的动态区域，并消除这部分在光度损失计算中的影响。例如发表在2019年CVPR上的文章“SIGNet:Semantic Instance Aided Unsupervised 3DGeometry Perception”；第二类方法试图在一个有统一的端到端框架中学习这两个任务，并使用一致性损失来确保这两个任务同时优化并相互规范。同样发表在2019年CVPR上的“Pattern-Affinitive Propagation Across Depth,Surface Normal and SemanticSegmentation”提出了一种新的模式初始传播(PAP)方法，以利用任务间匹配的非局部特征信息。以上方法没有充分利用好对于深度估计推理能力更为重要的高层次的语义表征。这样的做法会导致无法充分利用任务之间的共性和特征(例如深度的不连续通常需要语义对齐边缘，但会损害对象内的语义一致性)。并且在融合阶段，特征图的粗暴concat可能会导致不同模式信息的歧义。

发明内容

目前，单目图像深度估计方法仍存在许多不足，单任务学习算法下只遵循了传统场景理解的卷积结构设计理念，缺乏对场景语义层次的关联建模和对视场深度分布特点的考虑。对于有序多任务问题而言，传统方法缺乏同模态有序标签(深度标签)和跨模态标签(深度与语义)之间的显式关联关系建模。本发明力图获取特定区域的上下文表征，具体而言就是通过文中提出的十字区域上下文聚合模块和物体区域上下文融合模块的约束来提升模型对场景深度估计能力。

在本发明中，解决了在监督学习框架下从单个RGB图像预测深度图的问题。将RGB域表示为实值深度域表示为给定一个训练集和U是训练集的样本总量大小。单目深度估计任务是学习一个非线性映射图1显示了所提出的单目深度估计算法结构的概述，该算法结构由四个主要部分组成:1)在MIT ADE20K上预训练的骨干网提取基本特征，2)新提出的十字形上下文模块，简称(CSC)聚合全局深度特征，3)辅助语义预测分支，4)物体-区域上下文聚合模块，简称(ORC)集成跨模态信息。将具有全局深度布局线索的十字形上下文和具有语义层次线索的对象-区域上下文这两种结构上下文依次聚合在一起，用于增强像素表示以进行深度估计。双结构上下文具有结构性和互补性:CSC编码场景的全局深度布局以约束之后的物体级别的区域上下文；ORC在被提出的模态自适应和像素-对象相似度计算的帮助下，在物体级别区域细化局部上下文。

一种融合多模态信息的单目深度估计算法，其特征在于包括以下步骤：

步骤一，主干网络提取基础特征图；

步骤二，十字区域上下文聚合算子(CSC)；

得到由主干网络HRNet处理后的三维特征图其中C，H和W分别表示三维特征图的通道数，高和宽。则代表实数域。(之后出现的C，H，W和定义保持一致)；然后，分别构造在竖直和水平方向上的形状为(C,H,1)和(C,1,W)的条带状池化算子；水平和竖直方向上的条带状池化算子的输出分别记为和在数学上可以表示为:

其中表示三维特征图中空间位置为c，i，j的单个像素元素；和则分别是和中的行列向量。由于水平和竖直条带状池化层，目标像素被连接到所有具有相同水平和垂直坐标的区域；为了得到包含更多全局先验的输出首先将和相加，然后得到中间特征Z，如下所示:

其中指的是基于元素的乘法，conv是sigmoid函数之前的一个常规卷积；最后，得到另外两个分支的输出，即ASPP分支和1×1跨通道卷积分支，并将它们与中间特征Z连接，得到最终的十字区域上下文聚合深度特征X；

步骤三，物体区域上下文融合算子(OCR)

在进行ORC聚合之前，得到了两种不同模式的特征映射，分别表示为和X表示CSC聚合模块产生的深度特征图；利用交叉熵损失从语义信息监督中学习到的软目标区域矩阵R；每个对象区域矩阵R_k表示对应像素属于类k的置信度；将属于第k个对象区域的所有像素按其度数加权的表征相加，形成模态自适应矩阵

这里，是由转置的深度特征X得到的像素级表示，x_p表示转置深度特征图x中坐标位置为p的单个元素；是像素p属于第k个对象区域的归一化度；使用spatialsoftmax对每个对象区域表征R_k进行归一化；

在M中，每个像素与一组目标区域之间的相关矩阵M表示为:

其中M_pk表示为相关性矩阵M中坐标位置为(p,k)的单个元素，exp是以自然常数e为底的指数函数；κ(*,*)是一个核函数，它由两个卷积操作组成，最后输出是它们卷积结果之间的相乘；t_k和t_q是模态自适应矩阵t的第k和第q个向量；将K对象区域表示与像素-物体区域相关性矩阵M进行聚合，得到二元结构的上下文增强特征；

其中，和φ(*)都是以1×1conv→BN→ReLU实现的卷积算子，Y_p是Y中第p个像素的增广深度向量；像素p的最终表示是通过将原始深度特征X和增强特征Y连接得到的；

步骤四，有序多任务学习的损失函数；

用Ψ(w,h|Θ)表示像素方向的焦点有序损失函数，其中Θ是网络的权值参数；焦点顺序损失由:

这里，l_(w,h)是在空间位置(w,h)上使用中的SID方法离散的深度真值标签；l_(w,h)∈{0,1,...,C-1}.为在像素位置(w,h)的估计离散值；表示大于离散深度标签c的概率；SID策略将给定深度区间在log对数空间中统一离散，更有利于场景深度建模；但有序回归本质上是一个二元分类问题；SID策略加剧了样本的不平衡程度，而样本不平衡的考量在分类任务中起着至关重要的作用；α是一个焦点项，它引导预测者更多地关注遥远的难深度区域，以平衡样本权重；可学习系数处理难易样本不平衡问题，α帮助实现分类任务本身；当α的值固定为0.5时，焦点序数损失将退化为序数回归损失；从本质上讲Ψ(w,h|Θ)是总数为C的二分类器预测结果的和；此外，由于分类问题的性质，可以看到，在确定深度真值的最大值时，焦点序数损耗也具有尺度不变性；焦点有序损失被定义为焦点顺序损失Ψ(w,h|Θ)的平均值：

步骤五，网络训练方法

使用PyTorch来训练的方法，并使用单个NVIDIA RTX 3090 GPU卡来训练它；使用ResNet-101(配置输出跨距为8)或HRNet48-V2作为骨干；都在MIT的ADE20K上进行了语义分割的预训练；使用随机梯度下降(SGD)作为的优化器，批处理大小为3，动量为0.9，训练中权值衰减为5e-4；采用多项式学习率策略总计迭代30epoch。

与现有技术相比，本发明具有以下优点：考虑了视场深度分布特点和跨模态标签(深度与语义)之间的显式关联关系建模，因此更能反映场景中不同物体类别的轮廓与更高的深度估计精度。

附图说明

图1为本发明所涉及方法的流程图；

图2为十字区域上下文聚合模块的示意图；

图3为应用本发明算法其他深度估计算法在KITTI数据集上的可视化效果比较，可以看出我们的方法预测的物体具有跟清晰的轮廓。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步说明。

本发明的流程如图1所示，具体包括如下步骤：

步骤一，主干网络提取基础特征图。

读入图像后，对输入的RGB图像进行特征提取。可以选用的深度卷积神经网包括ResNet(Deep residual network)和HRNet(Deep High-Resolution RepresentationLearning)，并且他们都在MIT ADE20K数据集上了做了预训练处理。

步骤二，十字区域上下文聚合(CSC)

现有的方法考虑了多尺度的上下文聚合。例如，2018年CVPR文章“Deep OrdinalRegression Network for Monocular Depth Estimation”，简称DORN采用atrous空间金字塔池(ASPP)来捕获多个局部尺度的空间上下文，并采用全图像编码器(全局平均池化)来聚合全局上下文信息。然而，全局/金字塔池化操作都是在固定的方形区域中进行的，无法在有序深度分布中模拟长距离结构上下文。为了缓解上述问题，提出了十字形上下文聚合模块。如图2所示，本方法提出的CSC聚合模块采用多分支结构。它包含一个ASPP分支，一个1×1的跨通道卷积分支和一个十字形卷积分支。ASPP和跨通道卷积分支与DORN内的子结构一致。ASPP通过扩展卷积运算从多个大的方形接收域提取特征。膨胀率分别为6、12和18。1×1卷积内核学习捕捉跨通道交互。与DORN不同的是，放弃了全局平均池化，设计了十字形卷积分支来捕获全局和结构深度分布。十字形卷积分支首先沿水平方向和竖直方向部署条带状池化内核，便于捕获在同一水平线上聚集并向竖直方向扩展的深度标签的依赖关系。然后，它利用水平和竖直条带状池化操作，从两个正交空间维度聚合长距离深度上下文。得到由主干网络HRNet处理后的三维特征图其中C，H和W分别表示三维特征图的通道数，高和宽(之后出现的C，H和W定义保持一致)。然后，分别构造在竖直和水平方向上的形状为(C,H,1)和(C,1,W)的条带状池化算子。水平和竖直方向上的条带状池化算子的输出分别记为和在数学上可以表示为:

其中表示三维特征图中空间位置为c，i，j的单个像素元素。和则分别是和中的行列向量。由于水平和竖直条带状池化层，目标像素被连接到所有具有相同水平和垂直坐标的区域。为了得到包含更多全局先验的输出首先将和相加，然后得到中间特征Z，如下所示:

其中指的是基于元素的乘法，conv是sigmoid函数之前的一个常规卷积。最后，得到另外两个分支的输出，即ASPP分支和1×1跨通道卷积分支，并将它们与中间特征Z连接，得到最终的十字区域上下文聚合深度特征X。

步骤三，物体区域上下文融合(ORC)

语义信息对于深度估计很有帮助。然而，现有的工作通常使用语义作为输入，在网络后期处理阶段或以特征连接的方式。这些方法不利于语义与其他上下文的端到端融合。在本方法中，在ORC融合模块中加入了语义，这进一步丰富了CSC增强特征的语义上下文。双结构上下文聚合以一种兼容的端到端方式执行，因此有利于调制不同类型信息的上下文。如图1所示，在进行ORC聚合之前，得到了两种不同模式的特征映射，分别表示为和X表示CSC聚合模块产生的深度特征图。利用交叉熵损失从语义信息监督中学习到的软目标区域矩阵R。每个对象区域矩阵R_k表示对应像素属于类k的置信度。相关矩阵在位置和通道注意、affinity-matrix、pixel-region Relation等工作中得到了广泛的应用。然而，它们都专注于单模态特征增强，目的是在局部特征之上建模更广泛的上下文关系。而提出了模态自适应矩阵来自适地聚合几何和语义信息等多模态信息。将属于第k个对象区域的所有像素按其度数加权的表征相加，形成模态自适应矩阵

这里，是由转置的深度特征X得到的像素级表示，x_p表示转置深度特征图x中坐标位置为p的单个元素。是像素p属于第k个对象区域的归一化度。使用spatialsoftmax对每个对象区域表征R_k进行归一化。

在M中，每个像素与一组目标区域之间的相关矩阵M表示为:

其中M_pk表示为相关性矩阵M中坐标位置为(p,k)的单个元素，exp是以自然常数e为底的指数函数。κ(*,*)是一个核函数，它由两个卷积操作组成，然后是它们的结果之间的矩阵乘法。t_k和t_q是模态自适应矩阵t的第k和第q个向量。将K对象区域表示与像素-物体区域相关性矩阵M进行聚合，得到二元结构的上下文增强特征。

其中，和φ(*)都是以1×1conv→BN→ReLU实现的卷积算子，Y_p是Y中第p个像素的增广深度向量。像素p的最终表示是通过将原始深度特征X和增强特征Y连接得到的。

步骤四，有序多任务学习的损失函数。

在现有的大部分工作中，深度预测被表述为一个回归问题，其中，L₁和L₂损失通常被用来最小化预测结果与真值之间的像素级距离。中引入了尺度不变损失(在log对数空间中)，为缓解全局绝对尺度下深度预测的模糊性，由:

其中，α和λ是可学习的参数。d_(w,h)和分别为像素空间位置(w,h)的深度真值和预测深度值。N表示图像域中的总像素数。该损失函数应用于深度估计的回归范式。为了是网络更加关注于来自视场远距的难样本，提出了焦点有序损失(FOL)。用Ψ(w,h|Θ)表示像素方向的焦点有序损失函数，其中Θ是网络的权值参数。焦点顺序损失由:

这里，l_(w,h)是在空间位置(w,h)上使用中的SID方法离散的深度真值标签。l_(w,h)∈{0,1,...,C-1}.为在像素位置(w,h)的估计离散值。表示大于离散深度标签c的概率。SID策略将给定深度区间在log对数空间中统一离散，更有利于场景深度建模。但有序回归本质上是一个二元分类问题。SID策略加剧了样本的不平衡程度，而样本不平衡的考量在分类任务中起着至关重要的作用。α是一个焦点项，它引导预测者更多地关注遥远的难深度区域，以平衡样本权重。可学习系数处理难易样本不平衡问题，α帮助实现分类任务本身。当α的值固定为0.5时，焦点序数损失将退化为序数回归损失。从本质上讲Ψ(w,h|Θ)是总数为C的二分类器预测结果的和。此外，由于分类问题的性质，可以看到，在确定深度真值的最大值时，焦点序数损耗也具有尺度不变性。焦点有序损失被定义为焦点顺序损失Ψ(w,h|Θ)的平均值：

步骤五，网络训练方法

使用PyTorch来训练方法，并使用单个NVIDIARTX 3090GPU卡来训练它。使用ResNet-101(配置输出跨距为8)或HRNet48-V2作为骨干。他们都在MIT的ADE20K上进行了语义分割的预训练。使用随机梯度下降(SGD)作为优化器，批处理大小为3，动量为0.9，训练中权值衰减为5e-4。采用多项式学习率策略总计迭代30epoch，选取量化指标最好的作为最终的模型方法。

与其他方法在kitti数据集上的可视化对比，从左网友分别为输入的RGB图像，深度的真值图像，2020年方法“From Big to Small：Multi-Scale Local Planar Guidancefor Monocular Depth Estimation”(BTS)算法与本发明的可视化结果。可以看出算法估计的深度有更清晰的物体轮廓。

表1为应用本发明算法其他深度估计算法在KITTI数据集上的量化结果对比；可以看出算法在大部分指标上都处于领先地位，能够预测出跟准确的深度值。

Claims

1.一种融合多模态信息的单目深度估计算法，其特征在于包括以下步骤：

步骤一，主干网络提取基础特征图；

步骤二，十字区域上下文聚合算子CSC；

得到由主干网络HRNet处理后的三维特征图其中C，H和W分别表示三维特征图的通道数，高和宽；则代表实数域；然后，分别构造在竖直和水平方向上的形状为(C,H,1)和(C,1,W)的条带状池化算子；水平和竖直方向上的条带状池化算子的输出分别记为和在数学上表示为:

其中表示三维特征图中空间位置为c，i，j的单个像素元素；和则分别是和中的行列向量；由于水平和竖直条带状池化层，目标像素被连接到所有具有相同水平和垂直坐标的区域；为了得到包含更多全局先验的输出首先将和相加，然后得到中间特征Z，如下所示:

其中⊙指的是基于元素的乘法，conv是sigmoid函数之前的一个常规卷积；最后，得到另外两个分支的输出，即ASPP分支和1×1跨通道卷积分支，并将它们与中间特征Z连接，得到最终的十字区域上下文聚合深度特征X；

步骤三，物体区域上下文融合算子OCR

在进行OCR聚合之前，得到了两种不同模式的特征映射，分别表示为和X表示CSC聚合模块产生的深度特征图；利用交叉熵损失从语义信息监督中学习到软目标区域矩阵R；每个对象区域矩阵R_k表示对应像素属于类k的置信度；将属于第k个对象区域的所有像素按其度数加权的表征相加，形成模态自适应矩阵

每个像素与一组目标区域之间的相关矩阵M中单个元素M_pk表示为:

步骤四，有序多任务学习的损失函数；

用Ψ(w,h|Θ)表示像素方向的焦点有序损失函数，其中Θ是网络的权值参数；焦点顺序损失由下式得到:

这里，l_(w,h)是在空间位置(w,h)上使用中的SID方法离散的深度真值标签；l_(w,h)∈{0,1,...,C-1}，为在像素位置(w,h)的估计离散值；表示大于离散深度标签c的概率；当α的值固定为0.5时，焦点序数损失退化为序数回归损失；焦点有序损失被定义为焦点顺序损失Ψ(w,h|Θ)的平均值：

步骤五，网络训练方法

使用PyTorch来训练方法，并使用单个NVIDIA RTX 3090GPU卡来训练；使用ResNet-101或HRNet48-V2作为骨干；都在MIT的ADE20K上进行了语义分割的预训练；使用随机梯度下降作为优化器，批处理大小为3，动量为0.9，训练中权值衰减为5e-4；采用多项式学习率策略总计迭代30epoch。