CN117495935A

CN117495935A - 一种基于交叉特征提取窗口与动态特征融合窗口的深度补全方法

Info

Publication number: CN117495935A
Application number: CN202310594441.8A
Authority: CN
Inventors: 董耀; 张印强; 李丽娟; 张登峰
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2024-02-02

Abstract

一种基于交叉特征提取窗口与动态特征融合窗口的深度补全方法包括以下步骤：(1)在传统的基于RGB、与深度图(depth)引导的双分支编码‑解码网络基础上，加入语义图(semantic)输入分支；(2)在网络的编码特征提取阶段，加入基于注意力机制的交叉特征提取窗口(CFEW)挖掘各模态之间的交叉互补特征来指导各编码阶段，以此来削弱不相关特征；(3)在网络的特征融合阶段，加入动态特征融合窗口(DFFW)，通过该方式动态的训练出各模态的融合权重，使得融合后的特征向量对于原信息得表达能力更强；(4)融合后的特征向量通过上采样与深度回归，产生密集型深度数据；通过实验证明，该深度补全模型精度比较高，生成的密集型深度图对于环境中物体的边缘信息表达的比较清楚。

Description

一种基于交叉特征提取窗口与动态特征融合窗口的深度补全方法

技术领域

本发明属于深度学习以及图像处理领域，涉及一种将稀疏深度图转变为密集型深度图的深度补全算法。

背景技术

深度补全是一种从稀疏深度测量中估计密集深度图像的技术，在机器人和自动驾驶中有各种应用。解决该问题的主流的方法是，稀疏深度图数据(depth)以及一些其他作为指导的模态信息(比如RGB)输入到神经网络中，神经网络预测回归出一张密集型深度图。用于深度补全的主要网络结构是基于RGB引导的双分支编码-解码(encoder-decoder)的网络结构，例如PENET、DeepLiDAR。但是目前主流的方法，在编码的特征提取阶段忽略了各模态之间的交叉互补特征，且在特征融合阶段采用的融合方式比较简单，这些问题导致了在特征提取阶段非关联特征并不能够得到很好的抑制，且融合后的特征向量表征能力不足，进而使生成的密集型深度图在物体边界不清晰。

本发明提出了在网络的编码阶段加入交叉特征提取窗口，挖掘并融合各模态间的交叉互补特征，并生成引导图来指导各特征提取阶段，以此来增强重要特征抑制不相关特征。除此以外，在网络的特征融合阶段加入了动态特征融合窗口，通过一个小型神经网络来动态的训练各模态融合权重。通过上述两种窗口，可以使得融合后的特征表征性更强，使得生成的密集型深度图在物体边缘处比较清晰。

发明内容

为了解决上述问题，本发明提出了一种基于交叉特征提取窗口与动态特征融合窗口的深度补全的方法，所述方法包含以下步骤：

步骤一：通过相机获取图片数据RGB，通过激光雷达获取稀疏点云数据，并通过相机和激光雷达联合标定的方法，将点云数据投射到RGB坐标系形成一张稀疏深度图数据，RGB数据通过模型WideResNet38，生成语义图数据semantic；

步骤二：语义图数据semantic、RGB数据、稀疏深度图数据depth，输入到上述提到的深度补全的网络模型中；

步骤三：该深度补全的模型是一种编码-解码(encoder-decoder)网络结构，在编码阶段通过卷积操作来提取各模态特征；

步骤四：在各编码的特征提取阶段通过基于注意力机制的交叉特征提取窗口(CFEW)，来挖掘并融合各模态间的交叉互补特征，并生成引导图来指导各特征提取阶段，以此来增强重要特征抑制不相关特征，增强图像中物体的边缘信息；

步骤五：在特征融合阶段，引入动态特征融合窗口(DFFW)来动态的训练各模态融合权重，以此来使得融合后的特征表达性更强；

步骤六：所述步骤五中的各模态融合后的特征，通过上采样操作还原出一张与原分辨率相同的深度图，并且结合真值图(ground truth)与损失函数L进行深度回归，最终生成一张密集型深度图。

上述深度补全网络，步骤三所述的各编码分支通过带有残差的卷积核进行特征提取，该卷积核由1个卷积模块、1个BN模块、1个非线性激活函数(Relu)，一个残差连接组成；

上述深度补全网络，步骤一所述的稀疏深度图输入本身的有效值点的个数比较少，不含有太多有价值信息，所以在开始特征提取阶段，应该使用较浅的卷积核去提取特征，随着层数的加深，所提取的特征越来越丰富，所以卷积核的深度应该逐层递增；

上述深度补全网络，步骤一所述的稀疏深度图输入本身的有效值点分布的也比较分散，所以刚开始使用较大尺寸的卷积核从较大的感受视野进行特征提取，之后再通过较小尺寸的卷积核操作进行细节特征提取。

上述深度补全的网络，步骤四所述的各编码阶段加入交叉互补特征融合模块(CFEW)，通过挖掘各输入模态之间交叉互补特征，来生成相互注意图，用于指导各编码阶段的特征生成；

上述基于注意力机制的交叉特征提取窗口(CFEW)，大致可以概括成在模型的编码阶段，使用通道注意力机制、空间注意力机制、以及相互特征的注意力机制来增强重要特征，抑制非关联特征。

上述深度补全网络，步骤五所述的在特征融合阶段通过动态特征融合窗口(DFFW)来训练各模态的融合权重，具体步骤如下：

步骤一：RGB、语义图、稀疏深度图，经过该模型三分支编码器进行特征提取之后，生成3个特征向量，对应每个模态的特征；

步骤二：稀疏深度图经过下采样对齐之后与3个模态的特征向量进行通道拼接，将拼接后的特征送入网络中进行训练，最终生成各模态的权重参数；

上述下采样方式，本发明采用最大池化操作(max pooling)，稀疏深度特征图由于本身的稀疏特性，有效值点比较分散，所以使用最大池化操作(max pooling)去提取有效值点，这可以作为深度指导图，表示哪些特征需要增强或者抑制；

上述提到的深度指导图再与RGB进行逐元素相乘操作，通过此操作对RGB特征进行过滤，最后再与稀疏深度图进行逐元素相加操作，来对稀疏深度图提取的特征进行补全和增强。

上述深度补全网络，步骤六所述的通过上采样操作将融合的特征生成一张与原分辨率相同的稀疏深度图；

上述上采样操作，由一个常规3×3卷积模块、一个BN模块、一个非线性激活函数(Relu)、一个常规1×1卷积模块、以及一个3×3反卷积模块组成。

上述深度补全网络是编码-解码(encoder-decoder)网络结构，该网络结构输出的图片不清晰是公认的问题，所以本发明通过侧输出，将稀疏深度图数据入到上采样阶段。

上述深度补全网络，训练的步骤如下：

步骤一：准备数据集；数据集应该包括：稀疏深度图数据(depth)、图片数据(RGB)、RGB数据通过预训练模型WideResNet38分割出的语义图数据(semantic)，以及真值图数据(ground truth)；

将数据集划分为训练集、测试集和验证集，在训练集和测试集中包含上述所有数据类型，在测试集中只包含图像数据(RGB)和稀疏深度图数据；

步骤二：设置损失函数、学习率、最大迭代次数以及优化方式：

损失函数选择如下：

其中c是批次相关参数，它是预测深度图中所有像素上的最大绝对误差，本发明中的c是批次参数中，最大绝对误差的百分之二十，如果预测的误差小于c，Berhu损失为平均绝对误差，否则为均方误差；

步骤三：将上述数据集中的图像数据(RGB)、稀疏深度图数据(depth)、以及语义图数据(semantic)输入到本发明提出的深度补全网络模型，输出的深度图与真值图(groundtruth)计算损失并进行反向传播；

步骤四：在N个epoch周期内对网络的参数进行训练，当一个训练周期epoch结束时，在验证集上计算网络的RMSE误差，当所计算的网络误差在连续几个训练周期Y内都不再下降趋于稳定时，则停止训练，其中N、Y为预先设定的值；

步骤五：将步骤四所述的深度补全网络，在验证集上计算RMSE误差最小的深度补全网络模型。

与现有技述相比，本发明有益效果是：该深度补全模型精度比较高，生成的密集型深度图对于环境中物体的边缘信息表达的比较清楚。

附图说明

图1为本发明的三分支网络网络结构。

图2为本发明的交叉互补特征融合模块。

图3为本发明的动态窗口融合模块。

图4为本发明的上采样模块。

图5为本发明的卷积模块。

图6为本发明的流程图。

图7为本发明的深度补全的结果示意图。

具体实施方式：

下面将结合本发明实例中的附图，对本发明实施例中的技术方法进行清楚、完整地描述。显然所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。以下实施例描述仅仅是说明性质的。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护范围。

参见图1，本发明提供的一种基于交叉特征提取窗口与动态特征融合窗口的深度补全的方法步骤如下：

步骤一：通过相机获取图片数据RGB，通过激光雷达获取稀疏点云数据，并通过相机和激光雷达联合标定的方法，将点云数据投射到RGB坐标系形成一张稀疏深度图数据。RGB数据通过模型WideResNet38，生成语义图数据semantic；

步骤三：该深度补全的模型是一种编码-解码(encoder-decoder)网络结构，在编码阶段通过卷积操作所示来提取各模态特征；

步骤四：在各编码的特征提取阶段，通过基于注意力机制的交叉特征提取窗口(CFEW)，来挖掘并融合各模态间的交叉互补特征，并生成引导图来指导各特征提取阶段，以此来增强重要特征，抑制不相关特征，增强图像中物体的边缘信息；

参见图5，本实例中深度补全网络各编码分支通过带有残差的卷积核进行特征提取；该卷积核由1个卷积模块、1个BN模块、1个非线性激活函数(Relu)以及一个残差连接组成；

稀疏深度图本身的有效值点的个数比较少，不含有太多有效信息，所以在开始的特征提取阶段，应该使用较浅的卷积核去提取特征；随着层数的加深，所提取的特征越来越丰富，所以卷积核的深度应该逐层递增，如表1所示，从Conv1-Conv4卷积核的深度逐层加深；

稀疏深度图本身的有效值点的分布比较分散，所以刚开始使用较大尺寸的卷积核，从较大的感受视野进行特征提取，之后再通过较大尺寸的卷积核操作进行细节特征提取。

表1：卷积核

参见图2，在本实例中深度补全的网络中各编码阶段加入交叉特征提取窗口(CFEW)，通过挖掘各输入模态之间交叉互补特征来生成相互注意图，用于指导各编码阶段的特征生成；

上述基于注意力机制的交叉特征提取窗口，大致可以概括成在模型的编码阶段，使用通道注意力机制、空间注意力机制、以及相互特征的注意力机制来增强重要特征，抑制非关联特征，该模块的具体细节如下：

(1)深度模态分支与语义模块分支，通过两个空间注意掩码来进行一系列操作，首先通过一个空间掩码(7×7)的卷积核从一个较大感受视野来提取特征，然后在通过空间掩码(3×3)的卷积核来提取更加丰富的特征，该通道式的空间注意力操作，可以用如下公式表达：

---表示特定大小的卷积操作；

θ---表示带sigmoid函数的通道式最大池操作；

---表示可以突出突出显示边界、区域、边缘和形状的空间注意力窗口；

---表示第i阶段的深度图特征；

---表示第i阶段的语义图特征。

(2)将3个模态的特征进行通道拼接，然后通过1×1的卷积操作来减少拼接后的特征的通道数，最后通过3×3的卷积操作，来增强组合特征中的更多细节；相互特征注意力图，可以用下式表示：

||.||---通道拼接操作；

---表示第i阶段的RGB特征；

---交叉特征提取窗口；

(3)空间注意力权重与相互特征注意力权重相乘，此操作可以抑制在特征提取阶段产生的非关联特征；基于稀疏深度图的残余连接突出并恢复了编码阶段的基本特征，该过程可以用下式表达：

----代表逐元素相乘操作；

----代表逐元素相加操作。

参见图3，本实例深度补全网络在特征融合阶段，通过动态特征融合窗口(DFFW)动态得训练出各模态的融合权重，主要涉及以下几个方面：

(1)RGB、语义图、稀疏深度图，经过该模型三分支编码器进行特征提取之后生成3个特征向量，对应每个模态的特征；稀疏深度图经过下采样对齐之后与3个模态的特征向量进行通道拼接，将拼接后的特征送入网络中进行训练，最终生成各模态的权重参数；

(2)上述下采样方式，本发明采用最大池化操作(max pooling)；稀疏深度特征图由于本身的稀疏特性有效值点比较分散，所以使用最大池化操作(max pooling)去提取有效值点，这可以作为深度指导图，表示哪些特征需要增强或者抑制；

(3)上述提到的深度指导图再与RGB进行逐元素相乘操作，通过此操作对RGB特征进行过滤；最后再与稀疏深度图进行逐元素相加操作，来对稀疏深度图提取的特征进行补全和增强。

该过程可以用下式进行表达：

X＝M_sD(D)+ω×M_RGB(I)；

ω＝Net(M_sD(D)，M_RGB(I)，M_se(A)，downsample(D))；

M_sD(D)---表示稀疏深度图特征；

M_RGB(I)---表示RGB特征；

M_Se(A)---表示语义图特征；

downsample(D)---表示稀疏深度图小采样特征。

本实例深度补全网络，训练步骤如下：

步骤一：准备数据集：数据集应该包括，稀疏深度图数据(depth)、图片数据(RGB)、RGB数据通过预训练模型WideResNet38分割出的语义图数据(semantic)，以及真值图数据(ground truth)；

回归问题中最常使用的损失函数是均方误差(MSE)，可是MSE并不适合深度补全的任务，因为该损失函数对于较大的误差进行更加严重的惩罚；如果用该损失函数来训练模型，该模型就会平滑和模糊物体的边界和边缘信息；为了避免这些问题，本发明采用Berhu损失作为损失函数进行训练，Berhu损失函数的具体定义如下：

其中c是批次相关参数，它是预测深度图中所有像素上的最大绝对误差，本发明中的c是批次参数中最大绝对误差的百分之二十，如果预测的误差小于c，Berhu损失为平均绝对误差，否则为均方误差；

步骤四：在60个epoch周期内对网络的参数进行训练，当一个训练周期epoch结束时，在验证集上计算网络的RMSE误差，当所计算的网络误差在连续10个训练周期内都不再下降趋于稳定时则停止训练；

步骤五：将步骤四所述训练的模型，在验证集上计算RMSE误差最小的深度补全网络模型。

本实例深度补全网络在NYUDepthV2数据集上对所提出数据集进行评估，该数据集包含一个场景的RGB图和对应的深度图，其中47534张图像作为训练集，704张图像作为测试集；为了比较该方法相较于其他方法的优劣性，我们将原始图像降采样为半分辨率，并将图像中心裁剪为320×256像素；在训练过程中，从地面实况深度图像随机采样稀疏输入深度图，本发明不在训练每个样本时使用固定的稀疏深度图输入，而是在每个训练周期随机生成稀疏深度图；这可以增加训练数据，并让训练的网络具有更好的鲁棒性。

本实例在五种情况下分别训练了模型，并对该模型进行了性能评估。评价指标有：均方根误差(RMSE)，平均误差(MAE)，深度倒数的均方误差(iRMSE)，以及深度倒数的平均绝对值误差(iMAE)；

情况1：网络结构为基于RGB引导的双分支网络，在编码的特征提取阶段加入交叉特征提取窗口(CFEW)，特征融合方式采用传统的逐元素相加或卷积融合方式；

情况2：网络结构为基于RGB引导的双分支网络，在编码的特征提取阶段不加入交叉特征提取窗口(CFEW)，特征融合采用动态特征融合窗口(DFFW)来训练各模态的融合权重；

情况3：网络结构为基于RGB和语义图(semantic)引导的三分支网络，在编码的特征提取阶段加入交叉特征提取窗口(CFEW)，特征融合方式采用传统的逐元素相加或者卷积融合方式；

情况4：网络结构为基于RGB和语义图(semantic)引导的三分支网络，在编码的特征提取阶段不加入交叉特征提取窗口(CFEW)，特征融合采用动态特征融合窗口(DFFW)来训练各模态的融合权重；

情况5：网络结构为基于RGB和语义图(semantic)引导的三分支网络，在编码的特征提取阶段加入交叉特征提取窗口(CFEW)，特征融合采用动态特征融合窗口(DFFW)来训练各模态的融合权重。

在上述五种情况下训练出的模型的精度如下：

表2

通过上述表格可以看出情况5所训练出来的模型精度最高。通过不同情况间所训练的模型对比，不难发现在网络中引入语义图分支、交叉特征提取窗口(CFEW)以及动态特征融合窗口(DFFW)的作用。深度补全的效果如图7所示。

本实施方式只是对本专利的示例性说明，并不限定它的保护范围，本领域技术人员还可以对其局部进行改变，只要没有超出本专利的精神实质，都在本专利的保护范围。

Claims

1.一种基于交叉特征提取窗口与动态特征融合窗口的深度补全方法，其特征在于：

步骤一：通过相机获取图片数据RGB，通过激光雷达获取稀疏点云数据，并通过相机和激光雷达联合标定的方法，将点云数据投射到RGB坐标系形成一张稀疏深度图数据depth，RGB数据通过模型WideResNet38，生成semantic语义图数据；

步骤三：该深度补全的模型是一种编码-解码(encoder-decoder)网络结构。在编码阶段通过卷积操作所示来提取各模态特征；

步骤四：在各编码的特征提取阶段通过基于注意力机制的交叉特征提取窗口(CrossFeature Extraction Window，CFEW)，来挖掘并融合各模态间的交叉互补特征，并生成引导图来指导各特征提取阶段，以此来增强重要特征抑制不相关特征，从而增强图像中物体的边缘信息；

步骤五：在特征融合阶段，引入动态特征融合窗口(Dynamic Feature Fusion Window，DFFW)来动态的训练各模态融合权重，以此来使得融合后的特征向量表达性更强；

步骤六：所述步骤五中的各模态融合后的特征，通过上采样操作还原出一张与原分辨率相同的深度图；并且结合真值图(ground truth)与损失函数L进行深度回归，最终生成一张密集型深度图。

2.根据权利要求1所述的一种基于交叉特征提取窗口与动态特征融合窗口的深度补全方法，其特征在于：

编码分支通过带有残差的卷积核进行特征提取，该卷积核由1个卷积模块、1个BN模块、1个非线性激活函数(Relu)，一个残差连接组成；

所述深度补全网络的稀疏深度图输入本身的有效值点的个数比较少，所以在开始特征提取阶段，应该使用较浅的卷积核去提取特征，随着层数的加深，所提取的特征越来越丰富，所以卷积核的深度应该逐层递增；

所述深度补全网络的稀疏深度图输入本身的有效值点分布的也比较分散，所以刚开始使用较大尺寸的卷积核从较大的感受视野进行特征提取，之后再通过较小尺寸的卷积核操作进行细节特征提取。

3.根据权利要求1所述的一种基于交叉特征提取窗口与动态特征融合窗口的深度补全方法，其特征在于：

在编码阶段加入交叉特征提取窗口(CFEW)，通过挖掘各输入模态之间交叉互补特征来生成相互特征注意图，用于指导各编码阶段的特征生成；

所述基于注意力机制的交叉特征提取窗口(CFEW)，大致可以概括成在模型的编码阶段，使用通道注意力机制、空间注意力机制、以及相互特征的注意力机制，来挖掘各模态之间的交叉互补特征。

4.根据权利要求1所述的一种基于交叉特征提取窗口与动态特征融合窗口的深度补全方法，其特征在于：

RGB、语义图、稀疏深度图，经过该模型三分支编码器进行特征提取之后生成3个特征向量对应每个模态的特征，稀疏深度图经过下采样对齐之后与各模态的特征向量进行通道拼接，将拼接后的特征送入动态特征融合窗口(DFFW)，生成各模态的融合权重参数；

上述下采样方式，本发明采用最大池化操作(max pooling)提取有效值点，并作为深度指导图，表示哪些特征需要增强或者抑制；

上述提到的深度指导图再与RGB进行逐元素相乘操作，通过此操作对RGB特征进行过滤，最后再与稀疏深度图进行逐元素相加操作来对稀疏深度图提取的特征进行补全和增强。

5.根据权利要求1所述的一种基于交叉特征提取窗口与动态特征融合窗口的深度补全方法，其特征在于：

对于融合后的特征向量，再通过去卷积操作，上采样出一张与原稀疏深度图同尺寸的密集型深度图，该上采样操作由一个常规3×3卷积模块、一个BN模块、一个非线性激活函数(Relu)、一个常规1×1卷积模块、以及一个3×3反卷积模块组成。

6.根据权利要求1所述的一种基于交叉特征提取窗口与动态特征融合窗口的深度补全方法，其特征在于：

通过侧输出将原始稀疏深度图的特征引入到上采样阶段，以此方法来增强图像的清晰度。

7.根据权利要求1所述的一种基于交叉特征提取窗口与动态特征融合窗口的深度补全方法，具体的训练的步骤如下：

步骤一：准备数据集：数据集应该包括，稀疏深度图数据(depth)、图片数据(RGB)、RGB数据通过预训练模型WideResNet38分割出的语义图数据(semantic)，以及真值图数据(ground truth)，将数据集划分为训练集、测试集和验证集，在训练集和测试集中包含上述所有数据类型，在测试集中只包含图像数据(RGB)和稀疏深度图数据；

损失函数选择如下：

其中，c是批次相关参数，它是预测深度图中所有像素上的最大绝对误差，本发明中的c是批次参数中，最大绝对误差的百分之二十，如果预测的误差小于c，Berhu损失为平均绝对误差，否则为均方误差；

步骤四：在N个epoch周期内对网络的参数进行训练，当一个训练周期epoch结束时，在验证集上计算网络的RMSE误差。当所计算的网络误差在连续几个训练周期Y内都不再下降趋于稳定时，则停止训练，其中N、Y为预先设定的值；

步骤五：将步骤四所述深度补全网络，在验证集上计算RMSE误差最小的深度补全网络模型。