CN113850262A

CN113850262A - 基于可延展2.5d卷积和双路门融合的rgb-d图像语义分割方法

Info

Publication number: CN113850262A
Application number: CN202110966840.3A
Authority: CN
Inventors: 陈小康; 邢亚杰; 唐嘉祥; 曾钢
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-12-28

Abstract

本发明公布了一种基于可延展2.5D卷积和双路门融合的RGB‑D图像语义分割方法，包括：将深度数据的几何信息引入到二维神经网络中，对三维几何关系建模，建立RGB‑D多模态融合算法，利用大规模图像数据集上预训练模型，自适应地为不同环境学习深度感受野参数，为不同环境的几何关系建模，同时从多模态数据中提取互补的信息，生成具有高判别度的特征。本发明有效地解决深度信息存在大量噪音的问题，同时高效地从多模态数据中提取互补的信息，在不同环境的数据中无需调参和重复计算，可有效提升图像语义分割模型方法的性能。

Description

基于可延展2.5D卷积和双路门融合的RGB-D图像语义分割方法

技术领域

本发明属于计算机视觉和图像语义分割技术领域，涉及RGB-D图像(深度图像)语义分割技术，尤其涉及一种基于可延展2.5D卷积和双路门融合的RGB-D图像语义分割方法。

背景技术

RGB-D图像语义分割是计算机视觉领域的重要问题，其将深度数据与图像相结合以预测像素级别的分类信息，在增强现实、无人驾驶等诸多领域都有应用。

现有的RGB-D图像语义分割方法主要有两类：

一类方法如文献[1]，[2]中采用的方法，将RGB-D数据转化为三维数据，然后使用三维神经网络如三维(3D)卷积网络、点云网络等对其进行处理、做出分割预测。这类算法比较好地利用了深度数据提供的几何线索来提升语义分割的性能，但是其计算量需求远远大于二维神经网络，并且不能从大规模图像数据集的预训练中受益。

另一类方法如文献[3]的方法，将深度相似度引入了二维(2D)卷积中，在二维卷积神经网络的基础上引入几何信息，比较好地在计算量增加不大的基础上提升了分割性能，并能够直接利用在大规模图像数据集上预训练的模型。但是一方面该方法利用的几何信息还比较简单，不能建模更复杂的三维几何关系；另一方面该方法的效果依赖于预先设定的超参数，在不同的环境下(如室内和室外场景)需要较多的调参和重复训练来调优其性能，这限制了其应用性能和应用范围。

参考文献：

[1].Zhong,Y.,Dai,Y.,Li,H.:3D geometry-aware semantic labeling ofoutdoor street scenes.In:ICPR.pp.2343–2349.IEEE Computer Society(2018)

[2].Qi,X.,Liao,R.,Jia,J.,Fidler,S.,Urtasun,R.:3D graph neuralnetworks for RGBD semantic segmentation.In:ICCV.pp.5209–5218.IEEE ComputerSociety(2017)

[3].Wang,W.,Neumann,U.:Depth-aware CNN for RGB-D segmentation.In:ECCV(11).Lecture Notes in Computer Science,vol.11215,pp.144–161.Springer(2018).

发明内容

为了克服上述现有技术的不足，本发明提供一种基于可延展2.5D卷积和双路门融合的RGB-D图像语义分割方法，可自适应地为不同环境学习合适的深度感受野参数，更好地建模不同环境下的几何关系；有效地解决深度信息存在大量噪音的问题，同时高效地从多模态数据中提取互补的信息在不同环境的数据中不需调参和重复实验，可有效提升图像语义分割模型方法的性能。

本发明方法将深度数据带来的几何信息有效引入到二维神经网络中，对比较复杂的三维几何关系建模，同时又不大幅增加计算量，并能很好地利用大规模图像数据集上预训练的模型提升性能。本发明算法可以自适应地为不同环境学习合适的深度感受野参数，从而更好地建模不同环境下的几何关系；在不同环境的数据中不需调参和重复实验，即可得到很好的性能，避免调参实验带来的人力和算力成本，并且在很多情况下可以得到比人工调参更优的效果。本发明设计一种RGB-D多模态融合算法，有效地解决深度信息存在大量噪音的问题，同时高效地从多模态数据中提取互补的信息，从而生成具有高判别度的特征。

本发明提供的技术方案是：

一种基于可延展2.5D卷积和双路门融合的RGB-D图像语义分割方法，包括如下步骤：

1)创建2.5D卷积神经网络；

设计2.5D卷积算子，并在现有常规的二维卷积神经网络中插入了2.5D卷积算子；通过将不同相对深度下的像素特征指定给不同的卷积核处理，将三维几何信息有效引入到了二维卷积网络中，对比较复杂的几何关系建模，同时只增加了很少的额外计算成本，并且可以直接继承二维神经网络的预训练参数。

2)进一步提出了可延展的2.5D卷积神经网络，设计了可延展2.5D卷积算子；

将可延展2.5D卷积算子的深度感受野设计为可微函数，从而使得可以根据不同环境的数据自动学习，更好地建模不同情况下的几何关系，提升语义分割性能。

3)建立一种门融合机制，高效利用多模态信息；

首先综合RGB和深度两种模态中的全局信息，让两种模态的特征更精确；然后为每种模态的特征学习出一个空间维度的“门”，控制信息的流出。通过门机制，可以实现具有互补性的RGB-D特征的融合。

利用上述基于可延展2.5D卷积和双路门融合的RGB-D图像语义分割方法，还可以完成RGB-D图像语义分割以外的其它使用RGB-D输入的计算机视觉分析任务。本算法可以嵌入到大部分常规的二维卷积神经网络中，并继承原有的二维卷积算子的参数。只需要将算法中产生语义分割预测的模块替换为其它任务所需的预测模块，根据相应数据进行训练即可完成其他计算机视觉分析任务。

与现有技术相比，本发明的有益效果是：

本发明提供一种基于可延展2.5D卷积和双路门融合的RGB-D图像语义分割方法，能够较好地建模RGB-D数据中深度数据带来的几何线索，很好地提升语义分割的质量；能够自动学习针对不同环境不同数据集下的深度感受野，调整几何建模策略，减少人工调参工作所消耗的经历和资源，并往往取得更好的性能；能够应对输入数据中的噪音，尤其对室外场景中深度图中存在的噪音有着很强的鲁棒性，更高效、充分地融合了RGB-D多模态特征；能够便捷地应用到常规的卷积神经网络中，并能充分利用大规模数据集预训练的参数，使用场景广泛，可应用于增强现实、自动驾驶、机器人、人脸识别理解等应用中。

现有技术有的可以很好地建模几何关系，但会导致计算量大幅度增加，有的虽然计算量较少，但只考虑了较为简单的几何关系，性能提升有限。本方法的算法提出了一种2.5D卷积算子，可以有效建模深度数据中蕴含的复杂的几何关系，并仍在二维平面上计算从而只带来较少的额外计算量。

现有技术需要针对不同数据集人工调整参数并进行大量实验，需要花费较多的人力、时间和计算资源。本发明算法提出了一种可延展2.5D卷积算子，可以自动学习针对不同环境不同数据集下的深度感受野，调整几何建模策略。

现有方法认为输入数据是准确的，基于这一假设做融合。然而在实际场景中这种假设是不成立的。本方法提出了一种门融合机制对多模态信息进行过滤与校正操作，考虑了输入数据存在的不确定性和互补性，融合更加高效。

现有技术多基于三维神经网络或其它较为特殊的建模方式，需要用特定的方式与二维卷积神经网络结合，应用场景有限，并且通常不能很好地利用大规模数据集的预训练。本方法算法提出的算子都可以很容易地应用到常规的卷积神经网络中，并能充分利用大规模数据集预训练的参数。

附图说明

图1为2.5D卷积过程的示意图；

其中，在二维平面上采用3个卷积核模拟3D卷积的行为，每个卷积核处理特定区域的像素。

图2为可延展的2.5D卷积过程的示意图；

给定一个输入的场景，可延展的2.5D卷积会动态调整卷积核的感受野，比如压缩/延展，从而调整每个卷积核处理的深度范围。

图3为门机制融合模块的结构示意图。

图4为本发明方法的流程示意图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种基于可延展2.5D卷积和双路门融合的RGB-D图像语义分割方法，能够有效提升图像语义分割模型方法的性能。

其中，2.5D卷积算子使用二维卷积核在二维平面上模拟三维卷积的采样和计算方式。如图1所示，它有1个或多个二维卷积核，每个卷积核负责处理距离卷积核中心像素一定深度范围中的像素。算法根据深度数据，以卷积核中心的像素为基准计算卷积核感受野内各个像素和中心像素的相对深度差，然后根据相对深度差的范围确定应该将像素分配给哪个卷积核(或者不分配给卷积核从而屏蔽掉)，计算相应的掩模。之后算法通过掩模机制将每个像素指定给其对应的卷积核进行计算，最后将各个卷积核的输出相加得到完整的输出特征。整个过程都可以在二维平面上实现，但很好地模拟了三维卷积的效果，并且除了刻画了物体在深度方向上的远近关系外，还能够建模有序的前后关系等更为复杂的三维几何。

可延展2.5D卷积进一步将指定像素到卷积核的过程(即深度感受野)设计为可学习的，使算法能够自动根据不同环境下数据集的特点学习到适当的深度感受野，减少调参工作量的同时提升算法的分割性能和泛用性，而只引入少量额外参数(如果有k个卷积核，则为2k+3个额外参数，远远小于卷积核本身的参数量)。如图2所示，输入RGB图像，我们根据相机参数将其投影到点云空间中，得到点云数据。我们将根据相对深度差给每个卷积核分配不同的像素，从而实现感受野的压缩或延展。我们将这个分配问题设计为一个softmax分类的问题，即预测每个像素属于不同卷积核的概率，这样使得这一分配过程是可求导的，从而可以通过梯度下降算法训练。为了解决像素在每个类别中分布并不均匀的问题，我们还引入了可学习的“卷积核再平衡权重”参数以重新平衡每个卷积核的输出值的尺度。

2.5D卷积和可延展2.5D卷积的输入输出都是标准的二维特征图。因此它们可以用在在常规卷积神经网络结构中任何二维卷积被使用的地方，只需简单替换即可。在图像语义分割任务中，从大规模数据集预训练过的参数进行微调对于分割性能是至关重要的。为此我们为2.5D卷积设计了一种简单的参数加载策略。在用2.5D卷积和可延展2.5D卷积替换标准卷积时，我们不会丢弃原始卷积的预训练权重，而是复制预训练的权重并将其加载到2.5D卷积的每个卷积核中。在微调时，k个卷积核从相同的初始化起始，并逐渐学习对几何关系建模。

对于门机制融合模块，我们设计了Gate Module。Gate Module结构图如图3所示。给定RGB模态特征图和Depth模态特征图，我们首先提取RGB模态和Depth模态这两种模态特征中的全局信息，并用这个全局信息，给这两种模态的特征图做调整，让两种模态的特征互相包含对方的信息，实现信息交互的目的。为了实现这个目的，我们在特征的通道维度拼接RGB和depth特征图，并定义一个函数

(全局池化操作)对两种模态的全局信息进行编码，得到全局信息I，然后使用MLP(Multi Layer Perceptron，多层感知机)函数

对全局信息I进行压缩编码，得到针对深度特征的权重向量W_hha和针对RGB特征的权重向量W_rgb。我们使用每个模态的权重向量在通道维度对该模态特征进行加权，得到处理后的特征HHA_refine,RGB_refine。具体来说，我们用计算得到的权重向量和特征图的通道的每一维做乘法来实现加权。之后我们使用残差连接的操作，将每个模态输入的特征RGB_in(HHA_in)和加权后的特征图RGB_refine(HHA_refine)相加，得到RGB_fuse(HHA_fuse)。我们还注意到输入的每个模态的特征里有很多噪声。举例来说，深度图由于包含较多噪声，会在物体边界处出现模糊，在一些深度较大的区域可能会出现深度缺失(室外场景的深度范围更大，可能超出深度相机的深度范围)。于是我们下一步设计一个门机制去控制信息的流通，只允许干净准确的特征信息流通。我们将RGB和Depth特征图在通道维度拼接在一起，然后定义两个映射函数

和

将拼接后的特征图映射到两个空间维度的门G_rgb和G_hha，分别对应RGB和Depth两个模态，然后使用softmax函数(图3中的带圆圈的S符号)对两个门(G_rgb和G_hha)做归一化，得到A_rgb和A_hha。这样使得某一位置，A_rgb和A_hha的权重之和为1。最后拿得到的归一化之后的门，和输入的模态特征做乘法，然后求和，得到加权融合的特征。

在标准设置下我们使用残差网络(ResNet)作为基干网络，并替换其中的4个卷积为可延展的2.5D卷积，如图4所示。但实际上如前所述，2.5D卷积和可延展2.5D卷积可以在常规卷积网络的任意位置替换普通的二维卷积层。同时本算法使用双支路卷积神经网络模型，对于给定的RGB-D输入数据，会先通过门机制来处理与融合多模态输入产生的互补信息，然后将融合后的多模态特征沿着每个模态各自的支路传递。

本发明提供的基于可延展2.5D卷积和双路门融合的RGB-D图像语义分割方法具体实施时，在已有一定数量RGB-D图像语义分割数据的情况下，可利用本算法充分利用图像数据中的几何线索，得到高质量的图像语义分割模型，对部署环境下的数据做出预测。并且在训练时不需要针对具体数据的环境、深度数据采集方式等不同大量调整参数，因为我们的算法可以自适应地学习到合适的几何建模策略，得到性能很好的模型。对于其它基于RGB-D输入的计算机视觉任务如RGB-D显著性检测、RGB-D图像分类等等，也可以通过应用2.5D卷积、可延展2.5D卷积和双路门融合机制提升模型的性能，并能自动适应不同的环境。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于可延展2.5D卷积和双路门融合的RGB-D图像语义分割方法，其特征是，将深度数据的几何信息引入到二维神经网络中，对三维几何关系建模，建立RGB-D多模态融合算法，利用大规模图像数据集上预训练模型，自适应地为不同环境学习深度感受野参数，为不同环境的几何关系建模，同时从多模态数据中提取互补的信息，生成具有高判别度的特征；包括如下步骤：

1)创建2.5D卷积神经网络；

设计2.5D卷积算子，并在二维卷积神经网络中插入2.5D卷积算子；通过将不同相对深度下的像素特征指定给不同的卷积核处理，将三维几何信息引入到二维卷积网络中，对几何关系建模，可直接继承二维神经网络的预训练参数；

所述2.5D卷积算子使用二维卷积核在二维平面上模拟三维卷积的采样和计算方式；2.5D卷积算子有1个或多个二维卷积核，每个二维卷积核用于处理距离卷积核中心像素设定深度范围中的像素；根据深度数据，以卷积核中心的像素为基准计算卷积核感受野内各个像素和中心像素的相对深度差，然后根据相对深度差的范围确定将像素分配给卷积核，或者不分配给卷积核从而屏蔽掉，计算相应的掩模；再通过掩模将每个像素指定给对应的卷积核进行计算，将各个卷积核的输出相加即得到输出特征；

2)进一步建立可延展的2.5D卷积神经网络，设计可延展2.5D卷积算子；

将可延展2.5D卷积算子的深度感受野设计为可微函数，使得根据环境下的数据集自动学习到深度感受野，用于对不同情况下的几何关系建模；包括：

输入RGB图像，根据相机参数投影到点云空间中，得到点云数据；

根据相对深度差给每个卷积核分配像素，实现感受野的压缩或延展；

所述分配采用softmax分类，预测每个像素属于不同卷积核的概率，分配过程可求导，可通过梯度下降算法训练；

并采用可学习的卷积核再平衡权重参数，重新平衡每个卷积核的输出值的尺度；

2.5D卷积和可延展2.5D卷积的输入输出均为标准二维特征图；进行图像语义分割时，针对2.5D卷积设计简单参数加载策略；使用2.5D卷积和可延展2.5D卷积时，将卷积神经网络结构原卷积的预训练权重加载到2.5D卷积的每个卷积核中；从卷积核相同的初始化开始进行微调，并学习对几何关系建模；

3)建立门融合机制，使得高效利用多模态信息；

首先综合RGB模态和深度Depth模态两种模态中的全局信息；然后为每种模态的特征学习得到一个空间维度的门，用于控制信息的流出，通过门实现具有互补性的RGB-D特征的融合；

包括如下步骤：

31)对于给定RGB模态特征图和Depth模态特征图，首先提取RGB模态和Depth模态这两种模态特征中的全局信息；

32)根据全局信息，对两种模态特征图做调整，实现信息交互；包括：

321)在特征的通道维度拼接RGB模态特征图和depth模态特征图，并定义全局池化操作函数

对两种模态的全局信息进行编码，得到全局信息I；

322)使用多层感知机MLP函数

对全局信息I进行压缩编码，得到针对深度特征的权重向量W_hha和针对RGB特征的权重向量W_rgb；

323)在通道维度对两种模态特征进行加权，得到处理后的特征，分别为HHA_refine、RGB_refine；

324)使用残差连接的操作，将每个模态输入的特征RGB_in(HHA_in)和加权后的特征图RGB_refine(HHA_refine)相加，得到RGB_fuse(HHA_fuse)；

325)设计门融合机制用于控制信息的流通，使得只有干净准确的特征信息流通；

326)将RGB模态特征图和Depth模态特征图在通道维度进行拼接；定义两个映射函数

和

将拼接后的特征图映射到两个空间维度的门G_rgb和G_hha，分别对应RGB模态和Depth模态；再使用softmax函数对两个门G_rgb和G_hha做归一化，得到A_rgb和A_hha，使得A_rgb和A_hha的权重之和在某一位置为1；之后将得到的归一化之后的门和输入的模态特征做乘法，再求和，得到加权融合的特征；

通过上述步骤，实现基于可延展2.5D卷积和双路门融合的RGB-D图像语义分割。

2.如权利要求1所述基于可延展2.5D卷积和双路门融合的RGB-D图像语义分割方法，其特征是，具体地，使用残差网络ResNet作为基干卷积神经网络。

3.如权利要求2所述基于可延展2.5D卷积和双路门融合的RGB-D图像语义分割方法，其特征是，其中的四个卷积设置为可延展的2.5D卷积。

4.如权利要求1所述基于可延展2.5D卷积和双路门融合的RGB-D图像语义分割方法，其特征是，将卷积神经网络的任意二维卷积层的位置使用2.5D卷积和可延展2.5D卷积。

5.如权利要求4所述基于可延展2.5D卷积和双路门融合的RGB-D图像语义分割方法，其特征是，对两种模态使用双支路卷积神经网络模型，对RGB-D输入数据，首先通过门融合机制处理与融合多模态输入产生的互补信息，然后将融合后的多模态特征沿着每个模态的支路传递。

6.如权利要求1所述基于可延展2.5D卷积和双路门融合的RGB-D图像语义分割方法，其特征是，步骤32)中，所述加权具体是将计算得到的权重向量和特征图的通道的每一维做乘法。