CN112634296B

CN112634296B - 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端

Info

Publication number: CN112634296B
Application number: CN202011085260.5A
Authority: CN
Inventors: 彭映青; 邹文斌; 张正宇; 田时舜; 李霞; 邹光明
Original assignee: Shenzhen Wisdom Union Technology Co ltd; Shenzhen University
Current assignee: Shenzhen Wisdom Union Technology Co ltd; Shenzhen University
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2023-12-22
Anticipated expiration: 2040-10-12
Also published as: CN112634296A

Abstract

本发明提供一种基于门机制引导边缘信息蒸馏的RGB‑D图像语义分割方法、存储介质及终端。方法包括：获取待语义分割的RGB‑D图像，RGB‑D图像包括RGB图像和RGB图形对应的深度图像；将RGB图像和RGB图形对应的深度图像输入预先训练好的神经网络，得到RGB‑D图像对应的语义分割结果；其中，所述神经网络包括：特征提取网络层、门机制引导的特征融合网络层、边缘信息蒸馏网络层及多层特征融合网络层。通过采用门机制自适应的学习彩色图和深度图之间的互补关系，将门机制生成的特征通过蒸馏网络提取有鉴别性的边缘信息来增强高层次语义特征图的细节信息，并将各个门机制生成的特征图进一步逐层与解码器的特征融合，增加更多的细节信息，从而生成更精准高效的语义分割图。

Description

门机制引导边缘信息蒸馏的RGB-D图像语义分割方法及终端

技术领域

本发明涉及通信技术领域，尤其涉及一种基于门机制引导边缘信息蒸馏的RGB-D图像的语义分割方法、存储介质及终端。

背景技术

语义分割旨在为每个像素分配一个类别标签，主要广泛应用在以视觉为基础的自动驾驶，精准农业，三维地图重构，医疗图像分割，人机交互等领域。

目前，很多语义分割方法主要通过融合深度图和彩色图来生成更具有表征的特征来提高RGB-D图像语义分割的性能。在编码器和解码器结构中，根据融合的阶段分为前期融合，中期融合和后期融合。这些方法大都是采用融合网络层直接对深度图和彩色图进行融合。然而，由于像Realsense等深度摄像机采集的深度图会存在一定的噪声，直接使用深度图会对语义分割的性能产生一定影响。

因此，现有技术还有待于进一步的提升和改进。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供一种基于门机制引导边缘信息蒸馏的RGB-D图像的语义分割、存储介质及终端，旨在解决现有由于深度图存在噪声直接使用深度图对语义分割的性能产生不利影响的问题。

第一方面，一种基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法，其中，包括：

获取待语义分割的RGB-D图像，所述RGB-D图像包括RGB图像和所述RGB图形对应的深度图像；

将所述RGB图像和所述RGB图形对应的深度图像输入预先训练好的神经网络，得到所述RGB-D图像对应的语义分割结果；其中，所述神经网络包括：特征提取网络层、门机制引导的特征融合网络层、边缘信息蒸馏网络层及多层特征融合网络层；所述神经网络是根据样本RGB-D图像及所述样本RGB-D图像对应的样本标识图像训练得到。

上述所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法，通过采用门机制自适应的学习彩色图和深度图之间的互补关系，并结合门机制引导的特征融合以及通过蒸馏网络提取有鉴别性的边缘信息，进一步逐层与解码器的特征融合，增加更多的细节信息，从而生成更精准高效的语义分割图。

可选地，所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法，其中，所述将所述RGB图像和所述RGB图形对应的深度图像输入预先训练好的神经网络，得到所述RGB-D图像对应的语义分割结果，具体包括：

将所述RGB-D图像输入所述特征提取网络层，提取所述RGB-D图像多个层级的RGB编码特征和深度编码特征；

将多个层级中每层的RGB编码特征和深度编码特征输入所述门机制引导的特征融合网络层，得到与每层对应的融合特征及具有互补性的特征；

将每个层级的所述具有互补性的特征输入所述边缘信息蒸馏网络层，生成边缘感知特征；

将所述RGB编码特征与所述边缘感知特征输入边缘信息引导的特征网络，生成具有边缘感知的高级语义特征；

对所述融合特征及所述高级语义特征进行上采样，采用逐层地融合解码器的特征，生成所述RGB-D图像对应的语义分割结果。

可选地，所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法，其中，所述将多个层级中每层的RGB编码特征和深度编码特征输入所述门机制引导的特征融合网络层，得到与每层对应的融合特征的流程为：

Ca_i＝F(C(Mx_i，Md_i))

g_i＝Mx′_i*X_i+Md′_i*D_i

Mx_i，Md_i分别表示在骨干网络中第i层压缩后为单通道的彩色特征图和深度特征图，C表示级联操作，Ca代表通过比较函数F生成的特征图，将其切分为Mx′_i和Md′_i，其中Mx_i′＝Sigmoid(W_i*MX_i)，Mdi′＝Tanh(W_i*MD_i)，分别表示重要程度的概率图，g_i代表最终具有选择性的高效的特征图。

可选地，所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法，其中，所述将每个层级的所述具有互补性的特征输入所述边缘信息蒸馏网络层，生成边缘感知特征，具体包括；

采用如下公式对每个门机制生成的特征图进行蒸馏，，生成边缘感知特征；

其中，g_i表示第i个门机制生成的特征图，σ表示sigmoid激活函数，E_θ为具有鉴别性精确的边缘特征图。

可选地，所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法，其中，所述将所述RGB-D图像输入所述特征提取网络层，提取所述RGB-D图像多个层级的RGB编码特征和深度编码特征的步骤之后还包括：对所述RGB编码特征采用边缘特征作为细节信息来指导语义特征的生成。

可选地，所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法，其中，所述对所述RGB编码特征采用边缘特征作为细节信息来指导语义特征的生成的过程如下：

P_fusion＝P_e×X₄+X₄×P_rgb

其中，P_rgb和P_e分别表示彩色图和边缘特征图的概率分布图，X₄表示所述RGB-D图像中生成的第四层的RGB编码特征。

可选地，所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法，其中，所述P_rgb是通过将所述RGB特征编码输入膨胀空间金字塔后，采用全局平均池化、卷积、正则化及sigmoid操作后得到。

可选地，所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法，其中，所述神经网络的总体损失函数为：

其中，U_s和U_e表示基于L_s和L_e数据学习的相关权重，L_e表示学习优化边缘特征的损失函数，L_s代表交叉熵损失来学习像素级别的语义分割标签，更新整个网络的训练参数。α和β是两个超参数，αU_s和βU_s为正则优化器。

第二方面，一种存储介质，其中，所述存储介质存储有一个或多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法中的步骤。

第三方面，一种终端，其中，包括：处理器和存储器；所述存储器上存储有可被所述处理器执行的程序；所述处理器执行所述程序时实现如上所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法中的步骤。

附图说明

图1为本发明实施例提供的一种基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法的流程图；

图2为本发明实施例提供的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法网络整体架构图；

图3为本发明实施例提供的一种基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法中步骤S20的流程图；

图4为本发明实施例提供的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法中门机制引导的信息融合网络图；

图5为本发明实施例提供的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法中边缘信息蒸馏网络图；

图6为本发明实施例提供的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法中边缘信息引导的融合网络图；

图7为本发明实施例提供的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法中多层特征融合网络图；

图8为本发明实施例提供的一种终端的结构原理图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施方式。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施方式。相反地，提供这些实施方式的目的是使对本发明的公开内容理解的更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是旨在于限制本发明。

近年来，随着RGB-D图像获取设备(例如Kinect,Realsense,Xition)价格的下降，精度和便携性能不断提升，深度信息也被广泛用于提高语义分割性能。对比于彩色图，深度图虽然包含较少重要的语义信息，但是深度图能提供额外的地理信息，其能降低减少边界歧义的不确定性。

目前很多方法主要通过融合深度图和彩色图来生成更具有表征的特征来提高RGB-D图像语义分割的性能，在编码器和解码器结构中，根据融合的阶段分为前期融合，中期融合和后期融合。这些方法大都是采用融合网络层直接对深度图和彩色图进行融合。然而，由于像Realsense等深度摄像机采集的深度图会存在一定的噪声，直接使用深度图会对语义分割的性能产生一定影响。

此外，随着卷积神经网络在语义分割领域取得进展，目前很多方法采用深度学习的方法来提取图像的特征，随着网络层数的增加以及多次的池化操作，高层次的像素级别的语义分割图可以预测是否有物体以及物体出现的大致位置，但不能真描绘他们的边界，因为其丢失了边缘等重要的细节信息。卷积神经网络架构的空间转换的固有不变性限制了分割任务空间精度，增强细粒度图像分割能力的一种常用的方法是应用后处理，例如采用条件随机场，传统的建模方法是将低级像素信息与产生的多类别分割输出结合，这种组合对于捕获卷积神经网络无考虑远距离依赖关系以及细节信息尤为重要。但这种后处理的方法内部参数难以学习，训练和推理较费时。

基于此，本发明提供一种解决上述技术问题的方案，其详细内容将在后续实施例中得以阐述。

请参考图1，如图1所示，本发明实施例提供一种基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法，包括步骤：

S10、获取待语义分割的RGB-D图像，所述RGB-D图像包括RGB图像和所述RGB图形对应的深度图像。

在本实施例中，所述待语义分割的RGB-D图像的获取可以是利用Kinect,Realsense,Xition等设备获取。容易理解的是，所述RGB-D图像可以是直接拍摄，也可以是预先拍摄好存储在存储设备中的RGB-D图像。

S20、将所述RGB图像和所述RGB图形对应的深度图像输入预先训练好的神经网络，得到所述RGB-D图像对应的语义分割结果；其中，所述神经网络包括：特征提取网络层、门机制引导的特征融合网络层、边缘信息蒸馏网络层及多层特征融合网络层；所述神经网络是根据样本RGB-D图像及所述样本RGB-D图像对应的样本标识图像训练得到。

在本实施例中，结合图2，采用如图2所示的神经网络架构(采用编码器-解码器结构，以deeplabv3+作为模型的基准)，神经网络主要由特征提取网络层，门机制引导的特征融合网络层，边缘信息蒸馏网络层，边缘信息引导的特征融合网络层以及多层特征融合五部分组成。其中，所述神经网络的训练过程可以包括以下步骤：

首先，确定一个初始神经网络，所述初始神经网络包括：特征提取网络层、门机制引导的特征融合网络层、边缘信息蒸馏网络层多层特征融合网络层及输出层。

其次，获取样本RGB-D图像，所述样本RGB-D图像对应的样本标识图像。即可以获取多个样本RGB-D图像、所述样本RGB-D图像对应的样本标识图像，以在后续提高初始神经网络的训练效果。其中，所述样本RGB-D图像包括样本RGB-D图像和样本深度图像，任一样本RGB-D图像对应的样本标识图像为：该样本RGB-D图像所包括的样本RGB图像对应的语义分割结果。

再次，利用样本RGB-D图像、所述样本RGB-D图像对应的样本标识图像、训练所述初始神经网络，得到训练后的神经网络。

在本实施例中，首先，对RGB-D图像的RGB图像和所述RGB图像对应的深度图进行特征提取，再通过门机制学习RGB图像和深度图像特征之间的互补关系，提高原始深度图的质量从而提取到更多精确的信息。此外，为了生成更精确高效的边缘感知特征，本实施例采用信息蒸馏网络层来聚合筛选门机制融合网络层中每个门生成的特征，此网络层在增强同一语义特征的同时还能保持对不同语义特征间的鉴别性。为了更好的融合边缘感知的特征和RGB图像提取的语义特征，本发明实施例还采用边缘信息引导的融合网络层，来增加高级语义特征的细节信息。另外，为了进一步丰富更多的空间信息，本发明融合门机制生成的多层具有互补性的特征来学习最终高分辨率的语义分割的预测。

在本实施例的一种实施方式中，结合图3，所述步骤S20包括：

S200、将所述RGB-D图像输入所述特征提取网络层，提取所述RGB-D图像多个层级的RGB编码特征和深度编码特征。

利用特征提取网络层对RGB-D图像进行特征提取，得到所述RGB-D图像多个层级的RGB编码特征和深度编码特征。例如可以提取四个层级的RGB编码特征(X₁、X₂、X₃、X₄)和深度编码特征(D₁、D₂、D₃、D₄)。

S210、将所述RGB-D图像输入所述特征提取网络层，提取所述RGB-D图像多个层级的RGB编码特征和深度编码特征。

具体来说，分别将RGB图像和深度图像从特征提取网络层中得到的骨干网络中每层的特征压缩至一个通道，采用卷积学习RGB编码特征和深度编码特征间的像素间差异性分布。

S220、将多个层级中每层的RGB编码特征和深度编码特征输入所述门机制引导的特征融合网络层，得到与每层对应的融合特征及具有互补性的特征。

具体来说，结合图4，在本实施例中输入RGB编码特征和深度编码特征，将其级联(二通道)之后采用一组卷积学习两者的互补的特征，再将其沿着通道切分为两个一通道的特征图，将这两个特征图进一步获取其特征重要程度，也就是获得具有互补特征的彩色和深度特征概率图。将这两个具有重要程度的特征图分别与其对应的原始特征融合后再叠加，从而使彩色特征和深度特征能自适应地生成高质量的特征图。整体流程可表示如下：

Ca_i＝F(C(Mx_i，Md_i))

g_i＝Mx′_i*X_i+Md′_i*D_i

Mx_i，Md_i分别表示在骨干网络中第i层压缩后为单通道的彩色特征图和深度特征图，C表示级联操作，Ca代表通过比较函数F生成的特征图，将其切分为Mx′_i和Md′_i，其中Mx_i′＝Sigmoid(W_i*MX_i)，Md_i′＝Tanh(W_i*MD_i)，分别表示重要程度的概率图，g_i代表最终具有选择性的高效的特征图。

S230、将每个层级的所述具有互补性的特征输入所述边缘信息蒸馏网络层，生成边缘感知特征。

具体来说，结合图5，在本实施例的一种实施方式中，采用边缘信息蒸馏网络层，来聚合来自各个门机制的生成的特征图，进一步压缩筛选具有鉴别性的高效的特征，此过程可以用如下公式加以表示：

其中，g_i表示第i个门机制生成的特征图，σ表示sigmoid激活函数，E_θ为具有鉴别性精确的边缘特征图。即由于考虑到在融合过程中特征的有效性和冗余性，因此本实施所得到的特征图具有高效性。

S240、将所述RGB编码特征与所述边缘感知特征输入边缘信息引导的特征网络，生成具有边缘感知的高级语义特征。

结合图6，在本实施例的一种实施方式中，由于RGB图像经过多层卷积和池化操作得到特征图，会缺失一定的空间细节信息，本实施例采用边缘特征作为细节信息来指导语义特征的生成，RGB编码特征通过ASPP(膨胀空间金字塔)网络层后采用全局平均池化-卷积-正则化-sigmoid操作得到概率分布图P_rgb。同理，通过融合canny检测算子和边缘特征，P_e表示融合后边缘特征图的概率分布图。其中，为了进一步增强边缘信息，本发明采用canny检测算子来计算图像的梯度。此过程可总结如下：

P_fusion＝P_e×X₄+X₄×P_rgb

其中，P_rgb和P_e分别表示彩色图和边缘特征图的概率分布图，X₄表示所述RGB-D图像中生成的第四层的RGB编码特征。由边缘特征引导进行特征的传播更新，可以在生成高级语义信息的同时保持一定的细节信息。P_fusion表示通过特征融合网络层生成的具有边缘感知的高级语义特征图。

S250、对所述融合特征及所述高级语义特征进行上采样，采用逐层地融合解码器的特征，生成所述RGB-D图像对应的语义分割结果。

具体来说，结合图7，在编码器-解码器的结构中，由于多次下采样可能会导致细节信息的丢失。假设直接利用骨干网络中RGB图像编码特征或者深度图的特征，这些特征可能是不精确的。因为RGB图像不能很好的分辨相同颜色的物体，而深度图因为采集设备的原因会存在一定的噪声。因此，本实施例利用通过编码器中门机制学习两者的互补性生成的特征来逐层地融合解码器的特征，最终构建出高分辨率的精确的语义分割图。

在本实施例的一种实施方式中，采用多任务学习的方法，来提高各个任务的学习效率。本实施例包括语义分割以及边缘特征估计两个任务，利用不确定性来学习不同任务间的权重，总体损失函数如下：

其中，U_s和U_e表示基于L_s和L_e数据学习的相关权重，L_s代表L_e损失函数来优化边缘特征的生成，L_s代表交叉熵损失来学习像素级别的语义分割标签，更新整个网络的训练参数。α和β是两个超参数，αU_s和βU_s为正则优化器。

基于上述所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法，本发明还提供一种存储介质，所述存储介质存储有一个或多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法中的步骤。

基于上述所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法，本发明还提供一种终端，如图8所示，其包括至少一个处理器(processor)30；显示屏31；以及存储器(memory)32，还可以包括通信接口(CommunicationsInterface)33和总线34。其中，处理器30、显示屏31、存储器32和通信接口33可以通过总线34完成相互间的通信。显示屏31设置为显示初始设置模式中预设的用户引导界面。通信接口33可以传输信息。处理器30可以调用存储器32中的逻辑指令，以执行上述实施例中的方法。此外，上述的存储器32中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。存储器32作为一种可读存储介质，可设置为存储软件程序，如本发明实施例中的方法对应的程序指令或模块。处理器30通过运行存储在存储器32中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。存储器32可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器32可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。此外，上述存储介质以及终端中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法，其特征在于，包括：

获取待语义分割的RGB-D图像，所述RGB-D图像包括RGB图像和所述RGB图像对应的深度图像；

将所述RGB图像和所述RGB图像对应的深度图像输入预先训练好的神经网络，得到所述RGB-D图像对应的语义分割结果；其中，所述神经网络包括：特征提取网络层、门机制引导的特征融合网络层、边缘信息蒸馏网络层及多层特征融合网络层；所述神经网络是根据样本RGB-D图像及所述样本RGB-D图像对应的样本标识图像训练得到；

所述将所述RGB图像和所述RGB图像对应的深度图像输入预先训练好的神经网络，得到所述RGB-D图像对应的语义分割结果，具体包括：

对所述融合特征及所述高级语义特征进行上采样，采用逐层地融合解码器的特征，生成所述RGB-D图像对应的语义分割结果；

所述将多个层级中每层的RGB编码特征和深度编码特征输入所述门机制引导的特征融合网络层，得到与每层对应的融合特征的流程为：

Ca_i＝F(C(Mx_i,Md_i))

g_i＝Mx′_i*X_i+Md′_i*D_i

Mx_i，Md_i分别表示在骨干网络中第i层压缩后为单通道的彩色特征图和深度特征图，C表示级联操作，Ca_i代表通过比较函数F生成的特征图，将其切分为Mx′_i和Md′_i其中Mx_i'＝Sigmoid(W_i*MX_i),Mdi'＝Tanh(W_i*MD_i)，分别表示具有互补特征的彩色特征概率图和深度特征概率图，g_i表示第i个门机制生成的特征图。

2.如权利要求1所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法，其特征在于，所述将每个层级的所述具有互补性的特征输入所述边缘信息蒸馏网络层，生成边缘感知特征,具体包括：

采用如下公式对每个门机制生成的特征图进行蒸馏，生成边缘感知特征；

3.如权利要求1所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法，其特征在于，所述将所述RGB-D图像输入所述特征提取网络层，提取所述RGB-D图像多个层级的RGB编码特征和深度编码特征的步骤之后还包括：对所述RGB编码特征采用边缘特征作为细节信息来指导语义特征的生成。

4.如权利要求3所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法，其特征在于，所述对所述RGB编码特征采用边缘特征作为细节信息来指导语义特征的生成的过程如下：

P_fusion＝P_e×X₄+X₄×P_rgb，

5.如权利要求4所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法，其特征在于，所述P_rgb是通过将所述RGB编码特征输入膨胀空间金字塔后，采用全局平均池化、卷积、正则化及sigmoid操作后得到。

6.如权利要求1所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法，其特征在于，所述神经网络的总体损失函数为：

其中，U_s和U_e表示基于L_s和L_e数据学习的相关权重,L_e表示学习优化边缘特征的损失函数，L_s代表交叉熵损失来学习像素级别的语义分割标签，更新整个网络的训练参数，α和β是两个超参数，αU_s和βU_s为正则优化器。

7.一种存储介质，其特征在于，所述存储介质存储有一个或多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-6任意一项所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法中的步骤。

8.一种终端，其特征在于，包括：处理器和存储器；所述存储器上存储有可被所述处理器执行的程序；所述处理器执行所述程序时实现如权利要求1-6任意一项所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法中的步骤。