CN113205520B

CN113205520B - 一种对图像进行语义分割的方法及系统

Info

Publication number: CN113205520B
Application number: CN202110435343.0A
Authority: CN
Inventors: 赵经阳; 余昌黔; 桑农
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2022-08-05
Anticipated expiration: 2041-04-22
Also published as: CN113205520A

Abstract

本发明提供一种对图像进行语义分割的方法及系统，包括：确定样本图像；提取视觉特征和深度特征；对语义分割模型进行训练；包括编码模块和解码模块；编码模块将每组特征输入DFS，融合得到一组多模特征，通过CA对各组多模特征进行筛选，并将筛选后的多模特征输入DS学习各个深度特征对应的权重矩阵，基于权重矩阵和相应深度特征筛选出相应的关键深度特征，得到各组含有关键深度信息的多模特征；构建DDC，提取相关的语义特征，得到融合后的语义特征；解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割；将待语义分割图像输入到训练好的语义分割模型，以进行语义分割。本发明的语义分割模型可以更加合理的利用深度信息。

Description

一种对图像进行语义分割的方法及系统

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种对图像进行语义分割的方法及系统。

背景技术

语义分割是计算机视觉领域中的一项基本任务，目标是把图像中的每一个像素分配给对应的类别，是像素级别的多分类任务。其在自动驾驶、虚拟现实、机器人导航、医学图像处理等领域具有重要意义。在近年来的研究表明，在室内场景的语义分割任务中，深度信息的引入会在一定程度上提高分割的精度，原因是深度图像可以提供彩色图像相对匮乏的空间位置信息，能够在一定程度上区分视觉特征相似但深度特征差异较大的不同物体。

根据将深度信息嵌入视觉特征的方式，大部分的研究内容可以大致分为以下三类：单流的方式，双流的方式以及多任务的方式。单流的方式不会将深度图作为额外的输入而对其提取特征，只有一个对彩色图像进行特征提取的主干网络，特征提取的过程中利用深度图固有的空间信息辅助视觉特征的提取，以达到提高语义分割的效果，或者是采用多个卷积核沿着深度方向对输入图像提取特征，每个卷积核处理不同深度的像素点，最后把多个卷积核的计算结果相加。双流的方法主要存在两个主干网络，将深度图作为单独的输入，对深度图像和彩色图像分别提取特征，在适当的位置(编码器阶段或解码器阶段)将两种模态的特征融合来实现将深度信息嵌入视觉特征的目的。与上述两种方法具有显著不同的是多任务方法，它将语义分割，深度估计以及表面法线估计等多种任务一同处理，这类方式往往只有一个共用的主干网络，在对彩色图像进行特征提取的过程中，这些任务具有相似的特征以及互补的特征，不同任务间特征的交互会提高各个任务的性能。

但是，如何更有效的利用深度信息仍然是一个开放性的问题。除此之外，基于深度学习的室内图像语义分割任务中，卷积核固有的几何结构限制了卷积网络的建模能力，可变形卷积的提出在一定程度上缓解了这个问题。然而可变形卷积中产生位置偏移的彩色图像空间位置信息相对不足，限制了其特征提取的能力。此外，当前室内图像语义分割方法中，未曾思考深度信息的加入是否会产生不良影响，即将全部深度信息和视觉特征组合在一起可能会对模型产生干扰，产生这种现象的原因是仅依靠视觉特征网络就能区分不同物体，在引入深度信息后反而可能会使得网络模型做出错误的判断。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种对图像进行语义分割的方法及系统，旨在解决现有图像语义分割技术中，使用全部深度信息可能导致的网络模型错误分类的问题。

为实现上述目的，第一方面，本发明提供了一种对图像进行语义分割的方法，包括如下步骤：

确定样本图像；所述样本图像包括多组图像，每组图像包括一个彩色图像和一个深度图像，且每组图像中的彩色图像和深度图像均对同一成像区域分别彩色图成像和深度图成像得到；不同组图像可以对不同成像区域成像得到；

提取每组图像中彩色图像的视觉特征和深度图像的深度特征，将每组图像提取的视觉特征和深度特征组合成一组特征，得到多组特征；

基于所述多组特征对语义分割模型进行训练；所述语义分割模型包括编码模块和解码模块；其中，编码模块将每组特征输入深度信息引导的特征选择模块(Depthguidedfeatureselection，DFS)，融合得到一组多模特征，通过通道注意力机制(Channel Attention，CA)对各组多模特征进行筛选，并将筛选后的多模特征输入深度选择模块(Depthselection，DS)学习各个深度特征对应的权重矩阵，基于权重矩阵和相应深度特征筛选出相应的关键深度特征，并将关键深度特征与各组图像提取的视觉特征组合得到各组含有关键深度信息的多模特征；以及基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块(Depth embedded deformableconvolution，DDC)，以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移，结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置，并对采样点进行卷积运算提取相关的语义特征，并将语义特征与含有关键深度信息的多模特征融合，得到融合后的语义特征；解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割；所述语义分割指的是为图像中每个像素点对应物体的类别打标签；

将待语义分割图像输入到训练好的语义分割模型，以得到待语义分割图像的分割结果；所述待语义分割图像包括彩色图像和对应的深度图像。

在一个可选的示例中，所述深度信息引导的特征选择模块DFS包括：融合单元、CA以及DS；

所述融合单元将每组特征中的深度特征与视觉特征连接在一起，公式如下：

其中，

表示输入的视觉特征，

表示输入的深度特征，

表示连接后的特征，H×W表示特征图的高度和宽度，C表示特征图的通道数；特征图指的是彩色图像特征或者深度图像特征；

所述CA将连接后的特征沿着通道的维度作均值池化操作，公式如下：

其中，

表示均值池化的输出结果，rd(i,j)表示特征图中每个像素的值，i表示特征图中每个像素的横坐标，j表示特征图中每个像素的纵坐标；将均值池化后的特征经过第一个全连接层、Relu激活函数、第二个全连接层以及Sigmoid函数进一步提取特征，之后与连接后的特征

点乘，得到通道注意力机制运算后的结果，公式如下：

其中，

表示经过CA运算后的输出结果，作为筛选后的多模特征，fc₁表示第一个全连接函数，R表示Relu激活函数，fc₂表示第二个全连接函数，σ表示Sigmoid函数；

所述CA将筛选后的多模特征输入到DS；

所述DS先通过3×3的卷积进一步提取特征，同时降低特征的维度，减少参数的数量，之后经过第一个1×1的卷积运算与Relu激活函数得到通道数为1的目标矩阵，接着再经过第二个1×1的卷积运算进行调整，调整后的目标矩阵通过Sigmoid函数生成深度特征对应的权重矩阵γ^H×W，公式如下：

其中，f₁表示第一个1×1的卷积函数，f_3×3表示3×3的卷积函数，f₂表示第二个1×1的卷积函数；

将得到的权重矩阵与相应深度特征点乘得到

公式如下：

表示筛选出来的关键深度特征；

将关键深度特征

与各组图像提取的视觉特征

组合得到各组含有关键深度信息的多模特征

公式如下：

在一个可选的示例中，所述基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块DDC，以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移，结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置，并对采样点进行卷积运算提取相关的语义特征，并将语义特征与含有关键深度信息的多模特征融合，得到融合后的语义特征，具体为：

所述DDC包括两个卷积运算；

将含有关键深度信息的多模特征通过第一个卷积运算，得到第二个卷积运算的位置偏移矩阵；第一个卷积运算的公式如下：

表示第一个卷积运算，Offset^H×W×2C为对应第二个卷积运算的位置偏移矩阵，通道是2意味着存在水平方向和竖直方向的偏移；

对原始的各组视觉特征进行第二个卷积运算的过程中，将第一个卷积运算得到的采样点的位置偏移与第二个卷积运算的采样点的位置坐标相加，通过双线性插值运算得到新的采样点的位置，对新的采样点进行卷积运算，提取相关的语义特征；第二个卷积运算的公式如下：

表示第二个卷积运算，

表示输入的视觉特征，

表示第二个卷积运算得到的语义特征；第二个卷积运算的具体形式如下：用x代表输入特征图，w表示卷积核的权重，y表示卷积运算的输出；用集合A＝{(-1,1),(0,1),(1,1),(-1,0),(0,0),(0,1),(-1,-1),(0,-1),(1,-1)}表示卷积核的感受野，也是卷积核采样点的位置坐标，中心坐标(0,0)为卷积核采样的中心点p_i，公式如下：

其中，p_j∈A为感受野中其余的采样点的坐标，(p_j+p_i+Δpd_j)为结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置；Δpd_j为采样点的位置偏移，来自Offset^H×W×2C对应的栅格，由第一个卷积运算得到，即Δpd_j∈Offset^H×W×2C；

将第二个卷积运算得到的语义特征与含有关键深度信息的多模特征融合，得到融合后的语义特征，公式如下：

在一个可选的示例中，所述解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割；具体为：

所述解码模块将融合后的语义特征通过空间金字塔池化单元，得到不同尺度的语义特征，公式如下：

(o₁,o₂,o₃,o₄,o₅)＝ASPP(Enc)；ASPP表示空间金字塔池化单元，Enc为所述融合后的语义特征，o₁,o₂,o₃,o₄,o₅为不同尺度的语义特征；将不同尺度的语义特征变换为相同尺寸后连接，公式如下：

o＝o₁||o₂||o₃||o₄||o₅；其中||表示连接运算，o表示连接后的语义特征；

将连接得到的特征o经过1×1的卷积运算进行调整，调整后的特征经过4倍上采样运算得到中间特征，中间特征与DDC得到的相同尺寸的融合后的语义特征连接，再经过3×3的卷积运算进一步提取特征，之后将中间特征进行4倍上采样运算得到分割结果，公式如下：

S＝Up(f_3×3(Up(f_1×1(o||low))))；其中，low表示DDC得到的与o相同尺寸的融合后的语义特征，f_1×1表示1×1的卷积运算，Up表示4倍上采样运算，f_3×3表示3×3的卷积运算，S表示图像语义分割结果。

在一个可选的示例中，提取每组图像中彩色图像的视觉特征和深度图像的深度特征可通过语义分割模型完成；所述将待语义分割图像输入到训练好的语义分割模型后，语义分割模型先提取待语义分割图像中彩色图像的视觉特征和深度图像的深度特征，根据提取的视觉特征和深度特征对图像进行语义分割。

第二方面，本发明提供了一种对图像进行语义分割的系统，包括：

样本确定单元，用于确定样本图像；所述样本图像包括多组图像，每组图像包括一个彩色图像和一个深度图像，且每组图像中的彩色图像和深度图像均对同一成像区域分别彩色图成像和深度图成像得到；不同组图像可以对不同成像区域成像得到；

特征提取单元，用于提取每组图像中彩色图像的视觉特征和深度图像的深度特征，将每组图像提取的视觉特征和深度特征组合成一组特征，得到多组特征；

模型训练单元，用于基于所述多组特征对语义分割模型进行训练；所述语义分割模型包括编码模块和解码模块；其中，编码模块将每组特征输入深度信息引导的特征选择模块DFS，融合得到一组多模特征，通过通道注意力机制CA对各组多模特征进行筛选，并将筛选后的多模特征输入深度选择模块DS学习各个深度特征对应的权重矩阵，基于权重矩阵和相应深度特征筛选出相应的关键深度特征，并将关键深度特征与各组图像提取的视觉特征组合得到各组含有关键深度信息的多模特征；以及基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块DDC，以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移，结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置，并对采样点进行卷积运算提取相关的语义特征，并将语义特征与含有关键深度信息的多模特征融合，得到融合后的语义特征；解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割；所述语义分割指的是为图像中每个像素点对应物体的类别打标签；

图像分割单元，用于将待语义分割图像输入到训练好的语义分割模型，以得到待语义分割图像的分割结果；所述待语义分割图像包括彩色图像和对应的深度图像。

在一个可选的示例中，所述语义分割模型中深度信息引导的特征选择模块DFS包括：融合单元、CA以及DS；

其中，

表示输入的视觉特征，

表示输入的深度特征，

其中，

点乘，得到通道注意力机制运算后的结果，公式如下：

其中，

所述CA将筛选后的多模特征输入到DS；

将得到的权重矩阵与相应深度特征点乘得到

公式如下：

表示筛选出来的关键深度特征；

将关键深度特征

与各组图像提取的视觉特征

组合得到各组含有关键深度信息的多模特征RD^H×W×C，公式如下：

在一个可选的示例中，所述语义分割模型中DDC包括两个卷积运算；

表示第二个卷积运算，

表示输入的视觉特征，

表示第二个卷积运算得到的语义特征；第二个卷积运算的具体形式如下：用x代表输入特征图，w表示卷积核的权重，y表示卷积运算的输出；用集合A＝{(-1,1),(0,1),(1,1),(-1,0),(0,0),(0,1),(-1,-1),(0,-1),(1,-1)表示卷积核的感受野，也是卷积核采样点的位置坐标，中心坐标(0,0)为卷积核采样的中心点p_i，公式如下：

在一个可选的示例中，所述语义分割模型中解码模块将融合后的语义特征通过空间金字塔池化单元，得到不同尺度的语义特征，公式如下：

在一个可选的示例中，所述特征提取单元基于语义分割模型提取彩色图像的视觉特征和深度图像的深度特征；所述待语义分割图像输入到训练好的语义分割模型后，先被语义分割模型提取视觉特征和深度特征，再基于提取的特征进行语义分割。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提供一种对图像进行语义分割的方法及系统，提出了深度信息引导的特征选择模块，可以根据视觉特征和深度特征的输入自适应的决定深度信息加入的比例，能够在一定程度上避免全部深度信息嵌入对网络造成的困扰，在网络需要的时候，添加更多的深度信息，在网络不需要的时候不添加或加入较少的深度信息，与以往的方法相比，本发明的语义分割模型可以更加合理的利用深度信息。

本发明提供一种对图像进行语义分割的方法及系统，由于当前主流神经网络中卷积核固有的几何结构，限制了神经网络的特征提取能力。原因在于真实世界中物体的形状和尺寸千变万化，固定几何结构的卷积核对于不同物体的自适应能力较差，很难根据物体的形状提取有效的特征。可变形卷积的出现能够在一定程度上缓解这个问题，可以通过对彩色图像的卷积产生采样点的位置偏移。可是，彩色图像中的空间位置信息相对匮乏，导致产生的位置偏移相对不足。本文提出了深度信息嵌入的可变形卷积模块，通过额外深度信息的嵌入，可以根据物体形状提取更有效的特征，增强可变形卷积适应不同形变的能力。

本发明提供一种对图像进行语义分割的方法及系统，设计的深度信息引导的特征提取模块，包括深度信息引导的特征选择模块和深度信息嵌入的可变形卷积模块，可以方便的嵌入到当下流行的特征提取网络中，有效的利用深度信息提高模型的建模能力。

附图说明

图1是本发明实施例提供的一种对图像进行语义分割的方法流程图；

图2是本发明实施例提供的图像语义分割架构示意图；

图3是本发明实施例提供的深度信息引导的特征提取模块示意图；

图4是本发明实施例提供的网络深度信息嵌入的可变形卷积模块示意图；

图5是本发明实施例提供的语义分割实现流程图；

图6是本发明实施例提供的另一种图像语义分割方法流程图；

图7是本发明实施例提供的对图像进行语义分割的系统架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明公开了一种对图像进行语义分割的方法及系统，属于计算机视觉技术领域。

其中，该方法可适用于室内图像的语义分割。

本发明方法重新思考了深度信息对室内图像语义分割的影响，缓解了过去方法利用全部深度信息可能导致的错误分类，更加合理的利用深度信息，并通过深度信息的嵌入进一步提高了可变形卷积的特征提取能力，有效的提高了室内图像语义分割的精度。

针对现有技术的缺陷，本发明的目的在于提供一种室内图像语义分割方法，重新思考了深度信息的加入对网络模型产生的影响并通过深度信息的嵌入进一步改进了可变形卷积，提出了深度信息引导的特征提取模块(Depthguidedfeatureextraction，DFE)，包括DFS和DDC。旨在解决室内图像语义分割技术中，使用全部深度信息可能导致的网络模型错误分类问题，在网络需要的时候加入关键的深度信息，更加合理的利用深度特征。

图1是本发明实施例提供的一种对图像进行语义分割的方法流程图，如图1所示，包括如下步骤：

S101，确定样本图像；所述样本图像包括多组图像，每组图像包括一个彩色图像和一个深度图像，且每组图像中的彩色图像和深度图像均对同一成像区域分别彩色图成像和深度图成像得到；不同组图像可以对不同成像区域成像得到；

S102，提取每组图像中彩色图像的视觉特征和深度图像的深度特征，将每组图像提取的视觉特征和深度特征组合成一组特征，得到多组特征；

S103，基于所述多组特征对语义分割模型进行训练；所述语义分割模型包括编码模块和解码模块；其中，编码模块将每组特征输入深度信息引导的特征选择模块DFS，融合得到一组多模特征，通过通道注意力机制CA对各组多模特征进行筛选，并将筛选后的多模特征输入深度选择模块DS学习各个深度特征对应的权重矩阵，基于权重矩阵和相应深度特征筛选出相应的关键深度特征，并将关键深度特征与各组图像提取的视觉特征组合得到各组含有关键深度信息的多模特征；以及基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块DDC，以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移，结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置，并对采样点进行卷积运算提取相关的语义特征，并将语义特征与含有关键深度信息的多模特征融合，得到融合后的语义特征；解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割；所述语义分割指的是为图像中每个像素点对应物体的类别打标签；

具体地，语义分割模型的架构参见图2所示。

S104，将待语义分割图像输入到训练好的语义分割模型，以得到待语义分割图像的分割结果；所述待语义分割图像包括彩色图像和对应的深度图像。

可选地，深度信息引导的特征选择模块DFS参见图3所示，包括：融合单元、CA以及DS；

其中，

表示输入的视觉特征，

表示输入的深度特征，

其中，

点乘，得到通道注意力机制运算后的结果，公式如下：

其中，

所述CA将筛选后的多模特征输入到DS；

将得到的权重矩阵与相应深度特征点乘得到

公式如下：

表示筛选出来的关键深度特征；

将关键深度特征

与各组图像提取的视觉特征

具体地，

表示筛选出来的深度特征，也是嵌入视觉特征的深度信息。权重矩阵γ^H×W对深度特征

进行了显式的筛选，可以根据任务的需要自适应的确定深度信息引入网络的多少，这部分深度信息即为关键的深度信息。

可选地，基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块DDC，以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移，结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置，并对采样点进行卷积运算提取相关的语义特征，并将语义特征与含有关键深度信息的多模特征融合，得到融合后的语义特征，具体为：

参见图4所示，所述DDC包括两个卷积运算；

表示第二个卷积运算，

表示输入的视觉特征，

可选地，解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割；具体为：

具体地，解码模块的结构与deeplabV3+网络的解码模块相同，其中，DeeplabV3+是流行的语义分割基准网络，这部分解码器的结构也可以采用其他网络的解码器。

可选地，提取每组图像中彩色图像的视觉特征和深度图像的深度特征可通过语义分割模型完成；参见图5所示，所述将待语义分割图像输入到训练好的语义分割模型后，语义分割模型先提取待语义分割图像中彩色图像的视觉特征和深度图像的深度特征，根据提取的视觉特征和深度特征对图像进行语义分割。

具体地，对待分割图像进行语义分割的步骤包括：将待分割的室内彩色图像和与之对齐的深度图像输入训练好的网络模型，经过运算得到混淆矩阵与彩色图像的分割结果；通过混淆矩阵可以计算语义分割总常用的分割指标，包括平均像素精度(Pixelaccuracy,PA)和平均交并比(Mean intersection over union，MIoU)。

在一个更具体的实施例中，参考图6，本发明实施例提供了一种室内图像语义分割方法，包括：

(1)对样本图像中的彩色图像提取视觉特征；

(2)对样本图像中与彩色图像对齐的深度图像提取深度特征；

(3)根据输入的视觉特征与深度特征构建深度信息引导的特征选择模块DFS；

(4)将深度信息引导的特征选择模块筛选出来的含有关键深度信息的视觉特征作为部分输入构建深度信息嵌入的可变形卷积模块DDC；

(5)编码器的输出结果作为解码器的输入，通过上采样运算得到与输入图像尺寸相同的分割图像，对上述网络模型进行训练；

(6)将待分割的室内图像中的彩色图像和与之对齐的深度图像输入训练好的模型，得到室内彩色图像的分割结果。

优选地，所述步骤(1)具体包括：

(1.1)将样本图像中的彩色图像缩放到同一尺寸，实例中为480×640；

(1.2)根据ImageNet上的图像分布，将样本图像中彩色图像的像素值归一化到(0,1)；

(1.3)利用深度学习模型中的残差网络对彩色图像提取相应的视觉特征；

优选地，所述步骤(2)具体包括：

(2.1)将样本图像中与彩色图像对齐的深度图像缩放到同一尺寸，实例中为480×640；

(2.2)根据ImageNet上的图像分布，将样本图像中与彩色图像对齐的深度图像的像素值归一化到(0,1)；

(2.3)利用深度学习模型中的残差网络ResNet50对深度图像提取相应的深度特征；

优选地，所述步骤(3)具体包括：

(3.1)将提取到的视觉特征与深度特征连接在一起得到多模特征，通过通道注意力机制对多模特征进行筛选；

(3.2)将筛选后的多模特征通过深度选择模块DS，得到深度特征对应的权重矩阵，将得到的权重矩阵与深度特征进行点乘运算，运算后的结果为筛选出的关键的深度特征；

(3.3)将得到的关键的深度特征与视觉特征相加，达到将深度信息嵌入视觉特征的目的，同时将得到的关键的深度特征与深度特征相加，进一步增强网络需要的深度信息部分；

优选地，所述步骤(4)具体包括：

(4.1)将深度信息引导的特征选择模块得到的含有关键深度信息的视觉特征与原始的视觉特征作为输入构建深度信息嵌入的可变形卷积模块，深度信息嵌入的可变形卷积模块包括两个卷积运算；

(4.2)含有关键深度信息的视觉特征通过一个卷积运算，得到第二个卷积运算中采样点的位置偏移矩阵；

(4.3)对原始的视觉特征进行第二个卷积运算的过程中，将第一个卷积运算得到的采样点的位置偏移与第二个卷积运算的采样点的位置坐标相加，通过双线性插值运算得到新的采样点的位置，对新的采样点进行卷积运算，得到最终的运算结果，公式如下：

w表示卷积核的权重，x表示卷积的输入，y表示卷积的输出。其中p_i为卷积核采样的中心点，p_j∈ρ(p_i)表示卷积核以像素点p_i为中心的感受域，Δp_j为采样点的位置偏移，由嵌入深度信息的视觉特征通过卷积学习得到，公式如下：

表示卷积运算，RD^H×W×C表示嵌入深度信息的多模特征，Offset^H×W×2C为对应彩色图像的位置偏移矩阵，通道是2意味着存在水平方向和竖直方向的偏移，Δp_j来自Offset^H ^×W×2C对应的栅格。

优选地，所述步骤(5)具体包括：

(5.1)将编码器阶段的输出，即含有关键深度信息的视觉特征，作为解码器的输入，构建解码器网络；

(5.2)含有关键深度信息的视觉特征通过空间金字塔池化模块，得到不同尺度的语义信息；

(5.3)不同尺度的语义信息连接在一起，经过1×1卷积运算降维后，通过双线性插值运算上采样到原始图像

尺寸的特征图；

(5.4)将得到的特征图与编码器阶段相同尺寸的特征图相加，经过相应的卷积运算与上采样操作得到网络预测的分割结果；

(5.5)将网络的预测结果与相应的标签输入相应的损失函数，得到偏差，通过反向梯度传播，更新网络的参数，训练网络模型；

实例基于Pytorch框架，在四块英伟达显卡上进行了相关的实验，采用了随机梯度下降(stochastic gradient descent，SGD)的优化方法，动量(momenta)参数为0.9，权重衰减系数(weightdecay)为0.0001。选择了“poly”的学习策略，网络模型的学习率会随着迭代的次数衰减

模型的初始学习率为0.02，运行了400个周期(epoch)。在数据增广方面，我们使用了水平翻转，以及随机尺度变换的技巧，变换的尺度因子为[0.5,0.75,1,1.5,1.75]。为了衡量我们网络的性能，我们采用平均像素准确率(Pixelaccuracy，PA)与平均交并比(Meanpixelintersectionoverunion，MIoU)作为度量。

优选地，所述步骤(6)具体包括：

(6.1)将待分割的室内彩色图像和与之对齐的深度图像输入训练好的网络模型，经过运算得到混淆矩阵与彩色图像的分割结果；

(6.2)通过混淆矩阵可以计算语义分割总常用的分割指标，包括平均像素精度(Pixel accuracy，PA)和平均交并比(Mean intersection over union，MIoU)。

为验证本发明方法对室内图像语义分割的有效性，与现有主流的室内图像语义分割方法进行对比分析，使用的数据集为当下十分流行的NYUv2数据集。实验结果如表1所示，测试采用平均像素准确率(Pixelaccuracy，PA)与平均交并比(Meanpixelintersectionoverunion，MIoU)作为评价指标。根据测试结果可知，在使用相同的主干网络ResNet-50的情况下，本发明方法在NYUv2数据集上的MIoU为51.9％，PA为77.6％，实现了最好的分割效果。其中VCD+ACNet方法与本发明方法的MIoU相同，但是VCD+ACNet方法使用了3个主干网络，而本发明的方法仅使用了两个主干网络，使用了更少的参数达到了相同的分割结果。此外，采用ResNet-101作为主干网络的情况下，本发明的方法在NYUv2数据集上的MIoU为52.6％，增加参数的同时性能进一步提高。本方法相对于其他的图像语义分割方法具有一定的优势。

表1与当前方法的比较

注：(#)表示使用了3个主干网络

图7是本发明实施例提供的对图像进行语义分割的系统架构图，如图7所示，包括：

样本确定单元710，用于确定样本图像；所述样本图像包括多组图像，每组图像包括一个彩色图像和一个深度图像，且每组图像中的彩色图像和深度图像均对同一成像区域分别彩色图成像和深度图成像得到；不同组图像可以对不同成像区域成像得到；

特征提取单元720，用于提取每组图像中彩色图像的视觉特征和深度图像的深度特征，将每组图像提取的视觉特征和深度特征组合成一组特征，得到多组特征；

模型训练单元730，用于基于所述多组特征对语义分割模型进行训练；所述语义分割模型包括编码模块和解码模块；其中，编码模块将每组特征输入深度信息引导的特征选择模块DFS，融合得到一组多模特征，通过通道注意力机制CA对各组多模特征进行筛选，并将筛选后的多模特征输入深度选择模块DS学习各个深度特征对应的权重矩阵，基于权重矩阵和相应深度特征筛选出相应的关键深度特征，并将关键深度特征与各组图像提取的视觉特征组合得到各组含有关键深度信息的多模特征；以及基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块DDC，以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移，结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置，并对采样点进行卷积运算提取相关的语义特征，并将语义特征与含有关键深度信息的多模特征融合，得到融合后的语义特征；解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割；所述语义分割指的是为图像中每个像素点对应物体的类别打标签；

图像分割单元740，用于将待语义分割图像输入到训练好的语义分割模型，以得到待语义分割图像的分割结果；所述待语义分割图像包括彩色图像和对应的深度图像。

具体地，图7中各个单元的具体功能可参见前述方法实施例中的记载，在此不做赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种对图像进行语义分割的方法，其特征在于，包括如下步骤：

基于所述多组特征对语义分割模型进行训练；所述语义分割模型包括编码模块和解码模块；其中，编码模块将每组特征输入深度信息引导的特征选择模块DFS，融合得到一组多模特征，通过通道注意力机制CA对各组多模特征进行筛选，并将筛选后的多模特征输入深度选择模块DS学习各个深度特征对应的权重矩阵，基于权重矩阵和相应深度特征筛选出相应的关键深度特征，并将关键深度特征与各组图像提取的视觉特征组合得到各组含有关键深度信息的多模特征；以及基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块DDC，以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移，结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置，并对采样点进行卷积运算提取相关的语义特征，并将语义特征与含有关键深度信息的多模特征融合，得到融合后的语义特征；解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割；所述语义分割指的是为图像中每个像素点对应物体的类别打标签；

2.根据权利要求1所述的方法，其特征在于，所述深度信息引导的特征选择模块DFS包括：融合单元、CA以及DS；

其中，

表示输入的视觉特征，

表示输入的深度特征，

其中，

表示均值池化的输出结果，rd(i，j)表示特征图中每个像素的值，i表示特征图中每个像素的横坐标，j表示特征图中每个像素的纵坐标；将均值池化后的特征经过第一个全连接层、Relu激活函数、第二个全连接层以及Sigmoid函数进一步提取特征，之后与连接后的特征

点乘，得到通道注意力机制运算后的结果，公式如下：

其中，

表示经过CA运算后的输出结果，作为筛选后的多模特征，fc1表示第一个全连接函数，R表示Relu激活函数，fc2表示第二个全连接函数，σ表示Sigmoid函数；

所述CA将筛选后的多模特征输入到DS；

将得到的权重矩阵与相应深度特征点乘得到

公式如下：

表示筛选出来的关键深度特征；

将关键深度特征

与各组图像提取的视觉特征

3.根据权利要求2所述的方法，其特征在于，所述基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块DDC，以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移，结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置，并对采样点进行卷积运算提取相关的语义特征，并将语义特征与含有关键深度信息的多模特征融合，得到融合后的语义特征，具体为：

所述DDC包括两个卷积运算；

表示第一个卷积运算，Offset^H×W×2C为对应第二个卷积运算的位置偏移矩阵，通道是2C意味着存在水平方向和竖直方向的偏移；

表示第二个卷积运算，

表示输入的视觉特征，

表示第二个卷积运算得到的语义特征；第二个卷积运算的具体形式如下：用x代表输入特征图，w表示卷积核的权重，y表示卷积运算的输出；用集合A＝{(-1，1)，(0，1)，(1，1)，(-1，0)，(0，0)，(0，1)，(-1，-1)，(0，-1)，(1，-1)}表示卷积核的感受野，也是卷积核采样点的位置坐标，中心坐标(0，0)为卷积核采样的中心点p_i，公式如下：

4.根据权利要求3所述的方法，其特征在于，所述解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割；具体为：

(o₁，o₂，o₃，o₄，o₅)＝ASPP(Enc)；ASPP表示空间金字塔池化单元，Enc为所述融合后的语义特征，o₁，o₂，o₃，o₄，o₅为不同尺度的语义特征；将不同尺度的语义特征变换为相同尺寸后连接，公式如下：

5.根据权利要求1至4任一项所述的方法，其特征在于，提取每组图像中彩色图像的视觉特征和深度图像的深度特征可通过语义分割模型完成；所述将待语义分割图像输入到训练好的语义分割模型后，语义分割模型先提取待语义分割图像中彩色图像的视觉特征和深度图像的深度特征，根据提取的视觉特征和深度特征对图像进行语义分割。

6.一种对图像进行语义分割的系统，其特征在于，包括：

7.根据权利要求6所述的系统，其特征在于，所述语义分割模型中深度信息引导的特征选择模块DFS包括：融合单元、CA以及DS；