CN110232394B

CN110232394B - 一种多尺度图像语义分割方法

Info

Publication number: CN110232394B
Application number: CN201810181370.8A
Authority: CN
Inventors: 许勇; 李梦溪; 全宇晖
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-03-06
Filing date: 2018-03-06
Publication date: 2021-08-10
Anticipated expiration: 2038-03-06
Also published as: CN110232394A

Abstract

本发明公开了一种多尺度图像语义分割方法，包括下述步骤：获取待分割图像和对应的标签；构建全卷积深度神经网络，所述全卷积深度神经网络包括卷积模块、空洞卷积模块、金字塔池化模块、1×1×depth卷积层、以及反卷积结构，将带洞卷积设置为逐通道的操作，有针对性地利用低、中、高尺度特征；训练全卷积深度神经网络，建立损失函数，通过训练样本图像确定全卷积深度神经网络的参数；将待分割图像输入到训练完成的全卷积深度神经网络，得到语义分割结果。本发明的方法能够在减小计算量和参数数量的同时较好地处理存在复杂细节、空洞和较大目标的图像语义分割问题，能够很好地分割目标边缘的同时，保留类别标签的一致性。

Description

一种多尺度图像语义分割方法

技术领域

本发明涉及计算机视觉领域，特别涉及一种多尺度图像语义分割方法。

背景技术

语义分割是计算机视觉领域的重要问题，目前多种应用场景(例如物体检测、识别等)都需要通过语义分割来实现。语义分割的任务是对图像的每一个像素判断其所属的类别，并打上标签。

语义分割问题对算法提出了两个要求：(1)分类：属于同一类别的目标范围像素的标签要具有一致性；(2)定位：对目标边缘处的像素也能够准确地分类。这两个要求中，前者需要的是高层语义特征，通常可以通过设置卷积步长、池化下采样等方式获得；而后者需要的是原图的细节，需要避免特征图像分辨率的下降。传统的卷积神经网络中的池化和步长大于1的卷积操作起到了下采样的作用，造成了输出特征图像尺寸的降低。为了解决尺寸降低的问题，有人提出了双线性插值上采样、保存池化位置的反池化操作等方法来对特征图像进行上采样，但是经过上采样后特征图像丢失了一些原本图像中的位置信息和细节信息。通过skip layer的层间特征融合，将浅层特征图像与深层特征图像加和，可以弥补丢失的信息，一定程度上恢复出细节特征，但这种简单的相加不符合直观的物理理解。为了避免特征图像分辨率降低，后来有人提出了一种叫做空洞卷积的特殊卷积操作，DeepLab算法使用了这一结构，并成为语义分割领域著名的算法。

空洞卷积在一维中，一维信号x[i]经过空洞卷积层，若卷积核尺寸为K，则输出特征图像y[i]的计算公式为：

其中，r为膨胀率参数，代表我们对输入信号采样的步长，普通的卷积可以看作是膨胀率r＝1。其操作如图2(a)和图2(b)分别为使用的一个多尺度空洞卷积模块和一个多尺度空洞卷积结构在一维数据上的示意图。这样的做法优点是能够从原图中提取更加稠密的特征，同时抽象出高层特征，具有较大的感受野。

空洞卷积在二维中可以看作是在普通卷积核的每两个值中间用零做填充，形成“带洞的卷积核”。如果原本步长为2的卷积核尺寸为k×k，那么经过填充的空洞卷积核步长为1，尺寸为k_d×k_d,k_d＝k+(k-1)×(r-1)。这样的空洞卷积的好处是获得了较大的感受野，同时保持特征图像尺寸不变。在DeepLab中，网络分为一个个模块，每个模块内串联的几个空洞卷积层采用相同的rate，因此同一模块内的特征具有大小相同的感受野。DeepLab存在三点不足：(1)一定程度上解决了分辨率和感受野之间的矛盾，但是在对不同尺度的目标进行分割时仍然不够鲁棒；(2)DeepLab空洞卷积每个模块内的第l层特征图像p位置的像素是由第l-1层特征图像p位置k_d*k_d邻域的像素计算得到的。同一个模块中使用的是相同的rate，这会引起“带洞的”网格状感受野，如图3(a)-图3(c)所示，其中图3(a)为经过一次普通3×3，膨胀率为1的空洞卷积后得到特征的感受野；图3(b)为经过两次普通空洞卷积后得到特征的感受野；图3(c)为经过三次普通空洞卷积后得到特征图的感受野特征利用效率较低；深层特征图像尽管感受野范围大，但是计算时对感受野内像素的采样非常稀疏，只利用了很小部分像素的信息，导致分割结果细节损失严重；(3)随着空洞卷积模块数增加，新一层计算一个像素的时候使用到的上一层的带洞邻域的像素值，这些像素的值具有很大的不一致性，不利于复杂形状物体的分割。

通过全连接的条件随机场来对全卷积网络的分割结果进行后处理，DeepLab等算法使用了条件随机场，来恢复边缘位置信息，达到分割算法的一致性。

发明内容

本发明的目的在于克服现有技术中的缺点与不足，提供一种多尺度图像语义分割方法，基于多尺度空洞卷积的全卷积深度神经网络，使用深维度的空洞卷积来提取不同尺度的特征，后使用逐层上采样和层间特征融合来保持和恢复特征图像的尺寸。

为实现以上目的，本发明采取如下技术方案：

一种多尺度图像语义分割方法，包括下述步骤：

S1、获取待分割图像和对应的标签，所述待分割图像为三通道彩色图像，所述标签是每个像素位置对应的类别标签；

S2、构建全卷积深度神经网络，所述全卷积深度神经网络包括卷积模块、空洞卷积模块、金字塔池化模块、1×1×depth卷积层、以及反卷积结构；所述空洞卷积模块包括若干组多尺度空洞卷积结构，所述多尺度空洞卷积结构设置不同膨胀率的空洞卷积核，对特征图像分别提取低、中、以及高分辨率目标的信息；

S3、训练全卷积深度神经网络，建立损失函数，通过训练样本图像确定全卷积深度神经网络的参数；

S4、将待分割图像输入到训练完成的全卷积深度神经网络，得到语义分割结果。

作为优选的技术方案，步骤S2具体包括下述步骤：

S21、所述全卷积深度神经网络采用VGG-16或ResNet-101网络结构，包括三个卷积模块，每个卷积模块包含若干层3×3×depth的卷积层，所有卷积层的卷积核大小为3×3，步长为1；在每个卷积模块的最后一层还包含一个步长为2的池化下采样层；经过每个卷积模块，图像大小变为1/2，经过三个卷积模块，得到的特征图像的大小变为初始待分割图像的1/8；

S22、将步骤S21得到的特征图像输入到串联的三个空洞卷积模块中；每个空洞卷积模块包含三个结构相同且串联的多尺度空洞卷积结构；每个多尺度空洞卷积结构包含并联的三组空洞卷积核分支，分别用来提取的低、中、以及高分辨率目标的信息，不同空洞卷积核分支的分辨率通过不同膨胀率的卷积核实现，三组空洞卷积核的大小均为3×3，步长均设置为1，膨胀率分别设置为1，2ⁿ，2×2ⁿ，其中n＝1,2,3,n表示第n个多尺度空洞卷积结构；所有空洞卷积核为逐通道卷积操作，每个空洞卷积核输出一层特征图像；

S23、将步骤S22中每个空洞卷积模块的每个多尺度空洞卷积结构输出的低、中、高特征图像进行Concatenating拼接操作，然后再进行为尺寸1×1×depth的卷积，卷积核尺寸为1×1，步长设置为1，实现对低、中、以及高三种分辨率特征的信息交换互补，得到经过融合的一组低、中、以及高分辨率特征图像；

S24、将步骤S22中第三个串联的空洞卷积模块和一个金字塔全局池化模块并联；所述金字塔全局池化模块将特征图像进行不同尺度的全局池化，再将池化得到的特征图像，分别进行转置卷积上采样，恢复到池化前的尺寸，与并联的空洞卷积模块的输出结果进行Concatenating拼接得到一个特征图像，并将该特征图像输入到一个1×1×num_class且步长为1的卷积核中，生成一个大小为输入图像1/8的粗糙预测图，其中，num_class是分割任务标签类别的数量；

S25、将步骤S24中产生的粗糙预测图输入到三个串联的反卷积结构中；每个反卷积结构包含一个反卷积层和一个元素级相加层；所述反卷积层用于对输入该层的图像进行上采样，将图像尺寸放大为当前尺寸的2倍；经过第一个反卷积层后得到具有原始待分割图像1/4尺寸的深层特征图像；所述元素级相加层用于将经过1×1×num_class卷积处理的浅层特征图像和反卷积层输出的图像进行逐元素相加操作；获取某一卷积模块中池化层输出的具有原始待分割图像1/4尺寸的浅层特征图像；在进行上采样图像的同时将深层特征图像和浅层特征图像融合，恢复细节信息；其中，浅层特征图像在相加前，设置卷积层使之通道数和反卷积层的输出相同；

S26、将步骤S25中输出的特征图像输入到预测层即argmax函数层，进行元素级取argmax操作，得到图像中每个像素所属的类别。

作为优选的技术方案，所述步骤S26的argmax函数层，该层输出的预测结果为：

output_ij＝argmax_k(iutput_ijk)，k＝0,1,…,K-1 (1)

其中，K为类别总数，i，j表示像素在图像中的行列索引，k表示第K个类别的特征；图像output是一个取值在0到K-1之间的label map，为最终的输出。

作为优选的技术方案，步骤S3包括下述步骤：

S31、对已经建立的全卷积深度神经网络进行端到端的训练，训练策略采用随机下降算法SGD，初始学习率设置为10^-3，加入0.9的动量项momentum，学习率设置为0.9的指数衰减，larning_rate＝base_learning_rate×(1-step_ph/num_steps)^0.9，其中base_learning_rate为初始学习率0.3，step_ph为当前训练步数，num_steps为训练总步数；

S32、将预测层输出的图像输入损失函数层，所述损失函数层包括一个softmax层和一个FL层；采用如式(2)的损失函数，降低易分类像素误差的权重，将训练集中在难分类类别的像素上；

FL(p_t)＝-α_t(1-p_t)^γlog(p_t) (2)

其中，α_t是一个向量，表示每个类别的加权参数；p_t整体表示当前样本经过网络在ground truth类别上的预测值；γ表示聚焦参数，通常γ∈[0,5]，在这里γ设置为2，

其中，p是将预测层产生的特征图像经过softmax处理的值；如果类别个数为2，则p代表该像素属于正类的概率。

本发明相对于现有技术具有如下的优点和效果：

(1)本发明的方法，在网络中，每一个带洞卷积模块都使用了低、中、高三种不同尺度的空洞卷积，增大了特征计算时的感受野，增加了特征信息的利用率。相比传统算，能够更好地处理要求高精度的语义分割问题。

(2)本发明的方法通过带洞卷积、特征融合、跳跃结构等方法，是一个可以端到端进行训练的算法，不需要进行条件随机场后处理，更加简洁高效。

(3)本发明的方法将带洞卷积设置为逐通道的操作，这样操作可以有针对性地利用低、中、高尺度特征。同时处理小尺度和大尺度目标。

(4)本发明的方法对逐通道卷积的输出再进行1×1×depth的普通卷积，实现不同尺度信息的融合。与逐通道卷积共同构成一个卷积分解的过程，大大减小计算量和参数个数，降低了对设备计算能力的要求，使得该算法可以在非GPU环境下应用。

(5)本发明能够在减小计算量和参数数量的同时较好地处理存在复杂细节、空洞和较大目标的图像语义分割问题，能够很好地分割目标边缘的同时，保留类别标签的一致性。

附图说明

图1为本发明的多尺度图像语义分割方法。

图2(a)-图2(b)为背景技术中空洞卷积在一维数据上的示意图；其中图2(a)和图2(b)分别为使用的一个多尺度空洞卷积模块和一个多尺度空洞卷积结构在一维数据上的示意图。

图3(a)-图3(c)为背景技术中传统空洞卷积存在的gridding effect的说明图；其中图3(a)为经过一次普通3×3，膨胀率为1的空洞卷积后得到特征的感受野；图3(b)为经过两次普通空洞卷积后得到特征的感受野；图3(c)为经过三次普通空洞卷积后得到特征图的感受野特征利用效率较低。

图4为本发明的全卷积深度神经网络示意图。

图5(a)为本发明的一个空洞卷积模块示意图。

图5(b)为本发明的一个多尺度空洞卷积结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细描述。

实施例

如图1所示，一种多尺度图像语义分割方法，包括下述步骤：

S2、构建全卷积深度神经网络，如图4所示，所述全卷积深度神经网络包括卷积模块、空洞卷积模块、金字塔池化模块、1×1×depth卷积层、以及反卷积结构；所述空洞卷积模块包括若干组多尺度空洞卷积结构，所述多尺度空洞卷积结构设置不同膨胀率的空洞卷积核，对特征图像分别提取低、中、以及高分辨率目标的信息；步骤S2具体包括下述步骤：

S21、所述全卷积深度神经网络采用VGG-16或ResNet-101网络结构，包括三个卷积模块，每个卷积模块包含若干层3×3×depth的卷积层，所有卷积层的卷积核大小为3×3，步长为1；在每个卷积层模块的最后一层还包含一个步长为2的池化下采样层；经过每个卷积模块，图像大小变为1/2，且丢失部分细节信息；经过三个卷积模块，得到大小变为初始图像1/8A的特征图像A；

S22、将特征图像A输入到串联的三个空洞卷积模块中；如图5(a)所示，每个空洞卷积模块包含三个结构相同且串联的多尺度空洞卷积结构；如图5(b)所示，所述多尺度空洞卷积结构包含并联的三组空洞卷积核分支，分别用来提取的低、中、以及高分辨率目标的信息，不同空洞卷积核分支的分辨率通过不同膨胀率的卷积核实现，三组空洞卷积核的大小均为3×3，步长均设置为1，膨胀率分别设置为1，2ⁿ，2×2ⁿ，其中n＝1,2,3,n表示第n个多尺度空洞卷积结构；另外，输入到串联的三个空洞卷积模块中的特征图像分为三组，对应低、中、高三种不同的分辨率，对其中低分辨率的特征图像进行低分辨率的空洞卷积操作，中分辨率特征图像进行中分辨率空洞卷积操作，高分辨率特征图像进行高分辨率卷积操作，所有空洞卷积核为逐通道卷积操作，每个空洞卷积核输出一层特征图像。

在本实施例中，逐通道的空洞卷积可以提取多尺度的特征，同时具有卷积层和池化层的作用，在保证输出图像的尺寸和输入该层的图像尺寸相同的同时，可以扩大卷积核的感受野，提取图像的更深层次的信息的同时保留浅层信息。特别地，采用多尺度的空洞卷积，可以增大感受野范围内像素的利用率，使得所有像素参与计算，充分利用输入特征图像信息，使得预测结果更精确。逐通道卷积能够有针对性地提取不同尺度的特征，同时减少了参数数量和计算量。

S23、将步骤S22输出的特征图像拼接在一起，进行尺寸为1×1×depth的普通卷积，步长，实现对低、中、以及高三种分辨率特征的信息交换互补，得到经过融合的一组低、中、高分辨率特征图像；所述1×1×depth的普通卷积能够交换不同尺度特征图像的信息，增大模型容量，提取到更加鲁棒的特征；

S24、将步骤S22中串联的第三个空洞卷积模块和一个金字塔全局池化模块并联；所述金字塔全局池化模块将特征图像进行不同尺度的全局池化，再将池化得到的特征图，分别进行转置卷积上采样，恢复到池化前的尺寸，与并联的空洞卷积模块输出结果拼接，得到一个特征图像，达到提取更高层一致信息的目的，再将该特征图像输入到一个1×1×num_class且步长为1的卷积层中，生成一个大小为输入图像1/8的粗糙预测图B，其中，num_class是分割任务标签类别的数量。

S25、将特征图像B输入到三个串联的反卷积结构中；一个反卷积结构包含一个反卷积层和一个元素级相加层；所述反卷积层用于对输入该层的图像进行上采样，将图像尺寸放大为当前尺寸的2倍；经过第一个反卷积层后得到具有原始待分割图像1/4尺寸的特征图像C；所述元素级相加层用于将经过1×1×num_class(类别数)卷积处理的浅层特征图像和反卷积层输出的图像进行逐元素相加操作；经过上采样后，尽管图像尺寸得到一定程度的恢复，但其丢失的部分细节信息无法得到恢复，为了补充其丢失的细节信息，可以获取某一卷积模块中池化层输出的具有原始待分割图像1/4尺寸的特征图像D，即浅层特征图像，将浅层特征图像D与深层特征图像C输入元素级相加层，以补充丢失的部分细节信息，得到一个特征图像，再将该特征图像输入第二个反卷积层，得到具有原始待分割图像1/2尺寸的特征图像E；再将特征图像E和具有原始待分割图像1/2尺寸的浅层图像输入元素级相加层，再次恢复细节信息，得到一个特征图像，再将该特征图像输入到第三个反卷积层，得到一个与原始待分割图像尺寸相同的特征图像F；在本实施例中，浅层特征图像在相加前，设置卷积层使之通道数和反卷积层的输出相同；

S25、将特征图像F输入到预测层即argmax函数层，进行元素级取argmax操作，得到图像中每个像素所属的类别，该层输出的计算公式为：

output_ij＝argmax_k(iutput_ijk)，k＝0,1,…,K-1 (1)

其中K为类别总数；图像output是一个取值在0到K-1之间的label map，为最终的输出。

S3、训练全卷积深度神经网络，建立损失函数，通过训练样本图像确定全卷积深度神经网络的参数；具体包括下述步骤：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t) (2)

其中，α_t是一个向量，表示每个类别的加权参数；p_t整体表示当前样本经过网络在ground truth类别上的预测值；γ表示聚焦参数，通常γ∈[0,5]，在本实施例中γ设置为2，

在本实施例中，建立的FL损失函数是在cross entropy损失函数的基础上改进的，cross entropy损失函数的具体操作为：将F产生的特征图像输入到softmax函数中，计算出图像中每个像素属于不同类别的概率，softmax函数具体为：

其中，i表示像素横坐标；j表示像素纵坐标；k表示特征图像的通道数；F_ijk表示F产生的特征图像的值；K表示通道数(与类别总数相同)。

对softmax函数结果进行负对数操作，得到损失函数：

CL＝-log(softmax(F_ijk)) (5)

对于上述本实施例的技术方案，需要说明的是，所述每个卷积模块中可采用多次卷积；适当的采用更多的卷积层可以提升模型的表达能力，在拟合复杂特征时，模型更容易学习和收敛；

所述空洞卷积模块的数量可设置三个以上，采用更多的空洞卷积模块可以进一步增大提取到的特征的感受野，获取图片中更多的上下文信息。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以权利要求所述为准。

Claims

1.一种多尺度图像语义分割方法，其特征在于，包括下述步骤：

S4、将待分割图像输入到训练完成的全卷积深度神经网络，得到语义分割结果；

步骤S2具体包括下述步骤：

S22、将步骤S21得到的特征图像输入到串联的三个空洞卷积模块中；每个空洞卷积模块包含三个结构相同且串联的多尺度空洞卷积结构；每个多尺度空洞卷积结构包含并联的三组空洞卷积核分支，分别用来提取的低、中、以及高分辨率目标的信息，不同空洞卷积核分支的分辨率通过不同膨胀率的卷积核实现，三组空洞卷积核的大小均为3×3，步长均设置为1，膨胀率分别设置为1，2ⁿ，2×2ⁿ，其中n＝1，2，3，n表示第n个多尺度空洞卷积结构；所有空洞卷积核为逐通道卷积操作，每个空洞卷积核输出一层特征图像；

2.根据权利要求1所述的多尺度图像语义分割方法，其特征在于，所述步骤S26的argmax函数层，该层输出的预测结果为：

output_ij＝argmax_k(iutput_ijk)，k＝0，1，...，K-1 (1)

其中，K为类别总数，i，j表示像素在图像中的行列索引，k表示第K个类别的特征；图像output是一个取值在0到K-1之间的labelmap，为最终的输出。

3.根据权利要求1所述的多尺度图像语义分割方法，其特征在于，步骤S3包括下述步骤：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t) (2)

其中，α_t是一个向量，表示每个类别的加权参数；p_t整体表示当前样本经过网络在ground truth类别上的预测值；γ表示聚焦参数，通常γ∈[0，5]，在这里γ设置为2，