CN111127470A

CN111127470A - 一种基于上下文和浅层空间编解码网络的图像语义分割方法

Info

Publication number: CN111127470A
Application number: CN201911345717.9A
Authority: CN
Inventors: 罗会兰; 黎宵; 童康
Original assignee: Buddhist Tzu Chi General Hospital
Current assignee: Buddhist Tzu Chi General Hospital
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-05-08
Anticipated expiration: 2039-12-24
Also published as: CN111127470B

Abstract

当前图像语义分割研究基本围绕如何提取有效的语义上下文信息和还原空间细节信息两个因素来设计更有效算法。现有的语义分割模型，有的忽视了网络浅层的空间细节信息，有的没有获取高质量的语义上下文特征。针对此问题，本发明提出了一种基于上下文和浅层空间编解码网络的图像语义分割方法。在编码端采用二分支策略，其中上下文分支设计了一个新的语义上下文模块来获取高质量的语义上下文信息，而空间分支设计成反U型结构，并结合链式反置残差模块，在保留空间细节信息的同时提升语义信息。解码端，本发明设计优化模块对融合后的上下文信息与空间信息进一步优化。通过大量实验，本发明在三个基准数据集CamVid、SUN RGB‑D和Cityscapes上取得了有竞争力的结果。

Description

一种基于上下文和浅层空间编解码网络的图像语义分割方法

技术领域

本发明涉及计算机视觉、深度学习领域，具体为一种基于上下文和浅层空间编解码网络的图像语义分割方法。

背景技术

语义分割是计算机视觉领域最热门的研究问题之一，由于其具有广泛的应用前景，如当下备受关注的自动驾驶技术，VR技术以及自动医疗分析等。语义分割任务是为图像中每一个像素点分配与之对应的语义标签，例如小汽车，路面，天空等，也被认为是像素级分类任务。与图像分类和目标检测不同，图像语义分割需要识别图像中的物体类别以及发现图像中物体位置，因此语义分割也是计算机视觉中最具挑战性任务之一。传统的图像分割方法需要人工手动地获取图像特征，一般只能提取到图像的低级特征信息，例如颜色、纹理、边界等，这些低级特征信息很难适应复杂的图像场景。不同于传统方法，基于深度学习的图像语义分割方法可以自动地提取图像的高级特征，使得网络模型能够学习到更加抽象的图像特征，推动了复杂场景中的图像理解。

当前，基于深度学习的语义分割模型，有的采用全卷积网络结构以获取有效的语义上下文信息，而忽视了网络浅层的空间细节信息；有的采用U型结构，通过复杂的网络连接利用编码端的空间细节信息，但没有获取高质量的语义上下文特征。针对此问题，本发明提出了一种基于上下文和浅层空间编解码网络的图像语义分割方法，在编码端采用二分支策略，其中上下文分支设计了一个新的语义上下文模块来获取高质量的语义上下文信息，而空间分支设计成反U型结构，并结合链式反置残差模块，在保留空间细节信息的同时提升语义信息。解码端，本发明设计了优化模块对融合后的上下文信息与空间信息进一步优化。

发明内容

为了解决现有技术的不足，本发明提供了一种基于上下文和浅层空间编解码网络的图像语义分割方法。

本发明提供如下技术方案：一种基于上下文和浅层空间编解码网络的图像语义分割方法，该语义分割方法包括以下步骤：

步骤一：构建混合扩张卷积模块和残差金字塔特征提取模块，将这两个模块作为网络模型的语义上下文提取模块；

步骤二：本发明的骨干网络使用了在ImageNet数据集上预训练的ResNet-34，去除了最大池化层和全连接层以适应语义分割任务，在骨干网络的末端结合步骤一的语义上下文提取模块来构建编码端的语义上下文路径；

步骤三：构建链式反置残差模块，对骨干网络浅、中层的空间信息进行处理，在保留空间信息的同时提升特征图的语义表达能力；

步骤四：为了利用编码端骨干网络浅、中层特征信息，将编码端的空间信息路径设计为反U型结构以共享编码端浅、中层特征，同时结合步骤三设计的链式反置残差模块，在保留浅层空间信息的同时提升特征的语义信息；

步骤五：在解码端，设计残差循环卷积模块。首先将步骤二得到的高级语义上下文特征进行双线性上采样再与步骤四的空间细节特征以逐像素点求和方式进行融合；其次，使用残差循环卷积模块对融合后的特征进行优化处理；

步骤六：最后，将步骤五提取的优化特征通过像素级预测器和转置卷积操作产生最终的预测分割图。

优选地，步骤一中的所述混合扩张卷积模块有两个分支，首先特征图通过一个1×1卷积减少通道数，其次，一个分支通过3×3的卷积，另一个分支进入五种不同的扩张卷积：扩张率为2的3×3卷积层、扩张率为4的3×3卷积层、扩张率为3的5×5卷积层进行融合，再融合扩张率为2的5×5卷积层与扩张率为2的7×7卷积层,目的是获取像素点的周围特征信息。

优选地，步骤一中的所述残差金字塔特征提取模块，采用了四个不同扩张率的扩张卷积,它们的扩张率分别为:2、3、5、7。同时,为了利用全局场景上下文信息，引入全局池化操作，以并行方式将它们组合在一起。然后对它们进行拼接操作以获取多尺度特征信息。最后与残差进行融合，提升语义表达能力的同时加速梯度反向传播。

优选地，步骤三中的所述链式反置残差模块，每个链式反置残差模块由多个反置残差结构以链式结构相结合，反置残差结构由两个1×1点级卷积层和一个3×3分组卷积层组成。本发明中所用的三个链式反置残差模块的链长不一样,连接低层特征的CRB_1链长为3,即由3个反置残差结构链接而成,CRB_2的链长为2,而连接中层特征的CRB_3链长为1。通过链长的不同设置，可以有针对性地提升浅层特征的语义表达能力。

优选地，步骤五中的所述残差循环卷积模块，由两个3x3的循环卷积网络以及残差组成。

本发明具有以下有益效果：本发明采用二分支结构的编解码网络框架，结合所提出的改进模块，提出了一种新的端到端的深度学习模型用于图像语义分割，该模型在获取高质量的上下文语义特征同时有效地保留了编码端浅、中层的空间细节信息，本发明在三个基准数据集CamVid、SUN RGB-D和Cityscapes上取得了有竞争力的结果。

附图说明

图1为本发明网络框架。

图2ResNet-34骨干网络结构图。

图3为混合扩张卷积模块结构图。

图4残差金字塔特征提取模块结构图。

图5链式反置残差模块结构图。

图6残差循环卷积模块结构图。

图7在CamVid测试集上的定性比较。

图8在SUN RGB-D测试集上的定性结果。

图9在Cityscapes验证集上的定性结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-9，本发明所述的基于上下文和浅层空间编解码网络的图像语义分割方法具体实施步骤为：

(S1)：构建混合扩张卷积模块

扩张卷积根据扩张率在卷积核中相邻两个权值之间插入相应的零，因此通过增加扩张率可以增大卷积核对特征图的局部计算区域，从而可以识别更大范围的图像特征信息。扩张卷积在二维信号中的定义如公式1，其中输入特征图x(m,n)与卷积核w(i,j)进行卷积操作产生输出y(m,n)，卷积核的长度和宽度为M、N,r是扩张率,后面部分出现的r都表示扩张率,它控制卷积核对输入x的采样大小,这相当于在卷积核中相邻两个权值之间插入r-1个零。相比于传统卷积，扩张卷积在没有增加网络参数的情况下就可以获得更大的感受野。扩张卷积是一种稀疏计算，即当扩张率很大时，卷积核的参数数量没有变化，但对特征图的作用区域却很大，这就导致扩张卷积从特征图中提取到的有用信息量很少，从而使扩张卷积失去了建模能力。

本发明提出的混合扩张卷积模块的设计动机是获取像素点周围特征信息的同时可以提升网络感受野,并且减少特征信息的丢失。混合扩张卷积模块通过混合叠加的方式来获取周围特征信息以及增加网络感受野。如图3所示，整个模块分为两个分支,首先特征图通过一个1×1的卷积，目的是减少特征通道数，从而减少网络参数。然后，一个分支通过3×3的卷积，另一分支进入五种不同的扩张卷积：扩张率为2的3×3卷积层、扩张率为4的3×3卷积层以及扩张率为3的5×5卷积层进行融合,再融合扩张率为2的5×5卷积层与扩张率为2的7×7卷积层,目的是获取像素点的周围特征信息。最后将两个分支进行融合,最终可以获得周围特征信息和大感受野的同时,信息丢失较少。这里每一个卷积层后面跟着批归一化处理和Relu(x)＝max(0,x)激活函数。

(S2)：构建残差金字塔特征提取模块

本发明采用了四个不同扩张率的扩张卷积,它们的扩张率分别为：2、3、5、7。同时,为了利用全局场景上下文信息,将全局池化操作扩展到扩张卷积空间金字塔池化中。

本发明提出的残差金字塔特征提取模块结构如图4所示,输入特征首先进入扩张卷积金字塔模块,它由四个不同扩张率的扩张卷积和全局平局池化以并联的方式组成,其中四个扩张卷积输出特征通道数都相同。对全局平均池化的结果进行1×1卷积操作和双线性上采样操作,使其与扩张卷积的输出大小相同。然后对它们进行拼接操作以获取多尺度特征信息。最后与残差进行融合,提升语义表达能力的同时加速梯度反向传播。

(S3)：构建语义上下文路径

在编码端,本发明的骨干网络使用了在ImageNet数据集上预训练的ResNet-34,去除了最大池化层和全连接层以适应语义分割任务。为了区分ResNet-34的层级特征,本发明将ResNet-34分为五个模块,其结构如图2所示,用conv、Block1表示浅层、Block2表示中层、Block3和Block4表示高层和特高层特征提取模块,浅层和中层特征用于空间信息提取路径,而高层特征作为语义上下文信息提取模块的输入特征。为了提升网络的感受野,本发明将ResNet-34网络的后两个模块Block3和Block4中的普通卷积替换为扩张卷积,这里扩张卷积与普通卷积具有相同的参数,扩张率分别为2和4。在骨干网络ResNet-34中,除Block1外,其他各模块存在一个步长为2的卷积,使得骨干网络最终输出的特征图大小为输入图像的1/16。为了获取高质量的语义上下文信息,本发明设计了语义上下文信息模块,它由混合扩张卷积模块和残差金字塔特征提取模块组成，语义上下文信息模块对骨干网络ResNet-34获得的高级特征进一步处理。整个语义上下文路径由骨干网络ResNet-34和语义上下文模块组成。

(S4)：构建链式反置残差模块

本发明提出的链式反置残差模块的结构如图5所示。每个链式反置残差模块将多个反置残差结构以链式结构相结合，目的是保留空间信息的同时提升特征图的语义表达能力。反置残差结构由两个1×1点级卷积层和一个3×3分组卷积层组成。输入特征首先进入1×1点级卷积层来增加特征通道数,再进入3×3的分组卷积层，其中分组数等于输入通道数，最后经过一个1×1点级卷积层来降低特征通道数。需要注意的是本发明所用的三个链式残差模块的链长不一样,如图1所示,连接低层特征的CRB_1的链长为3,即由3个反置残差结构链接而成,CRB_2的链长为2，而连接中层特征的CRB_3链长为1。通过链长的不同设置,可以有针对性地提升浅层特征的语义表达能力。反置残差结构使用点级卷积和分组卷积，将通道操作和空间操作进行分离，避免通道操作对空间信息的影响。分组卷积与普通卷积相比，参数量也更少。同时，设计残差学习以避免梯度消失和爆炸。整个链式残差优化模块可以抽象为公式2：

L_l+1＝f(L_l)+L_l (2)

其中f(·)表示反置残差块的函数形式,从函数形式中我们可以发现,下一层特征信息L_l+1除了与反置残差模块有关,还与上一层特征信息L_l相关,这样既可以保留空间信息又可以提升特征的语义信息。

(S5)：构建空间信息路径

本发明将编码端空间路径设计为反U型结构,这样能将编码网络的浅层和中层特征进行从上到下的融合,以充分利用编码网络浅中层特征所携带的空间细节信息。结合设计的链式反置残差模块，对编码网络浅中层特征所携带的空间细节信息进行处理，达到保留空间信息的同时提升特征的语义表达能力。

(S6)：构建残差循环卷积模块

在解码端,需要将编码端产生的高级语义信息与空间细节信息进行融合,本发明以简单的求和方式进行融合。为了对融合后的特征进一步优化,本发明设计了优化模块。如图6所示,优化模块由两个3×3的循环卷积网络以及残差组成,其中每个3×3循环卷积都含有批归一化处理和relu激活函数。循环卷积网络有助于特征积累，相当于一个自学习的过程，用于提升网络的表达能力。除此之外，循环卷积相当于对卷积层的重复利用,减少了参数量。整个模块在提升语义识别能力的同时保留了空间信息。再是使用残差结构加速网络的信息流动，同时有助于梯度的反向传播。优化模块可以抽象为公式3，其中f(·)为循环卷积的函数表示。

x_l+1＝f(f(x_l)+x_l) (3)

(S7)产生预测分割图和定义损失函数

将解码端残差循环卷积网络模块得到的优化特征通过像素级预测器和转置卷积操作产生最终的预测分割图。为了使网络有效的收敛，在上下文语义路径的末端加入监督信息，即引入额外的辅助损失函数对上下文语义路径产生的初始分割结果进行监督学习。辅助损失函数和最终分割结果的主损失函数均是使用多元交叉熵损失函数，如公式4，其中softmax是

函数，pred是预测分割图，Y是真值分割图，Cost表示多元交叉熵损失函数，其定义如公式5所示,其中N是样本数。

Loss(pred,Y)＝Cost(softmax(pred),Y) (4)

网络训练时,总的损失函数,如公式6所示,loss1是主损失函数,loss2是辅助损失函数,引入辅助损失函数有助于优化学习过程,并且为辅助损失函数添加权重因子α来平衡辅助损失与主损失函数对网络的表达能力.本专利实验中将权重因子设为0.05.

Loss＝loss1+α×loss2 (6)

实施例

为了验证所提出模块的有效性，以下在CamVid数据集上进行了消融实验。本发明采用四种方案来评估混合扩张模块和残差金字塔特征提取模块性能：(1)在编码端的上下文路径只使用混合扩张卷积模块；(2)在编码端的上下文路径只使用残差金字塔特征提取模块；(3)在编码端上下文路径没有混合扩张卷积和残差金字塔特征提取模块；(4)在编码端上下文路径使用混合扩张卷积模块和残差金字塔特征提取模块。实验结果如表1所示,从表中可以看出，同时使用混合扩张卷积模块和残差金字塔特征提取模块时获得的分割性能最好，说明这两个模块能获取有效的周围特征信息以及多尺度特征,从而提升网络分割性能。

表1混合扩张卷积和残差金字塔特征提取模块对性能的影响.HAB:混合扩张卷积模块；RPB:残差金字塔特征提取模块

HAB	RPB	mean IoU(％)
			×	×	66.57
√	×	66.22
			×	√	67.51
√	√	68.26

本发明采用四种方案来评估混合扩张卷积的有效性：(1)只使用所有分支扩张率为1的混合扩张卷积模块；(2)只使用分支扩张率分别为2、3、4的混合扩张卷积模块；(3)所有分支扩张率为1的混合扩张卷积模块加残差金字塔特征提取模块；(4)本发明方法,即分支扩张率分别为2、3、4的混合扩张卷积模块加残差金字塔特征提取模块。实验结果如表2所示,只使用所有分支扩张率为1的混合扩张卷积模块虽然比只使用分支扩张率分别为2、3、4的混合扩张卷积模块分割性能好,但加入残差金字塔特征提取模块后,本发明设计的分支扩张率分别为2、3、4的混合扩张卷积模块加残差金字塔特征提取模块的模型获得了最好的效果。

表2混合扩张卷积模块对性能的影响。HAB:混合扩张卷积模块；RPB:残差金字塔特征提取模块

HAB	RPB	HAB各分支扩张率	mean IoU(％)
				√	×	2,3,4	66.22
√	×	1	67.84
				√	√	1	68.16
√	√	2,3,4	68.26

发明采用了五种方案来评估编码端空间路径的有效性：(1)没有空间路径；(2)使用编码端骨干网络浅层特征作为空间路径；(3)使用编码端骨干网络的高层特征作为空间路径；(4)反U型结构的空间路径但其中每个路径没有链式反置残差模块；(5)本发明方法,即反U型结构的空间路径,其中每个路径使用链式反置残差模块。实验结果如表3所示,使用空间路径可以将性能从63.55％提升到66.79％,说明使用反U型结构能够非常有效的利用编码端浅、中层特征，这也说明编码端的浅、中层特征包含了解码时所需的空间细节信息。使用链式反置残差块能使性能从66.79％提升到68.26％，说明链式反置残差模块可以保留空间细节信息的同时提升其语义表达能力，从而提升语义分割性能。

表3不同空间路径对性能的影响.CRB:链式反置残差模块；SP:空间路径；LFP:浅层特征作为空间路径；HFP:高层特征作为空间路径；RUP:反U型空间路径

方法	mean IoU(％)
		No SP	63.51
LFP	66.06
		HFP	67.49
RUP	66.79
		RUP+CRB	68.26

在空间路径中,本发明采用长度递减的链长分别处理深度模型的浅、中层特征信息,目的是减少融合时各层的语义差异性。表4中展现了在CamVid数据集上不同链长设置对本发明提出框架分割性能的影响。从表4中的结果可以看出，本发明针对浅、中层特征信息分别使用递减链长的反置残差模块更加有效。

表4链式反置残差模块不同链长对性能的影响

方法	mean IoU(％)
		各路径链长均为1	67.20
各路径链长均为3	67.25
		本发明(分别为3,2,1)	68.26

为了表明所提出优化模块的有效性,本发明将使用优化模块和不使用优化模块进行对比。如表5所示,使用优化模块能使分割性能提升0.76％，说明优化模块可以改善融合后的语义特征，从而增强了分割性能。

表5残差循环卷积模块对性能的影响

方法	mean IoU(％)
		使用优化模块	68.26
不使用优化模块	67.50

本发明在CamVid测试集上的结果与当前分割方法的比较如表6所示,本发明在测试时没有采用后置处理以及一些测试技巧，像多尺度。从实验结果可以看出本发明比使用U型结构和二分支结构的语义分割方法的性能要好,说明本发明能够获取高质量的上下文语义特征和有效使用浅层的空间细节信息。从图7中的实验效果图可以看出，本发明基本能够准确识别图像中物体位置并且分割出物体，而SegNet在第一行第三列的分割图中未能识别出路灯；CGNet在第二行第四列的分割图中将建筑物错误识别为树木以及BiSeNet(xception)在第二行第五列的分割图中将道路错误识别为汽车类型以及对远距离小物体路灯未能识别出来。

表6本发明与其他方法在CamVid测试集上的MIoU(％)比较

本发明在SUN RGB-D测试集上的实验结果与当前分割方法的比较如表7所示,可以看出本发明在SUN RGB-D数据集上有比较大的性能提升,从而验证了本发明的有效性。可视化分割结果如图8所示,可以发现本发明可以有效地分割图像中的物体。

表7本发明与其他方法在SUN RGB-D测试集上的MIoU(％)比较

方法(Method)	MIoU(％)
		FCN-8	27.4
DeconvNet	22.6
		ENet	19.7
SegNet	31.8
		Deeplab	32.1
本发明(Ours)	40.79

本发明在Cityscapes测试集上的实验结果与当前分割方法的比较如表8所示,可以看出本发明取得了有竞争的分割结果,本发明没有采用任何测试技巧,像PSPNet中多尺度。虽然PSPNet取得了最好的分割效果,但其使用ResNet101作为骨干网络,这导致它的网络复杂度最高,达到了65M参数量,在一般设备中基本无法运行。本发明采用参数量适中的ResNet34作为骨干网络并取得较好的性能，虽然BiSeNet(ResNet18)的骨干网络只采用了ResNet18，但它使用了多尺度训练的前置处理，还使用了通道注意力机制模块来优化语义特征,所以也取得了比本发明更好一些的性能。而且由于本发明提出的模型使用了分组卷积和点级卷积等轻量型模块，参数量比BiSeNet(ResNet18)更少。图9是在验证集上的可视化分割图效果，可以看出本发明基本可以准确地分割图像中的物体。

表8本发明与其他方法在Cityscapes测试集上的比较

方法(Method)	Parameters(M)	MIoU(％)
			FCN-8	134.5	65.3
ENet	0.4	58.3
			SegNet	29.5	56.1
DeepLab	44.04	70.4
			Dilation	-	67.1
PSPNet	65.7	78.4
			CGNet	0.5	64.8
BiSeNet(xception)	5.8	68.4
			BiSeNet(resNet18)	49	74.7
本发明(Ours)	31	73.1

本发明深入研究了采用编解码结构和二分支结构的语义分割方法,提出了一种新的端到端的深度学习框架用于语义分割任务。在编码端采用二分支结构以获取高质量的上下文语义特征，同时有效利用编码端浅中层的空间细节信息，在解码端进一步优化特征图。本发明在三个语义分割基准数据集CamVid、SUN RGB-D和Cityscapes上取得了有竞争力的结果。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于上下文和浅层空间编解码网络的图像语义分割方法，其特征在于，该语义分割方法包括以下步骤：

步骤五：在解码端，设计残差循环卷积模块，首先将步骤二得到的高级语义上下文特征进行双线性上采样再与步骤四的空间细节特征以逐像素点求和方式进行融合；其次，使用残差循环卷积网络对融合后的特征进行优化处理；

2.如权利要求1所述的一种基于上下文和浅层空间编解码网络的图像语义分割方法，其特征在于：步骤一中所述的混合扩张卷积模块有两个分支，首先特征图通过一个1×1卷积减少通道数，其次，一个分支通过3×3的卷积，另一个分支进入五种不同的扩张卷积：扩张率为2的3×3卷积层、扩张率为4的3×3卷积层以及扩张率为3的5×5卷积层进行融合，再融合扩张率为2的5×5卷积层与扩张率为2的7×7卷积层。

3.如权利要求1所述的一种基于上下文和浅层空间编解码网络的图像语义分割方法，其特征在于：步骤一中所述的残差金字塔特征提取模块，采用了四个不同扩张率的扩张卷积,它们的扩张率分别为:2、3、5、7。同时,为了利用全局场景上下文信息，引入全局池化操作，以并行方式将它们组合在一起。然后对它们进行拼接操作以获取多尺度特征信息。最后与残差进行融合。

4.如权利要求1所述的一种基于上下文和浅层空间编解码网络的图像语义分割方法，其特征在于：骤三中所述的链式反置残差模块，每个链式反置残差模块由多个反置残差结构以链式结构相结合，反置残差结构由两个1×1点级卷积层和一个3×3分组卷积层组成，本发明中所用的三个链式反置残差模块的链长不一样,连接低层特征的CRB_1链长为3,即由3个反置残差结构链接而成,CRB_2的链长为2,而连接中层特征的CRB_3链长为1。

5.如权利要求1所述的一种基于上下文和浅层空间编解码网络的图像语义分割方法，其特征在于：步骤五中所述的残差循环卷积模块，由两个3×3的循环卷积网络以及残差组成。