CN111563508A

CN111563508A - 一种基于空间信息融合的语义分割方法

Info

Publication number: CN111563508A
Application number: CN202010310940.6A
Authority: CN
Inventors: 李东; 蔡皓洋
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-08-21
Anticipated expiration: 2040-04-20
Also published as: CN111563508B

Abstract

本发明公开了一种基于空间特征融合的语义分割方法，包括：构建深度图像分类网络Resnet并且在图像分类任务上进行预训练；预训练完成后，移除Resnet图像分类网络的全连接层和最后两个池化层，完成特征提取网络的构建；在特征提取网络后添加多尺度特征融合模块；在多尺度特征融合模块后加入跨层空间特征融合模块，并添加语义分割分类层；将模型在语义分割标注数据上进行有监督训练，训练结束后，利用标注数据的验证集对语义分割模型性能进行验证，得到最终的分割模型；将待分割图像送入分割模型进行处理，得到最终的分割结果。本发明通过添加跨层空间融合模块到深度语义分割模型中，显著扩大了特征图上每个像素的感受野，有效提升模型获取上下文信息能力。

Description

一种基于空间信息融合的语义分割方法

技术领域

本发明属于计算机视觉领域中的语义分割领域，尤其涉及一种基于空间特征融合的语义分割方法。

背景技术

图像的语义分割(Image Semantic Segmentation)是计算机视觉领域的关键问题和热门研究方向，它是指基于图像的语义信息，对整幅图像做出像素级的分类预测，通过分割结果，计算机能更有效地理解图像包含的信息。以自动驾驶为例，实现自动驾驶关键一环是系统能及时获得车辆周边环境的综合理解并作出下一步判断，因此自动驾驶成为图像语义分割的重要应用领域。

近年来，随着神经网络理论和深度学习的不断发展和完善，卷积神经网络(CNN)因为其对图像特征的强大提取能力，被广泛应用至计算机视觉的各个领域之中，其中包括语义分割问题。针对语义分割任务，Jonathan Long等提出全卷积神经网络(FullyConvolutional Networks,FCN)。FCN通过将图像分类网络VGG16中的全连接层替换为卷积层，显著提升了语义分割任务的准确率，成为基于深度学习的语义分割方向的标志性成果。全卷积神经网络通过池化层扩大感受野，以丢弃部分位置信息为代价获取更多的上下文信息，最后通过上采样操作恢复部分位置信息，得到和原图尺寸一致的预测图。显而易见，上采样过程中的信息损失会导致全卷积网络的分割结果精度下降，结果较为粗糙。

基于编码器-解码器结构的算法通过一系列的编码器和解码器来恢复图像的语义信息，缓解在上采样过程中空间信息损失的问题。Vijay Badrinarayanan等提出SegNet模型，SegNet通过记录最大值的空间位置，能够在上采样阶段更准确地恢复特征图的空间信息。Olaf Ronneberger等提出的U-net模型通过在编码器和解码器之间进行特征融合，以增强解码器恢复特征细节的能力。

基于获取上下文信息的算法则通过更好地整合不同尺度的特征信息以及结和局部信息和全局信息提升模型性能。Liang-Chieh Chen将空洞卷积引入了语义分割模型中，空洞卷积能够在不引入额外参数的前提下显著增大感受野，使得模型不必大规模采用池化操作以扩大感受野，避免了池化操作所带来的空间信息损失。DeepLabV3,PSPNet以及DenseASPP等模型采取多尺度特征融合的方式更加高效的利用图片的上下文信息。DANet，CCNet,OCNet等模型则利用自注意力机制(self-attention mechanism)，先计算特征图中各个位置像素点的相关然后根据相关性对局部信息和全局信息进行融合，获取完整而丰富的上下文信息。

发明内容

尽可能地获取更丰富的上下文信息是获得更好分类结果的关键，本发明提出一种可以灵活添加在已有网络模型上的跨层空间特征融合(cross-layer sptial featurefusion，CSFF)模块。CSFF模块通过计算特征图不同像素之间的关联性，基于这种关联性对特征图特征进行融合。添加CSFF模块，进一步增强模型获取上下文信息的能力，获得了更好的预测结果。

本发明的目的至少通过如下技术方案之一实现。

一种基于空间特征融合的语义分割方法，包括以下步骤：

步骤1，构建特征提取网络：以图像分类网络Resnet作为特征提取网络的基础，将Resnet模型在图像分割数据集做预训练，预训练完成后移除Resnet模型的全局池化层、全连接层以及最后两个池化层；

步骤2，在预训练后的特征提取网络添加多尺度特征融合模块；

步骤3，在多尺度融合模块后添加空间特征融合模块CSFF，最后再连接上语义分割分类层；

步骤4，将上述步骤构建的语义分割模型在语义相应的标注数据上进行有监督训练，训练结束后，利用标注数据的验证集对语义分割模型性能进行验证，得到最终的语义分割模型；

步骤5，采集待分割图像，将待分割图像送入分割模型进行处理，得到最终的分割结果。

进一步地，对步骤1中所述的图像分类网络Resnet采用ImageNet数据集对其进行预训练；所述神经网络在进行预训练时，图像的特征图经过全局池化层转换为一维向量并且利用全连接层进行分类。

进一步地，步骤2中所述多尺度特征融合模块为ASPP或PPM，ASPP利用不同尺度的分离卷积来提取特征图中不同尺度的语义信息；PPM利用不同的池化层下采样之后上采样，产生不同粒度的特征图。

进一步地，步骤3中添加的空间特征融合模块CSFF利用特征图之间像素的语义相似度对两个特征图进行融合，具体包括：

首先，

表示经特征提取网络提取的图像特征，在这里

表示特征的形状为C×片×W，下文皆采用这种表达方式；经过多尺度特征融合模块变换的特征图表示为

其中C和C′分别代表代表F和F′的通道数，H和W分别代表特征图的高和宽；F和F′分别通过卷积核数量为C/8的1×1卷积层进行变换以及重塑操作得到张量

和

其中N＝H×W；将A′的转置与A进行矩阵相乘并应用softmax层得到一个空间特征权重图

公式如下：

A′_i代表特征图A′第i位置上的向量，A_j代表特征图A第j位置上的向量，A′_i·A_j则表示对A′_i向量和A_j向量进行点乘操作，用来计算向量之间的相似性；表示s_ij代表特征图A第j位置向量和特征图A′第i位置向量的之间的相似性；

此外，F经过额外的1×1卷积层得到特征图

然后将B重塑至

对B和S的转置执行矩阵乘法并将结果还原至形状

得到融合后的特征图；将融合后的特征图乘以缩放因子α并将其与特征图F′进行逐元素求和运算，得到最终的输出特征图D，具体过程如下：

式中，α为可学习参数，初始设置为0且会随着训练过程逐渐增大，s_ij代表特征图A第j位置和特征图A′第i位置的之间的相似性，B_i代表特征图B上第i位置的向量，F′_j代表特征图F′上第j位置的向量。从上述公式可以得出CSFF模块输出特征D中每个位置的特征是特征F与特征F’的加权和，因此它们具有全局感受野，能够获取任意位置的语义信息；跨层空间特征融合模块与原有多尺度特征融合模块的结合既保留原有模型从不同尺度特征提取信息的能力，又赋予了模型全局感受野，因此有效提升网络提取上下文语义信息的能力。

进一步地，所述语义分割分类层包括：第一层卷积层为卷积核尺寸为3×3的卷积核，负责对输出特征图中信息的提取，该卷积层后接BatchNorm批归一化层和ReLU非线性激活层；最后通过卷积核尺寸为1×1的分类层输出像素级的分类结果。

进一步地，步骤4中利用标注数据对所构建语义分割模型有监督训练，需要先对标注图像进行数据预处理工作；训练过程中学习率衰减策略采用poly策略，衰减系数为

其中iter为当前迭代数，total_iter为总迭代数；训练过程的优化器为带动量的批量SGD优化器，动量设置为0.9，权重衰减系数为0.001。

进一步地，所述数据预处理，具体为对图像进行随机水平翻转、对图像进行0.75倍至2倍尺度的随机缩放并且裁剪至768×768像素，最后进行图像归一化操作。

进一步地，步骤5中将待分割图像送入语义分割模型进行处理时，对图像进行归一化处理。

本发明与现有的技术相比，具有以下有益效果：

针对计算机视觉领域的语义分割任务的研究表明，尽可能多地获取图像特征图中的上下文信息能够有效提升语义分割模型的性能，得到更准确的图像分割结果。针对这个问题，本发明提出了一种基于空间特征融合的语义分割方法来使特征图上的像素根据语义相似性进行融合操作；与现有的获取上下文的语义信息方式相比，本发明提出的方法能使特征图上的每个像素通过计算语义相似度进行有权融合，从而获得全局感受野；这个方法大大增强了模型获取上下文语义信息的能力，有效提升了语义分割结果的准确度。

附图说明

图1为本发明一种基于空间特征融合的语义分割方法流程示意图。

图2为本发明方法整体网络结构示意图。

图3为本发明方法中的跨层空间特征模块结构示意图。

图4为本发明方法分割结果对比图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式做进一步详细描述。以下实例用于说明本发明，但不用来限制本发明的范围。

如图1所示，一种基于空间特征融合的语义分割方法有以下步骤：

步骤1，构建特征提取网络：选取图像分类网络Resnet作为特征提取网络的基础，将Resnet模型在图像分割数据集做预训练，预训练完成后移除Resnet模型的全局池化层、全连接层以及最后两个池化层。

特征提取网络主要承担了从原始的图像中提取高维的特征信息的任务，需要大量的带标签数据进行训练，然而语义分割任务的标注数据往往没有足够数量的标注数据来训练一个特征提取网络，因此需要采用图像分类数据集对特征提取网络进行预训练，本实施例中采用数据量大、类别丰富的ImageNet数据集进行预训练；预训练结束后，去除全局池化层和全连接层，使特征提取网络输出待分割图像的特征图，同时为了保持特征图的分辨率，去除Resnet网络最后两个池化层。

步骤2，在预训练后的特征提取网络添加多尺度特征融合模块，例如ASPP、PPM等。

带孔卷积空间金字塔(Atrous Sptial Pyramid Pooling，ASPP)是语义分割模型DeepLabV2中提出的多尺度特征融合模块，ASPP利用不同扩张比例的分离卷积来提取特征图中不同尺度的语义信息，最后通过一个卷积核尺寸为1×1的层融合各尺度分离卷积的特征图，达到融合多尺度特征的目的。

金字塔池化模块(Pyramid Pooling Module，PPM)则为语义分割模型PSPNet中提出的多尺度特征融合模块，PPM利用不同的池化层下采样之后上采样，产生不同粒度的特征图，以此提升模型提取多尺度信息的能力。

步骤3，在多尺度特征融合模块后添加跨层空间特征融合模块CSFF，最后再连接上语义分割分类层。

空间特征融合模块CSFF基于特征图之间的像素语义相似度对两个特征图进行融合，首先，

表示经特征提取网络提取的图像特征，经过多尺度特征融合的模块变换的特征图表示为

和

公式如下：

在这里，A′_i代表特征图A′第i位置上的向量，A_j代表特征图A第j位置上的向量，A′_i·A_j则表示对A′_i向量和A_j向量进行点乘操作，用来计算向量之间的相似性；s_ij代表特征图A第j位置和特征图A′第i位置的之间的相似性，s_ij越大，可以认为A′的第i像素和A的第j像素的特征表示越相似，它们之间的相关性就越高；

此外，F经过额外的1×1卷积层得到特征图

然后将B重塑至

对B和S的转置执行矩阵乘法并将结果还原至形状

得到融合后的特征图；最终，将融合特征图乘以缩放因子α并将其与特征F′进行逐元素求和运算，得到最终的输出特征图D，具体过程如下：

在这里，α为可学习参数，它的初始设置为0且会随着训练过程逐渐增大；从上述公式可以得出CSFF模块输出特征D中每个位置的特征是特征F与特征F’的加权和，因此它们具有全局感受野，能够获取任意位置的语义信息；跨层空间特征融合模块与原有多尺度特征融合模块的结合既保留原有模型从不同尺度特征提取信息的能力，又赋予了模型全局感受野，因此有效提升网络提取上下文语义信息的能力。

最后添加在CSFF模块后方的语义分割分类层由连续两层卷积层组成，第一层卷积层为卷积核尺寸为3×3的卷积核，负责特征图信息的提取，该卷积层后接BatchNorm批归一化层和ReLU非线性激活层；最后通过卷积核尺寸为1×1的分类层输出像素级的分类结果。

步骤4，中利用标注数据对所构建语义分割模型有监督训练，需要先对标注图像进行数据预处理工作，具体为随机水平翻转、对图像进行[0.75，2]尺度的随机缩放并且裁剪至768×768像素以及图像归一化操作；训练过程中学习率衰减策略采用poly策略，衰减系数为

训练过程的优化器为带动量的批量SGD优化器，动量设置为0.9，权重衰减系数为0.001。

步骤4中采用的标注数据为CityScapes数据集，它是关于城市街道场景理解的数据集。Cityscapes包含50个城市不同场景、不同背景、不同季节的街景，提供5000张精细标注的图像、20000张粗略标注的图像、19类语义分割标注物体。Cityscapes数据集中的图像分辨率为2048×1024，5000张精细标注图像包含2975张训练图像，500验证图像和1525张测试图像，它采用PASCAL VOC标准的交并比(intersection-over-union，IoU)得分来对算法性能进行评价。

步骤5，将待分割图像送入语义分割模型进行处理，处理时，需对图像进行归一化处理。

为体现本发明的技术效果和优越性，下面将本发明提出的方法应用到实际例子当中，同时与其他同语义分割方法进行对比。

如表1所示，展示了在Cityscapes数据集的验证集上的测试结果。结果采用mIoU得分评价。表1可以看出，在三种不同的多尺度特征融合模块后添加CSFF模块均能有效提升语义分割模型的分割准确度。

表1 CSFF模块在Cityscapes数据集验证集上的实验结果对比

如表2所示，展示了不同语义分割方法在Cityscapes数据集的验证集上的测试结果。从表2可以看出，添加了CSFF模块的语义分割模型优于现存的许多基于深度学习的优秀语义分割模型。

表2本文方法与其他模型对比

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种基于空间特征融合的语义分割方法，其特征在于，包括以下步骤：

步骤3，在多尺度特征融合模块后添加跨层空间特征融合模块CSFF，最后再连接上语义分割分类层；

2.根据权利要求1所述的一种基于空间特征融合的语义分割方法，其特征在于：对步骤1中所述的图像分类网络Resnet采用ImageNet数据集对其进行预训练；在进行预训练时，图像的特征图经过全局池化层转换为一维向量并且利用全连接层进行分类。

3.根据权利要求1所述的一种基于空间特征融合的语义分割方法，其特征在于：步骤2中所述多尺度特征融合模块为ASPP或PPM，ASPP利用不同尺度的分离卷积来提取特征图中不同尺度的语义信息；PPM利用不同的池化层下采样之后上采样，产生不同粒度的特征图。

4.根据权利要求1所述的一种基于空间特征融合的语义分割方法，其特征在于：步骤3中添加的跨层空间特征融合模块CSFF利用特征图之间像素的语义相似度对两个特征图进行融合，具体包括：

首先，

表示经特征提取网络提取的图像特征，在这里

表示特征的形状为C×H×W；经过多尺度特征融合模块变换的特征图表示为

其中C和C′分别代表F和F′的通道数，H和W分别代表特征图的高和宽；F和F′分别通过卷积核数量为C/8的1×1卷积层进行变换以及重塑操作得到张量

和

公式如下:

A′_i代表特征图A′第i位置上的向量，A_j代表特征图A第j位置上的向量，A′_i·A_j则表示对A′_i向量和A_j向量进行点乘操作，用来计算向量之间的相似性；s_ij代表特征图A第j位置向量和特征图A′第i位置向量的之间的相似性；

此外，F经过额外的1×1卷积层得到特征图

然后将B重塑至

对B和S的转置执行矩阵乘法并将结果还原至形状

式中，α为可学习参数，初始设置为0且会随着训练过程逐渐增大，s_ij代表特征图A第j位置和特征图A′第i位置的之间的相似性，B_i代表特征图B上第i位置的向量，F′_j代表特征图F′上第j位置的向量。

5.根据权利要求4所述的一种基于空间特征融合的语义分割方法，其特征在于：所述语义分割分类层包括：

第一层卷积层为卷积核尺寸为3×3的卷积核，负责对输出特征图D中的信息进行提取，该卷积层后接BatchNorm批归一化层和ReLU非线性激活层；最后通过卷积核尺寸为1×1的分类层输出像素级的分类结果。

6.根据权利要求1所述的一种基于空间特征融合的语义分割方法，其特征在于：步骤4中利用标注数据对所构建语义分割模型有监督训练，需要先对标注图像进行数据预处理工作；训练过程中学习率衰减策略采用poly策略，衰减系数为

7.根据权利要求6所述的一种基于空间特征融合语义分割方法，其特征在于：所述数据预处理，具体为对图像进行随机水平翻转、对图像进行0.75倍至2倍尺度的随机缩放并且裁剪至768×768像素，最后进行图像归一化操作。

8.根据权利要求1所述的一种基于空间特征融合的语义分割方法，其特征在于：步骤5中将待分割图像送入语义分割模型进行处理时，对图像进行归一化处理。