CN110826596A

CN110826596A - 一种基于多尺度可变形卷积的语义分割方法

Info

Publication number: CN110826596A
Application number: CN201910953235.5A
Authority: CN
Inventors: 马帅; 庞彦伟
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2020-02-21

Abstract

本发明涉及一种基于多尺度可变形卷积的语义分割方法，包括下列步骤：第一步，准备好训练所用的语义分割输入图像数据及其相应的标签；第二步，训练该深度学习网络，首先对网络的基础模型进行预训练，在预训练的基础上对网络的参数进一步优化，添加相关的语义分割模块，进行进一步训练，最终得到适合该数据集的网络参数，对于新输入的图像，该网络通过前向计算最终得到图像的输出，使其能够对图像中的每一个像素进行分类，构成语义分割的输出图像；第三步，对损失函数采用梯度下降法进行权重更新，使得损失逐渐减小，并迭代训练，直至网络收敛或达到最大迭代次数，得到最终网络参数。保存训练好的网络模型以及各个参数权重，构成语义分割的模型。

Description

一种基于多尺度可变形卷积的语义分割方法

技术领域

本发明属于语义分割领域，涉及一种利用多尺度可变形卷积对图像进行语义分割的方法。

背景技术

语义分割是将像素分类为数据集所标识的种类的任务。它是图像处理中的一个基础性和挑战性领域。该技术广泛应用于自动驾驶汽车，医学图像疾病检测，无人机飞行实验等不同领域。

近年来，作为目前最为基础且具有指导意义的网络，基于全卷积神经网络^[1](FCN)的语义分割方法取得了重大突破。与分类网络不同，FCN通过把分类网络的全连接层替换为卷积层以预测像素类别。但是这种方法基于小范围的图像来预测每个像素，这使得在分割时很容易引入噪声来破坏分割的连续性。为了解决这个问题，条件随机场^[2](CRF)被应用于整个网络的输出。但它只是一种后处理方法，并没有从根本上解决像素预测相对独立的问题。Deeplabv2^[3]指出来自相邻和全局的信息可以提供丰富的感受野以便更好地进行分割。该方法提供了一种称为膨胀卷积的新型卷积，它在卷积核中的相邻元素之间填充零，以增加感知野。此外，PSPNet^[4]也应用了空间金字塔池化的方法来获取多尺度上下文信息。

而语义分割的任务是对图像进行像素点级别的语义预测，它要求预测图片中每个像素的类别、位置以及形状。所以如果只是像Deeplabv2在基础网络最后的输出采用多个并行的膨胀卷积，并不能很好的提取空间信息。

因此，本专利对ASPP模块进行分析和改造，使用可变性卷积替换膨胀卷积，自适应的学习特征图中不同像素的贡献，使得输出的特征图的像素信息包含更多的空间信息，使整个网络的分割能力能够得到提升。

[1]Long J,Shelhamer E,Darrell T.Fully Convolutional Networks forSemantic Segmentation[J].IEEE Transactions on Pattern Analysis&MachineIntelligence,2014,39(4):640-651.

[2]Chen L C,Papandreou G,Kokkinos I,et al.DeepLab:Semantic ImageSegmentation with Deep Convolutional Nets,Atrous Convolution,and FullyConnected CRFs[J].IEEE Transactions onPatternAnalysis&Machine Intelligence,2018,40(4):834-848.

[3]Chen L C,Papandreou G,Schroff F,et al.Rethinking atrousconvolution for semantic image segmentation[J].arXivpreprint arXiv:1706.05587,2017.

[4]Zhao H,Shi J,Qi X,et al.Pyramid scene parsing network[C]//IEEEConf.on Computer Vision andPatternRecognition(CVPR).2017:2881-2890.

[5]Dai J,Qi H,Xiong Y,et al.Deformable ConvolutionalNetworks[J].2017.

发明内容

本专利的目的是设计一种在保持提取上下文信息的基础上，能够得到空间信息的一种网络模块，该模块通过使用可变性卷积学习相关的空间信息，同时，使用多个并行的大核的不同尺度的可变性卷积，能够较好的保持上下文信息，从而达到整个设计的目的，更好的分割场景中的物体。主要技术方案如下：

一种基于多尺度可变形卷积的语义分割方法，包括下列步骤：

第一步，准备好训练所用的语义分割输入图像数据及其相应的标签。

第二步，训练该深度学习网络，首先对网络的基础模型进行预训练，在预训练的基础上对网络的参数进一步优化，添加相关的语义分割模块，在公开数据集上进行进一步训练，最终得到适合该数据集的网络参数，对于新输入的图像，该网络通过前向计算最终得到图像的输出，使其能够对图像中的每一个像素进行分类，构成语义分割的输出图像。实现方法如下：

(1)这里选取ResNet101作为网络的基础模型，采用ImageNet对ResNet101进行预训练，对ResNet101模型进行修改，使最后一个Block不进行下采样，从而使输出的特征尺度为图像尺度的1/8，预训练完成后，保存相应的网络参数，得到预训练模型。

(2)在网络基础模型的后端添加添加多路并行的不同尺度的可变形卷积，选取的卷积核大小为3，6，9，12，将卷积后的输出合并到一起，通过1×1卷积将通道数减少到和数据集类别数相等的大小，上采样得到最终的特征图；加载保存过的预训练模型，使用SoftMax对每一个像素位置进行处理，再和经过one-hot编码的数据集的标签一同输入到交叉熵损失函数中，计算损失值。

第三步，对损失函数采用梯度下降法进行权重更新，使得损失逐渐减小，并迭代训练，直至网络收敛或达到最大迭代次数，得到最终网络参数。保存训练好的网络模型以及各个参数权重，从而构成语义分割的模型。

本专利提出了不同于Deeplabv2中的ASPP模块，将可变形卷积引入到语义分割中，能够使网络提取丰富的上下文信息的基础上，能够在主网络中进一步的自适应学习空间的细节信息，有利于对分割的边界实现更精准的判断，消除类内的不一致性，使整个网络更好的分割场景中的物体。

附图说明

图1可变形卷积结构图^[5]

图2多尺度可变形卷积的语义分割结构图

图3采用ASPP和多尺度可变形卷积的效果对比

具体实施方式

为使本发明的技术方案更加清楚，下面结合附图对本发明做进一步阐述。本发明按以下步骤具体实现：

第一步，准备数据集。

收集各种不同类别的图像，统一好类别后，对选定的类别生成图像的标签信息，每个标签图像是单通道的，每个像素的值对应所选取的类别。将收集的图像划分为训练集，验证集和测试集，训练集用于训练卷积神经网络，验证集用于选择最佳的训练模型，测试集为后续测试模型效果或者实际应用时使用。为了使用方便，本专利采用公开的PASCALVOC2012数据集进行相关实验。

第二步，设计多尺度可变形卷积的神经网络架构。

图2为采用多尺度可变形卷积模块的网络框图。在语义分割算法中，采用多个尺度并行的卷积结构可以有效的提高网络的感受野，能够提升对不同尺度物体的检测和分割。因此本专利在该结构的基础上将膨胀卷积替换为可变形卷积，可变性卷积的示意如图1所示，通过学习特征图中每个像素的偏移量，自适应决定对分割像素产生较大影响的临近像素，因此，在保持能够提取丰富的上下文信息的基础上，该方法也能够获取更多的空间细节信息。

主要设计要点是在并行结构中添加多尺度可变性卷积的个数，每一个卷积的输出层数以及添加何种尺寸的可变性卷积。通过设计相关的对比试验，设计网络迭代的次数和学习率下降函数，从而找到最优的收敛条件。将训练数据批量的输入到该网络中，进行计算和训练，具体步骤如下：

将训练数据输入网络中，选择一个提取特征的基础网络，批量输入图像数据得到网络输出的特征R^N×H×W×C，其中N代表批量输入的图片数量，该数量决定了批归一化的程度，H×W表示输出的特征图的大小，D表示输出的特征图的通道数，将该网络的输出送入多尺度可变性卷积模块中。

多尺度可变性卷积模块：

1)选择相应的可变性卷积的数量，尺寸大小，个数。

2)对基础网络输出的特征进行并行的可变形卷积操作，得到尺度相同的特征图。

3)将这些特征图进行特征融合操作，将融合后的特征图使用1×1卷积进行通道降维。

4)将降维后的特征图的通道数再次降维到与输出类别相等的大小，并上采样到原图的大小。

将标签数据和得到的特征图一起计算损失并进行反向传播，按照随机梯度下降法更新网络权重。经过多次迭代后，最终得到训练好的神经网络模型。将训练好的模型应用于测试/实际应用中，当输入图像时，该模型可以输出对应的标签图像(每个像素的类别用一个RGB的3通道值表示)。

具体参数设置如下：

(1)这里选取ResNet101作为网络的基础模型，采用ImageNet对ResNet101进行预训练，这里对ResNet101模型进行修改，使最后一个Block不进行下采样，从而使输出的特征尺度为图像尺度的1/8。预训练完成后，保存相应的网络参数。

(2)在网络基础模型的后端添加多路并行的不同尺度的可变形卷积，这里选取的卷积核大小为3，6，9，12，将卷积后的输出合并到一起，通过1×1卷积将通道数减少到和数据集类别数相等的大小，上采样得到最终的特征图。加载保存过的预训练模型，使用SoftMax对每一个像素位置进行处理，再和经过one-hot编码的数据集的标签一同输入到交叉熵损失函数中，计算损失值。

第三步，测试本系统的分割效果

(1)选定测试所用的语义分割输入图像数据及其相应的标签，本专利采用PASCALVOC2012测试集进行测试。

(2)将在PASCAL VOC2012训练集中训练好的参数进一步在PASCAL VOC2012训练验证集上继续训练，将得到的模型提交到相应的服务器中，进行评估。图3是使用该方法的实验效果。

Claims

1.一种基于多尺度可变形卷积的语义分割方法，包括下列步骤：

第一步，准备好训练所用的语义分割输入图像数据及其相应的标签；

(1)这里选取ResNet101作为网络的基础模型，采用ImageNet对ResNet101进行预训练，对ResNet101模型进行修改，使最后一个Block不进行下采样，从而使输出的特征尺度为图像尺度的1/8，预训练完成后，保存相应的网络参数，得到预训练模型；