CN114220098A

CN114220098A - 一种基于改进的多尺度全卷积网络语义分割方法

Info

Publication number: CN114220098A
Application number: CN202111567697.7A
Authority: CN
Inventors: 贾海涛; 刘博文; 周焕来; 赵宏涛; 张洋; 李玉琳; 谭志昊; 王俊
Original assignee: Yituo Communications Group Co ltd
Current assignee: Yituo Communications Group Co ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-03-22

Abstract

本发明公开了一种基于改进的多尺度全卷积网络语义分割方法，该发明在语义分割图片时具有通用性，主要是针对复杂场景图片的语义分割。该专利以类别数目较多的PASCAL Context数据集为例，针对类别较多的情况，将VGG19网络中的全连接层改为卷积层使网络变为具有语义分割代表性的编码器‑解码器结构。加入跳跃结构来提取网路不同层级的特征，加入残差网络解决网络深度导致的梯度消失和爆炸问题，加入并改进了ASPP空洞空间池化金字塔来进行多尺度语义信息提取与融合。在上采样时采用反卷积的方法来提高解码器恢复的性能。基于改进的多尺度全卷积网络语义分割算法模型能够精准的进行图像语义信息的提取，在类别较多的复杂场景下也能够取得较好的识别效果。

Description

一种基于改进的多尺度全卷积网络语义分割方法

技术领域

本发明涉及深度学习中的图像语义分割领域，是一种主要针对在复杂场景下提高语义分割准确率的技术。

背景技术

计算机视觉在图像这个领域大体有三大任务：图像分类、目标检测、语意分割。这三个任务中，图像分类是后两者的基础，语义分割是其中难度最大的一项任务。图像分类和目标检测主要针对个体物体进行分类和识别，而语义分割则是细至对图像中所有像素进行分类，在结果显示中将属于不同类的像素通过不同的颜色标记出来。

在过去几年中，深度学习在语义图像分割任务中取得了巨大进步。使用CNN作为特征提取器的早期工作并将它们与标准的基于超像素的前端相结合，与使用手工制作特征的精心设计的方法相比，有了实质性的改进。目前的主流方法是依赖于“完全”卷积网络(FCN)，其中训练CNN以提供用于像素标记的输出字段。

目前深度学习中语义分割的网络通常采用编码器-解码器的结构，在网络的设计时通常采用全卷积的方式来组成网络。在编码器-解码器结构中，编码器的作用是提取图像的特征，而解码器的作用是对编码器处理后获得的特征图进行处理和解读。编码器部分一般使用图像分割网络中去掉全连接层的卷积层，常见的有CNN网络、VGG16网络、VGG19网络等；解码器部分则是通过上采样层、卷积层(反卷积层)等结构组成。实验表明这种编码器-解码器的结构能够高效的对图像进行语义分割

随着科技的进步与时代的发展，语义分割在工业领域的应用越来越广泛，尤其是自动驾驶、医学诊断等方面。也因此诞生了越来越多的语义分割网络，比如FullyConvolution Networks(FCN)全卷积网络、SegNet、U-Net、DeepLab系列网络等。语义分割发展迅速的同时，其应用场景变得越来越复杂，对其识别准确率和实时性的要求也愈来愈高。本发明的提出主要是解决语义分割在复杂场景中的识别准确率低的问题，本发明在不同复杂场景中有一定的通用性和鲁棒性。

发明内容

为了提高语义分割在复杂场景中的识别准确率，由于VGG19比VGG16网络具有更好的网络深度，该技术的编码器部分引用了深度学习中的通用目标检测框架VGG19，并针对复杂场景下目标物体过多的问题，对解码器部分进行了设计并对网络整体进行了进一步的改进，并在解码器第四卷积层中加入了ASPP空洞空间金字塔池化。为了提升网络的性能，在网络结构中卷积数量大于等于4的卷积层中加入了残差模块(如图1和2)。

本发明所采用的技术方案是：

步骤1：改进的全卷积神经网络采用语义分割网络中常见的编码器-解码器结构，其中编码器结构特征提取主干网络采用VGG19除去全连接层的部分，包括第一卷积层，第一下采样层，第二卷积层，第二下采样层，第三卷积层，第三下采样层，第四卷积层，第四下采样层，第五卷积层，第五下采样层，五个卷积层的卷积数量分别为2，2，4，4，4。解码器部分为四部分卷积层，第一上采样层，第一卷积层，第二上采样层，第二卷积层，第三上采样层，第三卷积层，第四卷积层，编码器和解码器中所有卷积层都进行了ReLU非线性变换。

步骤2：步骤1中的编码器部分的第一至第五下采样层产生的特征图都采用1×1的卷积进行通道数统一，统一后的特征图分别记为M1，M2，M3，M4，M5。步骤1中解码器部分的第一至第四卷积层产生的特征图分别D1,D2,D3,D4；

步骤3：该步骤是专利的核心内容，编码器部分仍然采用VGG19去掉全连接层部分后的卷积层网络，解码器部分的卷积层的卷积数量依次为4，8，4，卷积核大小为3x3，其上采样率分别为2，4，2。在M2处添加一条分支至D1处作为解码器第二卷积层的输入，在M4处添加一条分支至D2处作为解码器第三卷积层的输入。

步骤4：该步骤是专利的核心内容，解码器三个卷积层输出的特征图D1,D2,D3通过第四卷积层，在第四卷积层的ASPP空洞空间金字塔池化作用下进行了特征融合得到了最终语义分割的结果。

与现有技术相比，本发明的有益效果是：

(1)在语义分割的过程中能更好的对图像特征进行提取；

(2)在复杂场景下进行语义分割，能够达到更高的语义分割精度；

(3)对于目标前景和背景特征不明显的图像，可以更好的进行分割。

附图说明：

图1为：编码器第三层、第四层、第五层与解码器第一层、第三层卷积层的卷积结构图。

图2为：解码器第二层卷积层的卷积结构图。

图3为：PASCAL Context数据集示例图片。

图4为：反卷积图示。

图5为：本方法中的ASPP空洞空间池化金字塔。

具体实施方式

下面结合附图对本发明进一步说明。

首先我们需要利用编码器-解码器结构中编码器的卷积层对图像的语义信息进行提取。由于VGGNet的结构非常简洁，整个网络都使用了同样大小的卷积核尺寸(3x3)和最大池化尺寸(2x2)，并且使用几个小滤波器(3x3)卷积层的组合比一个大滤波器(5x5或7x7)卷积层的效果要好很多，并且通过不断加深网络结构可以提升性能。因此选择VGG19网络的结构作为网络的主要框架。VGG19包含了19个隐藏层(16个卷积层和3个全连接层),在编码器结构中保留3个全连接层之前的卷积层作为编码器的主要结构。

首先，网络需要利用VGG19网络模型对图像进行特征提取，VGG19共包含16个卷积层、5个池化层。其中卷积操作不会改变前一层所传特征图的尺寸大小，而每一个池化层的步长为2，特征图经过池化后尺寸会缩小到一半。根据的情况，为了满足复杂场景的前提，我们需要选择类别数量比较多的数据集，因此我们选择了PASCAL Context数据集如图3。PASCAL Context数据集由两部分组成：PASCAL VOC 2010语义分割数据集、Context标注，总共有459个标注类别，包含10103张图像，其中4998用于训练集，5105用于验证集。现在最广泛地用法是使用其中出现频率最高的59个类别作为语义标签，其余类别标记为背景即background。输入图像的大小长为2048，宽为2048，通道数为3，通过VGG19网络进行特征提取，由于语义分割的结果要与原图像大小保持一致，最后输出的特征图的大小长为通道数为类别数60。

解码器部分使用四层卷积层的方式替代全连接层，其中第一层卷积层包含1个上采样层和4个卷积，第二层卷积层包含1个上采样层和8个卷积，第三层卷积层包含1个上采样和4个卷积，第四层卷积层为ASPP空洞空间池化金字塔，以不同采样率的空洞卷积并行采样，相当于以多个比例来更好的捕捉图像的上下文信息，最后进行全局平均池化(GAP)，将所得特征输入到具有60个滤波器的1x1卷积中，对最后的结果结果进行双线性上采样到正确的维度大小，得到语义分割的结果。

在编码器中的池化均采用尺寸为2x2的最大池化，解码器中的第一卷积层至第三卷积层的上采样率分别为2、4、2，通过不同的上采样率来恢复图像更多的细节。

在解码器中，我们采用反卷积的方式来对图像进行上采样来恢复图像大小。因为转置卷积是一种基于学习的上采样方法，因此效果会比一般的插值方法好一些。

反卷积的方式如图4所示。反卷积的实现步骤如下：

(1)将原始输入特征图x进行变换，得到新的特征图x'。

(2)求新的卷积核的设置。

(3)用新的卷积核在新的特征图上做常规的卷积，得到的结果就是反卷积的结果。

VGG19的网络层数多，也就意味这能够提取到的不同级别的抽象特征更加丰富，并且越深的网络提取的特征越抽象，就越具有语义信息。简单的增加网络的深度，容易导致梯度消失和爆炸。为了解决这一问题，在编码层和解码层的卷积次数大于等于4的卷积层中加入了残差网络，其网络结构如图1和2。通过直接将输入信息绕道传到输出，保护信息的完整性，整个网络则只需要学习输入、输出差别的那一部分，简化了学习目标和难度。

为解决图像语义分割中感知细节部分的能力较弱,分割结果粗糙的问题，使输出的结果能够获得更多级别的图像语义信息，将网络编码器部分第二卷积层的输出M2与解码器部分第二卷积层的输出D2相连接，编码器部分第四卷积层的输出M4与解码器部分第一卷积层的输出D1相连接，通过点加的方式将相互连接的特征图进行图像融合。并将前者融合后的特征图作为解码器第三卷积层的输入，将后者融合后的特征图作为解码器第二卷积层的输入；同时将两次融合的图像特征图分别作为第四卷积层ASPP的输入。

在网络中将上面所提出的编码层的输出特征图和解码层的输出特征图相连接的好处是：

(1)由于池化操作会丢失有用的图像细节信息，通过连接与点加的方式将特征图进行融合可以更好的对图像的细节进行恢复。通过传递卷积层的特征图到反卷积层，有助于解码器拥有更多图像细节信息，从而恢复出更好的干净图像。

(2)正如残差网络的设计初衷，跳跃连接可以解决网络层数较深的情况下梯度消失的问题，同时有助于梯度的反向传播，加快训练过程。

为了能不丢失分辨率、并仍能扩大感受野、捕获图像的多尺度上下文信息，在解码器的第四层网络中，我们引入了ASPP空洞空间池化金字塔。ASPP在分割任务中十分有用。一方面感受野大了可以检测分割大目标，另一方面分辨率高了可以精确定位目标。在本方法中如图5所示。空洞空间卷积池化金字塔(ASPP)对所给定的输入以不同采样率的空洞卷积并行采样，相当于以多个比例捕捉图像的上下文。我们将网络编码器部分第二卷积层的输出M2与解码器部分第二卷积层的输出D2的融合特征图T1、编码器部分第四卷积层的输出M4与解码器部分第一卷积层的输出D1的融合特征图T2以及解码器第三卷积层的输出D3(此处记为T3)作为空洞空间池化金字塔的输入，3个输入的空洞卷积空洞间隔的跨度分别为12，6，1。再通过将特征做全局平均池化(GAP)，经过卷积再融合形成更厚的特征图，将所得到的融合特征输入到具有60个滤波器的1x1卷积中，对最后的结果结果进行双线性上采样到2048x1024的维度大小，得到了语义分割的最终结果。

以上所述为本发明的具体实施方法，主要针对在复杂场景下的语义分割技术的准确率的提升。由于本方法是在VGG19的基础上更改的全卷积的语义分割网络，该网络是在编码器-解码器结构的基础上进行改进的。通过增加残差网络来解决增加网络的深度导致梯度消失和爆炸的问题，在网络中增加编码器向解码器的跳跃连接来更好的对图像的细节进行恢复、恢复出更好的干净图像，并加快训练过程。通过引入反卷积的方式进行上采样来更好的恢复图像的空间结构，在最后引入ASPP空洞空间池化金字塔结构来多尺度理解图像上下文信息以更好的恢复图像的细节，最后通过全局平均池化、1x1的60维度卷积和双线性上采样得到最后的语义分割结果。

Claims

1.一种基于改进的多尺度全卷积网络语义分割方法，其特征在于，包括以下步骤：

步骤4：该步骤是专利的核心内容，解码器三个卷积层输出的特征图D1,D2,D3通过第四卷积层，在第四卷积层的作用下进行了特征融合得到了最终语义分割的结果。

2.如权利要求1所述方法，其特征在于，步骤1中编码器结构中卷积数量为4的卷积层中引入了从第一个卷积到第四个卷积的残差网络。

3.如权利要求1所述方法，其特征在于，步骤2中的下采样层为局部最大值池化方法。

4.如权利要求1所述方法，其特征在于，步骤3中的上采样层为双线性内插方法。

5.如权利要求1所述方法，其特征在于，步骤4中的第四卷积层为ASPP空洞空间金字塔池化，ASPP中包含了不同扩张率的空洞卷积、全局平均池化(GAP)，将所得特征输入到具有60个滤波器的1x1卷积中，对最后的结果结果进行双线性上采样到正确的维度大小。