CN111126451A

CN111126451A - 一种对偶式语义分割方法

Info

Publication number: CN111126451A
Application number: CN201911209672.2A
Authority: CN
Inventors: 路红; 任豪; 肖涵
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-12-01
Filing date: 2019-12-01
Publication date: 2020-05-08

Abstract

本发明属于计算机视觉技术领域，具体为对偶式语义分割方法。本发明方法的步骤为：根据用户输入的图像，进行编码过程，将图像尺度缩小为原图的1/16，然后通过解码器结构，融合编码过程中的细粒度信息，恢复到原图尺度输出分割之后的结果图。本发明提出了一种对偶式的编码器——解码器结构，且能够对图像进行有效的语义分割。

Description

一种对偶式语义分割方法

技术领域

本发明属于计算机视觉技术领域，具体涉及对偶式语义分割方法。

背景技术

语义分割是计算机视觉领域的一项基本任务，它将图像中的每一个像素点分类为语义级别的标签。近年来，随着深度学习技术的发展，卷积神经网络在语义分割方面取得了广泛的应用和突破性的进展。对于语义分割任务来说，最终需要得到与输入图像尺寸大小相同的分割图像，且分割的效果十分依赖于全局特征的提取，图像中小的物体及分割的边界常常成为该任务的难点。

通常的卷积神经网络经过多层卷积输出特征图，这种高维特征图中包含了丰富的语义信息，常常在卷积层后接多层全连接层，用于实现图像级别的分类及回归任务。而对于语义分割任务，需要实现像素级别的分类，得到与输入图像大小相同的分割结果。

目前的语义分割算法大多数基于全卷积神经网络进行改进，将全连接层替换为反卷积层，以恢复到原分辨率大小。现有技术的解码器结构设计较为粗糙，且在结构上缺乏对称性，因此在由特征图恢复原图大小得到分割结果的过程中导致了较大的信息损失。这种Encoder-Decoder结构包含：

（1）一个编码器（Encoder）模块，逐步降低特征图的分辨率，提取更高层次的语义信息；

（2）一个解码器（Decoder）模块，由低分辨率、高维信息的特征图逐步恢复到原分辨率大小得到分割图。

为了在多尺度上提取语义特征，现有的工作采用：

Spatial Pyramid Pooling[1]（空间金字塔池化）：一种多分辨率策略，使得多尺度特征都能转换为固定大小的特征向量进行融合。

Atrous Spatial Pyramid Pooling[2]（ASPP，空洞空间金字塔池化）：使用了不同扩张率的空洞卷积，实现多尺度特征融合。

结构在多种不同维度上提取特征，并采用空洞卷积等结构进一步增大感受野的面积，以提高分割的准确度。

发明内容

本发明的目的在于提供一种对偶式语义分割方法。

本发明基于DeepLabV3+[3]的结构进行改进，以期达到更好的语义分割效果。DeepLabV3+采用了Encoder-Decoder的结构，Encoder部分以经典的ResNet101[4]为基础，并引入了空洞卷积，扩大了感受野的范围，从而可以在任意分辨率上提取特征，后接一个Atrous Spatial Pyramid Pooling（ASPP）模块，通过采用不同间隔数量的卷积核，在四个不同尺度上并行式地进行多尺度图像特征的提取并融合。得到的高维特征图为原输入图像大小的1/16，作为Decoder模块的输入，与已经提取得到的低维特征融合后进行2次的四倍上采样，最终恢复到原分辨率，得到语义分割的结果。

DeepLabV3+等结构虽然可以取得较为良好的语义分割效果，但是其解码器结构设计较为粗糙，在得到高维特征图之后直接通过两次上采样恢复到原分辨率大小，这一上采样过程会对分割的结果造成较大的影响，上采样过程的插值操作造成了一定的信息损失，会使得图像分割的细节变模糊、质量变差。

本发明针对现有技术解码器部分存在的缺点，旨在改进解码器部分的设计，提高网络结构的对称性，减轻上采样过程对于分割细节质量的影响。

本发明针对性的提出了一种对偶式的编码器——解码器结构，在编码器提取得到输入图像分辨率1/16的高维特征图之后，通过与编码器高度对称的解码器结构，分为四步逐渐恢复到输入图大小，并且引入了残差连接，每一层都融入编码器部分相同通道数、相同尺度的输出，融合了高层语义和低层的细粒度信息，满足了语义分割任务对高维特征与低维信息两方面的需求，以提升分割细节的质量，更好地恢复图像的空间信息。

提出的网络结构具有高度的对称性，上半部分为编码器部分，该部分与DeepLabV3+的编码器结构基本一致，以Resnet101为骨架，通过ASPP模块进行多尺度特征融合，得到特征图。下半部分为解码器部分，编码器得到的特征图作为解码器的输入，解码器采用了与编码器完全对称的结构，卷积层替换为对应的反卷积层，池化层替换为对应的反池化层。本发明采用的解码器结构通过四个阶段逐渐恢复到原图分辨率大小，并且通过残差连接，每一阶段的输出与编码器对应阶段的同通道数、同尺度的特征进行拼接，使得高维特征与更低维的细粒度信息得以融合，恰好满足了语义分割任务对高维特征与低维信息两方面的需求，进一步提高了分割的细节精确程度与图像质量。其具体步骤如下：

（1）将输入图片进行裁剪，并进行相应的数据增强，例如数据归一化等；

（2）将处理后的图片输入编码器结构中，其中编码器为多层卷积神经网络；

（3）编码器由多个卷积层、数据归一化层、激活函数层构成，将输入图片缩小到原图的1/16大小，得到相应的特征图；

（4）将此特征图进行多感受野的卷积操作，并将结果进行融合；

（5）将融合后的结果进行一层卷积操作，送入上采样过程；

（6）上采样过程也采用多感受野的反卷积操作，与步骤（4）的卷积操作刚好相反；

（7）将处理过后的结果经过解码器结构，其中解码器为多层反卷积神经网络，与编码器结构的卷积操作相对；

（8）解码器由多个反卷积层、数据归一化层、激活函数层构成，将输入特征图放大到原图大小，得到相应的分割结果图。

附图说明

图1为本发明的对偶式语义分割方法的总结构框图。

图2为本方法具体实施结果图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细说明。

参照图1、2，本发明的对偶式语义分割方法，其具体步骤如下：

（2）将处理后的图片输入编码器结构中，如图1上半部分所示，其中编码器为多层卷积神经网络；

（5）将融合后的结果进行一层卷积操作，送入上采样过程；

（7）将处理过后的结果经过解码器结构，如图1下半部分所示，其中解码器为多层反卷积神经网络，与编码器结构的卷积操作相对；

（8）解码器由多个反卷积层、数据归一化层、激活函数层构成，将输入特征图放大到原图大小，得到相应的分割结果图；

（9）本实施方法结果如图2所示，左图为输入图像，中图为传统方法输出的语义分割结果，右图为本方法输出的分割结果，此例为分割花盆案例。

参考文献

[1]He K, Zhang X, Ren S, et al. Spatial pyramid pooling in deepconvolutional networks for visual recognition[J]. IEEE transactions onpattern analysis and machine intelligence, 2015, 37(9): 1904-1916.

[2]Chen L C, Papandreou G, Schroff F, et al. Rethinking atrousconvolution for semantic image segmentation[J]. arXiv preprint arXiv:1706.05587, 2017.

[3]Chen L C, Zhu Y, Papandreou G, et al. Encoder-decoder with atrousseparable convolution for semantic image segmentation[C]//Proceedings of theEuropean conference on computer vision (ECCV). 2018: 801-818.

[4]He K, Zhang X, Ren S, et al. Deep residual learning for imagerecognition[C]//Proceedings of the IEEE conference on computer vision andpattern recognition. 2016: 770-778.。

Claims

1.一种对偶式语义分割方法，其特征在于，具体步骤如下：

（1）将输入图片进行裁剪，并进行相应的数据增强，包括数据归一化；

（5）将融合后的结果进行一层卷积操作，送入上采样过程；

（6）上采样过程也采用多感受野的反卷积操作，与步骤（4）的卷积操作相反；