CN109034162B

CN109034162B - 一种图像语义分割方法

Info

Publication number: CN109034162B
Application number: CN201810769340.9A
Authority: CN
Inventors: 周全; 卢竞男; 杨文斌; 王雨; 从德春
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-07-13
Filing date: 2018-07-13
Publication date: 2022-07-26
Anticipated expiration: 2038-07-13
Also published as: CN109034162A

Abstract

本发明揭示了一种图像语义分割方法，包含编码和解码两部分，其中编码端基于经典的FCN的模型包含了一系列的卷积操作和最大池化操作来提取特征，且卷积后特征图的通道数加倍，最大池化后特征图的长和宽减半；解码端先把编码端卷积层提取的特征图进行不同倍数的上采样，然后和解码端两倍上采样的特征图连接，再进行卷积提取综合特征。这样浅层的信息和深层的信息能较好的融合，最终网络输出一个21维且和原图大小相同的矩阵。本发明技术方案的提出并应用，重新定义了网络结构，通过结合解码端和解码端的特征图，充分地利用了网络的上下文信息，在一定程度上提高了最终的准确率；并且保留了分割图相对原始图像的分辨率大小。

Description

一种图像语义分割方法

技术领域

本发明涉及一种图像计算机视觉分析和处理方法，具体涉及一种采用深度学习实现图像语义分割的方法。

背景技术

伴随着计算机视觉研究的不断加深，研究者逐渐将目光投向对于图像更为准确的分析和理解。语义分割问题正是为了满足这一要求而提出的。语义分割的根本目的是通过训练图像的内容，从而确定图像中每个像素的语义类别。下面是近几年图像语义分割领域的一些成果。

全卷积神经网络（FCN，Fully Convolutional Networks）可以说是深度学习在图像语义分割任务上的开创性工作，由加州大学伯克利分校的研究团队提出，推广了原有的卷积神经网络结构（CNN，ConvolutionalNeural Network）。FCN将CNN网络最后三层完全连接层换成三层卷积层，这样做的好处是能够进行密集预测，从而可以实现FCN对图像进行像素级的分类，从而解决了语义级别的图像分割问题。FCN可以接受任意尺寸的输入图像，采用反卷积对最后一个卷积层的特征图（feature map）进行上采样，使它恢复到输入图像的尺寸。之后，几乎所有关于语义分割的最新研究都采用了这种结构。

虽然FCN网络有很大的突破，但是还是存在两大重要的问题。一是连续的卷积和池化使特征图的分辨率大大下降，这对密集预测任务非常不利，FCN-8s虽然比FCN-32s的效果好了很多，但是上采样的结果还是比较粗糙，对图像中的细节不敏感。二是FCN是对各个像素进行分类，没有考虑像素与像素之间的关系。

为了克服上述两种问题，研究者提出了一种编码器-解码器网络结构（EDN）。EDN包含两个部分：编码器使用池化层逐渐缩减输入数据的空间维度，而解码器通过反卷积层等网络层逐步恢复目标的细节和相应的空间维度。有两种典型的编码器-解码器结构：Segnet和U-net。Segnet在池化时记住输出值的位置，在上池化时再将这个值填回原来的位置，其他位置补零。U-net引进了一个优雅的对称网络结构，通过跳跃连接层把编码端的特征连接到对应的解码端。最近，RefineNets已经论证了编码-解码器结构在几个语义分割的基准上非常有效。

但是，EDNs还是存在下面的缺点：上采样的补零操作引入了噪声；而EDNs的网络结构已然固化，跳跃连接层仅仅连接编码端和相对应的解码端，导致上下文信息没有被充分利用。

发明内容

鉴于上述现有技术的缺陷与不足，本发明的目的旨在提出一种全新而完善的图像语义分割方法，解决上下文信息充分利用的问题。

本发明上述目的得以实现的技术解决方案是：一种图像语义分割方法，其特征在于所述方法包含：

编码端基于经典的FCN的模型包含了一系列的卷积操作和最大池化操作来提取特征，且卷积后特征图的通道数加倍，最大池化后特征图的长和宽减半；

解码端先把编码端卷积层提取的特征图进行不同倍数的上采样，然后和解码端两倍上采样的特征图连接，再进行卷积提取综合特征，将浅层和深层的信息融合，最终网络输出一个21维且和原图大小相同的矩阵。

进一步地，上述图像语义分割方法包括步骤：

S1、输入一张任意大小的图像，对图像进行两次相同的卷积，卷积核大小为3×3，卷积核个数为64，步长为1，得到通道数为64的第一特征图；

S2、对第一特征图进行步幅为2的2×2最大池化操作，每次池化后特征图的长宽都缩减一半，接着再进行两次相同的卷积，卷积核大小为3×3，卷积核个数为128，步长为1，得到通道数为128的第二特征图；

S3、重复S2的操作三次，其中卷积核的个数分别为256、512、1024，卷积后的结果分别记为第三特征图、第四特征图、第五特征图；

S4、对第二特征图进行两倍上采样，保持通道数不变，得第六特征图；

S5、对第三特征图进行两倍上采样，保持通道数不变，得第七特征图，再对第三特征图进行四倍上采样，保持通道数不变，得第八特征图；

S6、对第四特征图进行两倍上采样，保持通道数不变，得第九特征图，对第四特征图进行四倍上采样，保持通道数不变，得第十特征图，对第四特征图进行八倍上采样，保持通道数不变，得第十一特征图；

S7、对第五特征图进行两倍上采样，同时通道数减半为512，得第十二特征图，第四、第十二特征图长宽相同、通道数之和为1024，将两者特征图堆叠在一起，并再进行两次3×3的卷积，通道数减半为512，得第十三特征图；

S8、对第十三特征图进行两倍上采样，同时通道数减半为256，得第十四特征图，第三、第九和第十四特征图长宽相同，通道数之和为1024，将三者特征图堆叠在一起，再进行两次3×3的卷积，通道数减半为256，得第十五特征图；

S9、对第十五特征图进行两倍上采样，同时通道数减半为128，得第十六特征图，第二、第七、第十和第十六特征图长宽相同，通道数之和为1024，将四者特征图堆叠在一起，再进行两次3×3的卷积，通道数减半为128，得第十七特征图；

S10、对第十七特征图进行两倍上采样，同时通道数减半为64，得第十八特征图，第一、第六、第八、第十一和第十八特征图长宽相同，通道数之和为1024，将五者特征图堆叠在一起，再进行两次3×3的卷积，通道数减半为64；

S11、使用1×1的卷积，把64维的特征矢量映射到所需的类别个数，最终输出一个21维的和矩阵。

进一步地，上述图像语义分割方法每一次卷积前对图像周围补一圈0的填充操作。

进一步地，上述图像语义分割方法每一次卷积后衔接一个修正的线性单元。

进一步地，上述图像语义分割方法卷积核的大小和个数任意可选。

本发明语义图像分割方法的提出并应用，较之于传统此类方法具有显著的进步性：本发明重新定义了网络结构，通过结合解码端和解码端的特征图，充分地利用了网络的上下文信息，在一定程度上提高了最终的准确率；并且保留了分割图相对原始图像的分辨率大小。

附图说明

图1为本发明图像语义分割方法之稠密反卷积网络的结构图。

图2为基于多原图的定性结果比较。

具体实施方式

下面结合说明书附图，对本发明进行进一步详细说明。

本发明设计者潜心于语义图像分割的研究，总结并针对当前已有技术的不足与弊端，创新提出了一种全新的语义图像分割方法，通过在U-net的结构上做了一些改进，设计了一种新颖的编码-解码器结构，称之为稠密反卷积网络（Dense Deconvolution Network，DDN）。相比于其他网络，此网络能更好的兼顾局部和全局信息，最终得到的分割图中物体的形状和边界更清晰，分类更准确，且分割图的分辨率与原始图像的分辨率相同。

图1是本发明详细的结构图，主要包含两个部分：卷积网络和反卷积网络。也可以说是编码端和解码端。具体来说包括五个基本元素：卷积层、线性修正单元(ReLU)、最大池化、复制、反卷积层。卷积网络负责特征提取，将输入图片转化为多维的特征向量，而反卷积层则是根据特征提取图片中对象的形状，最终网络输出一个21维的和输入图片大小相同的矩阵，表示每个像素属于某一个预定类的概率。

卷积网络中，在经典的FCN结构的基础上做了一点改进。它包含了一系列的卷积操作和最大池化操作。每个卷积操作后面都跟着一个修正的线性单元（ReLU）。且卷积后特征图的通道数加倍，最大池化后特征图的长和宽减半。本发明在卷积前加入了填充操作，填充操作可能会可能引入小的噪声，但这样做能使输出的分割图和原始图像分辨率相同，所以对密集预测问题（预测每个像素的类别）是有好处的。由于神经网络结构越深，空间信息丢失的越多，小物体很难从低分辨率的特征图中恢复出来，所以本发明的卷积网络中去掉了FCN最后一个池化层和跟随在后的卷积层。

反卷积网络中包含了一系列反卷积层，它包含三个步骤：上采样、连接和卷积。第一步：解码端进行两倍上采样，同时把特征图的通道数减半。第二步：连接。在之前的EDN结构中，直接把编码端的特征图复制到对应的解码端。而本发明在这一步上做了改进。DDN网络把编码端更深层卷积层提取的特征图进行不同倍数的上采样，然后和解码端上采样得到的特征图堆叠在一起。第三步：再进行卷积，使特征融合。这样得到的“堆叠块”携带着局部和全局的信息，能更全面的研究多尺度上下文信息。特别值得注意的是，深层卷积层提取的特征图在上采样时要根据情况使用不同的上采样率，这样做保证了“堆叠块”的各个部分有相同的分辨率。最后，对“堆叠块”做两次3×3的卷积，每个卷积后面都跟着一个修正的线性单元。在最后一层，使用1×1的卷积，把64维的特征矢量映射到所需的类别个数。

结合图1所示实施例更具体的来理解本发明图像语义分割方法的操作实施步骤。

S1、输入一张任意大小的图像，对图像进行两次相同的卷积，卷积核大小为3×3，卷积核个数为64，步长为1，得到通道数为64的第一特征图，图示为①。

S2、对第一特征图进行步幅为2的2×2最大池化操作，每次池化后特征图的长宽都缩减一半，接着再进行两次相同的卷积，卷积核大小为3×3，卷积核个数为128，步长为1，得到通道数为128的第二特征图，图示为②，顺序之后的特征图图示以此类推。

S3、重复S2的操作三次，其中卷积核的个数分别为256、512、1024，卷积后的结果分别记为第三特征图、第四特征图、第五特征图。

S4、对第二特征图进行两倍上采样，保持通道数不变，得第六特征图。

S5、对第三特征图进行两倍上采样，保持通道数不变，得第七特征图，再对第三特征图进行四倍上采样，保持通道数不变，得第八特征图。

S6、对第四特征图进行两倍上采样，保持通道数不变，得第九特征图，对第四特征图进行四倍上采样，保持通道数不变，得第十特征图，对第四特征图进行八倍上采样，保持通道数不变，得第十一特征图。

S7、对第五特征图进行两倍上采样，同时通道数减半为512，得第十二特征图，第四、第十二特征图长宽相同、通道数之和为1024，将两者特征图堆叠在一起，并再进行两次3×3的卷积，通道数减半为512，得第十三特征图。

S8、对第十三特征图进行两倍上采样，同时通道数减半为256，得第十四特征图，第三、第九和第十四特征图长宽相同，通道数之和为1024，将三者特征图堆叠在一起，再进行两次3×3的卷积，通道数减半为256，得第十五特征图。

S9、对第十五特征图进行两倍上采样，同时通道数减半为128，得第十六特征图，第二、第七、第十和第十六特征图长宽相同，通道数之和为1024，将四者特征图堆叠在一起，再进行两次3×3的卷积，通道数减半为128，得第十七特征图。

S10、对第十七特征图进行两倍上采样，同时通道数减半为64，得第十八特征图，第一、第六、第八、第十一和第十八特征图长宽相同，通道数之和为1024，将五者特征图堆叠在一起，再进行两次3×3的卷积，通道数减半为64。

如图2所示，是本发明模型与其它模型在定性上的比较，从图中可以看出，图中最后一层能高精度地将图像特征物体与背景分割，保真度领先于其它各种模型。

综上实施例结合图示的详细描述可见，本发明语义图像分割方法的提出并应用，较之于传统此类方法具有显著的进步性：本发明重新定义了网络结构，通过结合解码端和解码端的特征图，无论从定量还定性的比较，充分展现了本发明在语义图像分割方面的优越性。通过不同层的特征融合，充分地利用了网络的各层信息，在一定程度上提高了最终的准确率，使得图片分割的结果更加精确和平滑；并且保留了分割图相对原始图像的分辨率大小。

以上详细描述了本发明的优选实施方式，但是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内进行修改或者等同变换，均应包含在本发明的保护范围之内。

Claims

1.一种图像语义分割方法，其特征在于所述方法包含：

解码端先把编码端卷积层提取的特征图进行不同倍数的上采样，然后和解码端两倍上采样的特征图连接，再进行卷积提取综合特征，将浅层和深层的信息融合，最终网络输出一个21维且和原图大小相同的矩阵；

S11、使用1×1的卷积，把64维的特征矢量映射到所需的类别个数，最终输出一个21维的和矩阵；

其中，每一次卷积前对图像周围补一圈0的填充操作，每一次卷积后衔接一个修正的线性单元。

2.根据权利要求1所述图像语义分割方法，其特征在于：卷积核的大小和个数任意可选。