CN108830855B

CN108830855B - 一种基于多尺度低层特征融合的全卷积网络语义分割方法

Info

Publication number: CN108830855B
Application number: CN201810281580.4A
Authority: CN
Inventors: 罗荣华; 陈俊生
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-04-02
Filing date: 2018-04-02
Publication date: 2022-03-25
Anticipated expiration: 2038-04-02
Also published as: CN108830855A

Abstract

本发明公开了一种基于多尺度低层特征融合的全卷积网络语义分割方法，首先用全卷积神经网络对输入图像进行密集特征的提取；然后对提取的特征图像进行多尺度特征融合处理。其步骤包括对输入特征图进行多尺度池化，形成多条处理分支，然后对各分支中池化后尺度不变的特征图进行低层特征融合处理，对于池化后尺度缩小的特征图，则进行低层特征融合上采样处理，接着分别经过3×3卷积层以学习更深层次的特征及减少输出特征图的通道数，之后再把各分支的输出特征图以通道数拼接的方式结合在一起，并经过类别卷积层和双线性插值上采样处理后，得到跟原图像等尺寸的得分图。结合局部低层特征信息和全局多尺度图像信息，使图像语义分割的效果更为显著。

Description

一种基于多尺度低层特征融合的全卷积网络语义分割方法

技术领域

本发明涉及机器学习与计算机视觉技术领域，具体涉及一种基于多尺度低层特征融合的全卷积网络语义分割方法。

背景技术

近年来，随着科学技术的发展，计算机的性能得到了快速的提高，机器学习、计算机视觉、人工智能等领域也得到迅猛的发展，图像语义分割也就作为其中的一个重要的研究课题。所谓图像语义分割，就是将一幅图像按照自己既定的标准，被划分为若干个小块，每个小块内部的像素具有一定的相关性，并标出每一块的语义，如：天空、草原、沙发、床等等。从技术的角度来看，图像语义分割在一定程度上类似于数据处理中的聚合，聚成各个不同的类别，并标示出来。从应用的角度上看，图像语义分割也经常作为底层来为高层智能化图像处理服务。

对于图像语义分割的研究历史而言，可以以深度学习出现作为界限，划分成两个不同的时代。在尚未普及深度学习理论时，语义标注研究使用传统的方法来进行分割、识别与分类，专注于图像特征的描述、提取和学习预测。而现在的图像的语义分割任务大部分都是在深度学习的技术下进行的，使用深度神经网络能很好地捕捉到数据中的深层次关系，不仅是人类定义的类别之间的不同之处，连人类都察觉不到的差别也能通过深度神经网络的深层次特征提取来获得，并且可以对不同的类别加以区分，以达到更好的语义分割效果。

基于深度神经网络的语义分割技术有很多种类型，能完成各种不同的语义分割任务。其中经典的深度神经网络有Karen Simonyan和Andrew Zisserman在2014年发表的论文中提出的VGG网络(K.Simonyan and A.Zisserman.Very deep convolutional networksfor large-scale image recognition.CoRR,abs/1409.1556,2014.)，该论文提出深度是获取好的分割结果的关键，然而深度对结果的影响还是会饱和的，所以它提出16层的特征提取网络结构，其中使用多个3×3的小尺寸卷积过滤器来替换原来大尺寸的卷积核，最后再接上两个全连通层作优化学习，以提供限定维度的特征向量给最后的分类器进行分类识别。以其为基础，J.Long等人认为最后两个全连接层会对丰富的特征图信息进行压缩，造成特征信息的丢失，因此提出全卷积的神经网络(J.Long,E.Shelhamer,andT.Darrell.Fully convolutional networks for semantic segmentation.In CVPR,pages 3431–3440,2015.)，简称FCN网络。该网络将VGG网络中的后几个全连通层改为了卷积层，实现了一种端到端的语义分割方式，可以直接输出一张像素级别的预测图，而不仅仅是一个特征向量。其中反卷积层的应用还方便了网络参数的学习，能够很好的利用已经训练好的supervised pre-training的网络，不用再从头开始训练，只需要微调即可。而chen等人则在这基础上，提出基于带“洞”卷积层的全卷积神经网络(L.Chen,G.Papandreou,I.Kokkinos,K.Murphy,and A.L.Yuille.Semantic image segmentation with deepconvolutionalnets and fully connected crfs.CoRR,abs/1412.7062,2014.)，简称deeplab_largeFOV网络，且在其后加上了全连通的条件随机场进行优化。虽然这些算法都在一定程度上扩大了全卷积神经网络的感受野，但是很容易使分割物体的边缘变得非常粗糙，而且在对小尺度物体的分割识别方面显得力不从心。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于多尺度低层特征融合的全卷积网络语义分割方法。

本发明的目的可以通过采取如下技术方案达到：

一种基于多尺度低层特征融合的全卷积网络语义分割方法，所述的语义分割方法包括以下几个步骤：

S1、对输入的图像使用全卷积神经网络进行密集特征的提取；

S2、对提取的特征进行多尺度特征融合处理，所述多尺度特征融合包括池化层、特征融合层和3×3卷积层的处理；

S3、多尺度特征融合后的图像通过3×3卷积层、类别卷积层和双线性插值上采样处理，得到跟原图像等尺寸的得分图，以此实现对图像的语义分割任务。

进一步地，所述的全卷积神经网络利用deeplab_largeFOV(vgg16)网络的前5个模块，获取稠密的高层特征信息，实现密集特征的提取。在这前5个模块中，每个模块都是由2-3个卷积层和relu层的集合与一个最大池化层组成。由于前3个模块中的池化层步长是2，而后两个大层中的池化层步长是1，因此在第四个池化层之后，即从第5个模块开始，小卷积层都是带“洞”的，这样可以使感受野与预训练的网络(FCN网络)保持一致，而且还能在一定程度上扩大感受野，获取更多全局信息。

进一步地，所述的多尺度特征融合，所述多尺度特征融合包括池化层、特征融合层和3×3卷积层的处理，首先需要对输入特征图进行多尺度池化，即对输入特征图的多个副本分别进行不同形式的池化处理，从而形成多条处理分支；然后对各分支中池化后尺度不变的特征图进行低层特征融合处理，对于池化后尺度缩小的特征图，则需要进行低层特征融合上采样处理，使得各分支特征图的尺寸保持一致；再分别将特征融合后的特征图输入到3×3卷积层，通过限制卷积核的个数，减少输出特征图的通道数目；之后再把各分支的输出特征图以通道数拼接的方式结合在一起，得到融合多尺度低层特征的图像。

进一步地，所述的多尺度池化方法，对输入特征图的多个副本分别进行不同形式的池化处理，其中包括传统的最大值池化和新型的相似度矩阵池化。通过利用不同尺寸的池化核和不同移动步长的池化窗口，可以获取丰富的多尺度图像信息，然而各分支池化后特征图的尺寸会因此而不一样。

进一步地，所述的相似度矩阵池化方法，首先需要让基于低层特征生成的相似度矩阵进行二值化处理，再把该矩阵当作权重矩阵，对输入特征图进行均值池化处理。

进一步地，所述的低层特征融合和低层特征融合上采样低层特征融合是针对相似度矩阵池化后特征图尺寸没有发生变化的情况所实施的处理方式，而低层特征融合上采样则是针对相似度矩阵池化后特征图尺寸缩小的情况所实施的尺寸复原的处理方法。另外，对于最大值池化后的特征图，不需要进行任何特征融合处理，直接输入到3×3卷积层。低层特征融合和低层特征融合上采样的基本原理都是利用融合HOG特征信息的相似度矩阵进行反卷积处理。HOG特征又名方向梯度直方图特征(Histograms of Oriented Gradients)，它是经过计算图像中各局部区域的梯度方向直方图来构成特征描述向量。由于该特征主要针对一块局部区域，因此与池化后尺寸缩小的特征图中每个特征点相对应。

进一步地，基于低层HOG特征的相似度矩阵，该矩阵对不同尺度的输入特征图由不同的大小对应。对原尺度大小的特征图，可使用步长为1的相似度矩阵进行反卷积操作，该矩阵的尺寸大小与之前的池化窗口保持一致。而对于经过池化缩小的特征图，则需要使用与池化窗口步长一致的相似度矩阵，进行反卷积上采样处理。

进一步地，基于低层HOG特征的相似度矩阵的生成方法，首先需要利用hog特征提取算法提取原图像中每个块区域的HOG特征，该块区域的尺寸大小受待特征融合的特征图的尺寸大小的影响；然后利用滑动窗口中每一个块区域的梯度方向直方图信息，经由以下公式，可求得尺度大小为T×T的相似度矩阵W：

k＝1,2…n，

其中，Dis(i,O)是指滑动窗口中块区域i和中心块区域O之间特征向量的欧氏距离，X_ik是指滑动窗口中任意一个块区域i的特征向量中第k个分量的值，n是指该特征向量的总维度数。Syn(I,O)是指与滑动窗口的块区域i相对应的相似度矩阵中I点的值，代表HOG特征图的滑动窗口中块区域i和中心块区域O的特征相似度；若两个块区域特征越相似，则Syn(I,O)值越大；另外，越靠近中心块区域O，相似度的比例系数越大。其中α可以取5,10或20的值，以提升hog特征信息对图像的表达能力。I_x和I_y分别代表相似度矩阵中点I的行索引和列索引，O_x和O_y分别代表相似度矩阵的中心点O的行索引和列索引(x,y∈[1,T])。

进一步地，所述的3×3卷积层，该卷积层的卷积核数目与处理分支的数目有关，通过限制卷积核的个数，可减少输出特征图的通道数目。由于本发明使用deeplab_largeFOV(vgg16)网络进行稠密特征提取，为了使用该网络的权重模型进行训练学习，整个多尺度特征融合模块输出特征图的维度必须与其保持一致，因此该3×3卷积层的卷积核个数为1024/n(n为处理分支的数目)。

本发明相对于现有技术具有如下的优点及效果：

1)本发明通过多尺度池化的方式，能获取更多的全局特征信息，提升对多尺度物体的识别效果，也能对位置关系不符的识别问题做出改善，包括对含有小尺寸物体的场景理解的优化，进而提高图像语义分割的精度。

2)通过低层特征融合方法，可以使得高层的多尺度特征与低层的良好特征相融合，加强全卷积网络对局部边缘的敏感性，解决全卷积网络由于聚合大量的上下文信息而导致的边缘模糊化问题。

附图说明

图1是本发明公开的一种基于多尺度低层特征融合的全卷积网络语义分割方法的流程图；

图2是本发明的基于多尺度低层特征融合的全卷积网络的原理图；

图3是本发明的实施例的多尺度特征融合的原理图；

图4是本发明的实施例的基于相似度矩阵的特征融合层的原理图；

图5是本发明的实施例的相似度矩阵池化方法的原理图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，图1为本发明的基于多尺度低层特征融合的全卷积神经网络的一个实施例的流程图。该实施例包括以下步骤：

1)对输入的图像使用全卷积神经网络进行密集特征的提取；

2)对提取的特征进行多尺度特征融合处理；

3)多尺度特征融合后的图像通过3×3卷积层、类别卷积层和双线性插值上采样处理，得到跟原图像等尺寸的得分图，以此实现对图像的语义分割任务。

图像的语义分割是一个典型的通过密集特征提取来对各像素点进行语义类别预测的问题，因此要提高每个像素的类别预测精准度，便需要利用全局而又不失精细的特征表达。本发明便是运用先进的全卷积神经网络来提取图像的稠密特征信息，再此基础上经过多尺度的池化处理，对包括密集特征的特征图进行多尺度的缩放和尺度不变的特征聚合处理，这样不仅能使特征图包括更丰富的全局特征信息，还能让特征表达更具鲁棒性。然而，虽然通过全卷积神经网络可以获取稠密的全局特征信息，当其中的每一个神经元都有很大的感受野，很容易会使分割物体的边缘变得异常粗糙，在聚合繁多的上下文信息的同时，会造成边缘的模糊效应。

因此本发明将局部的低层特征信息融入到全卷积神经网络的训练中，利用对边缘敏感的局部低层信息对全局高层特征进行优化学习，使得对物体边缘有更优良的特征表达，从而提升对不同场景的理解能力，加强最终的图像语义分割效果。

如图2所示，本发明的一个实施例的基础架构便是基于现今具有领先地位的全卷积神经网络——deeplab_largeFOV(vgg16)网络，通过使用该网络的前5个模块的结构，可以获取到高度稠密的特征信息。其中每个模块都是由2-3个卷积层(包括relu层)和一个最大池化层组成。由于前3个模块中池化层的步长是2，而后两个大层中池化层的步长是1，因此在第四个池化层之后，即从第5个模块开始，小卷积层都是带“洞”的，这样可以使感受野与预训练的网络(FCN网络)一致，而且还能在一定程度上扩大感受野，获取更丰富的全局特征信息。

接着需要把全卷积神经网络提取出来的特征图输入到本发明提出的多尺度特征融合模块，之后紧接的3×3卷积层、类别卷积层和双线性插值上采样则是沿用全卷积神经网络所使用的一般方法。

多尺度特征融合模块的具体实施例如图3所示。该模块包括池化层、特征融合层和3×3卷积层。

在池化层中，需要进行多尺度池化，即对输入特征图的多个副本分别进行不同形式的池化处理，从而形成多条处理分支。该实施例一共有四个分支，各分支所使用的池化核尺寸分别是5×5、3×3、3×3和9×9。经过多尺度池化后，各分支的输出特征图的尺寸变化分别是尺寸缩小一半、尺寸不变、尺寸不变和尺寸缩小到四分之一，即池化核的移动步长分别为2、1、1、4。其中分支1、2、4都是使用二值化后的相似度矩阵进行均值池化处理，而分支3则使用最大值池化方法。

相似度矩阵池化方法的一个实施例如图5所示。该方法首先需要将基于低层特征的相似度矩阵进行二值化处理，然后以二值化后的相似度矩阵作为权重矩阵进行均值池化操作。其中二值化的方式有很多种。在该实施例中，二值化方式是通过设置一个合理的阀值来实现的，大于或等于该阀值的数值设为1，而小于该阀值的数值则设为0。值得注意的是，图5中所进行的操作是原尺寸池化，这里所使用的相似度矩阵和后继的特征融合方法所使用的相似度矩阵都是以相同大小的块区域为单位的hog特征图所得来的，因此相似度矩阵可以共享；然而，对于尺寸缩小的池化操作，使用的相似度矩阵中每个点所代表的特征区域尺寸不同，所以需要使用跟之后特征融合过程不一样的相似度矩阵。

在特征融合层中，需要对各分支中相似度矩阵池化后尺度不变的特征图进行低层特征融合处理，如图3的分支2；对于相似度矩阵池化后尺度缩小的特征图，则需要进行低层特征融合上采样处理，使得各分支特征图的尺寸保持一致，如图3的分支1和4；对于最大值池化后的特征图，则不需要进行任何特征融合处理，直接输入到3×3卷积层，如图3的分支3。在图3的实施例中，分支1使用步长为2的5×5相似度矩阵，分支2使用步长为1的3×3相似度矩阵，分支4使用步长为4的9×9相似度矩阵。

低层特征融合和低层特征融合上采样的基本原理都是利用融合HOG特征信息的相似度矩阵进行反卷积处理。HOG特征又名方向梯度直方图特征(Histograms of OrientedGradients)，它是经过计算图像中各局部区域的梯度方向直方图来构成特征描述向量。由于该特征主要针对一块局部区域，因此与池化后缩小的特征图的每个特征点相对应。该特征本质上是通过统计图像局部区域的梯度方向信息以作为该局部图像区域的表征，即表示着边缘的结构特征，因此可以有效地描述图像中局部的形状信息，融合之后将能够对高层全局特征边缘不敏感的缺点进行完善。

另外，HOG算法是在粗糙的空间区域抽样，并通过精细地计算各局部区域的梯度方向直方图来实现对局部图像梯度信息的统计与量化，因此得到的特征描述向量既能够描述局部图像的内容，又能够在一定程度上抑制平移和旋转带来的影响。而且在包括众多细胞单元的块状区域统一进行的gamma校正归一化操作，可以使图像本身具有相当好的光学和几何形变的不变性，抵消光照变化对图像造成的影响，从而降低描述图像特征的表征向量的维度，不仅能提高后续语义分割的准确率，又可以减少相似度矩阵的生成时间。

如图4所示，为了生成相似度矩阵，必须先使用HOG算法，以原图像为输入，生成一幅由8×8大小的细胞单元组成的特征向量图。对于原尺度池化的特征图，其中的每一个像素点即对应HOG特征图的每一个细胞单元，因为经过全卷积神经网络的前5个模块处理之后，特征图的尺寸只有原图像的八分之一。而对于池化后尺寸缩小一半的特征图，其中的每个像素点对应HOG特征图中由2×2个细胞单元组成的块区域；同理，对于池化后尺寸缩小到四分之一的特征图，其中的每个像素点则对应HOG特征图中由4×4个细胞单元组成的块区域。当然，在将细胞单元组合成块区域之后，必须对块内梯度方向直方图进行归一化操作，以降低局部的光照变化和前景-背景对比度变化对梯度强度变化的影响。其中归一化方法是L2-Norm with Hysteresis threshold。

在得到相应块区域的特征向量(特征描述子)之后，可以基于相应滑动窗口中每一个块区域的梯度方向直方图，经由以下公式，求得与以O点为中心的滑动窗口相对应的尺度为T×T的相似度矩阵W：

k＝1,2…n，

在得到相似度矩阵之后，需要把它融入特征图当中。把相似度矩阵池化层输出的特征图作为输入，其中每个点所代表的特征向量与对应的相似度矩阵进行反卷积操作，得到以该点为中心的低层特征响应矩阵，再让这些矩阵在相应位置和输入特征图进行求和运算，之后再根据每个点实际得到的响应数进行归一化操作。

对于原尺寸池化后输入的特征图，经过低层特征融合层以后，输出特征图的尺寸并没有发生变化；而对于池化后尺寸缩小的输入特征图，通过低层特征融合上采样层之后，输出特征图的尺寸恢复到池化之前的尺寸大小。

在紧接的3×3卷积层中，需要对输入特征图进行卷积操作，输出特征图的尺寸与输入特征图一致。该层的卷积核数目与处理分支的数目有关，由于本专利使用deeplab_largeFOV(vgg16)网络进行稠密特征提取，为了使用该网络的权重模型进行训练学习，整个多尺度特征融合模块输出特征图的维度必须与其保持一致，因此该3×3卷积层的卷积核个数为1024/n(n为处理分支的数目)。由于该实施例包括4条分支，因此每条分支的3×3卷积层中卷积核的个数都是256。

综上所述，本发明提出的基于多尺度低层特征融合的全卷积神经网络方法可用于多种类型的图像语义分割任务。该发明不仅能够提升高层特征对全局上下文信息的表征能力，而且可以在一定程度上改善由全卷积神经网络各神经元过大的感受野，而导致的分割物体边缘粗糙化的状况，从而提高不同场景下图像语义分割的精度。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包括在本发明的保护范围之内。

Claims

1.一种基于多尺度低层特征融合的全卷积网络语义分割方法，其特征在于，所述的语义分割方法包括下列步骤：

S2、对提取的特征进行多尺度特征融合处理，所述的多尺度特征融合处理包括池化层、特征融合层和3×3卷积层的处理，过程如下：首先需要对输入特征图进行多尺度池化，即对输入特征图的多个副本分别进行不同形式的池化处理，从而形成多条处理分支；然后对各分支中池化后尺度不变的特征图进行低层特征融合处理，对于池化后尺度缩小的特征图，则需要进行低层特征融合上采样处理，使得各分支特征图的尺寸保持一致；再分别将特征融合后的特征图输入到3×3卷积层，通过限制卷积核的个数，减少输出特征图的通道数目；之后再把各分支的输出特征图以通道数拼接的方式结合在一起，得到融合多尺度低层特征的图像；

其中，所述的低层特征融合和所述的低层特征融合上采样的基本原理都是利用融合HOG特征信息的相似度矩阵进行反卷积处理；

所述的相似度矩阵的生成方法如下：

首先需要利用HOG特征提取算法提取原图像中每个块区域的HOG特征，该块区域的尺寸大小受待特征融合的特征图的尺寸大小的影响；

然后利用滑动窗口中每一个块区域的梯度方向直方图信息，经由以下公式，可求得尺度大小为T×T的相似度矩阵W：

其中，Dis(i,O)是指滑动窗口中块区域i和中心块区域O之间特征向量的欧氏距离，X_ik是指滑动窗口中任意一个块区域i的特征向量中第k个分量的值，n是指特征向量的总维度数，Syn(I,O)是指与滑动窗口的块区域i相对应的相似度矩阵中I点的值，代表HOG特征图的滑动窗口中块区域i和中心块区域O的特征相似度；若两个块区域特征越相似，则Syn(I,O)值越大；另外，越靠近中心块区域O，相似度的比例系数越大，其中α取5、10或20的值，以提升HOG 特征信息对图像的表达能力，I_x和I_y分别代表相似度矩阵中点I的行索引和列索引，O_x和O_y分别代表相似度矩阵的中心点的行索引和列索引，x,y∈[1,T]；

2.根据权利要求1所述的一种基于多尺度低层特征融合的全卷积网络语义分割方法，其特征在于，所述的多尺度池化通过利用不同尺寸的池化核和不同移动步长的池化窗口，获取多尺度图像信息，所述的多尺度池化包括最大值池化方法和相似度矩阵池化方法。

3.根据权利要求2所述的一种基于多尺度低层特征融合的全卷积网络语义分割方法，其特征在于，所述的相似度矩阵池化方法首先让基于低层特征生成的相似度矩阵进行二值化处理，再把该矩阵当作权重矩阵，对输入特征图进行均值池化处理。

4.根据权利要求1所述的一种基于多尺度低层特征融合的全卷积网络语义分割方法，其特征在于，所述的全卷积神经网络利用deeplab_largeFOV网络的前5个模块，获取稠密的高层特征信息，实现密集特征的提取，在这前5个模块中，每个模块都是由2或3个卷积层和relu层的集合与一个最大池化层组成，并且前3个模块中的池化层步长是2，而后2个模块中的池化层步长是1。