CN111275732A

CN111275732A - 一种基于深度卷积神经网络的前景对象图像分割方法

Info

Publication number: CN111275732A
Application number: CN202010044615.XA
Authority: CN
Inventors: 杨戈; 吴彬
Original assignee: Beijing Normal University Zhuhai
Current assignee: Beijing Normal University Zhuhai
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-06-12
Anticipated expiration: 2040-01-16
Also published as: CN111275732B

Abstract

本发明公开了一种基于深度卷积神经网络的前景对象图像分割方法，将分割任务设置为密集的标记问题，并提出一种基于深度卷积神经网络的像素级图像分割模型FOSeg模型。FOSeg模型是一个可以预测每个像素是前景对象可能性的支持端到端训练的前景对象图像分割模型。FOSeg模型分割流程图如图1所示：首先输入原始图像，经过深度卷积神经网络的卷积、汇合、线性整流等操作，然后输入到分流聚合模块从而得出特征映射得分图，随后经过双线性插值算法的上采样操作得到粗糙的分割图，最后将得到的粗糙分割图送入条件随机场模型中进一步细化分割结果，从而得出精细的分割图像。

Description

一种基于深度卷积神经网络的前景对象图像分割方法

【技术领域】

本发明涉及计算机视觉领域技术领域，具体涉及一种基于深度卷积神经网络的前景对象图像分割方法。

【背景技术】

根据分割是否依赖类别，可以将前景对象分割模型分为两类。(1)不依赖类别的分割：无论图像中的对象有多少类，只提取前景对象掩码的分割模型；(2)特定类别的分割：从分类标记的数据中学习,并寻求分割新图像中的特定类别的分割模型。

(1)不依赖类别的分割

根据分割策略与目的的不同，将不依赖类别的分割分为以下三种：

交互式图像分割模型：如GrabCut[10]模型就是让人用边框或涂鸦来指导算法。当需要进行高精度的分割时，一些来自人类的指导是值得的，这类模型是较适合的。虽然减少人工的参与，但不能全自动的完成分割。

对象建议模型：该类模型以边界框或区域的形式，生成上千个前景对象建议。产生上千个假设可以确保高的召回率，但往往会导致低精度的结果。虽然其对目标检测有效，但在没有特定信息的情况下，很难自动地从这个大的假设集合中过滤出准确的建议，完成分割任务。

显著性模型：该类模型的目标是识别可能吸引人类注意力的区域。有些模型产生高度局部化的区域，而另一些模型则分割完整的对象。显著性模型关注的是“突出”的对象，不能分割所有前景对象。

(2)特定类别的分割

根据训练数据集的不同使用策略将特定类别的分割模型分为以下三种：

语义分割模型：语义分割是指对对象进行联合识别和分割的任务，将每个像素划分为k个固定类别之一。大多数的深层语义分割模型包括完全卷积网络，它应用连续的卷积层和池化层，然后在末端进行上行采样或反卷积操作，从而产生像素级的分割映射图。但是，这些模型是针对固定数量的类别进行训练的，泛化能力较弱。

弱监督的联合分割模型：弱监督的联合分割模型比语义分割模型使用更弱的监督，其思想是利用集合内的相似性来发现共同的前景。给定一批已知的包含相同对象类别的图像,输出是特定类别的像素级掩码或边框。虽然联合分割是有效的，但它的性能受到集合内共享结构的限制，类内的特征和形状的变化构成了一个重大的挑战。此外，客观世界的复杂性使得图像数据易于受到不同类型视觉噪声的干扰进而影响分割模型的表现。这种复杂性主要来源于以下两个方面：物体本身的视觉变化，主要包括姿态、形变、朝向、尺度、外观以及遮挡等因素；客观世界的随机变化，如光照、噪声以及成像技术等。总之，以上这些因素大大限制了弱监督的联合分割模型的分割表现。

基于传播的模型：基于传播的模型将信息从带有人类标记的前景掩码的样本中传递。它们通常在可能的前景区域和样本之间进行匹配。缺点是需要在测试时存储大量的范例数据，并为每个测试映像执行昂贵且可能有噪声的匹配过程。

基于深度卷积神经网络(Deep Convolutional Neural Networks,DCNNs)的图像分割模型都面临着以下两个挑战:(1)输出特征分辨率降低，(2)由于DCNNs内在不变性而下降的定位精度。

针对当DCNNs以完全卷积方式使用时，会导致特征图的空间分辨率显著降低，为了克服这一障碍并有效地产生更密集的特征图，本发明采用扩张卷积进行特征提取，扩张卷积允许本文模型有效地扩大滤波器的视野，而不增加参数的数量或计算量。通过使用扩张卷积替代常用卷积，FOSeg模型能有效的提高输出特征图的分辨率。

针对由于DCNNs结构的空间变换不变性，固有地限制了当该结构应用到分割任务时的分割精度。本发明采用分流聚合模块(Shunt-Fuse Module,SFM)：在pool5层之后以多个采样率重新采样特定的特征层，并在sofamax层之前将采样的多尺度特征进行融合。这相当于用具有互补的有效视野的多个滤波器探测原始图像，从而在多个尺度上捕获物体以及有用的图像上下文信息。本发明使用使用全连接的条件随机场来提高模型捕获精细细节的能力，计算更有效，并能够捕获细微的边缘细节，同时也适应长距离的依赖，很大程度上提高了基于像素级分类器的性能。全连接的条件随机场，与带有扩张卷积和分流聚合模块的DCNNs的像素级别分类器相结合，可以有效提高分割模型的分割精度。

【发明内容】

本发明提出一个端到端的基于深度卷积神经网络的监督学习模型，用于逐像素的前景对象图像分割。实验结果证明了FOSeg模型的有效性,其与多个数据集的优秀模型相比均有显著改进。同现有较好的基于深度特征的图像区域分割模型相比精度更高，较好地解决了由于DCNNs不变性而导致的定位精度下降问题。研究结果还表明,FOSeg模型具有强大的泛化能力，可以很好地推广到数百个对象类别。

为实现上述目的，本发明采用的技术方案为：

本发明将分割任务设置为密集的标记问题，并提出一种基于深度卷积神经网络的像素级图像分割模型FOSeg模型。FOSeg模型是一个可以预测每个像素是前景对象可能性的支持端到端训练的前景对象图像分割模型。

FOSeg模型分割流程图如图1所示：首先输入原始图像，经过深度卷积神经网络的卷积、汇合、线性整流等操作，然后输入到分流聚合模块从而得出特征映射得分图，随后经过双线性插值算法的上采样操作得到粗糙的分割图，最后将得到的粗糙分割图送入条件随机场模型中进一步细化分割结果，从而得出精细的分割图像。

(1)模型架构

将用于图像分类的VGG-16模型的所有的全连接层改为卷积层，使模型能够接受任何大小的输入图像,并生成相应的密集输出映射。FOSeg模型由卷积层组成,中间有最大值汇合层。除最后一个卷积层大小为1x1，其余所有卷积核的大小均为3x3。每个卷积层后面还有一个线性整流层,然后再输入到下一层。将VGG-16模型中的1000路分类层替换为产生二进制掩码作为输出的2路分类层。损失函数是输出层中每个像素上的交叉熵之和。

VGG-16模型由五个最大值汇合层组成。虽然非常适合分类,但与原始图像相比,这将导致输出分辨率降低32倍。为了实现更精细的像素对象图,FOSeg模型应用“扩张卷积”算法，扩张卷积是利用上采样滤波器的方法，通过扩张率控制着感受野，同样的卷积核数量，不同的扩张率却让其有不同大小的感受野，在不增加参数量的情况下，扩张卷积可以指数级地扩大滤波器的感受野，有效地提取图像上下文信息。特别是，FOSeg模型用扩张卷积替换最后两个最大值汇合层中的下采样。此操作是无参数的，输出分辨率降低8倍,并且仍然保留了较大的感受野。此外，FOSeg模型应用中的分流聚合模块(SFM)，基于VGG-16的SFM采用多个并行fc6-fc7-fc8分支，它们都使用3×3内核，但在fc6中采用不同的扩张率r以捕获不同大小的物体。SFM采用扩张率为r＝{6,12,18,24}，可以有效地提取图像的上下文信息，增强模型的分割性能。

然后,使用双线性插值来恢复前景图像原始分辨率。最后，使用全连接的条件随机场算法，作为分割模型的后处理，进一步提升分割模型的分割精度。

(2)分流聚合模块

分流聚合模块(Shunt-Fuse Module,SFM)：在pool5层之后以多个采样率重新采样特定的特征层，并在sofamax层之前将采样的多尺度特征进行融合。

如图2所示，从Pool5得到图像特征映射图,分流聚合模块(SFM)首先通过使用扩张率为4、8、16和32的四个并行3x3卷积核来提取多尺度特征，然后经过连续的两层扩张率均为1的四个并行1x1卷积核对提取的特征进行降维处理，每个采样率提取的特征会在单独的分支中进行处理，并将提取的四个尺度上的特征进行聚合以产生最终分割结果。

(3)全连接的条件随机场

全连接的条件随机场模型为全连接的两两之间的条件随机场模型，对分割结果进行调优。将每个像素建模为某区域内的一个节点，无论两个像素距离多远，其两两之间的关系都会被衡量。所述全连接的条件随机场模型与带有扩张卷积和分流聚合模块的DCNNs的像素级别分类器相结合，可以有效提高分割模型的分割精度。

由于DCNNs的空间变化不变性，像素的相互关系是DCNNs结构所未能考虑的，使用全连接的条件随机场后，无论短期的还是长期的像素相互关系都被考虑进来，使得FOSeg模型可以考虑到分割过程中需要的细节信息。

【附图说明】

图1为本发明FOSeg模型分割流程图。

图2为本发明分流聚合模块(SFM)图。

【具体实施方式】

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处描述的具体实施例仅用于解释本发明，并不用于限定本发明。

(1)模型架构

(2)分流聚合模块

(3)全连接的条件随机场

实验结果与分析

为了生成明确的边界级训练数据,本实验采用共有1464张图像的PASCAL VOC2012分割数据集[49]和共有10582张图像的增强数据集[50]作为FOSeg模型的训练数据。将该训练数据集的20个对象标签丢弃,并映射为用于训练的单个前景标签。本实验使用CAFFE[51]框架来训练分割模型，同时使用batchsize为10的随机梯度下降法进行优化，使用0.001的基本学习率,每2000次迭代学习率就乘以0.1进行降速，0.9的动量和0.0005的权重衰减，条件随机场使用业内通用的开源实现版本[48]。

本实验对模型进行了总共24500次迭代的训练，在单块RTX 2080 GPU上的总训练时间约为7小时。

数据集：本实验针对不同的弱监督和完全监督模型，使用以下三个数据集进行评估：(1)MIT Object Discovery数据集[52]:此数据集由飞机、汽车和马组成。它最常用于评估弱监督分割模型。这些图像主要是通过互联网搜索收集的,数据集里的图片均带有逐像素的真实标记分割掩码。(2)ImageNet-Segmentation数据集：本实验使用源于ImageNet[53]的具有445类别的4276张图片的ImageNet-Segmentation数据集对FOSeg模型进行大规模的评估，该数据集图片均带有逐像素的真实标记分割掩码。此数据集的多样性可以测试本文模型的泛化能力。(3)PASCAL VOC 2012数据集：本实验使用PASCAL VOC 2012数据级的VAL集里面的1449张图片来测试本文模型的语义分割能力。

评估指标：本实验采用Jaccard得分作为评估分割性能的指标。Jaccard得分是由预测图像与真实标记图像的交并比(Intersection over Union,IoU)得出。

比较基线：本实验的前景对象分割模型将与最近的20种模型进行比较来评价其分割能力，这些模型将按照第二节所述分为4类：(1)显著性模型:本实验选择4种优秀的显著性检测模型[29][32][32][54]进行比较。(2)对象建议模型:本实验还比较了2种优秀的对象建议模型,多尺度组合分组(MCG)[21]和深度掩码(DeepMask)[55]。这些模型输出一组有得分排名的通用对象分割建议，每个图像中得分最高的建议被视为评估的最终前景分割。本实验还与SalObj[31]模型进行了比较，SalObj模型使用显著性将MCG中的多个对象建议合并到一个单一前景。(3)弱监督的联合分割模型:这些模型[36] [37] [39] [45] [46][52] [56]依赖于额外的弱监督,其形式是事先知道给定集合中的所有图像都共享一个共同对象类别。(4)语义分割模型:本文选择了6种表现较好的语义分割模型进行Jaccard得分对比以及时间性能对比。这6种分别是DPN[1]，BoxSup[2]，FCN[3]，DeepLab[4],CNNCRF[5]和A+B模型[8]。

(1)MIT Object Discovery：本实验分别对MIT数据集和MIT数据集子集进行评估。本实验将FOSeg模型与13种现有的较先进模型进行比较,包括显著性检测模型[29] [32][32] [54]，对象建议模型[21] [31] [55]和弱监督的联合分割模型[36] [37] [39] [45][46] [52] [56]。

表1:MIT Object Discovery数据集上的定量结果(指标:Jaccard得分)

由表1可以看出。本实验提出的FOSeg模型胜过几种优秀的联合分割和对象建议模型，同时，超越了显著性模型中的大多数模型，仅在汽车类图片的分割性能上略逊于DeepSaliency，主要是该模型训练数据集中汽车类图片数量及比例更大，而本文FOSeg模型在没有进行数据集扩充的情况下，通过修改深度图像分类网络VGG-16以及应用条件随机场，使得FOSeg模型能够较好的逐像素的分类出前景对象，从而在飞机类和马类图片的分割结果优于表1上所有分割模型。

(2)ImageNet-Segmentation：本实验使用ImageNet-Segmentation数据集来评估FOSeg模型的泛化能力，该数据集由带有真实标记的445类别的4276张图片组成。之前的最佳结果来自分割传播模型[45]，本文发现,DeepSaliency[33]和DeepMask[55]进一步改善它。特别是,像FOSeg模型一样,DeepSaliency也是通过PASCAL数据集进行训练，而DeepMask是通过一个比PASCAL数据集更大的COCO[57]数据集进行训练。本模型引入扩张卷积以及SFM，使得FOSeg模型能够多尺度聚合图像上下文信息，显著提高了前景对象模型的分割表现(见表2)。这表明，FOSeg模型不仅具有超强的泛化能力，概括了数千个对象类别,而且产生了高质量的对象分割。

表2:ImageNet-Segmentation数据集上的定量结果(指标:Jaccard得分)

(3)PASCAL VOC 2012：本实验选择了5种表现较好的语义分割模型进行Jaccard得分对比，由表3可知，FOSeg模型在PASCAL VOC 2012数据集的11个类别中取得了较好的结果.相较于其他5种分割模型,由于FOSeg模型级联DCNNs、SFM以及全连接的条件随机场，使得该模型能够更为高效地提取前景对象特征、细化分割结果，具有更加优秀的分割性能。

另外,为验证本文模型在时间性能上的表现,将其与3种语义分割算法进行了时间性能上的对比实验.实验机器的CPU为Intel Corei7-6700@3.40GHz,内存8GB,GPU为NVIDIAGeForce RTX 2080(8GB显存),实验所用图像取自PASCAL VOC 2012的测试数据集,表4所示为实验结果对比.由表4可知,结合条件随机场的模型均有比较大的时间开销,相比其他结合条件随机场的DeepLab,CNNCRF等算法,本文算法的时间开销相对较少且IoU得分较高.

表3:PASCAL VOC 2012数据集上不同类别上的定量结果(指标:IoU)

表4:PASCAL VOC 2012数据集上不同模型的准确率和时间性能对比

类别

FCN

DeepLab

DPN

BoxSup

CNNCRF

A+B

本文FOSeg

IoU％

60.8

70.5

73.1

66.1

74.3

75.1

76.0

时间ms

～260ms

～1420ms

～530ms

～380ms

～1200ms

～1120ms

～1180ms

以上实施例的说明对本发明的原理及实施方式进行了阐述，只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度卷积神经网络的前景对象图像分割方法，其特征在于：所述方法使用一个端到端的基于深度卷积神经网络DCNNs(Deep Convolutional Neural Networks)的监督学习模型FOSeg(Foreground Object Segmentation)，对逐像素的前景对象图像分割；FOSeg模型分割流程：首先输入原始图像，经过深度卷积神经网络的卷积、汇合、线性整流等操作，然后输入到分流聚合模块从而得出特征映射得分图，随后经过双线性插值算法的上采样操作得到粗糙的分割图，最后将得到的粗糙分割图送入全连接的条件随机场模型中进一步细化分割结果，从而得出精细的分割图像。

2.根据权利要求1所述的一种基于深度卷积神经网络的前景对象图像分割方法，其特征在于：FOSeg模型由卷积层组成,中间有最大值汇合层。除最后一个卷积层大小为1x1，其余所有卷积核的大小均为3x3。每个卷积层后面还有一个线性整流层,然后再输入到下一层；FOSeg模型应用"扩张卷积"算法，扩张卷积是利用上采样滤波器的方法，通过扩张率控制着感受野，同样的卷积核数量，不同的扩张率却让其有不同大小的感受野，在不增加参数量的情况下，扩张卷积可以指数级地扩大滤波器的感受野，有效地提取图像上下文信息。

3.根据权利要求1所述的一种基于深度卷积神经网络的前景对象图像分割方法，其特征在于：所述分流聚合模块(Shunt-Fuse Module,SFM)：在pool5层之后以多个采样率重新采样特定的特征层，并在sofamax层之前将采样的多尺度特征进行融合。

4.根据权利要求1所述的一种基于深度卷积神经网络的前景对象图像分割方法，其特征在于：所述全连接的条件随机场模型为全连接的两两之间的条件随机场模型，对分割结果进行调优。将每个像素建模为某区域内的一个节点，无论两个像素距离多远，其两两之间的关系都会被衡量。所述全连接的条件随机场模型与带有扩张卷积和分流聚合模块的DCNNs的像素级别分类器相结合，可以有效提高分割模型的分割精度。