CN110298841B

CN110298841B - 一种基于融合网络的图像多尺度语义分割方法及装置

Info

Publication number: CN110298841B
Application number: CN201910414484.7A
Authority: CN
Inventors: 赵霞
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2023-05-02
Anticipated expiration: 2039-05-17
Also published as: CN110298841A

Abstract

本发明涉及一种基于融合网络的图像多尺度语义分割方法及装置，该方法包括以下步骤：构建一融合网络，该融合网络包括fcn基网络、deeplab基网络、特征融合模块和优化分割模块，所述特征融合模块分别连接fcn基网络、deeplab基网络和优化分割模块；通过所述融合网络对输入图像进行语义分割。与现有技术相比，本发明具有分割精度高等优点。

Description

一种基于融合网络的图像多尺度语义分割方法及装置

技术领域

本发明涉及视觉图像处理技术领域，尤其是涉及一种基于融合网络的图像多尺度语义分割方法及装置。

背景技术

语义分割是对图像中的每个像素标注其所属类别的过程，是自动驾驶、医学图像处理、图像检索、目标分类等视觉分析技术的基础。

在全卷积网络出现之前，卷积神经网络虽然已在目标识别领域取得了巨大的成功，但受到全连接层与池化层的限制，语义分割领域的主流方法仍是纹理基元森林(TextonForest)或是随机森林(Random Forest)等传统方法。

2014年，加州大学伯克利分校的Long等人提出如图1所示的FCN(FullyConvolutional Network)模型，将传统的CNN末端的全连接层替换为卷积层，正式将卷积神经网络引入语义分割领域。由于全卷积网络舍弃了全连接层，解决了输入图像尺寸受限的问题，可生成任意大小的图像分割图。除了全连接层，限制卷积神经网络应用于语义分割的另一因素为池化层对特征图维度的缩减。FCN模型利用上采样层进行特征图维度的恢复，因而能够实现密集的像素级分类，同时速度上比传统方法要快很多。但上采样层的引入增加了神经网络的参数数量，需要额外的计算时间和内存，且不能将丢失的信息全部无损地找回来，导致物体边界的模糊，并且由于其结构较为单一，各卷积层的卷积核感受野固定，缺乏对不同尺度特征的提取能力。

Liang-Chieh Chen等人于2015年提出的DeepLab v1利用带孔卷积(DilatedConvolution)替换传统卷积核，在不引入额外参数的情况下成倍增大感受野，避免了池化操作带来的细粒度信息丢失。并使用全连接的CRF模型作为其独立的后端处理步骤，整合上下文信息，以对分割结果进行优化。

DeepLab v2在DeepLab v1的基础之上提出了带孔卷积的空间金字塔池化(AtrousSpatial Pyramid Pooling，ASPP)。带孔空间金字塔池化是并行使用多个不同空洞率的带孔卷积层的方法，可以将原始图像的不同尺度传递到CNN网络的并行分支中，通过融合这些不同尺度的特征，实现像素更准确的分类。如图2所示，为了分类橙色的中心像素，ASPP采用空洞率r＝6，12，18，24的四个带孔卷积层对输入特征图进行特征提取。传统方法感受野往往固定，只能提取固定尺度的特征，而ASPP可以融合更多尺度的特征，提高了对中心像素分类的准确度。

虽然DeepLab v2实现了较高的分割精度，但是带孔卷积存在“girdding issue”，即带孔卷积在卷积核两个采样像素之间插入0值，如果扩张率过大，卷积会过于稀疏，捕获信息能力差；且不利于模型学习——因为一些局部信息丢失了，而长距离上的一些信息可能并不相关。

综上所述，FCN网络具有对局部特征良好的提取能力，但其在恢复特征图尺寸时通过上采样直接将特征图放大至原图大小，只能产生平滑的特征图，并缺乏对不同尺度特征的提取能力。而DeepLab虽然通过带孔卷积提取到更加全局的特征，但是却丢失了一些局部信息。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于融合网络的图像多尺度语义分割方法及装置。

本发明的目的可以通过以下技术方案来实现：

一种基于融合网络的图像多尺度语义分割方法，该方法包括以下步骤：

构建一融合网络，该融合网络包括fcn基网络、deeplab基网络、特征融合模块和优化分割模块，所述特征融合模块分别连接fcn基网络、deeplab基网络和优化分割模块；

通过所述融合网络对输入图像进行语义分割。

进一步地，所述fcn基网络为基于VGG-16网络的全卷积网络。

进一步地，所述deeplab基网络基于VGG-16网络、采用带孔卷积与带孔空间金字塔池化方法构建。

进一步地，所述特征融合模块对fcn基网络和deeplab基网络的输出特征图进行拼接。

进一步地，所述优化分割模块基于全连接的条件随机场构建。

进一步地，所述特征提取模块包括多个升维卷积层，逐步增加维度以进行特征的整合与提取。

进一步地，所述融合网络采用迁移学习训练获得。

本发明还提供一种基于融合网络的图像多尺度语义分割装置，该装置至少包括存储器和处理器，所述存储器存储有计算机程序，所述处理器调用所述计算机程序执行所述的分割方法的步骤。

目前针对语义分割网络的改进工作主要集中在提出新的网络结构，不同网络尚不存在对不同结构的网络进行融合的方法。与现有技术相比，本发明具有以如下有益效果：

(1)本发明将fcn基网络与deeplab基网络进行融合，结合了FCN网络对局部特征良好的提取能力与DeepLab网络对全局特征良好的提取能力，提升分割精度。

(2)本发明deeplab基网络中引入带孔卷积层，在不增加参数数量的情况下增大了感受野；同时引入了空间金字塔池化方法，综合多个尺度的特征对中央像素进行分类，提高了分类的准确度。

(3)本发明将特征提取模块设计为逐步增加维度以进行特征的整合与提取，最后再进行维度降低，保证特征精度。

附图说明

图1为FCN结构图；

图2为DeepLabv2中的ASPP；

图3为融合网络架构；

图4为fcn基网络结构图；

图5为deeplab基网络结构图；

图6为融合网络结构图；

图7为预训练模型融合流程图；

图8为融合网络分割效果图，其中，(a)为原图，(b)为fcn基网络分割效果图，(c)deeplab基网络分割效果图，(d)为融合网络分割效果图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明提供一种基于融合网络的图像多尺度语义分割方法，该方法包括以下步骤：构建一融合网络，如图3和图6所示，该融合网络包括fcn基网络、deeplab基网络、特征融合模块和优化分割模块，所述特征融合模块分别连接fcn基网络、deeplab基网络和优化分割模块；通过所述融合网络对输入图像进行语义分割。

该融合网络具有以三个特征：

(1)使用VGG-Net，通过将全连接层替换为卷积层构建fcn基网络；使用带孔卷积与带孔空间金字塔池化方法构建deeplab基网络；

(2)将fcn基网络与deeplab基网络进行融合，利用特征融合模块提取融合后的特征信息，提升融合效果；

(3)使用全连接的条件随机场(Fully Connected CRF)进一步优化分割结果。

fcn基网络将全连接层替换为卷积层，为基于VGG-16网络的全卷积网络。本实施例采用的结构如图4所示。由于网络对原图进行连续五次的卷积-池化处理，最终输出的特征图为原图的1/32，在将特征图维度恢复到原图尺寸时，先对特征图进行4倍上采样，随后进行8倍双线性插值。

deeplab基网络基于VGG-16网络、采用带孔卷积与带孔空间金字塔池化方法构建。本实施例采用的结构如图5所示。本实施例将池化层pool4，pool5的步长设置为1，并将卷积层conv5-1，conv5-2，conv5-3以及后续的卷积层改为空洞率r＝2的带孔卷积层，实现了高效与准确之间的平衡。在pool5后采用ASPP模块，四个卷积核的空洞率r＝{6,12,18,24}。在ASPP末端对四个并行分支进行求和，以相同的权重融合四个分支提取的不同尺度的特征。

特征融合模块对fcn基网络和deeplab基网络的输出特征图进行拼接。本实施例中，拼接后的特征图维度由21维增加到为42维。由于Pascal VOC 2012增强数据集label数量为21类，因此需要保证网络输出特征图的维度为21维。本发明并未直接利用卷积层进行降维处理，而是用一系列卷积层先将特征图维度逐步增加到256维，再将最终输出的特征图维度降低为21维，将其连接到loss层。这样设计是考虑到concat层只是对特征进行简单的拼接，并不能对特征进行整合与提取。若直接使用一层卷积层将维度降低至21维，必然会影响融合效果，因此将特征提取模块设计为逐步增加维度以进行特征的整合与提取，最后将维度降低至21维。

优化分割模块基于全连接的条件随机场(Fully Connected CRF)构建，进一步优化分割结果。对于每个像素具有类别标签还有对应的观测值，这样每个像素点作为节点，像素与像素间的关系作为边，即构成了一个条件随机场。

CRF由基于单个像素或者图片块的一元势能和基于相邻像素或图片块的二元势能组成。其中的一元势函数来自于前端神经网络的输出。而二元势函数是描述像素点与像素点之间的关系，鼓励相似像素分配相同的标签，而相差较大的像素分配不同标签，而这个“距离”的定义与颜色值和实际相对距离有关。

本实施例还提供一种基于融合网络的图像多尺度语义分割装置，该装置至少包括存储器和处理器，所述存储器存储有计算机程序，所述处理器调用所述计算机程序执行所述的分割方法的步骤。

卷积神经网络是一种监督学习的方法，首先需要进行训练。因此本发明的具体实施方法包括两个部分：训练和使用。本发明的软件平台为Linux操作系统下的CAFFE深度学习框架，配合命令行和python接口使用。利用PASCAL-VOC2012增强数据集进行网络模型的训练与测试。

训练：

(1)生成融合后的预训练模型：迁移学习(Transfer Learning)就是从之前训练好的网络开始继续训练过程来微调模型的权重值的方法，具有加速模型收敛，减少计算开支等作用。融合网络要采用迁移学习的方法进行训练，必须先得到融合后的预训练模型。本发明通过将Jonathan Long与Liang-Chieh Chen提供的fcn网络与deeplab网络预训练权重分别读入对应的网络，并在融合网络分别读取对应层的权重的方法生成融合后的预训练模型，如图7所示。

具体做法：首先分别trainfcn.prototxt与traindeeplab.prototxt建立前述的fcn基网络与deeplab基网络，然后利用net＝caffe.Net(model_def,model_weight,caffe.TEST)分别从fcn.caffemodel与deeplab.caffemodel中读取对应的预训练权重，随后通过trainfusion.prototxt建立融合网络(融合网络中将fcn基网络各层的name，bottom与top前加上前缀“fcn/”,将deeplab基网络各层的name,bottom与top前加上前缀“dl/”，例如融合网络中存在name为“fcn/conv1_1”与“dl/conv1_1”的两个卷积层)。分别按前缀读取两个基网络中各层的权重，完成融合网络的初始权重赋值。最后将融合网络的权重保存为init_fusion.caffemodel，该模型即为融合网络对的预训练模型。

(2)融合得到的预训练模型不包括融合网络的特征融合模块,本发明采取“xavier”的初始化方式对其中的卷积层进行了初始化。数据层对输入图片进行了镜像处理并进行裁剪以增强数据集，并对图片进行均值化处理以加快训练速度。

(3)训练中采取了小批量梯度下降算法并以随机顺序选择图片进入batch，batch_size＝3。采取了power＝0.9的“poly”的学习率策略，基础学习率base_lr＝1e-3。激活函数采取ReLU函数，损失函数采取softmax交叉熵损失函数，并采取了dropout方法防止产生过拟合。一共训练28.5个epoch，即对Pascal VOC 2012增强数据集训练集的10582张图片进行了28.5次遍历。

由图6可以看出训练网络未将特征图维度恢复到原图尺寸，而是通过label_shrink层对标签信息进行了一定程度的降维处理。本发明选择只对最终输出的特征图进行4倍的上采样，同时对label进行8倍的缩减，以保证label与输出的特征图保持相同的维度以进行训练。这样设计减少了网络的参数数量，加快了收敛速度。

使用：

在测试网络中，上采样输出的特征图直接进行了8倍双线性插值将尺寸恢复到了原图大小，并将输出的特征图输入语义分割网络的后端——全连接的CRF，以改善物体边界的分割。实验结果表明，该模型对Pascal VOC 2012增强数据集分割的平均交并比达到64.64％，较fcn基网络以及deeplab基网络分别提高了0.52％和0.36％。图8为部分分割示例图。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于融合网络的图像多尺度语义分割方法，其特征在于，该方法包括以下步骤：

通过所述融合网络对输入图像进行语义分割；

其中，所述特征融合模块对fcn基网络和deeplab基网络的输出特征图进行拼接，拼接后的特征图维度为fcn基网络和deeplab基网络的输出特征图维度的和，拼接后通过多个升维卷积层，逐步增加维度以进行特征的整合与提取，最后再进行维度降低。

2.根据权利要求1所述的基于融合网络的图像多尺度语义分割方法，其特征在于，所述fcn基网络为基于VGG-16网络的全卷积网络。

3.根据权利要求1所述的基于融合网络的图像多尺度语义分割方法，其特征在于，所述deeplab基网络基于VGG-16网络、采用带孔卷积与带孔空间金字塔池化方法构建。

4.根据权利要求1所述的基于融合网络的图像多尺度语义分割方法，其特征在于，所述优化分割模块基于全连接的条件随机场构建。

5.根据权利要求1所述的基于融合网络的图像多尺度语义分割方法，其特征在于，所述融合网络采用迁移学习训练获得。

6.一种基于融合网络的图像多尺度语义分割装置，其特征在于，该装置至少包括存储器和处理器，所述存储器存储有计算机程序，所述处理器调用所述计算机程序执行如权利要求1-5任一所述的分割方法的步骤。