CN109241972A

CN109241972A - 基于深度学习的图像语义分割方法

Info

Publication number: CN109241972A
Application number: CN201810947587.5A
Authority: CN
Inventors: 程建; 苏炎洲; 刘济樾; 周娇; 曹政
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-08-20
Filing date: 2018-08-20
Publication date: 2019-01-18
Anticipated expiration: 2038-08-20
Also published as: CN109241972B

Abstract

本发明公开一种基于深度学习的图像语义分割方法，涉及图像语义分割和深度学习领域，包括如下步骤：选择训练数据集；构建基于深度学习的语义分割模型；语义分割模型包括：语义监督模块、语义嵌入分值模块、特征重校正模块、上采样层和卷积层；通过分类模型对训练数据集进行预处理，并将分类模型的中间层输出的不同尺度的特征图输入构建好的语义分割模型中的语义监督模块中；对整个图像语义分割模型进行训练；步骤5：输入新的图像，在已训练好的深度神经网络模型中进行一次前向传播，端到端地输出预测的语义分割结果。本发明解决了现有技术中的图像语义分割准确率较低的问题。

Description

基于深度学习的图像语义分割方法

技术领域

本发明涉及图像语义分割和深度学习领域，尤其涉及基于深度学习的图像语义分割方法。

背景技术

目前，因为深度卷积神经网络的强大特征表征能力，基于深度卷积神经网络的方法在图像分类，目标检测和图像语义分割获得了巨大的进步。语义分割的目的就是给一个给定图像的每一个像素赋一个语义标签。

近年来，绝大多数当前最佳的图像语义分割方法都是基于全卷积神经网络的。全卷积神经网络结构是一个典型的编码器解码器结构，语义信息经过编码器被嵌入到特征图当中，然后解码器负责产生语义分割结果。通常解码器就是预训练好的卷积神经网络分类模型用于提取图像特征，而解码器则含有多种上采样操作，用于恢复图像分辨率。尽管编码器前端的特征图含有更多的语义但是在重建细节时会受限于低分辨率，这是编码器常见的问题。为了解决它，我们需要更好的将高级别特征与低级别特征进行融合，避免高低级别的特征融合不充分，造成的语义分割结果的精度较低。

发明内容

本发明的目的在于：为解决现有技术中的图像语义分割准确率较低的问题，本发明提供一种基于深度学习的图像语义分割方法。

本发明的技术方案如下：

基于深度学习的图像语义分割方法，包括如下步骤：

步骤1：选择训练数据集；

步骤2：构建基于深度学习的语义分割模型；

语义分割模型包括：语义监督模块、语义嵌入分支模块、特征重校正模块、上采样层和卷积层；

步骤3：通过分类模型对训练数据集进行预处理，并将分类模型的中间层输出的不同尺度的特征图输入构建好的语义分割模型中的语义监督模块中；

步骤4：对整个图像语义分割模型进行训练；

步骤5：输入新的图像，在已训练好的深度神经网络模型中进行一次前向传播，端到端地输出预测的语义分割结果。

具体地，所述分类模型包括1个Convolution、4个密集连接块，3个过渡层，1个Convolution和3个Transition layer输出的特征图分别为特征图DN_1、特征图DN_2、特征图DN_3和特征图DN_4。

具体地，所述语义分割模型中，特征图DN_1、特征图DN_2、特征图DN_3和特征图DN_4经过语义监督模块后的输出图分别为输出图SS_1、输出图SS_2、输出图SS_3和输出图SS_4，输出图SS_3和输出图SS_4共同输入到一个语义嵌入分支模块，输出图SS_3和输出图SS_2共同输入到一个语义嵌入分支模块，输出图SS_2和输出图SS_1共同输入到一个语义嵌入分支模块。

具体地，所述分类模型中，第一个密集连接块包含6个1×1和3×3的卷积层，第二个密集连接块包含12个1×1和3×3的卷积层，第三个密集连接块包含32个1×1和3×3的卷积层，第四个密集连接块包含32个1×1和3×3的卷积层。

具体地，所述语义监督模块包括2个3×3的卷积、1个全局池化层和2个全连接层。

具体地，所述特征重校正模块为结合了空间特征重矫正与通道特征重矫正的网络模块。

具体地，步骤4的过程为：

步骤4.1：对训练数据集中的图像进行预处理，将图像剪裁为固定尺寸；

步骤4.2：对整个图像语义分割模型进行初始化；

步骤4.3：对训练数据集中的数据通过翻转、缩放和旋转的方式进行扩增；

步骤4.4：记训练过程中模型预测的语义分割结果与标注图像的交叉熵损失为loss₁，再加上正则化项:

其中：||·||₂表示矩阵的2-范数；ω^p表示训练过程中前端网络更新的权值，ω⁰是预训练模型初始化网络时的权值。ω^*表示后端网络的权值；λ，κ分别是每个部分的正则化参数，表示正则化强度；

则，训练过程中的总损失误差记为再根据总损失误差loss_total使用随机剃度下降算法进行误差反向传播，用多项式学习策略，更新模型参数，得到训练好的语义分割模型。多项式学习策略中，学习率lr设置为：

其中，baselr为初始学习率，这里设置为0.001，power设置化0.9。

采用上述方案后，本发明的有益效果如下：

(1)本发明所述基于深度学习的图像语义分割方法采用预训练好的网络分类模型做基础模型进行特征提取，得到的特征图经过深度语义监督和语义嵌入分支促进高低层特征图的融合，经特征重校正模块进行特征重校正，有效提高语义分割的准确率，最终得到较好的语义分割结果。

(2)在原始交叉熵损失函数的基础上，加上一个正则化项，当使用预训练模型来初始化现有模型时，参数的正则化项时非常重要的，使用正则化项的目的就在于通过潜在的限制网络的能力(也就是有效的权值参数搜索空间的大小)，加速收敛与避免过拟合。但是加上上述正则化项，由于预训练模型是在ImageNet上训练得到的分类模型，使用训练过程中的前端网络的权值减去预训练模型初始化网络时的权值可以避免网络权值更新时传递的关于原先分类任务的信息，避免网络能力被潜在的限制，能够在训练过程中更加有效的搜索参数的空间。

附图说明

图1为本发明的流程图；

图2为本发明的图像语义分割模型结构图；

图3为本发明的语义监督模块结构图；

图4为本发明的语义嵌入分支模块结构图；

图5为本发明的特征重校正模块结构图；

图6为本发明所述的通道压缩激励模块结构图；

图7为本发明所述的空间压缩激励模块结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施与和附图，对本发明作进一步详细说明。

为解决现有技术中的图像语义分割准确率较低的问题，本发明提供一种基于深度学习的图像语义分割方法。本发明的方法改善了现有图像语义分割方法的精度，在图像识别和应用中具有重要意义。

下面，将具体结合一个最优选的实施例，来对本发明进行更加清楚、完整的说明。

如图1所示，本发明的基于深度学习的图像语义分割方法，包括如下步骤：

步骤1：选择训练数据集；本实施例中以VOC 2012数据集的21类(其中1类为背景)场景类别为基准，采集COCO数据集中包含上述20类类别目标的图像加入数据集，最终得到训练和测试数据集。

步骤2：构建基于深度学习的语义分割模型。

如图2所示，语义分割模型包括：语义监督模块、语义嵌入分值模块、特征重校正模块、上采样层和卷积层。

步骤3：通过分类模型对训练数据集进行预处理，并将分类模型的中间层输出的不同尺度的特征图输入构建好的语义分割模型中的语义监督模块中；所述分类模型包括1个Convolution、4个密集连接块，3个过渡层，1个Convolution和3个Transition layer输出的特征图分别为特征图DN_1、特征图DN_2、特征图DN_3和特征图DN_4。具体而言，具体结构如表1所示：

表1

从上表可以看出，分类模型中，第一个密集连接块包含6个1×1和3×3的卷积层，第二个密集连接块包含12个1×1和3×3的卷积层，第三个密集连接块包含32个1×1和3×3的卷积层，第四个密集连接块包含32个1×1和3×3的卷积层。分类模型中的中每个密集连接块(Dense Block)都采用密集连接，即每一层的输入都包含了所有较早的层的特征图，且它的输出被传递至每个后续层，而且每一层的特征图都是通过深度级联在一起。这种密集接连结构加强了特征图的传递，更有效地利用特征。

基于上述的预处理模型，如图2所示，在语义分割模型中，特征图DN_1、特征图DN_2、特征图DN_3和特征图DN_4经过语义监督模块后的输出图分别为输出图SS_1、输出图SS_2、输出图SS_3和输出图SS_4，输出图SS_3和输出图SS_4共同输入到一个语义嵌入分支模块，输出图SS_3和输出图SS_2共同输入到一个语义嵌入分支模块，输出图SS_2和输出图SS_1共同输入到一个语义嵌入分支模块。

如图3所示，语义监督模块包括2个3×3的卷积、1个全局池化层和2个全连接层。所述特征重校正模块为结合了空间特征重矫正与通道特征重矫正的网络模块。通过给DenseNet输出的特征图DN_1、特征图DN_2、特征图DN_3、特征图DN_4均直接分配一个语义监督模块，能够让低级别的特征包含更多的语义信息。

如图4所示，语义嵌入分支模块是一个将高层特征融入到低层特征的模块，主要是将低层特征图上采样后，与高层特征图逐像素相乘。语义嵌入分支模块的作用主要是为了从高层特征引入更多的语义信息来指导特征融合。

如图5所示，本发明的特征重校正模块为结合了空间特征重矫正与通道特征重矫正的网络模块。下面将分开进行说明：

如图6所示，空间特征重校正模块中过程为：

(1)将原始特征图经过一个卷积核大小为1×1，通道数为c(每个通道的权值不共享，让其从学习中获得)的卷积，得到一个特征图

(2)再将其经过一个sigmoid层，将M^c的每个空间位置M′(i,,j),i∈{1,2,…,H},j∈{1,2,…,W}的重要性重新校正,并赋以每个空间位置一个权值p(i,j)，得到的p(i,j)与原始特征图M^c进行点乘。

最终，M^c经过空间特征重校正得到的特征图为：

空间特征重校正能够更好的将空间中所有同一位置像素的重要性得到重新校正，并赋以相应的权值，提高语义分割的准确率。

如图7所示，通道特征重校正模块中过程为：

(1)将原始特征图经过一个全局平均池化，得到一个特征图在再将M′与原始特征图M^c进行全连接，进行特征图的整合。

(2)整合后的特征图再经过一个线性修正单元，对特征进行修正。

(3)对修正后的特征图最后再经过一个卷积核大小为H×W，通道数为c的卷积得到一个特征向量

(4)特征图再经过一个sigmoid层，将特征向量z的激活范围限定在[0,1]之间，得到一个通道权值向量M^c经过通道特征重校正得到的特征图：

经过通道特征重校正，能够将重要的通道赋以高权值，突出重要性。

步骤4：对整个图像语义分割模型进行训练；步骤4的过程为：

步骤4.1：对训练数据集中的图像进行预处理，将图像剪裁为固定尺寸513×513。

步骤4.2：对整个图像语义分割模型进行初始化，即以预训练好的图像语义分割模型的参数值为初始值。

步骤4.3：对训练数据集中的数据通过翻转、缩放和旋转的方式进行扩增；具体地，翻转为随机翻转；在原图像的在0.5到2倍之间随机缩放图像；在原图像在-10到10度之间，随机旋转图像。

其中，baselr为初始学习率，这里设置为0.001，power设置化0.9。

本发明的工作原理和过程为：分类模型作为预处理模型，用于提取原始图像的特征。DenseNet169网络结构如表1所示，主体网络结构为4个Dense Block，3个Transitionlayer，其中Dense Block(1)是6个1×1和3×3的卷积组成，Dense Block(2)是12个1×1和3×3的卷积组成，Dense Block(3)是32个1×1和3×3的卷积组成，Dense Block(4)是32个1×1和3×3的卷积组成。取Convolution输出的特征图(尺寸为112×112)、TransitionLayer(1)输出的特征图(尺寸为56×56)、Transition Layer(2)输出的特征图(尺寸为28×28)、Transition Layer(3)输出的特征图(尺寸为14×14)分别为网络结构中提取特征(编码器)的第一层(记为DN_1)、第二层(记为DN_2)、第三层(记为DN_3)和第四层(记为DN_4)。将特征图DN_1、特征图DN_2、特征图DN_3和特征图DN_4分别经过一个语义监督模块(SS),输出的特征图分别记为SS_1,SS_2,SS_3,SS_4。然后将SS_4与SS_3输入到语义嵌入分支模块(SEB)，输出的特征图记为SEB_3,将SS_3与SS_2输入到语义嵌入分支模块，输出的特征图记为SEB_2，将SS_2与SS_1输入至语义嵌入分支模块中，输出的特征图记为SEB_1。将SEB_3上采样4倍得到的特征图，SEB_3上采样2倍得到的特征图与SEB_1进行串联得到的特征图输入至空间通道激励模块(SCSE)中，最后将得到的特征图上采样4倍，得到的特征图再经过1个1×1的卷积，得到特征图与语义分割标注计算交叉熵损失，误差反向传播，更新模型参数，得到神经网络模型。本发明在VOC2012语义分割数据集上取得了mIoU为77.12％的结果。

凡是根据本发明的技术方案做出的技术变形，均落入本发明的保护范围之内。

Claims

1.基于深度学习的图像语义分割方法，其特征在于，包括如下步骤：

步骤1：选择训练数据集；

步骤2：构建基于深度学习的语义分割模型；

步骤4：对整个图像语义分割模型进行训练；

2.根据权利要求1所述的基于深度学习的图像语义分割方法，其特征在于，所述分类模型包括1个Convolution、4个密集连接块，3个过渡层，1个Convolution和3个Transitionlayer输出的特征图分别为特征图DN_1、特征图DN_2、特征图DN_3和特征图DN_4。

3.根据权利要求2所述的基于深度学习的图像语义分割方法，其特征在于，所述语义分割模型中，特征图DN_1、特征图DN_2、特征图DN_3和特征图DN_4经过语义监督模块后的输出图分别为输出图SS_1、输出图SS_2、输出图SS_3和输出图SS_4，输出图SS_3和输出图SS_4共同输入到一个语义嵌入分支模块，输出图SS_3和输出图SS_2共同输入到一个语义嵌入分支模块，输出图SS_2和输出图SS_1共同输入到一个语义嵌入分支模块。

4.根据权利要求2所述的基于深度学习的图像语义分割方法，其特征在于，所述分类模型中，第一个密集连接块包含6个1×1和3×3的卷积层，第二个密集连接块包含12个1×1和3×3的卷积层，第三个密集连接块包含32个1×1和3×3的卷积层，第四个密集连接块包含32个1×1和3×3的卷积层。

5.根据权利要求1所述的基于深度学习的图像语义分割方法，其特征在于，所述语义监督模块包括2个3×3的卷积、1个全局池化层和2个全连接层。

6.根据权利要求1所述的基于深度学习的图像语义分割方法，其特征在于，所述特征重校正模块为结合了空间特征重校正与通道特征重校正的网络模块。

7.根据权利要求1所述的基于深度学习的图像语义分割方法，其特征在于，步骤4的过程为：

步骤4.2：对整个图像语义分割模型进行初始化；

其中：||·||₂表示矩阵的2-范数；ω^p表示训练过程中前端网络更新的权值，ω⁰是预训练模型初始化网络时的权值；ω^*表示后端网络的权值；λ，κ分别是每个部分的正则化参数，表示正则化强度；

则，训练过程中的总损失误差记为再根据总损失误差loss_total使用随机剃度下降算法进行误差反向传播，用多项式学习策略，更新模型参数，得到训练好的语义分割模型；多项式学习策略中，学习率lr设置为：

其中，baselr为初始学习率，这里设置为0.001，power设置化0.9。