CN110781895B

CN110781895B - 一种基于卷积神经网络的图像语义分割方法

Info

Publication number: CN110781895B
Application number: CN201910957201.3A
Authority: CN
Inventors: 熊炜; 童磊; 管来福; 王传胜; 李敏; 李利荣; 曾春艳
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2023-06-20
Anticipated expiration: 2039-10-10
Also published as: CN110781895A

Abstract

本发明公开了一种基于卷积神经网络的图像语义分割方法，选择ResNet101作为骨架网络进行特征提取，提出了一个JFP模型将ResNet101输出的后三层进行联合，完善ResNet101对特征的提取，解决图像信息丢失的问题；然后将JFP的输出接入ASPP模型进一步提取图像的空间尺度信息，这部分作为编码结构能够更好的对图像信息进行提取；最后应用简单的解码结构将神经网络的输出图像恢复为原始大小，完成对图像的语义分割；同时，本发明设计了一个注意力模型，将这个模型的损失函数与语义分割网络的损失函数结合，辅助网络进行训练，提升训练模型的效果。本发明显著提高了复杂情景下的图像语义分割效果，能够适用于多种场景，具有对包20多种物体类别图像的语义分割处理能力。

Description

一种基于卷积神经网络的图像语义分割方法

技术领域

本发明属于数字图像处理、模式识别与机器学习技术领域，涉及一种图像语义分割方法，特别是涉及一种基于卷积神经网络的图像语义分割方法。

背景技术

基于图像的语义分割是对图像进行像素级分割，需要对图像的每一个像素从语义上进行分类，同一类别的像素标记同一类别标签，体现在分割结果上就是同一类别的物体采用相同颜色标记，而不同颜色就是不同类别的物体。

卷积神经网络(CNN)的应用使得图像语义分割快速得到发展，各种基于卷积神经网络的语义分割网络结构被提出，完全卷积网络(FCN)的提出使得基于卷积神经网络的图像语义分割方法得到了突破，其去掉了CNN末端使用的全连接层，使得网络最后生成的不是固定的特征向量，而是可以变换尺寸的特征图像，最后进行逐像素的分类以达到语义分割的目的。

由于语义分割是逐像素的分类过程，卷积操作使得网络的参数量变大，常常需要加入池化层对图像进行降维处理，以减少参数，这又会产生图像信息丢失等问题，而进行语义分割必须要保持与原图像的像素对齐，每个像素的信息都有意义，这是语义分割面临的最大问题。

目前语义分割的网络模型绝大部分都采用了深度卷积神经网络(DCNN)作为骨架网络，在此基础上设计针对图像语义分割的特定神经网络模型，但是DCNN也不能完整提取图像特征，存在信息丢失的问题，同时，目前的方法，如空洞卷积、金字塔模型和全局池化等，也并不能处理复杂的语义信息。

发明内容

为了解决上述技术问题，本发明提供了一种基于卷积神经网络的图像语义分割方法，显著提高了复杂情景下的图像语义分割效果，能够适用于多种场景，具有对包含20多种物体类别的图像进行语义分割处理的能力。

本发明所采用的技术方案是：一种基于卷积神经网络的图像语义分割方法，选择ResNet101作为骨架网络进行特征提取，提出了一个联合特征金字塔(JFP)模型将ResNet101输出的后三层进行联合，完善ResNet101对特征的提取，解决图像信息丢失的问题；然后将JFP的输出接入暗黑空间金字塔(ASPP)模型进一步提取图像的空间尺度信息，这部分作为编码结构能够更好的对图像信息进行提取；最后应用简单的解码结构将神经网络的输出图像恢复为原始大小，完成对图像的语义分割；同时，本文设计了一个注意力模型作为辅助语义分割网络，将这个模型的损失函数与语义分割网络的损失函数结合，辅助网络进行训练，提升训练模型的效果。

本发明提出了一种基于卷积神经网络的图像语义分割方法，与现有算法相比，其显著优点在于：

(1)本发明采用双线性插值法对图像进行处理，避免过多使用池化操作降低图像维度，较大地减少了图像的信息缺失；

(2)本发明采用金字塔模型，结合ResNet101最后三层输出，较大地保留了图像的空间信息；

(3)本发明在JFP和ASPP模型上采用不同的空洞卷积率的空洞卷积，即能提取更多的空间信息，又能加大感受域，提升语义分割效果；

(4)本发明在JFP和ASPP模型上采用不同概率的DropOut，防止过拟合，配合不同的参数设置，进一步结合两个模型的优点；

(5)本发明设计了注意力模型作为辅助网络，加快网络的训练。

附图说明

图1为本发明实施例的原理图；

图2为本发明实施例的联合特征金字塔模型JFP示意图；

图3为本发明实施例的暗黑空间金字塔模型ASPP示意图；

图4为本发明实施例的解码结构示意图；

图5为本发明实施例的注意力模型示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于卷积神经网络的图像语义分割方法，包括以下步骤：

步骤1：采用ResNet101作为骨架网络进行图像特征提取；

本实施例结合ResNet101、JFP和ASPP三个模型作为编码结构，以提取图像的信息，ResNet101为当前常用的骨架网络，使用预训练的模型提取图像信息，然后通过JFP模型，进行特征的结合，如图2所示。

步骤2：采用联合特征金字塔JFP模型将ResNet101输出的后三层进行联合；

本实施例中，ResNet101输出的最后三层分别为Block1、Block2和Block3，这三层的输出尺寸减半而深度增加一倍，将这三层的输出分别通过一个卷积，其中，卷积核尺寸为3，激活函数为ReLu，激活函数为ReLu，如式(1)所示：

在图像边界进行1个像素值为0的填充，从而不改变输出图像的尺寸，加入批量归一化处理，采用DropOut为0.3以防止过拟合，卷积核的深度为512，使得输出的深度都变成512，然后分别通过空洞卷积率为1、2、4的3×3卷积，其中像素填充分别与空洞卷积率相同，不采用DropOut处理，其中空洞卷积率为2和4的卷积输出还要在图像边界加入2和4个像素值为0的填充，保持输出尺寸与输入的相同，再加入双线性插值，对这两个输出进行调整，使得输出的尺寸与Block1相同，由ResNet101的三层输出经过不同的卷积处理得到三个尺寸与深度相同的输出，与Block1层的输出尺寸与深度相同，最后将这三个输出与Block1的输出相加，因此JFP模型输出的特征图尺寸与Block1的输出相同，而深度为2048。JFP模型中使用的空洞卷积率较小，能更好的提取图像特征，它的感受域提升并不大，模型也比采用大空洞卷积率的模型要小，但十分有效。

步骤3：将JFP模型的输出接入暗黑空间金字塔ASPP模型进一步提取图像的空间尺度信息；

本实施例中，将JFP的输出再输入到ASPP模型，如图2所示。ASPP模型输出是由五个相同尺寸和深度的特征图相加得来。将JFP模型的输出作为输入，首先，应用1×1的卷积，将JFP的输出深度降为256，生成一个尺寸为(h,w)、深度为256的特征图，其中，h表示图像高度，w表示图像宽度；；其次，应用空洞卷积率为6、8和10的空洞卷积，在图像边界进行6、8和10个像素值为0的填充，不改变图像尺寸，输出三个尺寸为(h,w)、深度为256的特征图；然后，应用全局池化结合1×1卷积，使用双线性插值法恢复图像尺寸，输出一个尺寸为(h,w)、深度为256的特征图；最后，由这5个输出特征图相加得到与JFP的输出特征图尺寸相同、深度为1280的输出。其中，卷积的激活函数为ReLu，加入了批量归一化处理。采用相对大的空洞卷积率，较大的增加了感受域的大小，ASPP在JFP的基础上进一步提取图片的空间尺度信息，能更好地提升特征提取的效果。

步骤4：应用解码结构将步骤3的输出图像恢复为原始大小，完成对图像的语义分割；

本实施例中，采用的解码结构如图4所示，采用1×1卷积、3×3卷积和1×1卷积的组合，第一个卷积将输入的深度降为256，第二个卷积作进一步特征处理，第三个卷积将深度降为21，与Pascal VOC 2012数据集的类别数相同(包括背景)，最后通过双线性插值法将图像尺寸变为400×400，这个尺寸是数据集裁剪的尺寸，与最开始输入神经网络的图像尺寸保持相同。卷积的激活函数为ReLu，加入批量归一化处理，而其中3×3卷积加入了0.1的DropOut，与JFP模型中DropOut的值不同，因为设置不同的DropOut可以得到更好结果。

本实施例中，设计了一个注意力模型作为语义分割网络的辅助网络，其结构如图5所示，采用注意力模型作为辅助语义分割网络，将注意力模型的损失函数与语义分割网络的损失函数结合，辅助语义分割网络进行训练；

首先将ResNet101的Block2的输出做一个1×1卷积处理，将特征图输出深度降为21，然后进行全局池化处理，其中卷积过程的激活函数为ReLu，加入批量归一化处理，最后通过双线性插值法将输出图像尺寸变为400×400。

这一部分的网络是作为辅助网络的，将这个网络的损失函数作为语义分割模型损失的一部分，辅助本文设计的神经网络进行训练，如图1中所示，语义分割网络的损失为Loss1，辅助网络的损失为Loss2，Loss1和Loss2均为SoftMax CrossEntropy损失函数所定义，为式(2)所示：

其中，i∈{1,2,3…,21}，y'_i为标签图像中属于第i个类的概率值，即真实分布值，y_i为语义分割模型输出预测属于第i个类的概率值，即预测分布值，y由SoftMax函数定义，如式(3)所示：

其中，j∈{1,2,3…,21}。最终训练网络的损失函数为Loss_总，其关系式如式(4)所示：

其中，0.5为本文设置辅助网络对整个模型损失函数的影响系数。

应当理解的是，本说明书未详细阐述的部分均属于现有技术；上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于卷积神经网络的图像语义分割方法，其特征在于，包括以下步骤：

步骤1：采用ResNet101作为骨架网络进行图像特征提取；

其中，ResNet101输出的最后三层分别为Block1、Block2和Block3，这三层的输出尺寸减半而深度增加一倍，将这三层的输出分别通过一个卷积，其中，卷积核尺寸为3，激活函数为ReLu，如式(1)所示：

在图像边界进行1个像素值为0的填充，从而不改变输出图像的尺寸，加入批量归一化处理，采用DropOut为0.3以防止过拟合，卷积核的深度为512，使得输出的深度都变成512，然后分别通过空洞卷积率为1、2、4的3×3卷积，其中像素填充分别与空洞卷积率相同，不采用DropOut处理，其中空洞卷积率为2和4的卷积输出还要在图像边界加入2和4个像素值为0的填充，保持输出尺寸与输入的相同，再加入双线性插值，对这两个输出进行调整，使得输出的尺寸与Block1相同，由ResNet101的三层输出经过不同的卷积处理得到三个尺寸与深度相同的输出，与Block1层的输出尺寸与深度相同，最后将这三个输出与Block1的输出相加；因此JFP模型输出的特征图尺寸与Block1的输出相同，而深度为2048；

步骤4：应用解码结构将步骤3的输出图像恢复为原始大小，完成对图像的语义分割。

2.根据权利要求1所述的基于卷积神经网络的图像语义分割方法，其特征在于：步骤1中，采用ResNet101作为骨架网络，使用预训练的模型提取图像信息。

3.根据权利要求1所述的基于卷积神经网络的图像语义分割方法，其特征在于：步骤3中，将JFP模型的输出再输入到ASPP模型；ASPP模型输出是由五个相同尺寸和深度的特征图相加得来；将JFP模型的输出作为输入，首先，应用1×1的卷积，将JFP的输出深度降为256，生成一个尺寸为(h,w)、深度为256的特征图，其中，h表示图像高度，w表示图像宽度；其次，应用空洞卷积率为6、8和10的空洞卷积，在图像边界进行6、8和10个像素值为0的填充，不改变图像尺寸，输出三个尺寸为(h,w)、深度为256的特征图；然后，应用全局池化结合1×1卷积，使用双线性插值法恢复图像尺寸，输出一个尺寸为(h,w)、深度为256的特征图；最后，由这5个输出特征图相加得到与JFP模型的输出特征图尺寸相同、深度为1280的输出；其中，卷积的激活函数为ReLu，加入了批量归一化处理。

4.根据权利要求1所述的基于卷积神经网络的图像语义分割方法，其特征在于：步骤4中，所述解码结构，采用1×1卷积、3×3卷积和1×1卷积的组合，第一个卷积将输入的深度降为256，第二个卷积作进一步特征处理，第三个卷积将深度降为21，与Pascal VOC 2012数据集的类别数相同，包括背景；最后通过双线性插值法将图像尺寸变为400×400，这个尺寸是数据集裁剪的尺寸，与最开始输入神经网络的图像尺寸保持相同；卷积的激活函数为ReLu，加入批量归一化处理，而其中3×3卷积加入了0.1的DropOut，与JFP模型中DropOut的值不同，因为设置不同的DropOut得到更好结果。

5.根据权利要求1-4任意一项所述的基于卷积神经网络的图像语义分割方法，其特征在于：步骤1中，采用注意力模型作为辅助语义分割网络，将注意力模型的损失函数与语义分割网络的损失函数结合，辅助语义分割网络进行训练；

具体实现包括以下子步骤：

步骤1.1：将ResNet101的Block2的输出做一个1×1卷积处理，将特征图输出深度降为21，然后进行全局池化处理，其中卷积过程的激活函数为ReLu，加入批量归一化处理，最后通过双线性插值法将输出图像尺寸变为400×400；

步骤1.2：定义语义分割网络的损失为Loss1，辅助网络的损失为Loss2；Loss1和Loss2均为SoftMax CrossEntropy损失函数所定义，为式(2)所示：

其中，i∈{1,2,3…,21}，y_i'为标签图像中属于第i个类的概率值，即真实分布值，y_i为语义分割模型输出预测属于第i个类的概率值，即预测分布值，y由SoftMax函数定义，如式(3)所示：

其中，j∈{1,2,3…,21}；

最终训练网络的损失函数为Loss_总，其关系式如式(4)所示：

其中，0.5为设置辅助网络对整个模型损失函数的影响系数。