CN110728683A

CN110728683A - 一种基于密集连接的图像语义分割方法

Info

Publication number: CN110728683A
Application number: CN201910935594.8A
Authority: CN
Inventors: 李文辉; 刘东会; 胡玉龙; 张博翔; 梁婷婷
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2020-01-24
Anticipated expiration: 2039-09-29
Also published as: CN110728683B

Abstract

本发明公开了一种基于密集连接的图像语义分割方法，包括如下步骤：S101：确定需要使用的数据集及其对应的标注图像，其标注图像为每一个像素赋予类别标签；S102：设计基于密集连接的图像语义分割网络，图像语义分割网络包括密集连接单元、通道融合单元、特征图融合单元；S103：设计密集连接单元密集、连接单元提取的特征图经过图像变换操作，之后再经过转置操作，然后进行softmax操作，得到通道注意力映射图；设计通道融合单元，通过挖掘通道图之间的相互依赖关系可以增强有相互依赖关系的特征图；设计特征图融合单元，将通道融合单元的输出映射图与密集连接的特征提取单元的结果进行加运算融合操作。本发明能有效重复利用不同层和不同通道之间的特征，不仅有效地提高分割效率，还减少了参数量。

Description

一种基于密集连接的图像语义分割方法

技术领域

本发明涉及模式识别、人工智能、计算机视觉技术领域，特别涉及一种基于密集连接的图像语义分割方法。

背景技术

深度神经网络的发展极大地推动了计算机视觉领域的发展，神经网络在目标检测、行人重识别、语义分割等方面取得了前所未有的良好效果，深度神经网络的发展也极大促进了图像分类技术的发展。图像分类从图像级别分类发展到区域级别预测、进而发展到像素级别预测。图像语义分割为图像的每一个像素预测出给定类别中的一种特定类别标签，属于像素级别预测。图像语义分割是计算机视觉的基础工作，可以被广泛应用在自动驾驶、虚拟现实、视频监控等领域。

自J.Long等人提出全卷积神经网络以来，深度神经网络开始在语义分割处理问题上占据主导地位。但是，目前在语义分割领域仍然存在以下问题：1)经过不断连续的卷积和池化操作，图像分辨率减小，造成细节性信息丢失现象。2)缺乏捕获背景上下文的能力，造成小物体分类错误的现象，图像每个通道的映射图相当于对每一类的响应，网络应该具备采集通道相关性的结构。

FCN将全连接层替换成卷积层，实现了图像密集预测，解决了语义分割问题，但是在对特征图实施反卷积时的实现暴力粗糙。随后，以SegNet为代表的编码-解码网络实现了更精确的图像边界的定位。Huang G等人提出密集连接的图像分类网络。J.Fu等人提出双注意力机制网络分别在空间维度上和通道维度上建立语义依赖关系。近年来，语义分割方向新的方法和思路层出不穷。研究人员也提出了很多优秀的网络，而且，随着近来框架的发展和高计算性能图形处理单元的进步，语义分割发展势头正猛。

综上所述，语义分割方法仍然有提升的空间，而改进的重点为图像边界信息的保留以及小物体的的正确分类，并结合深度卷积神经网络提升整体性能。

发明内容

本发明的目的在于提供一种基于密集连接的图像语义分割方法，在一定程度上提升了网络的性能，增强了特征的传播的同时，支持特征复用，网络结构不仅减少了网络参数，同时实现了分割效率的提高，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于密集连接的图像语义分割方法，包括如下步骤：

S101：确定需要使用的数据集及其对应的标注图像，其标注图像为每一个像素赋予类别标签；

并将数据集分别划分为训练数据集、验证数据集和测试数据集，训练数据集用于训练模型，验证数据集用于调整模型参数，从而选取最好的模型，测试数据集用于测试模型的分割能力；

S102：设计基于密集连接的图像语义分割网络，图像语义分割网络包括密集连接单元、通道融合单元、特征图融合单元；

S103：设计密集连接单元，密集连接单元提取的特征图经过图像变换操作，之后再经过转置操作，与提取出的特征图的变换图像进行矩阵乘法操作，然后进行softmax操作，得到通道注意力映射图；设计通道融合单元，高水平特征通道图可以看作是对一个特定类别的响应，不同的语义响应之间相互关联，通过挖掘通道图之间的相互依赖关系可以增强有相互依赖关系的特征图，并改进特定语义的特征表示；设计特征图融合单元，将通道融合单元的输出映射图与密集连接的特征提取单元的结果进行加运算融合操作。

进一步地，S102中整个图像在输入网络之前，首先进行一个大核卷积操作和一个3×3最大池化操作，两步操作步长均为2。

进一步地，所述密集连接的特征提取单元包括密集连接模块、卷积单元、池化单元，不同的密集连接模块分别由不同数量的1×1和3×3卷积组合组成，以提取图像特征；

进一步地，所述卷积单元在每个密集连接模块之后，通过一个1×1卷积操作，该卷积操作控制特征图的通道数量保持不变。

进一步地，所述池化单元用于卷积操作之后，用于提取特征图中特征，并减少特征图分辨率。

进一步地，所述密集连接模块提取的特征图经过图像变换操作，之后再经过转置操作，与提取出的特征图的变换图像进行矩阵乘法操作，然后进行softmax操作，得到通道注意力映射图。

进一步地，所述注意力映射图经过转置，与经过变换的密集连接单元提取的特征图进行矩阵乘法操作，并对得到的结果进行图像变换。

进一步地，得到的结果与密集连接单元提取的特征图进行求和操作，得到通道融合单元的输出映射图。

进一步地，所述特征图融合单元将通道融合单元的输出映射图与密集连接的特征提取单元的结果进行加运算融合操作，对该结果进行卷积和上采样操作得到最后的分割结果。

与现有技术相比，本发明的有益效果是：本发明针对图像特征图在多次卷积和池化过程中细节消失问题和语义边界信息不明显等问题提出一种基于密集连接的网络，在一定程度上提升了网络的性能，增强了特征的传播的同时，支持特征复用，网络结构不仅减少了网络参数，同时实现了分割效率的提高。

附图说明

图1为本发明基于密集连接的图像语义分割方法的网络结构图；

图2为本发明基于密集连接的图像语义分割方法密集连接单元的结构示意图；

图3为本发明基于密集连接的图像语义分割方法通道连接单元的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于密集连接的图像语义分割方法，网络架构包括密集连接单元、通道融合单元、特征图融合单元。密集连接单元实现对不同层特征的融合，将不同层之间的特征进行密集连接，从而得到精细的语义特征，保留图像边界信息。通道融合单元将不同通道融合，有效地提取细小的语义信息，改善小物体分类错误现象。特征图融合单元将上述两单元的特征信息进行融合得到最后的结果。

一种基于密集连接的图像语义分割方法，包括如下步骤：

步骤1：在图1中，输入一张任意大小的图像，假设图像为T，通道数为C，大小为H×W。首先经过一步卷积操作，卷积核大小为7×7，卷积步长为2，使用padding操作，这一操作将原图像变为H/2×W/2×2k，其中k为一个网络参数，代表每一个层所产生的特征图的通道数；

步骤2：步骤1产生的特征图结果经过一个3×3的最大池化层操作，提取图像特征，并减小图像分辨率。其中步长为2。经过这一操作，图像由H/2×W/2×2k变为H/4×W/4×2k大小。

步骤3：步骤2产生的特征图输入第一个密集连接单元，密集连接单元的具体实施方式如图2所示，为了更好地改善层与层之间的信息流，每一个特征图经过多个密集连接层，每个层都分别与后面的每一个层连接，每个层输出的特征图通道数为k，那么第L层的输入X_l为：X_l＝H₁([X₀，X₁，……，X_l-1])

步骤4：第一个密集连接单元由6个1×1卷积和3×3卷积组合操作堆叠而成。在1×1卷积操作和3×3卷积操作之前分别对步骤3得到的特征图进行batch normalization和ReLU操作，经过第一个密集连接单元，图像大小不发生变化，经过密集连接单元，将高层特征与低层特征进行融合，提取更全面的特征信息。

步骤5：在第一个密集连接单元之后连接一个1×1卷积操作，该操作用于维持特征图通道数保持不变。之后进行一次2×2平均池化操作，其中步长为2，经过池化操作，提取特征图特征，图像大小减半，图像变为原来大小的1/8,即H/8×W/8。

步骤6：第二个密集连接单元由12个1×1卷积和3×3卷积操作组合堆叠组成。在1×1卷积操作和3×3卷积操作之前分别对步骤5得到的特征图进行batch normalization和ReLU操作，经过第二个密集连接单元，相对于第五步得到的特征图，图像大小不发生变化。

步骤7：在第二个密集连接单元之后同样连接一个1×1卷积操作，该操作用于维持特征图通道数保持不变。之后进行一次2×2平均池化操作，其中步长为2，通过平均池化操作，提取特征图特征，图像大小减半，图像变为原来大小的1/16,即H/16×W/16。

步骤8：第三个密集连接单元由48个1×1卷积和3×3卷积操作组合堆叠组成。在1×1卷积操作和3×3卷积操作之前分别对步骤7得到的特征图进行batch normalization和ReLU操作，经过第三个密集连接单元，相对于步骤7得到的特征图，图像大小不发生变化。

步骤9：在第三个密集连接单元之后同样连接一个1×1卷积操作，该操作用于维持特征图通道数保持不变。之后进行一次2×2平均池化操作，其中步长为2，通过平均池化操作，提取特征图特征，图像大小减半，图像变为原来大小的1/32,即H/32×W/32。

步骤10：上述步骤9得到的特征图一路输入加法融合单元，一路送入通道融合单元。通道融合单元的具体实施方法如图3所示。

步骤11：首先将特征图经过图像变换，具体实施如下，变换之后的特征图为T′，其中T′大小为C×S，其中S＝H×W。

步骤12：首先将变换后的特征图T′与T′的转置做矩阵乘法操作，然后经过softmax操作得到通道注意力映射图T″。其中：

T″_ji衡量通道与通道之间的相互影响，即衡量第i个通道对第j的通道所产生的作用。

步骤13：将步骤12得到的通道注意力映射图的转置特征图与变换之后的特征图T′进行矩阵乘法操作，并将结果进行变换，此时结果图R′大小为C×H×W。其中：

每个通道的最终特征图是所有通道的特征和原始特征图的总和，保证了特征图之间存在的依赖关系得以利用，有助于提高特征的可辨识度。在计算两个通道的关系时，本发明不使用卷积层来提取特征，因为如此一来可以保持不同通道映射之间的关系。本发明利用所有对应位置的空间信息来获取通道与通道相关性。

步骤14：将步骤13的结果图与步骤9得到的特征图像素大小相同，将两个特征图加法融合操作，此时得到通道融合单元的输出结果。

步骤15：最后利用卷积层生成最终的预测图。

本发明的网络架构包括密集连接单元、通道融合单元、特征图融合单元。密集连接单元将不同层之间的特征进行密集连接，实现了对不同层之间特征的重复使用，得到精细的语义细节特征，有效改善边界缺失问题。通道融合单元将不同通道之间的特征融合，有效地提取背景上下文信息，改善了小物体分类错误的情况。实验结果表明，与传统的网络相比，本发明能有效重复利用不同层和不同通道之间的特征，不仅有效地提高分割效率，还减少了参数量。

为了改善层与层之间的信息流的传递，本发明使用不同的连接方式。具体连接方式为：任何一个层都分别与随后的每一个层直接连接，即，每一层都接收前面每一层的特征图作为本层输入。故此，加强了层与层之间相同位置语义特征间联系，消减细节信息的丢失，保留了语义边界信息，同时缩减网络模型参数量。

本发明主要通过密集连接单元对不同层之间的语义特征进行提取，充分使用不同层之间信息的融合，提高了对图像语义边界信息的保留，提高了特征提取质量。此外，通道提取单元充分融合通道之间相同位置的空间信息获取通道与通道相关性。提高了对小物体分类的正确率。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于密集连接的图像语义分割方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于密集连接的图像语义分割方法，其特征在于，S102中整个图像在输入网络之前，首先进行一个大核卷积操作和一个3×3最大池化操作，两步操作步长均为2。

3.根据权利要求1所述的基于密集连接的图像语义分割方法，其特征在于，所述密集连接的特征提取单元包括密集连接模块、卷积单元、池化单元，不同的密集连接模块分别由不同数量的1×1和3×3卷积组合组成，以提取图像特征。

4.根据权利要求3述的基于密集连接的图像语义分割方法，其特征在于，所述密集连接模块提取的特征图经过图像变换操作，之后再经过转置操作，与提取出的特征图的变换图像进行矩阵乘法操作，然后进行softmax操作，得到通道注意力映射图；所述卷积单元在每个密集连接模块之后，通过一个1×1卷积操作，该卷积操作控制特征图的通道数量保持不变；池化单元用于卷积操作之后，用于提取特征图中特征，并减少特征图分辨率。

5.根据权利要求3所述的基于密集连接的图像语义分割方法，其特征在于，所述池化单元用于卷积操作之后，用于提取特征图中特征，并减少特征图分辨率。

6.根据权利要求3所述的基于密集连接的图像语义分割方法，其特征在于，所述密集连接模块提取的特征图经过图像变换操作，之后再经过转置操作，与提取出的特征图的变换图像进行矩阵乘法操作，然后进行softmax操作，得到通道注意力映射图。

7.根据权利要求6所述的基于密集连接的图像语义分割方法，其特征在于，所述注意力映射图经过转置，与经过变换的密集连接单元提取的特征图进行矩阵乘法操作，并对得到的结果进行图像变换。

8.根据权利要求7所述的基于密集连接的图像语义分割方法，其特征在于，得到的结果与密集连接单元提取的特征图进行求和操作，得到通道融合单元的输出映射图。

9.根据权利要求1所述的基于密集连接的图像语义分割方法，其特征在于，所述特征图融合单元将通道融合单元的输出映射图与密集连接的特征提取单元的结果进行加运算融合操作，对该结果进行卷积和上采样操作得到最后的分割结果。