CN111401373B

CN111401373B - 基于分组非对称卷积的高效语义分割方法

Info

Publication number: CN111401373B
Application number: CN202010141909.4A
Authority: CN
Inventors: 种衍文; 韩卓定; 潘少明
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2022-02-15
Anticipated expiration: 2040-03-04
Also published as: CN111401373A

Abstract

本发明设计了一种基于分组非对称卷积的高效语义分割方法，该方法采用pytorch框架构建网络。该方法以分组非对称卷积瓶颈层作为主要模块，辅以下采样模块和反卷积模块等模块，搭建编码器和解码器结构，进而构建了一个高效的语义分割网络。相比于同类方法，本发明改进了瓶颈层的结构，提出了一种新的设计方案，通过分组非对称卷积的方式减少了瓶颈层的参数量，提高了瓶颈层的运算效率，进而提高了网络的推理速度，同时通过分组级联的方式赋予瓶颈层获取多尺度信息的能力。

Description

基于分组非对称卷积的高效语义分割方法

技术领域

本发明可以应用于图像语义分割领域，以pytorch作为卷积神经网络的搭建框架，构建编解码器结构以实现对图像的语义信息分割。

背景技术

图像分割技术一直以来都是图像处理领域的研究热点，传统的图像分割算法只能简单的分割出图像的前景和背景，却无法得知前景所蕴含的语义信息，这给后期应用带来了许多不便。

随着深度学习的兴起，卷积神经网络开始在图像处理领域广泛应用并取得了不错的成果。卷积神经网络具有非常强的特征提取能力，特别适合于做分类和分割任务，于是这就为图像语义分割技术的发展带来了契机。

目前基于深度学习的语义分割方法主要可以分为两种，一种是以FCN为代表的采用编解码器结构的语义分割网络，使用长连接即跨越几个甚至十几个卷积层的连接来做多尺度特征融合，然后采用反卷积的方式得到最终结果，另一种是以RefineNet为代表的使用多路径做多尺度特征融合的语义分割网络，然后通过插值得到最终结果输出。以上这两类网络在语义分割任务上均可取得不错的精度，但是由于这两类网络采用均resnet101作为模型的瓶颈层，模型参数量庞大，运行速度非常缓慢，处理一帧图像需要十几秒，这就给实际应用带来了困难。

综上所述，目前语义分割网络存在网络模型冗余，瓶颈层参数量过大，多尺度特征获取效率不高等问题。如何在尽量少损失精度的前提下，尽可能的减少网络的参数量，提高多尺度特征的获取效率是解决上述问题的关键。

发明内容

鉴于现有方法存在的问题和缺陷，本发明提供了一种基于分组非对称卷积的语义分割方法，可以有效的解决该问题。该方法的关键在于构建一种新型高效的瓶颈层，该瓶颈层在保证卷积可以有效获得图像特征的同时，还提高了瓶颈层运算的速度，减少了卷积核的参数，缩小了模型的体积。

本发明的技术方案为一种基于分组非对称卷积的高效语义分割方法，包括如下步骤：

步骤1，构建语义分割网络，由编码器和解码器两大部分组成，其中编码器部分用于提取图像的多尺度特征信息，包含m个下采样模块和n个分组非对称卷积瓶颈层，编码器最终输出的特征图分辨率为原始输入分辨率的

解码器部分包含m个反卷积模块和l个分组非对称卷积瓶颈层，用于解析编码器的输出结果，并将输出特征图放大至与原始输入分辨率一致；

所述下采样模块由两个分支组成，一个分支完成最大池化操作，另一个分支完成卷积操作，接着将两个结果拼接，最后通过重组操作整合两个分支的信息得到最后的输出；

所述分组非对称卷积瓶颈层ga-bottleneck采用分组卷积和非对称卷积来优化瓶颈层的参数量，首先将瓶颈层的输入划分为四个具有相同通道数的卷积组，其中第一组用于获取输入的原始特征信息，第二组、第三组和第四组的卷积输入，分别为原始输入与上一组的输出的叠加入；每个卷积组之间通过级联方式进行信息沟通，然后将每个组的输出结果拼接后，通过重组操作整合各个组的信息，得到最终的输出结果；

反卷积模块采用2×2大小的卷积核，步幅为2的卷积方式，扩大输入特征图分辨率，减少输出通道；

步骤2，使用数据集训练语义分割网络得到相应的网络模型权重；

步骤3，将需要处理的图像数据做归一化处理，转化为用于计算的张量数据，输入到训练好的网络模型中，得到预测的标签；

步骤4，根据预测的标签对网络输出的特征图进行上色，进而得到分割后图像。

进一步的，步骤2中训练时使用交叉熵作为损失函数，如式1.1所示；

其中，w_label为每个类别的权重；x为输出特征图的每个像素点的概率分布向量，

N是x的特征维度，大小与类别数目一致；label∈[1,N]为标量是对应的标签类别。

进一步的，m的取值为3，n的取值为13，l的取值为4。

进一步的，分组非对称卷积瓶颈层中的第二组、第三组、第四组所采用的卷积方式均为3×1和1×3的非对称卷积。

进一步的，编码器提取多尺度特征信息包含三个阶段，第一阶段由下采样模块和连续三个ga-bottleneck构成，将输入图像的分辨率减少一半，并加深其通道数，在保留输入图像的全局特征同时为提取图像的深层次特征做准备；

第二阶段由下采样模块和连续两个ga-bottleneck构成，将上一阶段的特征图分辨率再减半，同时翻倍输出通道数；

第三阶段由下采样模块和连续八个不同扩张率的ga-bottleneck构成，提取图像的多尺度特征用于区分每个像素的类别。

进一步的，第三阶段中ga-bottleneck的扩张率d取值分别为1、1、1、2、2、2、4、4。

本发明是一种应用于图像语义分割的方法，与现有的技术相比具有以下优点：

(1)本发明针对基于残差结构的瓶颈层的参数量过大问题，设计了一种高效的分组非对称卷积瓶颈层，使得瓶颈层的参数量下降了8倍，提高了瓶颈层的运算效率。

(2)本发明针对瓶颈层不具备获取多尺度特征信息能力的问题，设计了一种级联分组卷积的方式，通过扩张率大小来控制瓶颈层的卷积视野，给与瓶颈层获取多尺度特征信息的能力，同时分组卷积的方式也提高了多尺度特征获取的效率。

(3)本发明针对下采样层输出特征图通道之间没有信息交互的问题，设计了一种带重组(shuffle)操作的下采样层，通过重组操作增加通道间的信息交流已适应后续瓶颈层的分组操作，减少特征信息丢失。

附图说明

图1为本发明的总体流程图。

图2为本发明的整体网络模型结构。

图3为本发明的下采样模块设计方式。

图4为本发明的分组非对称卷积瓶颈层设计方式(d为扩张率大小)。

图5为本发明的图像分割结果，其中(上)为原始输入图像，(中)为标签图像，(下)为分割结果。

具体实施方式

下面将结合实例和附图，详述具体的图像语义分割流程。

如图1所示，本发明提供一种基于分组非对称卷积的高效语义分割方法，通过该方法构建的语义分割网络主要由编码器和解码器两大部分组成，包括分组非对称卷积瓶颈层、下采样模块和反卷积模块。

如图3所示，下采样模块(downsample block)由两个分支组成，一个分支完成最大池化操作，另一个分支完成卷积操作，接着将两个结果拼接，最后通过重组(shuffle)操作整合两个分支的信息得到最后的输入。

如图4所示，分组非对称卷积瓶颈层(ga-bottleneck,group asymmetricbottleneck)采用分组卷积和非对称卷积来优化瓶颈层的参数量，首先将瓶颈层的输入划分为四个具有相同通道数的卷积组，每个卷积组之间通过级联方式进行信息沟通。然后将每个组的输出结果拼接后，通过重组(shuffle)操作整合各个组的信息，得到最终的输出结果。第一组用于获取输入的原始特征信息，第二组卷积的输入为原始输入与上一组输出的叠加结果，依次类推可以得到第三组和第四组的卷积输入，即除第一组外，每组的原始输入与上一组的输出叠加构成该组的卷积输入。其中第一组由于直接获取特征信息故其输出等于输入不做卷积运算操作，第二组、第三组、第四组所采用的卷积方式均为3×1和1×3的非对称卷积，等效于3×3的卷积但参数量会下降约33％。此外，第四组卷积还引入了扩张率以提高该组的视野。由于采用级联的方式做信息沟通，第一组的特征为原始输入特征，第二组卷积的感受视野为3×3，第三组卷积的感受视野为5×5，第四组卷积由于带有一定的扩张率其感受视野大于或等于7×7。在相同条件下，以卷积核大小为3，输入通道和输出通道数分别为M和N为例，采用残差结构的瓶颈层的参数量约为3×3×M×N，采用本发明所设计的瓶颈层的参数量为

相比于残差结构采用该方法设计的瓶颈层参数量下降了约8倍。故使用本发明设计的瓶颈层构建网络不仅可以减少模型的参数量，还可以高效地获取多尺度特征信息。

反卷积模块(deconvolution)采用2×2大小的卷积核，步幅为2的卷积方式，扩大输入特征图分辨率，减少输出通道。

编码器(encoder)和解码器(decoder)部分在基于上述模块的基础上构建。其中编码器部分包含3个下采样模块和13个分组非对称卷积瓶颈层，编码器最终输出特征图分辨率为输入分辨率的

解码器部分包含3个反卷积模块和4个分组非对称卷积瓶颈层，用于解析编码器的输出结果，并将输出特征图放大至与原始输入分辨率一致。

该方法的步骤是首先使用数据集训练网络得到相应的网络模型权重，接着加载此模型权重构建已训练的网络模型，然后将需要处理的图像数据做归一化处理转化为可以用于计算的张量数据，该张量数据在编码器层被网络提取为包含多尺度信息的复杂特征图，接着该复杂特征图进入解码器层被网络解析为相应的标签预测信息并且将特征图的分辨率通过双线性插值方法扩大至与输入图像的分辨率大小一致，最后根据预测的标签对网络输出的特征图进行上色，进而得到分割后图像。

下面以512×1024×3的图像作为训练和测试图像，主要步骤包括：

1)训练网络模型

首先将cityscapes数据集的图像大小重新调整为1024×512×3，然后把调整后的图像转化为pytorch框架可以处理的张量数据，并对其每个像素做归一化处理。训练的batch size为6，全部训练数据迭代的次数为1000次，得到训练完成的网络模型权重。训练时使用交叉熵作为损失函数如式1.1所示。

w_label为每个类别的权重；x为输出特征图的每个像素点的概率分布向量，

N是x的特征维度，大小与类别数目一致；label∈[1,N]为标量是对应的标签类别

2)编码器提取多尺度特征信息

第一阶段由下采样模块和连续三个ga-bottleneck构成，将输入图像的分辨率减少一半，并加深其通道数，在保留输入图像的全局特征同时为提取图像的深层次特征做准备。

第二阶段由下采样模块和连续两个ga-bottleneck构成，将上一阶段的特征图分辨率再减半，同时翻倍输出通道数，此时输出特征图大小为256×128×64。

第三阶段由下采样模块和连续八个不同扩张率的ga-bottleneck构成，这一阶段主要负责提取图像的多尺度特征用于区分每个像素的类别，最后输出的特征图的大小为128×64×128。扩张率的大小决定了ga-bottleneck的卷积视野，实验中发现扩张率d取值分别为1、1、1、2、2、2、4、4的情况下可使网络的性能达到最优，编码器的具体结构如图2的encoder部分所示。

3)解码器解析多尺度特征

解码器部分包括三个反卷积层和四个ga-bottleneck(反卷积层-2个ga-bottleneck-反卷积层-ga-bottleneck-反卷积层)，其中反卷积层用于恢复特征图尺寸，ga-bottleneck用于解析特征图得到多尺度信息以得到各个像素点的概率分布向量，从而实现像素分类，解码器的具体结构如图2的decoder部分所示。

4)特征图上色

各个像素的概率分布向量中的最大值代表该像素所属的类别，每个类别由不同的颜色表示，最后根据像素所属的类别对其进行上色就可以得到语义分割结果，最终分割结果如图5所示。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.基于分组非对称卷积的高效语义分割方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于分组非对称卷积的高效语义分割方法，其特征在于：步骤2中训练时使用交叉熵作为损失函数，如式1.1所示；

N是x的特征维度，大小与类别数目一致；label∈[1,N]为标量，是指对应的标签类别。

3.如权利要求1所述的基于分组非对称卷积的高效语义分割方法，其特征在于：m的取值为3，n的取值为13，l的取值为4。

4.如权利要求1所述的基于分组非对称卷积的高效语义分割方法，其特征在于：分组非对称卷积瓶颈层中的第二组、第三组、第四组所采用的卷积方式均为3×1和1×3的非对称卷积。

5.如权利要求1所述的基于分组非对称卷积的高效语义分割方法，其特征在于：编码器提取多尺度特征信息包含三个阶段，第一阶段由下采样模块和连续三个ga-bottleneck构成，将输入图像的分辨率减少一半，并加深其通道数，在保留输入图像的全局特征同时为提取图像的深层次特征做准备；

6.如权利要求5所述的基于分组非对称卷积的高效语义分割方法，其特征在于：第三阶段中ga-bottleneck的扩张率d取值分别为1、1、1、2、2、2、4、4。