CN112163449A

CN112163449A - 一种轻量化的多分支特征跨层融合图像语义分割方法

Info

Publication number: CN112163449A
Application number: CN202010846948.4A
Authority: CN
Inventors: 刘成菊; 袁家遥; 陈启军; 郭翔
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2021-01-01
Anticipated expiration: 2040-08-21
Also published as: CN112163449B

Abstract

本发明涉及一种轻量化的多分支特征跨层融合图像语义分割方法，包括以下步骤：1)获取原始图像，输入卷积下采样网络，得到不同分辨率的图像，保留物体的空间位置信息，同时减少图像中信息冗余；2)将不同分辨率的图像分别输入语义特征提取支路和跨层连接支路，分别得到深层特征和浅层特征；3)对深层特征和浅层特征分别进行重要性区分后，进行特征跨层融合；4)将融合后的特征图进行分类重组并上采样后，输出语义分割结果。与现有技术相比，本发明具有计算效率高且精度高等优点。

Description

一种轻量化的多分支特征跨层融合图像语义分割方法

技术领域

本发明涉及机器视觉领域，尤其是涉及一种轻量化的多分支特征跨层融合图像语义分割方法。

背景技术

计算机视觉领域的三大任务，包括图像分类、目标检测和语义分割。其中，语义分割是对图像的像素级描述，它赋予每个像素以类别的意义，最接近人类视觉系统对图像的感知过程，适用于理解要求较高的场景，如无人驾驶中对行人、车辆、道路等的分割。实时图像语义分割，其以极高的分割速度处理图像或视频数据，并分析各图像(帧)之间的时空关系，是一种以高分割速率运行的语义分割机制，因此常被应用于移动平台的视频跟踪和多目标定位等任务，在自动驾驶、增强现实、虚拟现实、机器人视觉理解等领域，有着广阔的应用前景。

现有图像语义分割技术主要有以下几种：

第一类是基于全卷积神经网络的方法：该方法用卷积层代替分类网络的全连接层，采用跨层连接，既同时兼顾全局语义信息和局部位置信息，又能从抽象特征中恢复出像素所属的类别，成功地将原本用于图像分类的网络转变为用于图像分割的网络，奠定了图像语义分割后续发展的基础。但该方法存在两个问题：一是图像经过池化操作后，特征图的分辨率不断降低，部分像素的空间位置信息丢失；二是分割过程未能有效地考虑图像上下文语义信息，无法充分利用丰富的空间位置信息，导致局部特征和全局特征的利用率失衡。

第二类是使用编码器-解码器(Encoder-Decoder)结构：该类方法是一种利用对称网络结构进行图像语义解析的机制，其本质是利用神经网络中的卷积、池化等操作所构成的编码器来编码被捕获的像素位置信息和图像特征，再利用反卷积(Deconvolution)或上池化(Unpooling)等操作所构成的解码器来对其进行解析，还原图像的空间维度和像素的位置信息。该方法分割准确率较高，但是计算量较大，因此只适用于离线语义分割，无法部署于嵌入式移动平台。

第三类是基于双分支结构的方法：为了解决编码器-解码器结构的计算量过高问题，双分支结构网络被提了出来。ICNet与ContextNet等模型利用一条较深分支从降低的分辨率输入图像中学习全局上下文信息，而边界信息则通过一个较浅分支在全分辨率输入图像上学习得到。该方法相较于传统方法计算量大幅降低，但是也存在两个问题：一是两条不同大小分辨率输入支路之间完全独立，未考虑浅层特征与深层特征之间的联系，导致分割图像准确率不高；二是两条支路特征融合后分辨率较低，未与更高分辨率浅层特征融合直接上采样，导致分割边界不连续。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种分割准确率高且计算量小的轻量化的多分支特征跨层融合图像语义分割方法,。

本发明的目的可以通过以下技术方案来实现：

一种轻量化的多分支特征跨层融合图像语义分割方法，包括以下步骤：

1)获取原始图像，输入卷积下采样网络，得到不同分辨率的图像，保留物体的空间位置信息，同时减少图像中信息冗余；

2)将不同分辨率的图像分别输入语义特征提取支路和跨层连接支路，分别得到深层特征和浅层特征；

3)对深层特征和浅层特征分别进行重要性区分后，进行特征跨层融合；

4)将融合后的特征图进行分类重组并上采样后，输出语义分割结果。

在训练时，还需要对训练样本集进行语义标注、数据增强操作和样本类别均衡处理等操作，数据增强处理方法包括0.5到2倍之间随机调整大小，随机平移、剪裁、水平翻转，引入颜色通道噪声和亮度调整等。

进一步地，所述的卷积下采样网络包括三层，其中第一层为标准卷积，第二层和第三层均为深度可分离卷积，所述的第二层深度可分离卷积输出第一分辨率图像，所述的第三层深度可分离卷积输出第二分辨率图像，所述的第二分辨率图像分别输入语义特征提取支路和跨层连接支路，所述的第一分辨率图像输入跨层连接支路。

进一步优选地，所述的标准卷积和深度可分离卷积的核尺寸均为3×3，步长均为2，因此卷积下采样网络的输出特征图被下采样为原始图像的1/8，且在每一次卷积之后，都经过批正则化和ReLU激活函数；

进一步地，所述的语义特征提取支路用于提取语义特征包括三组线性瓶颈残差块和金字塔池化层，其数据处理步骤具体包括：

201)所述的三组线性瓶颈残差块对第二分辨率图像进行下采样，并从中提取深层特征；

202)所述的金字塔池化层利用不同尺寸池化核得到大小不同的特征层，并学习不同尺度特征；

203)经过对应的上采样倍数，输出第三分辨率大小的深层特征。

进一步优选地，所述的线性瓶颈残差块的最后一个点卷积没有使用ReLU非线性函数，为线性点卷积，所述的三组线性瓶颈残差块的膨胀系数均为6，每组线性瓶颈残差块膨胀后通道数分别为384、576和768，其中前两组的步长均为2，最后一组的步长为1，因此分别将学习下采样模块的1/8图片卷积下采样到1/16和1/32大小，该支路分辨率较低，最小为原始图像1/32大小，可以加快卷积运算速度；

所述的金字塔池化层得到大小不同的特征层分别为1×1大小、2×2大小、3×3大小和6×6大小，特征图大小可进行调整；

进一步地，所述的重要性区分通过SE模块实现，对两支路的特征图进行重标定，为每个特征图分配一个可学习的重要性权值，从而区分出有缺陷的特征图，具体包括：

301)进行全局平均池化，得到具有全局感受野的特征图；

302)使用全连接神经网络对步骤301)输出的结果做非线性变换；

303)使用步骤302)输出的结果作为权重，分别乘到深层特征和浅层特征的每个通道上。

进一步地，所述的跨层连接支路用于恢复物体空间位置，包括第一分辨率支路、第二分辨率支路和第三分辨率支路，所述的第一分辨率图像输入第一分辨率支路，所述的第二分辨率图像分别输入第二分辨率支路和第三分辨率支路，所述的第一分辨率支路、第二分辨率支路和第三分辨率支路分别输出第一分辨率大小的浅层特征、第二分辨率大小的浅层特征和第三分辨率大小的浅层特征。

进一步地，所述的特征跨层融合的融合方式为：将深层特征和浅层特征相加，以确保效率，且需要保持两条支路的特征图通道数一致。

更进一步地，所述的特征跨层融合具体包括：

311)将第三分辨率大小的深层特征与第三分辨率大小的浅层特征相加融合，得到第一融合特征；

312)将第一融合特征通过上采样得到第二分辨率大小的第一融合特征；

313)将第二分辨率大小的第一融合特征与第二分辨率大小的浅层特征相加融合，得到第二融合特征；

314)将第二融合特征通过上采样得到第一分辨率大小的第二融合特征；

315)将第一分辨率大小的第二融合特征与第一分辨率大小的浅层特征相加融合，得到第三融合特征。

进一步地，所述的步骤4)具体包括：

41)利用分类器将第三融合特征进行分类重组，得到分类重组特征图；

42)对分类重组特征图进行两次卷积上采样后恢复至原始图像大小；

43)输出语义分割结果。

进一步地，所述的上采样采用双线性插值方法，高效地对特征图像进行扩张，使得最终输出图像与输入图像分辨率保持一致。

进一步地，所述的第一分辨率为1/4分辨率，所述的第二分辨率为1/8分辨率，所述的第三分辨率为1/16分辨率。

与现有技术相比，本发明具有以下优点：

1)本发明结合了双分支网络结构和特征跨层连接思想，传统双分支网络利用一条较深分支从降低的分辨率输入图像中学习全局语义信息，而边界信息则通过一个较浅分支在全分辨率输入图像上学习得到，而本发明将两条支路初始卷积下采样层的计算共享，相比传统双分支网络减少了一条输入支路，降低了特征提取的计算复杂度，进一步提升了双分支网络的实时性；

2)本发明通过将深层语义特征与浅层空间位置特征跨层连接融合，减少了网络对物体轮廓边界信息的丢失，避免了网络对小型目标的未分割，同时提升了分割大目标的边界精度，并且通过引入SE模块使得网络具有区分缺陷特征图的能力，进一提升了语义分割的精度；

3)本发明使用了深度可分离卷积和双线性插值上采样，保证了语义分割的高效性，又通过跨层直连方法融合浅层特征保证了分割的准确性，在速度和精度之间取得了较好平衡，是一种可部署于移动嵌入式平台的实时语义分割方法。

附图说明

图1为本发明语义分割网络结构图；

图2为实施例中的语义标注结果，其中，图(2a)为原始图像，图(2b)原始图像的语义标注结果；

图3为线性瓶颈残差块的结构示意图；

图4为金字塔池化层的结构示意图；

图5为SE模块的特征重标定处理流程示意图；

图6为分类器模块的输出结果示意图；

图7为双线性插值法上采样输出流程，其中，图(7a)为原始图像，图(7b)为低分辨率图像，图(7c)为上采样输出后的图像；

图8是实施例中足球机器人视野实时语义分割效果示意图，其中图(8a)-图(8f)分别为不同场景下原始图像，图(8A)-图(8F)分别为对应不同场景下的语义分割结果图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

如图1所示，本发明提供一种适用于移动端的轻量化的多分支特征跨层融合图像语义分割方法，其与双分支网络相比，通过共享卷积下采样进一步减少了计算量，通过跨层连接提高了分割准确率，可应用于嵌入式移动平台实现实时图像语义分割，具体包括以下步骤：

S1、获取训练图像进行语义标注，对原始图像进行缩放、剪裁、翻转等数据增强操作，并借助Focal-Loss进行样本类别均衡处理；

其中，数据增强操作包括0.5到2倍之间随机调整大小，随机平移、剪裁、水平翻转，引入颜色通道噪声和亮度调整等。

S2、搭建语义分割网络，通过3次可学习卷积下采样将图像分辨率下降到1/8大小，保留物体的空间位置信息，同时减少图像中信息冗余；

其中，可学习卷积下采样模块有三层，后两层是更高效的深度可分离卷积，三个核尺寸均为3×3，步长均为2，因此该模块的输出特征图被下采样为原始图像的1/8，且在每一次卷积之后，都经过批正则化和ReLU激活函数；

学习下采样后有一条较深支路用于提取语义特征，其他跨层连接支路用于恢复物体空间位置，其中用于提取语义特征的支路分辨率较低，最小为原始图像1/32大小，可以加快卷积运算速度；

S3、网络的上支路利用3组线性瓶颈残差块，对卷积下采样的1/16图像进行深层语义特征提取，利用金字塔池化模块提取不同尺寸的目标特征；

具体为：语义特征提取支路采用3组线性瓶颈残差块，从低分辨率特征图中高效地提取深层特征，且引入一个金字塔池化模块，利用不同尺寸池化核聚合不同大小的目标特征；金字塔池化核得到的一系列从小到大特征图为1×1、2×2、3×3和6×6大小，特征图大小可进行调整；瓶颈残差块的最后一个点卷积没有使用ReLU非线性函数，且3组瓶颈块的通道膨胀系数均为6，每组瓶颈块膨胀后通道数分别为384、576和768，前两组的第一个瓶颈块的卷积步长均为2，因此分别将学习下采样模块的1/8图片卷积下采样到1/16和1/32大小。

S4、将上支路提取的深层语义特征上采样，分别与1/16、1/8、1/4大小的浅层空间位置特征跨层相加融合，并利用SE模块对融合特征进行重要性区分；

其中，特征跨层融合模块引入两个Squeeze-and-Excitation模块对两支路的特征图进行重标定，为每个特征图分配一个可学习的重要性权值，从而区分出有缺陷的特征图；特征跨层融合模块的融合方式为直接将两支路特征图相加，以确保效率，且需要保持两条支路的特征图通道数一致；

S5、利用分类器模块将融合后的特征图进行分类重组，通过双线性插值将分类重组特征图上采样恢复到原始分辨率，最后输出语义分割结果；

网络中的上采样模块均为双线性插值方法，高效地对特征图像进行扩张，使得最终输出图像与输入图像分辨率保持一致。

图1中各模块的名称和作用解释如下表：

下面给出本发明方法的具体实施过程：

步骤S1：

采集足球机器人视野图像600余张进行语义标注、数据增强和样本类别均衡处理：语义标签包括草地、足球、球门、边线、罚球点、裁判、机器人和黑色背景等，标签定义如表2所示，标注结果如图2所示；

表2语义标签定义与对应可视化颜色

数据增强包括0.5到2倍之间随机调整大小，随机平移、剪裁、水平翻转，引入颜色通道噪声和亮度调整等；样本类别均衡处理通过增大样本中的小目标如足球的损失权重，增强网络对小样本的学习能力。

步骤S2：

按照表1所示的语义分割网络各层布局搭建语义分割网络。如表1中所示，三次学习卷积下采样的通道数分别为32、48、64，卷积核尺寸为3×3，步长为2，特征图大小分别为640×480、320×240和160×120，其中后两次为深度可分离卷积，它将传统卷积拆分为一次深度分组卷积和一次点卷积，计算量约为传统卷积的1/9；卷积下采样输出特征图既可以用于提取深层语义信息，又包含了物体的浅层轮廓边界信息。

表1语义分割网络各层布局

步骤S3：

如图3和表1所示，线性瓶颈残差块先通过1×1点卷积将通道数膨胀t倍，然后经过步长为s的分组卷积将特征图压缩到1/s大小，最后经过一次线性的点卷积将通道数压缩到与输入通道数相等。三组瓶颈块的膨胀系数t均为6，前两组步长s为2，最后一组步长为1，输入特征图大小分别为80×60、40×30和20×15，通道数分别为64、96、128，每组瓶颈块膨胀后通道数分别为384、576和768。金字塔池化模块如图4所示，主要操作是对同一特征层采用不同的池化核得到一系列从小到大特征层(本发明为1×1、2×2、3×3和6×6)，来学习不同尺度特征。而后再经过不同的上采样倍数，使经过池化后的特征层的大小相同，再与原始输入特征进行拼接(Catenate)，进而在单分支也能获得不同尺度的特征信息，聚合基于不同区域、不同尺寸感受野的上下文语义信息。

步骤S4：

首先将1/16大小深层特征与1/16大小浅层特征相加融合，融合前经过SE模块对特征图进行重要性区分，SE模块如图5所示，其步骤主要分为3步：

(1)Squeeze：对H×W×C进行全局平均池化，得到1×1×C大小的具有全局感受野的特征图；

(2)Excitation：使用一个全连接神经网络，对Squeeze之后的结果做一个非线性变换，大小仍为1×1×C；

(3)特征重标定：使用Excitation得到的结果作为权重，分别乘到输入特征的每个通道上。这样使得融合时具有区分缺陷通道的能力。第一次融合后利用双线性插值方法上采样2倍，得到1/8大小融合特征，再与卷积下采样模块的1/8浅层特征相加融合，进一步利用轮廓边界信息。同样地，对融合后的1/8特征上采样2倍得到1/4特征，之后与卷积下采样过程中的1/4浅层特征跨层融合，得到最终的包含深层语义特征与浅层位置特征的1/4特征图，分辨率为160×120，通道数为128。

步骤S5：

对1/4特征图进行两次卷积之后上采样4倍到原始图像大小，第一次为分组卷积不改变特征图大小和通道数，第二次为普通卷积，将128通道数压缩到8通道，得到160×120×8张量，其中第n层160×120的张量表示输入图片的对应像素点属于第n类语义标签的概率。如图6所示第4层的输出张量，表示该位置像素点被分类为语义标签值“4”——对应“机器人”(Robot)的概率。最后，每个像素点的分类取其最大概率的语义标签值，由此将160×120×8的张量压缩为160×120×1的二维张量，并经过双线性插值(Bilinear Interpolation)上采样4倍后输出640×480×1的语义分割图片，双线性插值过程如图7所示。

本发明提供的实时图像语义分割方法，与现有技术中的方法相比，最大的创新点有三点：一是提出了一种结合双分支结构和特征跨层融合的框架，将网络中两条输入支路的初始卷积下采样层进行共享，相比传统双分支网络减少了一条输入支路，降低了特征提取的计算复杂度，进一步提升了双分支网络的实时性；二是将深层语义特征与浅层空间位置特征跨层融合，减少了双分支网络对物体轮廓边界信息的丢失，避免了网络对小型目标的未分割，同时提升了分割大目标的边界精度；三是特征融合前引入SE模块使得网络具有区分缺陷特征图的能力，进一提升了语义分割的精度。

这三点创新进一步提升了语义分割网络的实时性，又通过跨层融合浅层特征保证了分割的准确性，在速度和精度之间取得了较好平衡，是一种可部署于移动嵌入式平台的实时图像语义分割方法。部分实时语义分割的结果如图8所示。最终本实施例网络的参数量为1.169M，浮点运算次数为975.8MFLPOs，语义分割的平均交并比mIoU达到了87.3％，对比传统双分支网络ContextNet大幅提升了6.9％。在GPU设备上分割速度达到193.4FPS，也高于双分支网络132.6FPS。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种轻量化的多分支特征跨层融合图像语义分割方法，其特征在于，包括以下步骤：

1)获取原始图像，输入卷积下采样网络，得到不同分辨率的图像；

2.根据权利要求1所述的一种轻量化的多分支特征跨层融合图像语义分割方法，其特征在于，所述的卷积下采样网络包括三层，其中第一层为标准卷积，第二层和第三层均为深度可分离卷积，所述的第二层深度可分离卷积输出第一分辨率图像，所述的第三层深度可分离卷积输出第二分辨率图像，所述的第二分辨率图像分别输入语义特征提取支路和跨层连接支路，所述的第一分辨率图像输入跨层连接支路。

3.根据权利要求2所述的一种轻量化的多分支特征跨层融合图像语义分割方法，其特征在于，所述的语义特征提取支路用于提取语义特征，包括三组线性瓶颈残差块和金字塔池化层，其数据处理步骤具体包括：

4.根据权利要求1所述的一种轻量化的多分支特征跨层融合图像语义分割方法，其特征在于，所述的重要性区分通过SE模块实现，具体包括：

301)进行全局平均池化，得到具有全局感受野的特征图；

5.根据权利要求3所述的一种轻量化的多分支特征跨层融合图像语义分割方法，其特征在于，所述的跨层连接支路用于恢复物体空间位置，包括第一分辨率支路、第二分辨率支路和第三分辨率支路，所述的第一分辨率图像输入第一分辨率支路，所述的第二分辨率图像分别输入第二分辨率支路和第三分辨率支路，所述的第一分辨率支路、第二分辨率支路和第三分辨率支路分别输出第一分辨率大小的浅层特征、第二分辨率大小的浅层特征和第三分辨率大小的浅层特征。

6.根据权利要求1所述的一种轻量化的多分支特征跨层融合图像语义分割方法，其特征在于，所述的特征跨层融合的融合方式为：将深层特征和浅层特征相加。

7.根据权利要求5所述的一种轻量化的多分支特征跨层融合图像语义分割方法，其特征在于，所述的特征跨层融合具体包括：

8.根据权利要求7所述的一种轻量化的多分支特征跨层融合图像语义分割方法，其特征在于，所述的步骤4)具体包括：

43)输出语义分割结果。

9.根据权利要求7或8所述的一种轻量化的多分支特征跨层融合图像语义分割方法，其特征在于，所述的上采样采用双线性插值方法。

10.根据权利要求5或7所述的一种轻量化的多分支特征跨层融合图像语义分割方法，其特征在于，所述的标准卷积和深度可分离卷积的核尺寸均为3×3，步长均为2；

所述的线性瓶颈残差块的最后一个点卷积为线性点卷积，所述的三组线性瓶颈残差块的膨胀系数均为6，每组线性瓶颈残差块膨胀后通道数分别为384、576和768，其中前两组的步长均为2，最后一组的步长为1；

所述的金字塔池化层得到大小不同的特征层分别为1×1大小、2×2大小、3×3大小和6×6大小；

所述的第一分辨率为1/4分辨率，所述的第二分辨率为1/8分辨率，所述的第三分辨率为1/16分辨率。