CN112541503A

CN112541503A - 基于上下文注意力机制和信息融合的实时语义分割方法

Info

Publication number: CN112541503A
Application number: CN202011439171.6A
Authority: CN
Inventors: 徐国安; 高广谓; 吴飞; 邵昊; 岳东
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-03-23
Anticipated expiration: 2040-12-11
Also published as: CN112541503B

Abstract

本发明公开了一种基于上下文注意力机制和信息融合的实时语义分割方法，首先构建实时语义分割网络，对预先获取的数据集中的图像以及对应的标签进行预处理，再输入到所搭建的网络中进行训练；网络中，输入图像经过三组单独的降采样模块，使其分辨率分辨变为原来的1//2、1/4和1/8，三个不同尺寸的特征图分别与后续的主干网络不同阶段的特征进行特征融合；每个阶段特征融合之后，进入到注意力模块；融合后的特征经过分类的卷积操作输出最终的预测结果并与对应语义标注图像进行对比，计算交叉熵损失函数作为目标函数，从而得到训练好的网络模型。本发明本发明不仅保证了语义分割的高精度，又保证了高效的推理速度以及适合边界设备的内存容量。

Description

基于上下文注意力机制和信息融合的实时语义分割方法

技术领域

本发明属于计算机视觉、模式识别领域，具体涉及一种基于上下文注意力机制和信息融合的实时语义分割方法。

背景技术

语义分割是当今计算机视觉领域的关键问题之一。它是在图像像素级别上分类，属于同一类的像素都要被归为一类。因此上下文语义信息对于语义分割来说，非常重要。在实际中，虚拟现实、人机交互以及自动驾驶等都会运用到语义分割技术，准确理解周围场景对实际应用的决策有重要影响。

当前最佳的图像语义分割方法都是基于深度卷积神经网络的方法来实现的，并且都是基于编码解码的架构。编码器是一个图像降采样过程，负责抽取图像的语义信息，编码结束后紧接着就是解码器，解码器就是一个图像上采样过程，负责对降采样得到的图像特征进行上采样恢复到输入图像原始维度。总体网络结构可以大致分为两类：深度网络结构方法和轻量化网络结构方法。深度网络结构方法，运用VGGNet，ResNet等作为主干网络，它们的重心是在提高模型的分割精度而不是计算效率上，模型有效性绝大程度上取决于网络深度和宽度，因此需要大量的参数和操作从而需要耗费大量的计算资源，不适合在实际应用场景中手机、机器人、无人机等这些存储资源有限，计算能力较小的边界设备中使用。为了适应实际生活运用中实时性的需求，轻量化网络结构模型得到了更多的关注。由于网络结构变浅，网络训练时间大大减少。然而这也引发了另一个重要问题，现有的很多轻量化网络将更快的速度追求建立在一味地牺牲分割精度的基础之上。所以如何在速度与精度之间达到很好的平衡，即既保证语义分割的高精度，又要保证高效的推理速度以及适合边界设备的内存容量成为了实时语义分割问题的核心。

发明内容

发明目的：本发明一种基于上下文注意力机制和信息融合的实时语义分割方法，在语义分割精度和速度之间达到了完美的平衡。

发明内容：本发明提出一种基于上下文注意力机制和信息融合的实时语义分割方法，具体包括以下步骤：

(1)构建实时语义分割网络，所述网络包括初始模块、注意力模块、特征提取模块、特征融合模块；

(2)对预先获取的数据集中的图像以及对应的标签进行预处理，再输入到所搭建的网络中进行训练；输入图像经过3次卷积使其分辨率变为原来的1/2，同时，输入图像经过三组单独的降采样模块，使其分辨率分辨变为原来的1//2、1/4和1/8，这三个不同尺寸的特征图分别与后续的主干网络不同阶段的特征进行特征融合；

(3)每个阶段特征融合之后，进入到注意力模块；

(4)经过注意力模块输出后的特征图，进入到特征提取模块中；所述特征图分为两个分支，第一条分支继续进行下采样操作以及卷积特征提取；第二条分支经过上采样以及注意力模块后输出到预测分类操作之前进行特征融合；

(5)融合后的特征经过分类的卷积操作输出最终的预测结果并与对应语义标注图像进行对比，计算交叉熵损失函数作为目标函数，从而得到训练好的网络模型；

(6)利用训练好的模型来预测待测图像语义分割结果。

进一步地，所述步骤(2)的实现过程如下：

输入图像先经过连续三次3*3卷积核的卷积操作提取初始图像特征并将输入图像分辨率变为1/2：

F_cout＝C_3x3(C_3x3(C_3x3(F_in))) (1)

其中，F_in表示输入图像，C_3x3表示卷积核为3x3的卷积操作，F_cout表示连续3三次卷积后的输出；同时将初始输入图像输入到三个单独降采样率不同的降采样模块中，将输入图像的分辨率分别降采样为原来的1/2、1/4、1/8，用于与后续主干网络中不同阶段提取的图像特征进行融合，以充分利用上下文语义信息：

F₁＝Down₁(F_in) (2)

F₂＝Down₂(F_in) (3)

F₃＝Down₃(F_in) (4)

其中，Down₁，Down₂，Down₃表示降采样率分别为2，4，8的降采样模块，F₁，F₂，F₃表示得到的1/2，1/4，1/8特征图；初始模块最终输出为三次卷积后得到的特征图与1/2特征图的级联：

F_initial＝Concat(F_cout,F₁) (5)

其中，F_initial表示初始模块最终输出，Concat表示Concatenate级联操作。

进一步地，所述步骤(4)的实现过程如下：

经过注意力模块输出后的特征图分为两条分支，一条分支是继续主干网络的特征提取，经过一个下采样模块以及若干深度不对称卷积模块；其中，下采样模块由步长为2的3x3卷积和一个2x2的最大值池化组成：

F_dout＝ρ(C_3x3(F_din)+Pool_max,2x2(F_din)) (9)

其中，F_din和F_dout分别表示下采样模块的输入特征和输出特征，Pool_max,2x2表示2x2的最大值池化操作，C_3x3表示3x3的卷积操作，ρ表示PReLU的非线性化操作；

深度不对称卷积模块为双分支结构，第一条分支负责提取局部信息，将3x3的深度可分离卷积分解为串联着的3x1和1x3的两个卷积；第二条分支负责提取上下文语义信息，使用的是串联着的3x1和1x3的两个空洞卷积；不对称卷积模块先用3x3的卷积先将特征图的通道数减少为一半，然后输入到两条分支中，最后将两个分支直接相加后传入1x1卷积中恢复通道，融合所有通道信息：

F_br1＝C_1x3(C_3x1(C_3x3(ρ(F_DABin)))) (10)

F_br2＝C_1x3,d(C_3x1,d(C_3x3(ρ(F_DABin)))) (11)

F_DABout＝Concat(C_1x1(ρ(F_br1+F_br2)),F_DABin) (12)

其中，F_DABin和F_DABout分别表示DAB模块的输入特征和输出特征，F_DABin为下采样模块的输出特征F_dout，F_br1和F_br2分别表示DABmodule中的两个分支，ρ表示PReLU的非线性化操作，C表示卷积操作，d表示空洞卷积的空洞率；

将第一个不对称卷积模块的输入和最后一个不对称卷积模块的输出进行像素级相加，同时进行像素级相加的还有初始阶段的1/4，1/8特征图，达到特征融合：

F_BR1＝Concat(F_DABout,F_n) n＝2,3 (13)

其中，F_BR1表示特征提取模块第一分支的输出；

经过主干网络中注意力模块输出后的第二条分支中包含一个上采样操作、一个卷积层以及一个注意力模块，其中上采样和卷积层用于调整特征图尺寸以及通道数，目的是统一参数，方便网络末尾的特征融合，注意力模块用来提取上采样过后的图像语义信息：

F_BR2＝F_Atten(C_1x1(F_up(F_din))) (14)

其中，F_BR2表示特征提取模块第二条分支的输出，F_Atten表示注意力模块，F_up表示上采样操作。

进一步地，所述步骤(5)实现过程如下：

使用了像素级相加策略，融合后的特征图经过上采样中的反卷积操作输出得到最终的分割结果：

F_add＝F_main+F_block1,BR2+F_block2,BR2 (15)

其中，F_add表示利用像素级相加方法得到的特征图；

整个语义分割网络的预测输出为：

F_out＝F_up(F_fusion) (16)

其中，F_fusion＝F_concatorF_add。

有益效果：与现有技术相比，本发明的有益效果：本发明不仅保证了语义分割的高精度，又保证了高效的推理速度以及适合边界设备的内存容量；本发明可以应用在无人机、人脸识别、机器人等需要对周围环境进行实时信息交互的场景；无人机拍摄画面后，对地面物体做出实时准确判断；人脸识别领域，通过本发明可以快速分割出人面部的皮肤、头发、眼睛、鼻子、嘴巴和背景等用于性别、表情、年龄和种族的估计；医疗领域，对于龋齿，肿瘤等症状位置的快速精准定位；本发明可以让智能机器人更加快捷地感知外界信息，从而快速做出决策，提高用户体验感；在交通出行方面，新兴的自动驾驶技术需要对自身车体周围的环境，包括周围车辆、行人以及建筑物等做出实时的识别、分析与判断，而本发明正好在实时性方面有着巨大的优势，因此也一定会在城市道路等场景中发挥出巨大潜能。

附图说明

图1为本发明构建的实时语义分割网络结构示意图；

图2为深度不对称卷积模块结构示意图；

图3为注意力模块结构示意图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明提供一种基于上下文注意力机制和信息融合的实时语义分割方法，构建的实时语义分割网络分为四个部分：初始(Initial)模块、注意力(Attention)模块、特征提取(Feature Extraction)模块、特征融合(Feature Fusion)模块。整体结构如图1所示。初始化模块包括3个3x3的卷积块以及3个独立的下采样模块；特征提取模块包括两条分支，分支1为下采样模块和深度不对称卷积模块；分支2为上采样层、卷积层和注意力模块；其中深度不对称卷积模块也是双分支结构。

实时语义分割网络训练时，首先对数据集中的图像以及对应的标签进行预处理裁剪到原始大小的1/2后再输入到所搭建的网络中进行训练。网络中，输入图像先经过3次卷积使其分辨率变为原来的1/2。同时，输入图像经过三组单独的降采样模块，使其分辨率分辨变为原来的1//2、1/4和1/8，这三个不同尺寸的特征图分别与后续的主干网络不同阶段的特征进行特征融合。每个阶段特征融合之后，进入到注意力模块，以更好地提取语义信息进而提高网络性能。在图像特征经过注意力模块后进入两个分支，一个分支继续在主干线中进行下采样操作以及卷积特征提取；另一分支经过上采样以及注意力模块后输出到最终的预测分类操作之前进行特征融合，以充分利用上下文语义。融合后的特征经过分类的卷积操作输出最终的预测结果并与对应语义标注图像进行对比，计算交叉熵损失函数作为目标函数，从而得到训练好的网络模型。最后，利用训练好的模型来预测待测图像语义分割结果。

一、初始(Initial)模块。初始输入图像先经过连续三次3*3卷积核的卷积操作提取初始图像特征并将输入图像分辨率变为1/2。

F_cout＝C_3x3(C_3x3(C_3x3(F_in))) (1)

其中，F_in表示输入图像，C_3x3表示卷积核为3x3的卷积操作，F_cout表示连续3三次卷积后的输出。同时将初始输入图像输入到三个单独降采样率不同的降采样模块(Down1、Down2、Down3)中。该降采样模块由不同的3*3平均池化层构成，可以将初始输入图像的分辨率分别降采样为原来的1/2、1/4、1/8，用于与后续主干网络(网络结构中的带有特征提取模块的中间主干分支)中不同阶段提取的图像特征进行融合，以充分利用上下文语义信息。

F₁＝Down₁(F_in) (2)

F₂＝Down₂(F_in) (3)

F₃＝Down₃(F_in) (4)

其中Down₁，Down₂，Down₃表示降采样率分别为2，4，8的降采样模块，F₁，F₂，F₃表示得到的1/2，1/4，1/8特征图。初始(Initial)模块最终输出为三次卷积后得到的特征图与1/2特征图的级联。

F_initial＝Concat(F_cout,F₁) (5)

二、注意力(Attention)模块。在上述的每个阶段特征融合之后，分别放置串联的注意力(Attention)模块，如图3所示。注意力(Attention)模块的核心是注意力机制，它的本质是模仿人类视觉机制，学习出一个对图像特征的权重分布，再把这个权重分布施加在原来的特征之上，使得任务主要关注重点特征，提高任务效率。

本发明采用的是注意力机制中的通道注意力(ChannelAttention)方法。通道注意力通过对通道间的依赖关系进行建模，可以自适应地调整各通道的特征响应值，使网络从全局信息出发来选择性地放大有价值的特征通道，抑制无用的特征通道，从而提升网络性能。当前大多数研究使用的通道注意力模块是Squeeze-and-ExcitationNet中的(以下简称SE)，本发明采用的是它的改进版本——Efficient ChannelAttention(以下简称ECA)。该模块只增加了少量的参数，却能获得明显的性能增益。ECA采用一种不降维的局部跨信道交互策略，即在不降低维数的通道级全局平均池化之后，通过考虑每个通道及其k个邻居来捕获局部跨通道交互信息。需要注意的是，ECA可以通过大小为k的快速1D卷积来有效实现，其中卷积核大小为k代表了局部跨信道交互的覆盖率。

具体的，使用矩阵W_(k)来表示学习到的通道注意力。

W_(k)涉及C*k个参数，并且W_(k)避免了不同通道之间的相互独立，也就是不同通道之间可以进行信息交互。

权重y_i，通过y_i本身和它k个邻居之间的相互作用计算得来,并且让所有的通道共享权重信息，即

其中，σ表示Sigmoid函数，

表示y_i的k个通道集。

通过以上分析，发现该策略可以很容易地通过核大小为k的快速一维卷积实现。

ω＝σ(C1D_k(y)) (8)

其中，C1D表示一维卷积，这种方法就称之为ECA模块。

三、特征提取(Feature Extraction)模块。经过注意力模块输出后的特征图，进入到特征提取(Feature Extraction)模块中，如图2所示。它有两条分支，一条分支是继续主干网络的特征提取，它包含一个下采样(Downsample)模块以及若干深度不对称卷积(Depth-wiseAsymmetricBottleneckModule)模块，(简称DAB module)组成。其中，下采样(Downsample)模块由步长为2的3x3卷积和一个2x2的最大值池化组成。

F_dout＝ρ(C_3x3(F_din)+Pool_max,2x2(F_din)) (9)

其中，F_din和F_dout分别表示下采样(Downsample)模块的输入特征和输出特征，Pool_max,2x2表示2x2的最大值池化操作，C_3x3表示3x3的卷积操作，ρ表示PReLU的非线性化操作。下采样(Downsample)操作减小了特征图尺寸的同时增加了感受野(receptive field)，因此整个网络获得了更多的语义信息。而DAB module整体也是双分支结构。第一条分支负责提取局部信息，根据卷积分解(convolutionfactorization)的思想将3x3的深度可分离卷积分解为串联着的3x1和1x3的两个卷积，这样大大降低了计算复杂度。第二条分支负责提取上下文语义信息，使用的是串联着的3x1和1x3的两个空洞卷积，空洞卷积的优点是可以在不减小特征图分辨率的基础上获得更大的感受野。特征图输入到DABmodule中的具体过程是用3x3的卷积先将特征图的通道数减少为一半，这样可以减少参数，然后输入到两条分支中，最后将两个分支直接相加后传入1x1卷积中恢复通道，融合所有通道信息。

F_br1＝C_1x3(C_3x1(C_3x3(ρ(F_DABin)))) (10)

F_br2＝C_1x3,d(C_3x1,d(C_3x3(ρ(F_DABin)))) (11)

F_DABout＝Concat(C_1x1(ρ(F_br1+F_br2)),F_DABin) (12)

其中，F_DABin和F_DABout分别表示DAB模块的输入特征和输出特征，F_DABin为下采样模块的输出特征F_dout，F_br1和F_br2分别表示DABmodule中的两个分支，ρ表示PReLU的非线性化操作，C表示卷积操作，d表示空洞卷积的空洞率。

整体连接运用残差连接的思想，将第一个DAB module的输入和最后一个DABmodule的输出进行像素级相加，同时进行像素级相加的还有初始阶段的1/4，1/8特征图，达到特征融合的目的。该操作增加了语义，也使得图像上下文信息得到交互。

F_BR1＝Concat(F_DABout,F_n) n＝2,3 (13)

其中，F_BR1表示特征提取模块第一分支的输出。

特征提取(featureextraction)模块的另一条分支中包含一个上采样操作、一个卷积层以及一个注意力模块，其中上采样和卷积层用于调整特征图尺寸以及通道数，目的是统一参数，方便网络末尾的特征融合。注意力模块用来提取上采样过后的图像语义信息。

F_BR2＝F_Atten(C_1x1(F_up(F_din))) (14)

其中，F_BR2表示特征提取模块第二分支的输出，F_Atten表示注意力模块，F_up表示上采样操作。

四、特征融合(FeatureFusion)模块。本发明在最终语义分割预测输出前的特征融合模块中使用了像素级相加(pixelsum)的策略。融合后的特征经过上采样中的反卷积操作输出得到最终的分割结果，整个过程结束。像素级相加可以表示为

F_add＝F_main+F_block1,BR2+F_block2,BR2 (15)

其中，F_add表示利用像素级相加方法得到的特征图。

最终整个语义分割网络的预测输出为：

F_out＝F_up(F_fusion) (16)

其中，F_fusion＝F_concatorF_add。

本发明与其他方法在城市道路数据集上的实验结果比较如表1所示。

表1在Cityscapes数据集上的实验结果

本发明在不运用预训练实验处理方法的情况下，在精度上，仍然处于最优。通过比较可以发现，本发明在不损害精度，也不增加模型冗余计算的前提下，在分割精度与参数量之间达到了完美的平衡。具体而言，平均交并比(mIoU)在70％以上的方法——DABNet、LEDNet，与本发明相比，虽然DABNet在参数量上比本发明少0.4M，但是在分割精度方面比本发明低了1.4％，并且在速度方面也慢了很多。而LEDNet与本发明相比，精度上也仍然有着0.9％的差距，这在语义分割领域已经是比较大的差距了。

Claims

1.一种基于上下文注意力机制和信息融合的实时语义分割方法，其特征在于，包括以下步骤：

(3)每个阶段特征融合之后，进入到注意力模块；

(6)利用训练好的模型来预测待测图像语义分割结果。

2.根据权利要求1所述的基于上下文注意力机制和信息融合的实时语义分割方法，其特征在于，所述步骤(2)的实现过程如下：

F_cout＝C_3x3(C_3x3(C_3x3(F_in))) (1)

F₁＝Down₁(F_in) (2)

F₂＝Down₂(F_in) (3)

F₃＝Down₃(F_in) (4)

F_initial＝Concat(F_cout,F₁) (5)

3.根据权利要求1所述的基于上下文注意力机制和信息融合的实时语义分割方法，其特征在于，所述步骤(4)的实现过程如下：

F_dout＝ρ(C_3x3(F_din)+Pool_max,2x2(F_din)) (9)

F_br1＝C_1x3(C_3x1(C_3x3(ρ(F_DABin)))) (10)

F_br2＝C_1x3,d(C_3x1,d(C_3x3(ρ(F_DABin)))) (11)

F_DABout＝Concat(C_1x1(ρ(F_br1+F_br2)),F_DABin) (12)

F_BR1＝Concat(F_DABout,F_n)n＝2,3 (13)

其中，F_BR1表示特征提取模块第一分支的输出；

F_BR2＝F_Atten(C_1x1(F_up(F_din))) (14)

4.根据权利要求1所述的基于上下文注意力机制和信息融合的实时语义分割方法，其特征在于，所述步骤(5)实现过程如下：

F_add＝F_main+F_block1,BR2+F_block2,BR2 (15)

其中，F_add表示利用像素级相加方法得到的特征图；

整个语义分割网络的预测输出为：

F_out＝F_up(F_fusion) (16)

其中，F_fusion＝F_concatorF_add。