CN113066089B

CN113066089B - 一种基于注意力引导机制的实时图像语义分割方法

Info

Publication number: CN113066089B
Application number: CN202110366778.4A
Authority: CN
Inventors: 周全; 刘嘉; 强勇; 王林杰; 施慧民; 孙振涵
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2023-07-11
Anticipated expiration: 2041-04-06
Also published as: CN113066089A

Abstract

一种基于注意力引导机制的实时图像语义分割方法，包括下采样单元，上采样单元，极致高效残差模块，自适应注意力模块以及自适应融合模块。整体网络结构的特征提取单元为极致高效残差模块，使用自适应注意力模块ASAM有效减小了模块的计算复杂度，且能捕捉到有效像素点之间的相关性信息；并通过自适应融合模块ASFM将低级与高级特征连接起来，在语义分割中，将不同层次的特征连接起来；通过对以上五个组件进行堆叠，构建基于注意力机制的实时语义分割网络，其中编码器生成下采样的特征图，解码器对深层的特征图进行上采样以匹配输入图像分辨率，恢复图像的空间信息并向分割类别映射，最终生成与输入图像相同分辨率的语义分割结果图。

Description

一种基于注意力引导机制的实时图像语义分割方法

技术领域

本发明属于图像语义分割技术领域，具体涉及一种基于注意力引导机制的实时图像语义分割方法。

背景技术

语义分割一直是计算机视觉中十分重要的领域，随着深度学习的流行，语义分割任务也取得了巨大进展。语义分割是图像的像素级理解任务，目的在于给输入图像的每一个像素点标注其所属的类别，任务是将图像分割成若干个有意义的目标，并为各个目标分配指定类型标签。自动驾驶和移动机器人的兴起，对实时语义分割算法的需求越来越强烈。在自动驾驶或者移动机器人的应用场景下，对语义分割算法一般有着额外的需求。一方面，算法要有实时性，最好实时性非常高，因为语义分割仅仅是整个视觉感知系统中预处理的一部分，语义分割的结果往往作为后续感知或融合模块的输入；另一方面，算法要占用比较低的内存，以允许部署在低成本的嵌入式设备中。

在目前的深度学习和计算机视觉算法中，卷积神经网络CNN应用广泛。虽然目前一些CNN模型都符合行业适用的标准，可以嵌入到商业产品中，但是标准的CNN算法仍然有局限性，在很多方面还可以改进。编解码网络是许多计算机视觉任务中的标准方法，特别是像素级预测任务，但是如果深入研究卷积的计算，这种架构的局限性就会浮出表面。例如，在3×3卷积中，卷积滤波器有9个像素，目标像素的值仅参照自身和周围的8个像素计算。这意味着卷积只能利用局部信息来计算目标像素，这可能会带来一些偏差，看不到全局信息。就导致模型在提取整合全局信息时遇到比较明显的两个问题：一方面，当研究需要捕获长范围特征依赖时，比如视频序列抓取某一类别的特征，就需要把网络拓得很深，而太深的网络模型往往计算量会剧增，导致运行速度慢，整体学习效率变低；另一方面，当网络的深度乃至宽度都有大幅度增长时，它的模块设计和梯度运算都需要精细地考虑在内，否则模型的准确度难以得到保障。

也有一些朴素的方法来缓解这个问题，比如，使用更大的卷积滤波器或有更多卷积层的更深的网络。然而，这种做法使得计算开销越来越大，结果也并没有得到显著的改善。为了实现对每个像素级分割任务的精准预测，Non-localNetwork被提出，主要核心思想就是用Self-attention来对特征的权重进行重标定，建模远程依赖。Non-local块需要计算输入图片内所有的像素点与其他像素点之间的关系，每一对关系都会生成attention map，再通过特征加权来整合所有点的特征，这样就可以得到与某一点相关的全局特征，最后把得到的全局特征融合到该点，整个流程完毕就建立了某一点甚至是某一类别的远程依赖，进而实现对图像的精准分割。

Non-Local在学术界的火热在于其确实能显著地改进效果，但根据在工业界的实际使用情况来看，巨大的计算开销使得Non-Local很难在实际工程项目中落地。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种基于注意力引导机制的实时图像语义分割方法，以编解码结构为网络主干，采用极致高效残差模块EERM为特征提取单元，使用自适应注意力模块ASAM进行采样，实现模型分割准确性和效率之间的最佳平衡。

本发明提供一种基于注意力引导机制的实时图像语义分割方法，包括以下步骤；

步骤S1、对输入的原始图像进行预处理，获取分辨率为原始图像一半的降采样图像，该降采样图像作为编码器的输入图像；

步骤S2、利用下采样单元对编码器的输入图像进行两倍的下采样，获取通道数为16的第一特征图；

步骤S3、利用下采样单元对第一特征图进行两倍的下采样，获取通道数为64的第二特征图；

步骤S4、利用极致高效残差模块对第二特征图进行卷积操作；重复该卷积操作5次，每次采用相同的扩张率，扩张率为r＝1，每一次卷积中卷积核个数均为64，获取通道数为64的第三特征图，第三特征图的分辨率和特征通道数与第二特征图相同；

步骤S5、利用下采样单元对第三特征图进行两倍的下采样，得到通道数为128的第四特征图；

步骤S6、利用极致高效残差模块对第四特征图进行卷积操作，重复该卷积操作16次，扩张率依次为r＝1，2，5，9，1，2，5，9，2，5，9，17，2，5，9，17，每一次卷积中卷积核个数均为128，获取通道数为128的第五特征图，即编码器的输出；

步骤S7、利用上采样单元对第五特征图进行两倍的上采样，获取通道数为64的第六特征图；

步骤S8、利用极致高效残差模块对第六特征图进行卷积操作；重复该卷积操作两次，每一次卷积中卷积核个数均为64，获取通道数为64的第七特征图，第七特征图的分辨率和特征通道数与第六特征图相同；

步骤S9、利用自适应融合模块对第七特征图和第三特征图进行相加的特征融合操，获取通道数为64的第八特征图；

步骤S10、利用上采样单元对第八特征图进行两倍的上采样，获取通道数为16的第九特征图；

步骤S11、利用极致高效残差模块对第九特征图进行卷积操作；重复该卷积操作两次，每一次卷积中卷积核个数均为16，获取通道数为16的第十特征图，第十特征图的分辨率和特征通道数与第九特征图相同；

步骤S12、利用自适应注意力模块对第十特征图进行特征加强，获取通道数为64的第十一特征图；

步骤S13、利用上采样单元对第十一特征图进行两倍的上采样，并向分割类别映射，获取通道数为分割类别数C的特征图，即解码器的输出，作为最终的分割结果图，其分辨率与编码器的输入图像一致。

作为本发明的进一步技术方案，步骤S1中，对输入的原始图像进行预处理的过程为：将原始图像缩放到原图尺寸的一半，对缩放后的图像进行左右翻转，再对其进行随机平移，随机平移范围为0-2个像素点，从平移后的图像中裁剪出尺寸为原始图像一半的图像，该降采样图像即作为编码器的输入图像。

进一步的，下采样单元由并行分支构成，并行分支一侧采用卷积核大小为3×3，卷积核个数为16-3＝13，步长为2，则该侧分支输出特征图通道数为16-3＝13；并行分支另一侧采用Max-Pooling，该侧分支输出特征图通道数为下采样单元输入通道数，即为3，然后将两个分支得到的特征图在通道上做连接，即通道叠加，作为下采样单元输出。

进一步的，自适应注意力模块对输入的特征图先经过一个1×1卷积进行线性映射得到特征；然后对处理后的Key分支的特征采用Adaptive Pooling操作；所述AdaptivePooling操作对给定的任意输入，均可指定输出张量的大小，该操作可以将原始的C×N的矩阵进行了进一步的特征抽取，从而得到了C×S的特征矩阵，其中S<<N，可以大大减小计算复杂度和内存消耗；然后将Query获取的C×N特征矩阵转置为N×C，方便和Key分支的C×S的特征矩阵进行相似度计算，得到N×S的相关性矩阵；再利用Softmax函数进行归一化；Value分支同样经过Adaptive Pooling操作获取采样后的C×S的特征矩阵，为了方便与N×C矩阵相乘，这里把该分支获取的C×S特征矩阵进行转置，最终输出N×C的特征图，最后再恢复成与输入一致的维度，在网络中将这个特征与原输入相加，得到图像特征表示。

进一步的，自适应融合模块通过Non-Local机制连接特征；自适应融合模块包括高级特征输入和低级特征输入，两个输入均先经过一个1×1卷积进行线性映射获取特征；低级特征输入后通过AdaptivePooling操作进行采样从原本C×N大小的特征变成了大小为C×S的特征矩阵；然后计算Query和Key的相关性矩阵，即高级特征和低级特征之间的相关性矩阵，将Query转置后与Key相乘，再利用Softmax函数进行归一化，获取一个N×S的相关性矩阵；最后将这个相关性矩阵与Value分支输出的特征进行转置相乘最终获取不同level下特征的融合表示；最终将这个表示与高层输出的特征相加后获取原始图像最新的特征表示。

进一步的，上采样单元由反卷积层、激活层、批量归一化层顺序堆叠构成。

进一步的，步骤S13中的所述上采样单元直接由反卷积层构成。

本发明的优点在于，发明以编解码结构为网络主干，以极致高效残差模块EERM为特征提取单元，一般的下采样以及上采样模块，使用新提出的自适应注意力模块ASAM来捕捉到每个像素点之间的相关性信息，并通过自适应融合模块ASFM将低级与高级特征连接起来。实验显示，ASNet的模型尺寸仅为0.81M，在单台GTX 2080Ti GPU上，Cityscapes测试集上实现了72.4％的mIoU以及60fps的运行速度，Camvid测试集上实现了66.9％的mIoU以及79fps的运行速度，精度较高且运行速度超过移动设备实时标准，实现了分割精度和实施效率之间的最佳平衡。

附图说明

图1为本发明的网络架构图；

图2为本发明的极致高效残差模块EERM结构图；

图3为本发明的自适应注意力模块ASAM和自适应注融合模块ASFM结构图；

图4为本发明的网络与多个轻量级网络在Cityscapes基准上的分割定性结果比较图；

图5为本发明的网络在Camvid基准上的分割定性结果图。

具体实施方式

请参阅图1，本实施例提供一种基于注意力引导机制的编解码网络，包括下采样单元，上采样单元和极致高效卷积模块，适应注意力模块和自适应注融合模块；整体网络结构的特征提取单元是极致高效残差模块EERM，它使用可分解的深度可分离扩张卷积FDDWC，Factorized Dilated Depth-wiseConvolution，其中采用了具有不同扩张率的扩张卷积扩大了感受野，以重新设计残差块，允许用少量模型参数从不同尺度的感受野中学习特征，但计算复杂度要低得多，同时保持非常少的模型参数来加快推理速度。除此以外，为了提高网络的特征表达能力，使用新提出的自适应注意力模块ASAM，从减少Non-Local模块计算量角度出发，这个模块的整体结构与普通的Non-Local模块相似，区别在于普通的Non-Local机制直接使用被处理的特征图进行计算，而ASAM模块则在中间层使用了一个下采样的过程，大大减小了模块的计算复杂度，且还能捕捉到有效像素点之间的相关性信息；并通过自适应融合模块ASFM将低级与高级特征连接起来，在语义分割中，将不同层次的特征连接起来是一个非常常见且有效的操作。由于将普通Non-Local模块中的N经过采样操作之后变成了较小的S，这样就不能捕捉到每个像素点之间的相关性信息，可能会造成效果欠佳，所以为了使模型性能进一步的提升，在考虑长依赖性的情况下融合不同级别下的特征。尽管这两种操作增加了一点计算负担，但有助于收集更多的上下文信息。通过对以上五个组件进行堆叠，构建基于注意力机制的实时语义分割网络，其中编码器生成下采样的特征图，解码器对深层的特征图进行上采样以匹配输入图像分辨率，恢复图像的空间信息并向分割类别映射，最终生成与输入图像相同分辨率的语义分割结果图。

该网络的具体步骤如下：

步骤S1中，对输入的原始图像进行预处理的过程为：将原始图像缩放到原图尺寸的一半，对缩放后的图像进行左右翻转，再对其进行随机平移，随机平移范围为0-2个像素点，从平移后的图像中裁剪出尺寸为原始图像一半的图像，该降采样图像即作为编码器的输入图像。

下采样单元由并行分支构成，并行分支一侧采用卷积核大小为3×3，卷积核个数为16-3＝13，步长为2，则该侧分支输出特征图通道数为16-3＝13；并行分支另一侧采用Max-Pooling，该侧分支输出特征图通道数为下采样单元输入通道数，即为3，然后将两个分支得到的特征图在通道上做连接，即通道叠加，作为下采样单元输出。

自适应注意力模块对输入的特征图先经过一个1×1卷积进行线性映射得到特征；然后对处理后的Key分支的特征采用Adaptive Pooling操作；所述Adaptive Pooling操作对给定的任意输入，均可指定输出张量的大小，该操作可以将原始的C×N的矩阵进行了进一步的特征抽取，从而得到了C×S的特征矩阵，其中S<<N，可以大大减小计算复杂度和内存消耗；然后将Query获取的C×N特征矩阵转置为N×C，方便和Key分支的C×S的特征矩阵进行相似度计算，得到N×S的相关性矩阵；再利用Softmax函数进行归一化；Value分支同样经过Adaptive Pooling操作获取采样后的C×S的特征矩阵，为了方便与N×C矩阵相乘，这里把该分支获取的C×S特征矩阵进行转置，最终输出N×C的特征图，最后再恢复成与输入一致的维度，在网络中将这个特征与原输入相加，得到图像特征表示。

上采样单元由反卷积层、激活层、批量归一化层顺序堆叠构成。

步骤S13中的上采样单元直接由反卷积层构成。

需要指明的是，本实施例的整体网络是在两个图像语义分割公共基准Cityscapes和Camvid上进行测试的，所以图1中标识的参数：宽x高x通道数，针对不同的数据集是可做相应变动的，附图1以Cityscapes数据集示例；

如图2所示，在残差层中采用了广泛使用的1D分解卷积，高效的深度可分离卷积和具有不同扩张率的扩张卷积，1D分解卷积和深度可分离卷积能有效地降低网络的计算复杂度，使网络能保持非常少的模型参数来加快推理速度，扩张卷积的使用扩大了感受野(receptive field，即卷积神经网络每一层输出的特征图上每个像素点在原始图像上映射的区域大小)，不仅不增加计算负担，而且提升了特征提取的效果。补充说明：这里所说的扩张卷积，也常称作带孔或带洞卷积(Dilated Convolution，or Atrous Convolution)，目的是为了扩大神经元的感受野，值得注意的是，当扩张卷积的扩张率dilationrate＝1时，扩张卷积方式和普通卷积没有区别，当dilationrate>1时，扩张卷积是在普通卷积的卷积核的每个值之间引入了间隔，即相邻两个神经元之间插入dilationrate-1个零值，在相同的计算复杂度下，扩张卷积提供了更大的感受野。

如图3所示，(a)为ASAM模块结构图，首先对输入的特征图先经过一个1×1卷积进行线性映射得到特征；然后对处理后的Key分支的特征采用AdaptivePooling操作。Adaptive Pooling的特殊性在于，给定任意输入，均可指定输出张量的大小。例如，输入张量大小为(1,64,8,9)，设定输出大小为(5,7)，通过Adaptive Pooling层，可以得到大小为(1,64,5,7)的张量。只要给定输入数据和输出数据的大小，自适应算法能够自动帮助模型计算核的大小和每次移动的步长。通过这一操作就可以将原始的C×N的矩阵进行了进一步的特征抽取，从而得到了C×S的特征矩阵，其中S<<N，可以大大减小计算复杂度和内存消耗；然后将Query得到的C×N特征矩阵转置为N×C，方便和Key分支的C×S的特征矩阵进行相似度计算，得到N×S的相关性矩阵；再利用Softmax函数进行归一化；Value分支同样经过Adaptive Pooling得到采样后的C×S的特征矩阵，为了方便与N×C矩阵相乘，这里把该分支获得的C×S特征矩阵进行转置，最终输出N×C的特征图，最后再恢复成与输入一致的维度，在网络中将这个特征与原输入相加，得到图像特征表示。以此代替普通Non-Local中直接被处理的特征，这样的操作既能获得密集的上下文信息，又不会引入巨大的计算量。

(b)为ASFM模块结构图，利用新的Non-Local机制来连接特征，在具体操作时，该模块同样使用AdaptivePooling操作来实现下采样以此节省计算。这个模块有两个输入，分别为高级特征输入和低级特征输入，先都经过经过一个1×1卷积进行线性映射得到特征；低级特征输入后通过AdaptivePooling操作进行采样从原本C×N大小的特征变成了大小为C×S的特征矩阵；然后计算Query和Key的相关性矩阵，即高级特征和低级特征之间的相关性矩阵，将Query转置后与Key相乘，再利用Softmax函数进行归一化，得到一个N×S的相关性矩阵；最后将这个相关性矩阵与Value分支输出的特征(经过采样后的低级特征)进行转置相乘最终得到了不同level下特征的融合表示。最终将这个表示与高层输出的特征相加后得到原始图像最新的特征表示。

如图4所示，为了验证本发明设计网络的准确性和实施效率，在广泛使用的Cityscapes数据集上对模型进行了训练、评估与预测。Cityscapes针对城市景观的像素级理解，是自动驾驶领域的图像语义分割数据集。共有5000张精细标注的图像和20000张粗略标注的图像，图像分辨率均为1024×2048，包含50个城市的不同场景、背景以及街景，以及30类涵盖地面、建筑、交通标志、自然、天空、人和车辆等的物体标注。本发明仅采用精细标注的5000张图片做实验，经数据预处理操作后，训练集/验证集/测试集分别包含图像数目为2975/500/1525张，分割类别数为20，即19个目标类别和1个背景类别。

训练后，与多个轻量级网络输出的分割结果定性比较，在图3中选择了7个最先进的轻量级网络作为基线，包括DABNet、DSNet、ICNet、Fast-scnn、ESPNetv2、ERFNet和CGNet。为了评估分割性能，评估指标采用标准的杰卡德系数(JaccardIndex)，通常也被称为PASCALVOC交叉联合(或交并比)度量，下面为IoU(Intersection-over-Union)的计算公式：

其中TP、FP、FN分别代表在整个Cityscapes测试集上确定的真正类(TruePositive)、假正类(FalsePositive)、假负类(FalseNegative)像素点的个数。

本实施例的模型ASNet在Cityscapes测试集上的mIoU为72.4％，速度为60FPS。实验结果表明，所设计的基于注意力机制的编解码网络实现了分割精度和实施效率之间的最佳平衡，其性能在很大程度上已经超过了很多先进的模型。从图中可以看出ASNet相比于DABNet、DSNet、ICNet、Fast-scnn、ESPNetv2、ERFNet和CGNet的分割结果(图中从左往右依次)，前者在分割的准确性和效率之间实现了最优折中。

如图4所示，Camvid数据集是一个自动驾驶领域视频数据集，包含701张图片可用于像素级别的语义分割和图像分割，图片分辨率为720×960。经数据预处理操作后，训练集/验证集/测试集分别包含图像数目为367/101/233张，分割类别数为11。ASNet在Camvid测试集上的mIoU为66.9％，速度为79FPS。

实验结果表明，与多个轻量级基准网络相比，本发明设计的ASNet不仅可以正确地对不同尺度的物体进行像素级别的分类，而且可以为所有类别生成一致的定性结果。无论从定量还是定性的结果进行比较，都充分说明了本发明所提出的网络在实时图像语义分割任务中的优越性

以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解，本发明不受上述具体实施例的限制，上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理，在不脱离本发明精神范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由权利要求书及其等效物界定。

Claims

1.一种基于注意力引导机制的实时图像语义分割方法，其特征在于，包括以下步骤；

2.根据权利要求1所述的一种基于注意力引导机制的实时图像语义分割方法，其特征在于，所述步骤S1中，对输入的原始图像进行预处理的过程为：将原始图像缩放到原图尺寸的一半，对缩放后的图像进行左右翻转，再对其进行随机平移，随机平移范围为0-2个像素点，从平移后的图像中裁剪出尺寸为原始图像一半的图像，该降采样图像即作为编码器的输入图像。

3.根据权利要求1所述的一种基于注意力引导机制的实时图像语义分割方法，其特征在于，所述下采样单元由并行分支构成，并行分支一侧采用卷积核大小为3×3，卷积核个数为16-3＝13，步长为2，则该侧分支输出特征图通道数为16-3＝13；并行分支另一侧采用Max-Pooling，该侧分支输出特征图通道数为下采样单元输入通道数，即为3，然后将两个分支得到的特征图在通道上做连接，即通道叠加，作为下采样单元输出。

4.根据权利要求1所述的一种基于注意力引导机制的实时图像语义分割方法，其特征在于，所述自适应注意力模块对输入的特征图先经过一个1×1卷积进行线性映射得到特征；然后对处理后的Key分支的特征采用AdaptivePooling操作；所述AdaptivePooling操作对给定的任意输入，均可指定输出张量的大小，该操作可以将原始的C×N的矩阵进行了进一步的特征抽取，从而得到了C×S的特征矩阵，其中S<<N，可以大大减小计算复杂度和内存消耗；然后将Query获取的C×N特征矩阵转置为N×C，方便和Key分支的C×S的特征矩阵进行相似度计算，得到N×S的相关性矩阵；再利用Softmax函数进行归一化；Value分支同样经过AdaptivePooling操作获取采样后的C×S的特征矩阵，为了方便与N×C矩阵相乘，这里把该分支获取的C×S特征矩阵进行转置，最终输出N×C的特征图，最后再恢复成与输入一致的维度，在网络中将这个特征与原输入相加，得到图像特征表示。

5.根据权利要求1所述的一种基于注意力引导机制的实时图像语义分割方法，其特征在于，所述自适应融合模块通过Non-Local机制连接特征；自适应融合模块包括高级特征输入和低级特征输入，两个输入均先经过一个1×1卷积进行线性映射获取特征；低级特征输入后通过AdaptivePooling操作进行采样从原本C×N大小的特征变成了大小为C×S的特征矩阵；然后计算Query和Key的相关性矩阵，即高级特征和低级特征之间的相关性矩阵，将Query转置后与Key相乘，再利用Softmax函数进行归一化，获取一个N×S的相关性矩阵；最后将这个相关性矩阵与Value分支输出的特征进行转置相乘最终获取不同level下特征的融合表示；最终将这个表示与高层输出的特征相加后获取原始图像最新的特征表示。

6.根据权利要求1所述的一种基于注意力引导机制的实时图像语义分割方法，其特征在于，所述上采样单元由反卷积层、激活层、批量归一化层顺序堆叠构成。

7.根据权利要求1所述的一种基于注意力引导机制的实时图像语义分割方法，其特征在于，所述步骤S13中的所述上采样单元直接由反卷积层构成。