CN112529081B

CN112529081B - 基于高效注意力校准的实时语义分割方法

Info

Publication number: CN112529081B
Application number: CN202011460343.8A
Authority: CN
Inventors: 周东生; 查恒丰; 刘瑞; 易鹏飞; 张强; 魏小鹏
Original assignee: Dalian University of Technology; Dalian University
Current assignee: Dalian University of Technology; Dalian University
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2023-11-07
Anticipated expiration: 2040-12-11
Also published as: CN112529081A

Abstract

本发明提供一种基于高效注意力校准的实时语义分割方法，包括：训练过程及测试过程；训练过程包括以下步骤：使用深层神经网络特征提取器作为主干网络，得到编码像素语义信息的特征图；对主干网络的输出特征图进行像素级别的分类，获取未经细化的粗糙语义分割图；将原始图像和原始图像的标注图像组成图像‑真值标签对，对输出进行监督学习，并保存最优模型用于后序操作；将经过训练后的的粗糙语义分割图作为输入至对特征图中各像素之间建立相关性的自校准空间注意力模块中，使得粗糙语义分割图进行自我校准，获取细化语义分割结果；通过原始图像和标注图像组成的图像‑真值标签对，对细化语义分割结果进行监督学习获取最优模型。

Description

基于高效注意力校准的实时语义分割方法

技术领域

本发明涉及实时语义分割方法的技术领域，具体而言，尤其涉及用于实时语义分割的高效注意力校准方法。

背景技术

图像语义分割是计算机视觉的基本任务之一，在自动驾驶和医学图像诊断等领域有着广泛的应用。其目的是预测图像中每个像素的类别，从而将图像转变为易于机器理解的形态，增强机器感知、理解世界的能力。

图像语义分割算法包括传统的基于手工特征的方法和基于深度学习的方法。随着深度学习技术的迅速发展，基于深度学习的图像语义分割算法已经成为了该领域的主流方法。而近年来随着大量的高准确率算法被提出，更多的研究者将目光转向实现图像语义分割算法的实时应用。

目前的实时语义分割方法大多采用基于全卷积网络的编解码器结构。为了提升算法的速度，通常通过降低特征通道和简化解码器构造的方法。但是这样的简化使得算法存在物体边缘的分割效果不佳以及难以分割小母体的问题。

注意力机制作为当前计算机视觉领域最广泛应用的技术，其中的空间注意力方法在提升图像语义分割的准确率上做出卓越贡献，然而由于其庞大的计算量，大大增加了模型推理所用的时间，以致模型难以用于实时应用场景。

发明内容

根据上述提出模型推理所用的时间长且难以用于实时应用场景的技术问题，而提供一种基于高效注意力校准的实时语义分割方法。本发明主要利用基于高效注意力校准的实时语义分割方法，其特征在于，包括：训练过程及测试过程；其中，所述训练过程包括以下步骤：

步骤S1：使用深层神经网络特征提取器作为主干网络，将原始图像输入所述主干网络提取特征，得到编码像素语义信息的特征图；

步骤S2：对所述主干网络的输出特征图进行像素级别的分类，获取未经细化的粗糙语义分割图Seg_coarse；

步骤S3：将所述原始图像和原始图像的标注图像组成图像-真值标签对，对步骤S2的输出Seg_coarse进行监督学习，并保存最优模型用于后序操作；

步骤S4：将经过S3训练后的S2的粗糙语义分割图Seg_coarse作为输入至对特征图中各像素之间建立相关性的自校准空间注意力模块中，使得粗糙语义分割图进行自我校准，获取细化语义分割结果Seg_fine；

步骤S5：通过S3中所述原始图像和标注图像组成的图像-真值标签对，对细化语义分割结果Seg_fine进行监督学习获取最优模型；

所述测试过程包括以下步骤：

步骤Sa：对于一张待分割图像，将其输入所述步骤S5的所述最优模型中，获取细化的图像语义分割结果。

步骤Sb：完成所述待分割图像的语义分割。

进一步地，所述的步骤S2-步骤S5中通过实时语义分割网络编码器部分来提取空间特征；将所述特征经过分类层后得到粗分割结果，通过所述粗分割结果作为注意力模块的输入。

更进一步地，所述步骤S4中的自校准空间注意力模块，通过下采样的粗分割结果获取键向量和值向量，并用于与粗分割结果得到的查询向量计算特征图。

较现有技术相比，本发明具有以下优点：

相对于现有的技术，本发明以相当的速度取得了更好的分割结果，尤其在物体边缘和对小物体的分割上。这对于实时图像语义分割算法在真实应用场景上是很有意义的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明模型框架示意图。

图2为本发明自校准空间注意力模块示意图。

图3为本发明模型在Cityscapes数据集上的可视化分割结果。

图4为本发明模型在CamVid数据集上的可视化分割结果。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1-4所示，本发明提供了一种用于实时语义分割的高效注意力校准方法包括：训练过程及测试过程；其中，所述训练过程包括以下步骤：

步骤S1：使用深层神经网络特征提取器作为主干网络，将原始图像输入所述主干网络提取特征，得到编码像素语义信息的特征图；在本申请中所述主干网络可以为现有实时语义分割技术中任何基于深层神经网络的方法的特征提取器。

步骤S3：将所述原始图像和原始图像的标注图像组成图像-真值标签对，对步骤S2的输出Seg_coarse进行监督学习，并保存最优模型用于后序操作；作为优选的，本申请所述标注图像为原始图像对应的标签。所述训练为深度学习领域的有监督学习。

步骤S4：将经过S3训练后的S2的粗糙语义分割图Seg_coarse作为输入至对特征图中各像素之间建立相关性的自校准空间注意力模块中，使得粗糙语义分割图进行自我校准，获取细化语义分割结果Seg_fine。在本申请中，作为优选的，自校准空间注意力模块，通过下采样的粗分割结果获取键向量和值向量，并用于与粗分割结果得到的查询向量计算特征图。

同时，作为一种优选的实施方式，所述测试过程包括以下步骤：

Sa：对于一张待分割图像，将其输入所述步骤S5的所述最优模型中，获取细化的图像语义分割结果。

Sb：完成所述待分割图像的语义分割。

在本申请中，所述的步骤S2-步骤S5中通过实时语义分割网络编码器部分来提取空间特征；将所述特征经过分类层后得到粗分割结果，通过所述粗分割结果作为注意力模块的输入。

作为优选的实施方式，在本申请中，对于输入数据的处理，首先对于输入为单张图像的场合，可以直接将其作为网络的输入input，也可以对其进行尺度变化操作改变其大小后作为网络的输入input。如果输入为视频，将视频拆为图像帧后将每个图像帧作为网络的输入input。

进而对于粗分割结果的获取：

将网络输入input送入主干网络得到特征表示

然后将特征表示送入分类层即可得到需要的粗分割结果：

最终分割结果：

将粗分割结果Seg_coarse送入自校准空间注意力模块，得到最后的分割结果：

Seg_fine＝SCA(Seg_coarse)

其中，SCA为图2所示的本发明中使用的自校准空间注意力模块，该模块将粗分割结果Seg_coarse作为输入对其做下采样操作后使用卷积操作得到键向量/>和值向量/>

上式中，和ψ表示卷积层，down表示下采样。

同时将原输入经过卷积层得到查询向量/>

其中φ表示卷积层。

然后对和/>做矩阵乘法并经过softmax激活函数得到注意力图/>

上式中，“*”表示矩阵乘法，softmax表示softmax激活函数。

之后再将和/>做矩阵乘法后的结果和原输入/>相加得到该块的输出。同时该模块的输出也是整个网络的最终分割结果Seg_fine

图3展示了注意力校准模型在Cityscapes数据集上的识别效果。从左到右分别为原始输入图像、可视化的标注图像、主干网络的完整网络ERFNet的可视化分割结果、本发明使用ERFNet编码器作为主干网络的注意力校准网络的可视化分割结果。

图4展示了注意力校准模型在CamVid数据集上的识别效果。从左到右分别为原始输入图像、可视化的标注图像、本发明中使用ERFNet编码器作为主干网络的注意力校准网络的可视化分割结果、本发明中使用DABNet作为主干网络的注意力校准网络的可视化分割结果。

本发明的有益效果可以通过以下实验进一步说明。

首先我们对本发明中出现的参数和字符进行解释说明：

其中，mIoU表示平均交并比，是由对各类别的IoU求均值得到，IoU表示交并比，由以下公式计算得到：

其中，TP代表真阳样本数，FN代表假阳样本数，FN代表假阴样本数。

实验环境为Ubuntu18.04系统，程序语言为Python，硬件配置为Intel(R)Core(TM)i9-9900X，主频3.50GHz CPU，内存为64GB，显卡为1块NVIDIA GeForce RTX 2080Ti。采用的数据集为Cityscapes和CamVid。

实施例一：

在训练阶段：

步骤1：将Cityscapes数据集和CamVid数据集中的图像进行数据增强，数据增强包括左右翻转，随机裁剪，尺度变换等。最后将经过数据增强后的图像固定到512×1024大小作为输入数据inputs。同时对每幅图像的标注图像做同样的操作，作为输出后的目标图像targets。

步骤2：使用ERFNet的编码器和DABNet的主干网络作为注意力校准网络的主干网络，并添加分类层用于对主干网络的输出特征图进行像素级别的分类，得到未经细化的粗分割结果Seg_coarse。

步骤3：使用步骤1得到的inputs和targets组成图像-真值标签对，对步骤2的粗分割结果进行训练。对于使用ERFNet编码器作为主干网络的情况，使用Adam优化器，初始学习率设置为0.0005，训练次数没400轮；对于使用DABNet主干网络作为注意力校准网络的主干网络时，使用SGD优化器，初始学习率设置为0.01，训练次数为1000轮；

步骤4：将经过步骤3训练后的粗分割结果作为输入，送入自校准空间注意力模块，通过自校准空间注意力模块细化分割结果，产生最终的细化语义分割结果Seg_fine；

步骤5：使用步骤1得到的inputs和targets组成图像-真值标签对，对步骤4的粗分割结果进行训练。对于使用ERFNet编码器作为主干网络的情况，使用Adam优化器，初始学习率设置为0.0005，训练次数为400轮；对于使用DABNet主干网络作为注意力校准网络的主干网络时，使用SGD优化器，初始学习率设置为0.01，训练次数为1000轮；

至此，完成注意力校准网络的训练阶段。

测试阶段：

步骤6：将Cityscapes数据集和CamVid数据集的图像不经任何数据增强处理，直接送入训练完成的注意力校准网络，依次经过主干网络，分类层，自校准空间注意力模块，得到最后的细化语义分割结果。

至此，图像语义分割完成。

以下为本发明在Cityscapes数据集上的测试结果：

以下为本发明在CamVid数据集上的测试结果：

模型	FLOPS(B)	参数(M)	帧率(FPS)	mIoU
					EACNet-ERF	7.15	1.87	123	69.3
EACNet-DAB	3.42	0.76	100	69.6

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.基于高效注意力校准的实时语义分割方法，其特征在于，包括：训练过程及测试过程；其中，所述训练过程包括以下步骤：

S1：使用深层神经网络特征提取器作为主干网络，将原始图像输入所述主干网络提取特征，得到编码像素语义信息的特征图；

S2：对所述主干网络的输出特征图进行像素级别的分类，获取未经细化的粗糙语义分割图Seg_coarse；

S3：将所述原始图像和原始图像的标注图像组成图像-真值标签对，对步骤S2的输出Seg_coarse进行监督学习，并保存最优模型用于后序操作；

S4：将经过S3训练后的S2的粗糙语义分割图Seg_coarse作为输入至对特征图中各像素之间建立相关性的自校准空间注意力模块中，使得粗糙语义分割图进行自我校准，获取细化语义分割结果Seg_fine；

Seg_fine＝SCA(Seg_coarse)

其中，SCA为自校准空间注意力模块，该模块将粗分割结果Seg_coarse作为输入对其做下采样操作后使用卷积操作得到键向量/>和值向量/>

上式中，和ψ表示卷积层，down表示下采样；

同时将原输入经过卷积层得到查询向量/>

其中φ表示卷积层；

然后对和/>做矩阵乘法并经过softmax激活函数得到注意力图/>

上式中，“*”表示矩阵乘法，softmax表示softmax激活函数；

之后再将和/>做矩阵乘法后的结果和原输入/>相加得到该模块的输出，同时该模块的输出也是整个网络的最终分割结果Seg_fine

S5：通过S3中所述原始图像和标注图像组成的图像-真值标签对，对细化语义分割结果Seg_fine进行监督学习获取最优模型；

所述测试过程包括以下步骤：

Sa：对于一张待分割图像，将其输入所述步骤S5的所述最优模型中，获取细化的图像语义分割结果；

Sb：完成所述待分割图像的语义分割。

2.根据权利要求1所述的基于高效注意力校准的实时语义分割方法，其特征在于，

所述的步骤S2-步骤S5中通过实时语义分割网络编码器部分来提取空间特征；将所述特征经过分类层后得到粗分割结果，通过所述粗分割结果作为注意力模块的输入。

3.根据权利要求1所述的基于高效注意力校准的实时语义分割方法，其特征在于，所述步骤S4中的自校准空间注意力模块，通过下采样的粗分割结果获取键向量和值向量，并用于与粗分割结果得到的查询向量计算特征图。