CN116701681A

CN116701681A - 一种用于语义分割的多查询网络

Info

Publication number: CN116701681A
Application number: CN202310841079.XA
Authority: CN
Inventors: 谢斌; 曹家乐; 庞彦伟
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-07-10
Filing date: 2023-07-10
Publication date: 2023-09-05
Anticipated expiration: 2043-07-10
Also published as: CN116701681B

Abstract

本发明涉及一种用于语义分割的多查询网络，其基础架构包括骨干网和解码器组成，包括下列步骤：对于给定的图像，利用骨干网提取多层深度特征，骨干网由多层Transformer块堆叠形成，在每一层均能得到输入图像的特征表示，选择不同层次的深度特征作为骨干网输出的特征图，随后将这些特征同时输入到解码器中进行掩码的生成和分类；根据骨干网的网络参数L，以及预先设定的阶段数S，随机初始化为由L×S个ATM模块组成的解码器；每个ATM模块依次堆叠多个自注意力层、跨注意力层和前馈神经网络层，用于获取性能更好的特征嵌入，并将最后一个跨注意力层得到的掩码M作为输出。

Description

一种用于语义分割的多查询网络

技术领域

本发明涉及自动驾驶、缺陷检测等计算机视觉领域中语义分割方法，特别是涉及基于深度学习进行语义分割的方法。

背景技术

语义分割是使计算机能够将图像中归属于同一物体类别的区域分割出来，并且给定准确的物体边界和物体类别的技术。直观理解，它是一项需要稠密标记的视觉场景理解任务，需要将图像分割为均一区域，这些均一区域具有完整且明确的语义。语义分割在许多计算机视觉领域具有广泛的应用，如自动驾驶、图像编辑、图像检索、增强现实、缺陷检测等。

近年来，基于深度学习的语义分割技术取得了巨大的进展。这类语义分割技术的一般流程如下：第一步，选定用于提取图像深度特征的骨干网络(Backbone)，这类骨干网络通常由多层卷积神经网络或多层Transformer块堆叠实现。根据骨干网结构的不同，所提取的深度特征有多尺度(Multi-Scale)和多层次(Multi-Level)两种形式，这两种形式最直观的区别就是多尺度的特征存在金字塔结构的尺寸，而多层次的特征的尺寸保持相同。第二步(可选)，特征被送入编码器(Encoder)结构以此实现特征彼此间的信息交换或强化，现有的技术也开发出了多种不同类型的编码器，如特征金字塔网络(Feature PyramidNetworks,FPN)、多层特征聚合(Multi-Level Feature Aggregation,MLA)等。通常将这一步操作得到的特征称为增强后的特征。第三步，(增强后的)特征被输入解码器(Decoder)中获取输入图像中的语义信息，通常分别得到输入图像对应的掩码和分类信息，将掩码和分类信息进行特定的后处理操作后，点乘得到最终的语义分割结果。经以上三步，可完成输入图像的语义分割。

回顾技术发展历史，首先是基于全卷积神经网络(FCN)的分割方法占据主流，Long等人[1]利用跨连接来更好的结合用于语义分割的浅层、深层特征，Chen等人[2]提出的DeepLab采用并行的多分支结构来提取多尺度特征，Fu等人[3]提出的SDN通过堆叠多层编码器-解码器结构来整合深层上下文信息。

随着Transformer结构在自然语言处理上取得的巨大成功，基于视觉Transformer的方法不断被提出，并超越FCN结构取得最佳的性能表现。基于Transformer的语义分割方法可大致分为两类：一种是改进用于特征提取的骨干网，如Xie等人[4]提出的SegFormer中为生成多尺度特征而引入的层次化的Transformer编码器。另一种则是改进用于语义分割的解码器。如Zheng等人[5]提出的SETR中首次采用专门设计的解码器对VisionTransformer(ViT)提取的特征进行上采样后完成逐像素的分割；Strudel等人[6]提出的Segmenter在编码器中使用一个类别嵌入的集合结合编码器特征来预测不同语义类别的掩码；Cheng等人提出的MaskFormer[7]与Mask2Former[8]则将语义分割任务视作掩码分类问题，采用解码器的特征嵌入与编码器得到的特征图做点积后生成掩码；与之不同的是，最近的SegViT[9]引入了新的注意力到掩码(Attention-to-Mask,ATM)模块直接将组成解码器的Transformer块中的相似度图作为掩码输出。

现有的语义分割技术仍然未能充分利用骨干网提取得到的不同层次(增强后的)特征中各类信息，主要的原因是主流的基于Transformer的技术，在解码器模块采用单个查询(Query)学习不同层次的特征，虽然不同层次特征存在许多共性，能够强化查询对某些关键特征的识别能力，但这种设计的代价就是削弱了查询对每个层次特征中包含的专属信息的识别能力。

参考文献：

[1]Long J,Shelhamer E,Darrell T.Fully convolutional networks forsemantic segmentation[C]//Proceedings of the IEEE conference on computervision and pattern recognition.2015:3431-3440.

[2]Chen L C,Papandreou G,Kokkinos I,et al.Deeplab:Semantic imagesegmentation with deep convolutional nets,atrous convolution,and fullyconnected crfs[J].IEEE transactions on pattern analysis and machineintelligence,2017,40(4):834-848.

[3]Fu J,Liu J,Wang Y,et al.Stacked deconvolutional network forsemantic segmentation[J].IEEE Transactions on Image Processing,2019.

[4]Xie E,Wang W,Yu Z,et al.SegFormer:Simple and efficient design forsemantic segmentation with transformers[J].Advances in Neural InformationProcessing Systems,2021,34:12077-12090.

[5]Zheng S,Lu J,Zhao H,et al.Rethinking semantic segmentation from asequence-to-sequence perspective with transformers[C]//Proceedings of theIEEE/CVF conference on computer vision andpattern recognition.2021:6881-6890.

[6]Strudel R,Garcia R,Laptev I,et al.Segmenter:Transformer forsemantic segmentation[C]//Proceedings of the IEEE/CVF internationalconference on computer vision.2021:7262-7272.

[7]Cheng B,Schwing A,Kirillov A.Per-pixel classification is not allyou need for semantic segmentation[J].Advances in Neural InformationProcessing Systems,2021,34:17864-17875.

[8]Cheng B,Misra I,Schwing A G,et al.Masked-attention masktransformer for universal image segmentation[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2022:1290-1299.

[9]Zhang B,Tian Z,Tang Q,et al.Segvit:Semantic segmentation withplain vision transformers[J].Advances in Neural Information ProcessingSystems,2022,35:4971-4982.

发明内容

本发明旨在解决上述技术中未能充分利用骨干网提取得到的不同层次特征中各类信息的问题。为实现语义分割功能，本发明提出了一种用于语义分割的多查询网络。本发明涉及了带有多查询设计的解码器模块，可将原始骨干网提取到的多层次特征输入其中。对于每层特征，在不同阶段分别提取特征嵌入和掩码信息。随后，在同一阶段，将不同层次的特征嵌入自适应融合后用于分类，并将不同层次的掩码信息求和后输出。本发明是通过以下技术方案来实现的：

一种用于语义分割的多查询网络，其基础架构包括骨干网和解码器组成，包括下列步骤：

对于给定的图像，利用骨干网提取多层深度特征，骨干网由n层Transformer块堆叠形成，在每一层均能得到输入图像的特征表示，选择不同层次的深度特征作为骨干网输出的特征图，随后将不同层次的特征图同时输入到解码器中进行掩码的生成和分类；

设骨干网的特征图的层次数为L，预先设定阶段数S，初始化由L×S个ATM模块组成的解码器；每个ATM模块依次堆叠多个自注意力层、跨注意力层和前馈神经网络层，用于获取性能更好的特征嵌入，并将最后一个跨注意力层得到的掩码作为输出；在解码器中，采用L个集合的查询，记作Q₁,Q₂,...,Q_l,…,Q_L，在每个查询Q_l所对应的F_l层中通过ATM模块逐阶段的提取特征嵌入ε^s和生成掩码M^s，其中1≤s≤S；在阶段s中，将多个特征嵌入自适应融合后输入全连接层得到分类结果，将多个掩码图/>相加求和后用作输出的掩码。

进一步地，ATM模块的设计如下：ATM模块由自注意力层、跨注意力层和前馈神经网络层组成，设一个ATM的输入有查询Q和特征F，ATM中进行的具体操作如下：查询Q先经过自注意力层，实现权重的动态分配，仍记作Q；特征F经过第一线性层进行线性变换后记作K，也称为键；特征F经过第二线性层进行线性变换后记作V，也称为值；在跨注意力层，同时输入查询、键和值，通过Q与K即可得到相似度图S(Q,K)，表示如下：

其中，d_k为K的特征维数，被用于相似度图的标准化；随后采用Sigmoid操作即可得到掩码M；将相似度图S(Q,K)与V做矩阵运算后，再经过前馈神经网络层得到更新后的查询，被称为特征嵌入。

进一步地，所述自适应融合的过程如下：首先对每个特征嵌入进行局部最大池化LMP操作来降低特征嵌入的查询个数；将池化后的特征嵌入沿着查询维拼接在一起并通过一个全连接层；经过SoftMax层将权重进行归一化，得到权重向量W；利用得到的权重W对特征嵌入进行加权求和。

1.根据权利要求1所述的多查询网络，其特征在于，选取任意ViT系列的骨干网。

本发明的有益效果是：(a)多查询网络的设计范式，实现了对原始的骨干网提取得到的不同层次特征图中各类信息的充分利用。(b)在广泛使用的ADE20K数据集上，采用ViT-Base作为骨干网，实现了51.2％mIoU的分割性能。

附图说明

图1为本发明流程图。

图2为本发明架构图。

图3为本发明自适应融合模块。

具体实施方式

本发明是通过以下技术方案来实现的，流程图如图1所示，

图1给出了多查询网络(Multi-QueryNetwork,MQN)的基础架构，分别由骨干网、解码器组成。对于给定的图像I∈R^H×W×3(图像的宽和高分别为H和W，通道数为3，标准的RGB图像)，首先利用骨干网提取多层深度特征。如选取ViT-Base作为骨干网，其由12层Transformer块堆叠形成，在每一层均能得到输入图像的特征表示，选择L≤12个不同层次的深度特征作为骨干网输出的特征图，记作F₁,F₂,…,F_L，这些特征图有相同的形状HW/P²×C，其中P是分片的大小、C是特征图的通道数(L、P、C均是预先设定的网络参数)。随后将这些特征同时输入到解码器中进行掩码的生成和分类。本发明可以选取任意ViT系列的骨干网，如ViT-Base、ViT-Large等。

根据骨干网的网络参数L，以及预先设定的阶段数S，随机初始化为由L×S个ATM(Attentionto Mask)模块组成的解码器。在解码器中，采用L个集合的查询，记作Q₁,Q₂,…,Q_L，在对应的层次(即Q_l对应F_l)中通过ATM逐阶段的提取特征嵌入(以ε^s表示)和生成掩码(以M^s表示)，其中1≤s≤S。在网络训练开始时，所有的查询被随机初始化。在第l,(1≤l≤L)层中，对应输入特征图F_l，由于采用多阶段的设计，因此经过不同阶段的ATM模块后，生成多个特征嵌入和掩码图/>其中下标l对应于特征层次的索引，上标则表示不同阶段的索引。在阶段s中，将多个特征嵌入/>自适应融合后输入全连接层得到分类结果，将多个掩码图/>相加求和后用作输出的掩码。

其中，ATM模块的设计如下：ATM模块由自注意力层、跨注意力层和前馈神经网络层组成，各层的设计与经典的Transformer块一致。对应图2中的表示，ATM的输入有查询Q和特征F(为了表达的简便性，此处忽略下标)。ATM中进行的具体操作如下：查询Q先经过自注意力层，实现权重的动态分配，仍记作Q；特征F经过线性层1进行线性变换后记作K，也称为键；特征F经过线性层2进行线性变换后记作V，也称为值。在跨注意力层，需同时输入查询、键和值，通过Q与K即可得到相似度图S(Q,K)，表示如下：

其中，d_k为K的特征维数，被用于相似度图的标准化。随后采用Sigmoid操作即可得到掩码M。

M＝Sigmoid(S(Q,K))

将相似度图S(Q,K)与V做矩阵运算后，再经过前馈神经网络层得到更新后的查询(或称为特征嵌入)，记作ε。具体实现上，每个ATM模块可选择依次堆叠多个(自注意力层、跨注意力层和前馈神经网络层)来获取性能更好的特征嵌入ε，并将最后一个跨注意力层得到的掩码M作为输出。

其中，自适应融合表示如下：

图2给出了自适应融合的详细过程，具体操作如下：首先对每个特征嵌入ε∈R^q×d(其中q为查询个数、d为查询的特征维度，均为预先设定的网络参数)进行局部最大池化(Local Max Pooling,LMP)操作来降低特征嵌入的查询个数

ε∈R^q×d→ε′∈R^q′×d，其中q′＜＜q

然后将池化后的特征嵌入沿着查询维拼接在一起并通过一个全连接层

ε_C＝Concat(ε₁′,…,ε′_L)∈R^Lq′×d

W′＝FC(ε_C)∈R^L×d，W＝SoftMax(W′)∈R^L×d

再经过SoftMax层将权重进行归一化，得到权重向量W。最后利用得到的权重W对特征嵌入进行加权求和。

下面结合实施例对本发明的应用场景进行说明。本发明具体步骤为：

步骤一：准备训练图像数据集。具体有两种方式，一种是下载互联网上的用于学术研究的公开数据集，如ADE20K、COCO-Stuff-10K等；另一种是自己拍摄图像并手动标注语义信息的自建数据集。本发明采用公开数据集训练并测试语义分割效果，以ADE20K为例进行说明。ADE20K数据集是一个大尺度场景分割，语义分割领域进行基准测试、结果对比的常用数据集，该数据集包含有150个语义类别，并含有20000张训练图像、2000张测试图像。在互联网上下载ADE20K数据集后，解压到指定的文件夹下，完成数据集的准备工作。

步骤二：确定用于特征提取的骨干网络(如Vision Transformer,ViT),设置好MQN的各类超参数，具体步骤如下：

1)语义分割领域常用的骨干网络有以卷积神经网络为代表的ResNet系列、以Transformer为代表的Vision Transformer(ViT)系列。本发明采用ViT-Base为例进行说明，实际应用时可选择性能更好、参数量更大的ViT-Large等其它骨干网。为了加快模型在训练时的收敛速度、提升骨干网络的特征提取能力，采用在ImageNet-21K数据集上预训练、ImageNet-1K上微调的骨干网权重对网络参数进行初始化(该权重可在互联网上下载)。

2)针对于ViT-Base网络的设计可知，其由12层Transformer块堆叠形成，选取第6、8、12层(即L＝3)的中间层特征输入解码器，记作F₁,F₂,F₃。

3)由上一步可知，解码器的层数为3层，因此需要的查询可记作Q₁,Q₂,Q₃，并将其进行随机初始化。再设定解码器的阶段数S＝3，将自适应融合时局部最大池化的尺寸设置为10。完成解码器的超参数设置后，再随机初始化解码器的权重参数。

步骤三：做好各项训练准备，开始训练网络。

1)训练数据集的加载。针对训练集采用多种数据增强策略，包括随机水平翻转、缩放因子在0.5到2.0之间的随机调整大小，以及将图像随机裁剪至512×512。图像的裁剪尺寸往往根据数据集的特性而变化，更大的裁剪尺寸带来更好性能的同时，会几何倍数的增加网络的计算代价。

2)训练参数的设定。本发明采用AdamW作为网络的优化器，使用多项式形式的学习率衰减算法。训练时的图像批量大小设置为16，共进行16万次的训练迭代。初始学习率设置为1×10^-5，权重衰减设置为0.01。训练时采用的损失函数表达式为

L_loss＝L_cls+L_mask＝L_cls+λ_focalL_IoU+λ_diceL_dice

也即总的损失由分类损失L_cls与掩码损失L_mask两部分组成，其中掩码损失又由IoU损失L_IoU和dice损失L_dice组成，权重系数的大小为λ_focal＝20和λ_dice＝1。训练时每4000次迭代进行一次在测试集上效果的验证，得到衡量模型效果的核心指标mIoU的定量表示。

3)开始训练。本发明采用配置多张GPU的计算机对网络进行端到端的训练，在训练过程中解码器的各个阶段的分类信息和掩码被用来计算损失、以及使用反向传播算法持续优化。以阶段s,(1≤s≤3)为例进行说明，在该阶段中会得到L＝3个特征嵌入和掩码图/>将所有特征嵌入输入自适应融合模块后得到最终的特征嵌入为ε^s、将所有掩码图直接相加后得到最终的掩码图为M^s。特征嵌入ε^s经过一层全连接层后得到分类结果，参与分类损失L_cls的计算。掩码图则直接参与掩码损失L_mask的计算。在最后一个阶段时，将分类结果的最后一维经softmax缩放后，再去掉代表背景类的数据、将掩码图经sigmoid缩放后，再将两者沿着代表查询数的维度执行爱因斯坦求和算法得到语义分割的结果。

4)保存网络参数。在训练过程中，在每次在测试集上验证效果前将网络的全部参数保存到指定的文件夹中，权重文件的扩展名为.pth。

步骤四：测试多查询网络，获取在指定数据集上的分割结果，具体步骤如下：

1)加载ADE20K数据集包含的150类测试集(2000张)图像，应用于测试集的数据增强手段主要是随机水平翻转。

2)初始化模型，并加载训练阶段保存的参数(.pth文件，可选择最后一次保存的权重文件或测试结果mIoU最高的权重文件)，将模型调整至测试模式。将图像输入模型，

获取针对该图像的语义分割结果。

对本发明方法仿真实验如下：

在ADE20K数据集上，当选取ViT-Base作为骨干网络时，采用上述步骤对网络进行训练，可取得51.2％的mIoU成绩。

Claims

1.一种用于语义分割的多查询网络，其基础架构包括骨干网和解码器组成，包括下列步骤：

对于给定的图像，利用骨干网提取多层深度特征，骨干网由n层Transformer块堆叠形成，在每一层均能得到输入图像的特征表示，选择L≤n个不同层次的深度特征作为骨干网输出的特征图，记作F₁,F₂,...,F_l,...,F_L，随后将这些特征同时输入到解码器中进行掩码的生成和分类；

根据骨干网的网络参数L，以及预先设定的阶段数S，随初始化为由L×S个ATM模块组成的解码器；每个ATM模块依次堆叠多个自注意力层、跨注意力层和前馈神经网络层，用于获取性能更好的特征嵌入，并将最后一个跨注意力层得到的掩码M作为输出；在解码器中，采用L个集合的查询，记作Q₁,Q₂,...,Q_l,...,Q_L，在每个查询Q_l所对应的F_l层中通过ATM模块逐阶段的提取特征嵌入ε^s和生成掩码M^s，其中1≤s≤S；在阶段s中，将多个特征嵌入自适应融合后输入全连接层得到分类结果，将多个掩码图/>相加求和后用作输出的掩码。

2.根据权利要求1所述的多查询网络，其特征在于，ATM模块的设计如下：ATM模块由自注意力层、跨注意力层和前馈神经网络层组成，设一个ATM的输入有查询Q和特征F，ATM中进行的具体操作如下：查询Q先经过自注意力层，实现权重的动态分配，仍记作Q；特征F经过第一线性层进行线性变换后记作K，也称为键；特征F经过第二线性层进行线性变换后记作V，也称为值；在跨注意力层，同时输入查询、键和值，通过Q与K即可得到相似度图S(Q,K)，表示如下：

3.根据权利要求1所述的多查询网络，其特征在于，所述自适应融合的过程如下：首先对每个特征嵌入进行局部最大池化LMP操作来降低特征嵌入的查询个数；将池化后的特征嵌入沿着查询维拼接在一起并通过一个全连接层；经过SoftMax层将权重进行归一化，得到权重向量W；利用得到的权重W对特征嵌入进行加权求和。

4.根据权利要求1所述的多查询网络，其特征在于，选取任意ViT系列的骨干网。