CN116612283A

CN116612283A - 一种基于大卷积核骨干网络的图像语义分割方法

Info

Publication number: CN116612283A
Application number: CN202310643654.5A
Authority: CN
Inventors: 尤志强; 刘章杰; 杨静
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2023-06-02
Filing date: 2023-06-02
Publication date: 2023-08-18

Abstract

本发明公开了一种基于大卷积核骨干网络的图像语义分割方法。该方法中使用由大尺寸卷积核构建的骨干网络进行特征提取，获得具有较大有效感受野的高层特征图；通过像素解码器对高层特征图进行上采样，生成多尺度高分辨率特征图，用于特征解码；特征解码器利用多尺度特征图获取图像内容信息，生成融合语义信息的查询；查询通过多层感知机生成分类预测与掩码嵌入，掩码嵌入与高分辨率特征图相乘得到掩码预测，掩码预测与分类预测相乘即可得到语义分割结果。本发明能有效地提取图像的局部信息和全局信息，帮助特征解码器获取全局语义信息，同时保留局部细节信息，显著提升了语义分割的精度。

Description

一种基于大卷积核骨干网络的图像语义分割方法

技术领域

本发明属于计算机视觉技术下的图像语义分割领域，具体是一种基于大感受野骨干网络的图像语义分割方法.

背景技术

语义分割是计算机视觉中的一个基础任务，其目标在于区分出图像中不同类别的目标并检测出对应像素的位置，经常用于图像分析、智能监控、自动驾驶等方面。虽然目前语义分割已取得非常大的进展，但受到计算机性能不足、像素级处理精度要求高等原因的限制，语义分割任务仍面临着非常大的挑战。

图像处理的任务往往需要先提取图像特征，通常是使用卷积神经网络(CNN)的方式来进行。典型的卷积神经网络通过使用许多小卷积核的堆叠来扩大每个像素点的感受野，卷积核的尺寸通常在5×5以内，堆叠多层后形成深度神经网络使得感受野足够大。然而，这种方法会将每个像素主要关注的信息聚集在周围较小的区域内，无法高效地利用整个感受野内的信息，有效感受野较小。对于CNN，现有的缩放方法通常关注模型深度，宽度，输入分辨率，瓶颈比率和组宽度，内核大小往往被忽略。添加大卷积核构成卷积神经网络的方法曾经在图像分类任务中受到试验，这些方法中卷积核的大小被扩展到7×7或是9×9，但是由于效果不佳且对计算机性能要求过高等原因被放弃。

近年Transformer算法在图像特征提取方面取得优异的成果，其计算方式不同于卷积神经网络，可以取得较大的感受野并保证每个像素对全局信息的高关注度，但相对于传统的卷积神经网络，Transformer失去了平移不变性与内置的先验知识，需要更多的数据量与训练时间来学习图像信息。

对于语义分割任务，由于需要对全图的像素点进行分类，有效感受野的大小十分重要。引入大卷积核构建骨干网络，能够在保证有效感受野足够大的同时利用卷积神经网络的优势，但是需要设计一个合理的网络结构来弥补大卷积核所带来的缺陷。

发明内容

本发明的目的是使用先进的模型构建方法，引入大卷积核构建卷积神经网络，并优化网络的结构，形成一个高性能的骨干网络，用于语义分割任务的特征提取，同时使用强大且高效的特征解码方法，可以高精度地获取对图像的语义分割结果。

为达到上述目的，本发明采用如下的技术方案：

S1取得数据集，包括图片文件以及图片语义分割标签文件，图片标签文件与图片文件一一对应，包含对应图片每个像素点的类别信息。数据集需要以8：2左右的比例分为训练集与测试集，训练集用于训练模型，获取合适的模型参数；测试集用于对模型训练得到的参数进行测试。对数据集中的图片文件进行数据增强，并统一缩放到H×W的尺寸，作为模型的输入。

S2将处理后的图片文件输入大卷积核骨干网络中，得到低分辨率特征图F1，特征图尺寸为H/32×W/32，其中H、W分别为输入图像的高和宽。

S21大卷积核骨干网络中，先将图片输入起始层(Stem)，先对输入图像进行卷积核大小为3×3，步长为2，通道数为C1的卷积操作，将图像下采样为H/2×W/2的大小，再进行卷积核大小为3×3，步长为1，通道数为C1的DW卷积操作和卷积核大小为1×1，步长为1，通道数为C1的卷积操作，对低层模式进行提取，最后进行卷积核大小为3×3，步长为2，通道数为C1的卷积操作，将图像下采样为H/4×W/4的大小。整体计算公式如下：

起始层(img)＝DWConv_3×3(Conv_1×1(DWConv_3×3(Conv_3×3(img))))

其中DWConv代表DW卷积操作，Conv代表卷积操作。

S22将特征图输入特征提取模块1-4，其中特征提取模块1-3分别包含一个特征提取阶段和一个特征图转换阶段，特征提取模块4只包含一个特征提取阶段。

特征提取阶段i中交替进行B[i]次大卷积核块和前馈卷积块计算，对图片进行大卷积核特征提取，其中B＝[2,2,18,2]。

大卷积核块首先对输入特征图进行批归一化；再进行卷积核大小为1×1，步长为1的卷积操作；然后进行卷积核大小为K×K，步长为1的DW卷积操作，同时加入5×5的卷积核进行重参数化，对特征图的整体信息进行提取；最后进行卷积核大小为1×1，步长为1的卷积操作，其中对于特征提取模块i，卷积核大小K_i分别为[31,29,27,13]；加入残差模块，将得到的特征图与输入特征图进行按元素相加，即为大卷积核块的输出。整体的计算公式如下：

大卷积核块(input)＝Conv_1×1(RepDWConv_K×K(Conv_1×1(BN(input))))

其中RepDWConv表示加入了重参数化的DW卷积操作，重参数化所用的卷积核大小为5×5。

前馈卷积块输入为上一个大卷积核块输出的特征图，先对输入特征图进行批归一化，然后进行卷积核大小为1×1，步长为1的卷积操作，将特征图的通道数增加到原通道数的4倍，再对得到的特征图进行GELU激活函数操作，最后对经过激活函数的特征图进行卷积核大小为1×1，步长为1的卷积操作将特征图的通道数减少到原通道数的1/4，与大卷积核块的输出特征图通道数一致，并加入残差模块，将得到的特征图与输入特征图进行按元素相加，即为前馈卷积块的输出。整体的计算公式如下：

前馈卷积块(input)＝Conv_1×1(GELU(Conv_1×1(BN(input))))

其中GELU表示GELU激活函数。

特征图转换阶段输入为上一个特征提取模块输出的特征图，先对输入特征图进行卷积核大小为1×1，步长为1的卷积操作，将特征图的通道数增加到原通道数的2倍，然后进行卷积核大小为3×3，步长为2的卷积操作将特征图将下采样为输入特征图1/2的大小。整体的计算公式如下：

特征图转换(input)＝DWConv_3×3(Conv_1×1(input))

S3将骨干网络输出的特征图F1输入像素解码器中，进行上采样操作，获取较高分辨率的特征图F2、F3和F4，其中特征图F2尺寸为H/16×W/16，特征图F3尺寸为H/8×W/8，特征图F4尺寸为H×W。整体的计算公式如下：

其中up_×i为i倍上采样操作。

S4将像素解码器输出的特征图F1、F2、F3输入特征解码器中，特征解码器包含3个解码器层，每个解码器层包含3个解码器模块，使用注意力机制对输入的特征图信息进行提取并融合到输入的查询query上。query数量为N，初始化为可学习的参数。每个解码器层中的解码器模块按顺序分别以分辨率从低到高的特征图F1、F2、F3作为注意力机制的key和value输入，先进行多头掩码交叉注意力MMCA的计算，再进行多头自注意力MSA的计算，最后输入前馈神经网络中，并且每个多头掩码交叉注意力多头自注意力和前馈神经网络之后都会进行与输入相加归一化的操作。

多头掩码交叉注意力为加入了掩码机制的交叉注意力，使用输入的特征图来更新query内的信息，其中掩码预测mask在第一个解码器层中以全1初始化，在之后的解码器层中使用前一个解码器层输出的掩码预测mask。输入的query和key进行点乘，计算相关性，然后加上掩码信息M进行掩盖。对于图像中感兴趣的区域，mask中对应像素点的值为1，对于不感兴趣的区域则为0。输入注意力机制进行计算时，如果对应mask值为1，则M值为0，query和key的注意力正常计算；如果mask值为0，则M值为-∞，忽略此处query和key的注意力计算，这样即可以使注意力计算更集中在图片中感兴趣的区域，加速模型的收敛，同时提升预测的精度。query和key的乘积加上掩码信息，总和除以query数据维度d的平方根，再进行softmax计算即可获取特征图各个部分的注意力权重。再将注意力权重与特征图输入value相乘，即为多头掩码交叉注意力的输出。多头掩码交叉注意力MMCA的计算公式如下：

其中Q为输入的query，K为输入的特征图key，M为输入的掩码信息，d为查询query的向量维度，V为输入特征图value，softmax为将向量内的值映射为概率的函数。

多头自注意力计算由上一个多头掩码交叉注意力的输出作为输入，取得query、key和value。将query和key进行点乘计算相关性，除以query维度d的平方根后进行softmax计算得到注意力权重，再乘上value即可得到多头自注意力的计算结果。整体计算公式如下：

其中Q为query，K为key，d为查询query的向量维度，V为value。

前馈神经网络为隐藏层数为1的全连接神经网络。

相加归一化操作指每一步计算后都将输出结果与输入的query进行按元素相加，然后进行归一化操作。

S5将已融合特征图信息的query输入多层感知机生成掩码嵌入和分类预测，掩码嵌入结合特征图F4生成掩码预测，掩码预测再结合分类预测生成语义分割预测结果。多层感知机含有中两个隐藏层，通道数为256。多层感知机会输出形状输出N个掩码嵌入和N个分类预测，N个掩码嵌入数据形态为C_ε×N，N个分类预测数据形态为N×K，K代表语义分割任务中目标的类别数量。

掩码嵌入与形状为C_ε×H×W的特征图F4进行相乘操作，得到N个掩码预测mask，形状为N×H×W。掩码预测与分类预测相乘，即可得到形状为K×H×W的语义分割预测，其中每个像素点通过K维向量预测得到对应的类别，使用softmax函数获取该像素点属于各个类别的概率，取最大的概率对应的类别，即为该像素点的类别。计算出每个像素点的类别，生成的结果即为对应图片的语义分割结果。

有益效果：与以往的语义分割方法相比，本发明所提供的技术方案具有以下优势：

1、本发明提供一种高精度的语义分割方法，充分利用大卷积核在特征提取中所带来的优势，大大提升了骨干网络的有效感受野，使得骨干网络的图片编码能力明显增强；使用像素解码器生成高分辨率特征图，有助于生成语义分割任务所要求的像素级预测结果；加入特征解码器，使用注意力机制对特征图进行高效地解码，最终达到优秀的语义分割效果。

附图说明

图1为本发明算法训练整体流程图；

图2为大卷积核骨干网络整体结构图；

图3为大卷积核块内部结构图；

图4为解码器模块内部结构图；

图5为模型整体结构图；

具体实施方式

为了方便本领域的技术人员更详细地了解本技术方案，下面将结合附图对本发明作出进一步说明。以下内容所描述的实施方式仅用作示例性实施，不代表与本发明相一致的所有实施方式，且不以任何方式对本发明加以限制

本示例是一种基于大卷积核骨干网络的图像语义分割方法，整体训练方法流程如图1所示，其中包括以下步骤：

S1可在互联网上下载语义分割公共数据集用于训练模型，也可自行构建数据集。对数据集中的图像文件进行多种数据增强操作，包括在[0.5,2]区间内的随即抖动、随机水平翻转、随机进行大小为1024×1024的图像裁剪和随机颜色抖动等，并将所有数据增强后获取到的图片缩放至640×640大小。以8：2的比例将数据集分为训练集与测试集，在训练过程中使用训练集对模型的参数进行反向传播更新，训练完成后使用测试集对模型效果进行测试。

S2将步骤S1处理后的图像输入大卷积核骨干网络中，骨干网络的整体结构如图2所示，包含1个起始层，4个特征提取阶段和3个特征图转换阶段。

起始层中包含4个卷积操作，每个卷积操作后都会进行批归一化。第一个卷积操作输入通道数为3，输出通道数为128，其余卷积操作的输入输出通道数都为128.起始层将输入图像尺寸下采样到了H/4×W/4的大小，并将通道数扩展到128，整体计算公式如下：

起始层(img)＝DWConv_3×3(Conv_1×1(DWConv_3×3(Conv_3×3(img))))

其中DWConv代表DW卷积操作，Conv代表卷积操作。

大卷积核块内部结构如图3所示。先对输入进行批归一化，进行第一个卷积操作后再进行批归一化，并使用Relu激活函数进行激活。接着进行重参数化K×K大核DW卷积，对于特征提取阶段i，K[i]＝[31,29,27,13]。重参数化卷积核大小为5×5，在训练阶段与大卷积核共同训练参数，并将输出特征图相加，在推理阶段则将重参数化卷积核以0值填充四周的方式扩展到K×K的大小，再按元素与K×K大卷积核相加。重参数化卷积输入通道数与输出通道数都为C[i]，对于特征提取阶段i，C[i]＝[128,256,512,1024]。输出的通道数进行批归一化与Relu激活函数，再进行输入输出通道数都为C[i]的1×1卷积，然后进行批归一化。大卷积块中还加入了残差模块：将最后的输出与大卷积块的输出相加，即为大卷积块的最终输出。整体的计算公式如下：

大卷积核块(input)＝Conv_1×1(RepDWConv_K×K(Conv_1×1(BN(input))))

前馈卷积快按顺序对输入特征图进行批归一化、1×1卷积、Gelu激活函数、1×1卷积计算，输入输出数据形状与通道数不变。整体的计算公式如下：

前馈卷积块(input)＝Conv_1×1(GELU(Conv_1×1(BN(input))))

其中GELU表示GELU激活函数。

特征图转换阶段用于对特征图进行下采样，同时加深特征图的通道数，使特征图的特征更强。对于特征图转换阶段i，首先进行输入通道数为C[i]，输出通道数为C[i+1]，步长为1，卷积核大小为1×1的卷积操作，并进行批归一化，将特征图的通道数增加到C[i+1]；然后进行输入输出通道数都为C[i+1]，步长为2，卷积核大小为3×3的卷积操作，并进行批归一化，将特征图的尺寸缩小到H/(2ⁱ⁺²)×W/(2ⁱ⁺²)。整体的计算公式如下：

特征图转换(input)＝DWConv_3×3(Conv_1×1(input))

S3使用像素解码器对骨干网络输出特征图F1进行上采样，得到高分辨率特征图。特征图F1大小为H/32×W/32，通过反卷积操作进行上采样，得到高分辨率特征图F2、F3和F4，特征图F2尺寸为H/16×W/16，特征图F3尺寸为H/8×W/8，特征图F4尺寸为H×W。整体的计算公式如下：

其中up_×i为i倍上采样操作。

S4使用特征解码器将特征图F1、F2、F3内的信息通过注意力机制融合进query中，特征解码器包含3个解码器层，每个解码器层包含3个解码器模块，分别以分辨率从低到高的特征图F1、F2、F3作为注意力机制的key和value输入。解码器模块内部结构如图4所示，其中掩码预测mask在第一个解码器层中以全1初始化，在之后的解码器层中使用前一个解码器层输出的掩码预测。多头掩码交叉注意力MMCA的计算公式如下：

其中Q为输入的query，初始化为可学习的参数，K^T为输入的特征图key的转置，M为输入的掩码信息，d为查询query的向量维度，V为输入特征图value，softmax为将向量内的值映射为概率的函数。mask与M值对应关系如下：

其中mask_l-1(x,y)代表上一层解码器层所得的掩码预测结果在像素点(x,y)处的值。

多头掩码交叉注意力对同一组query、key和value并行地进行多组掩码注意力的计算，并将结果进行拼接。

多头自注意力整体计算公式如下：

其中Q为query，K为key，d为查询query的向量维度，V为value。多头自注意力对同一组query、key和value并行地进行多组掩码注意力的计算，并将结果进行拼接。

S5将已融合特征图信息的query输入多层感知机生成掩码嵌入和分类预测，掩码嵌入结合特征图F4生成掩码预测，掩码预测再结合分类预测生成语义分割预测结果。N个掩码嵌入数据形态为C_ε×N，N个分类预测数据形态为N×K，K代表语义分割任务中目标的类别数量。掩码嵌入与与形状为C_ε×H×W的特征图F4进行相乘操作，得到N个掩码预测mask，形状为N×H×W。掩码预测与分类预测相乘，即可得到形状为K×H×W的语义分割预测。每个像素点对应一个K维的向量，包含对应K个类别的信息，经过softmax函数后即可转化成对应属于各个类别的概率值，取最大的概率即为该像素点预测所属的类别。

训练时，为降低计算机性能要求，减少显存占用，使用采样点计算掩码预测的损失。在掩码预测图与真实标签图上取均匀分布的112×112个点，使用二值交叉熵损失与dice损失其损失值，掩码预测总损失计算公式如下：

其中λ_ce为二值交叉熵损失的权重，设置为5，λ_dice为dice损失的权重，设置为5。

总损失值计算公式如下：

其中为掩码预测的分类损失，使用交叉熵损失；λ_cls为分类损失的权重，设置为2。

使用本发明提出的基于大卷积核骨干网络的图像语义分割方法对语义分割数据集进行训练后，在ADE20K数据集上的预测结果统计与Mask2former算法(参考文献：Per-pixel classification is not all you need for semantic)的对比如下：

表1本发明方法与Mask2former算法对比

其中s.s.表示单尺寸数据输入，m.s.表示多尺寸输入。

从表1中可见，本发明模型相较于Mask2former算法在单尺寸输入上mIoU值提升了2.4，在多尺寸输入上mIoU值提升了3.2，其效果明显由于Mask2former算法。

以上内容是本发明的优选实施例，用于对发明内容做出进一步的详细说明，并不代表本发明的实施仅仅局限于上述说明。对于本领域的技术人员来说，可做出修改与变化，使用不同的实施方式运用于不同的实际任务当中，只要不脱离本发明思想，都应当视为属于本发明的保护范围以内。

Claims

1.一种基于大卷积核骨干网络的图像语义分割方法，其特征在于，包括以下步骤：

步骤1：构建基于大卷积核骨干网络的语义分割网络；

使用大卷积核的骨干网络对输入RGB图像进行特征提取，得到大感受野高层特征图，再通过像素解码器对特征图进行解码得到高分辨率特征图，并使用特征解码器对像素解码器生成的高分辨率特征图进行特征解码，最后融合像素解码器和特征解码器得到的信息生成图像语义分割的结果；

步骤2：下载并处理ImageNet-22K数据集，对骨干网络部分进行预训练，得到可提取图像特征的骨干网络；

步骤3：使用步骤2中训练得到的骨干网络参数，在语义分割数据集上对语义分割网络进行训练；

步骤4：使用训练好的基于大卷积核骨干网络的语义分割网络对目标图像进行语义分割，得到结果准确、边缘精确的语义分割结果。

2.如权利要求1所述的一种基于大卷积核骨干网络的图像语义分割方法，其特征在于，步骤1中，大卷积核骨干网络适用于语义分割模型；

其中大卷积核骨干网络，先将图片输入起始层，然后将起始层的输出输入特征提取模块1-4；

骨干网络的输入为将原图经过缩放操作得到的分辨率大小为H×W的RGB三通道图，H、W分别为经过缩放操作后得到图像的高和宽，输出为已经提取得到图像特征的特征图。

3.如权利要求2所述的起始层，其特征在于，先对输入图像进行卷积核大小为3×3，步长为2，通道数为C1的卷积操作，将图像下采样为H/2×W/2的大小，再进行卷积核大小为3×3，步长为1，通道数为C1的DW卷积操作和卷积核大小为1×1，步长为1，通道数为C1的卷积操作，对低层模式进行提取，最后进行卷积核大小为3×3，步长为2，通道数为C1的卷积操作，将图像下采样为H/4×W/4的大小。

4.如权利要求2所述的一种特征提取模块，其特征在于，共有4个特征提取模块，特征提取模块1-3分别包含特征提取阶段和特征图转换阶段，特征提取模块4只包含一个特征提取阶段；

其中，特征提取阶段包含B个交替的大卷积核块和前馈卷积块，B值在特征提取模块1-4中分别为[2,2,18,2]。

5.如权利要求4所述的大卷积核块，其特征在于，输入为起始层输出的特征图或者上一个前馈卷积块输出的特征图，先对特征图进行批归一化，再进行卷积核大小为1×1，步长为1的卷积操作，然后进行卷积核大小为K×K，步长为1的DW卷积操作，对特征图的整体信息进行提取，最后进行卷积核大小为1×1，步长为1的卷积操作，其中卷积核大小K值在特征提取模块1-4中分别为[31,29,27,13]，将得到的特征图与输入特征图进行按元素相加，即可得到大卷积核块的输出特征图。

6.如权利要求4所述的前馈卷积块，其特征在于，输入为上一个大卷积核块输出的特征图，先对输入特征图进行批归一化，然后进行卷积核大小为1×1，步长为1的卷积操作，将特征图的通道数增加到原通道数的4倍，再对得到的特征图进行GELU激活函数操作，最后对经过激活函数的特征图进行卷积核大小为1×1，步长为1的卷积操作将特征图的通道数减少到原通道数的1/4，与大卷积核块的输出特征图通道数一致，并将得到的特征图与输入特征图进行按元素相加，即可得到前馈卷积块的输出特征图。

7.如权利要求4所述的特征图转换阶段，其特征在于，输入为上一个特征提取模块输出的特征图，先对输入特征图进行卷积核大小为1×1，步长为1的卷积操作，将特征图的通道数增加到原通道数的2倍，然后进行卷积核大小为3×3，步长为2的卷积操作将特征图将下采样为输入特征图1/2的大小。

8.如权利要求1所述的一种基于大卷积核骨干网络的图像语义分割方法，其特征在于，步骤1中，像素解码器通过对骨干网络输出的特征图进行上采样操作得到大小分别为原始图像1/32，1/16，1/8的特征图，并加入可学习的位置编码；并且像素解码器对原图1/8大小的特征图进行进一步上采样得到与原图尺寸相等的形状为C_ε×H×W的逐像素嵌入。

9.如权利要求1所述的一种基于大卷积核骨干网络的图像语义分割方法，其特征在于，步骤1中，特征解码器包含3个解码器层，每个解码器层包含3个解码器模块。

10.如权利要求9所述的一种解码器层，其特征在于，其中包含的三个解码器，按顺序分别以权利要求8中所述的像素解码器中所得到的大小分别为原始图像1/32，1/16，1/8的特征图作为键K和值V的输入，并输入一组可学习的查询Q；可学习的查询经过三个解码器模块后融合了像素解码器输出的图像信息，输出与输入查询同样数量同样尺寸的一组查询。

11.如权利要求9所述的一种解码器模块，其特征在于，数据操作按顺序分别为多头掩码交叉注意力计算、相加归一化计算、多头自注意力计算、相加归一化计算、前馈神经网络计算、相加归一化计算；

对于输入查询Q，键K，值V，多头掩码交叉注意力MMCA计算公式如下：

其中，M为上一层输出的掩码预测，初始化时，第一层多头掩码交叉注意力输入M使用全1初始化；

对于输入查询Q，键K，值V，多头自注意力MSA计算公式如下：

相加归一化即为先对注意力计算得到的输出进行归一化，再加上注意力计算的输入。

12.如权利要求1所述的一种基于大卷积核骨干网络的图像语义分割方法，其特征在于，步骤1中，特征解码器输入N个查询，并输出N个融合图像信息的查询，将输出的N个查询输入隐藏层层数为1的多层感知机中，输出N个掩码嵌入和N个分类预测，N个掩码嵌入数据形态为C_ε×N，N个分类预测数据形态为N×K，K代表语义分割任务中目标的类别数量；掩码嵌入与权利要求8中所述的形状为C_ε×H×W的逐像素嵌入进行相乘操作，得到N个掩码预测，形状为N×H×W；掩码预测与分类预测相乘，即可得到形状为K×H×W的语义分割预测，其中每个像素点通过K维向量预测得到对应的类别。

13.如权利要求1所述的一种基于大卷积核骨干网络的图像语义分割方法，其特征在于，步骤3中，使用交叉熵损失训练分类预测分支，使用DICE/F-1损失和Focal损失训练掩码预测分支，网络的总损失值为各个损失值的总和。

14.如权利要求1所述的一种基于大卷积核骨干网络的图像语义分割方法，其特征在于，步骤3中，训练时先将数据集中的图片结合标签中各个类别的对象及其位置转换成掩码图，并与其类别一一对应，然后再用于计算训练损失。