CN116740362A

CN116740362A - 一种基于注意力的轻量化非对称场景语义分割方法及系统

Info

Publication number: CN116740362A
Application number: CN202311018487.1A
Authority: CN
Inventors: 刘茜; 王存宝
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2023-09-12
Anticipated expiration: 2043-08-14
Also published as: CN116740362B

Abstract

本发明公开了一种基于注意力的轻量化非对称场景语义分割方法及系统，构建包括：卷积下采样模块、基于通道注意力的深度非对称模块、并行下采样模块、基于空间注意力的金字塔池化模块和基于像素注意力的多尺度特征融合模块的实时场景语义分割网络。利用卷积下采样模块，并行下采样模块和基于通道注意力的深度非对称模块构建编码器，利用基于空间注意力的金字塔池化模块、基于像素注意力的多尺度特征融合模块、1×1卷积和双线性插值上采样构建解码器。采用深度非对称卷积代替普通卷积减少参数量，采用金字塔池化和特征融合模块提取上下文信息，减小上采样带来的误差，提高分割精度，加快预测速度。

Description

一种基于注意力的轻量化非对称场景语义分割方法及系统

技术领域

本发明属于图像语义分割技术领域，具体涉及一种基于注意力的轻量化非对称场景语义分割方法及系统。

背景技术

语义分割是一种典型的计算机视觉问题。图像语义分割旨在对一幅场景图像中的每一个像素进行分类，属于同一类的像素被归为一类，并用不同的颜色对不同的类进行标注，是一种像素级别的分类任务。广泛应用于医疗影像、遥感图像以及土地分析等。

早期传统图像语义分割主要通过基于边缘、纹理、形状、颜色等底层特征等手工设计分类器进行分割，然后对分割后图像进行语义的标注。例如，基于阈值的分割方法、基于边缘的分割方法、基于区域生长的分割方法、基于图的分割方法以及基于能量泛函的分割等等。这些传统方法可以在一定程度上取得良好的分割效果，但需要针对不同场景的特点设计不同的手工特征提取器，由于手工设计特征提取器的要求相对较高，且泛化性能不好，无法大规模应用到真实复杂的场景当中，限制了传统图像语义分割的发展。

近年来随着计算机硬件CPU、内存以及GPU等运算处理能力、传输速度的提升，使得深度学习等人工智能领域的研究也突飞猛进，基于深度学习的图像语义分割方法也取得了重大成功。图像语义分割技术也开始被应用于自动驾驶、机器人等一些先进领域。现有的许多基于深度学习的图像语义分割方法通常使用已经实现较好分类性能的分类网络作为主干网络或者构建较大的网络模型利用更深的卷积层和更多的通道数来获取足够的特征信息，实现更高的分割精度。比如：DeepLabV3使用101层的ResNet-101作为主干网络提取特征，同时引入空洞空间金字塔池化模块，在Cityscapes数据集上实现了82.7%mIoU的高分割精度。但此类方法因为较大的网络模型、更深的卷积层和更多的通道数导致含有巨大的参数量，由于过分追求分割的准确性，导致推理速度较慢，无法达到实时效果，难以部署在可穿戴设备、小型机器人以及车载系统等边缘设备上。

发明内容

本发明提出了一种基于注意力的轻量化非对称场景语义分割方法及系统，设计卷积下采样模块和并行下采样模块进行下采样和初步特征提取，设计基于通道注意力的深度非对称模块提取局部特征和上下文特征，设计基于空间注意力的金字塔池化模块获取多尺度上下文信息，设计基于像素注意力的多尺度特征融合模块融合不同尺度信息。相较于传统语义分割方法，本发明提高了场景图像的分割精度，同时加快了推理速度，在精度和速度之间达到一个较好的平衡。

本发明采用以下技术方案：

一种基于注意力的轻量化非对称场景语义分割方法，执行以下步骤，

步骤1：获取待处理图像；

步骤2：针对待处理图像，利用预训练的以图像为输入，以该图像对应的语义分割图像为输出的语义分割模型，获得待处理图像对应的语义分割图像；

所述语义分割模型包括编码器、解码器，待处理图像通过编码器提取获得其对应的特征图，解码器基于编码器提取的特征图获得待处理图像对应的语义分割图像；

所述待处理图像通过编码器提取获得其对应的特征图，具体过程如下：

步骤A1：待处理图像作为输入图像通过卷积下采样模块进行下采样和特征提取获得特征图/>，并且将输入图像/>使用平均池化下采样两倍获得特征图/>，进而将特征图/>和/>进行拼接获得特征图/>；

步骤A2：特征图通过一个并行下采样模块进行下采样获得特征图/>，然后特征图/>顺次经过三个基于通道注意力的深度非对称模块依次对特征图/>进行特征提取，获得特征图/>，并且将输入图像/>使用平均池化下采样四倍获得特征图，进而将特征图/>、/>和/>进行拼接获得特征图/>；

步骤A3：特征图通过一个并行下采样模块进行下采样获得特征图/>，然后特征图/>顺次经过八个基于通道注意力的深度非对称模块依次对特征图/>进行特征提取，得特征图/>，并且将输入图像/>使用平均池化下采样八倍获得特征图/>，进而将特征图/>、/>和/>进行拼接获得特征图/>；

所述解码器基于编码器提取的特征图获得待处理图像对应的语义分割图像，具体过程如下：

步骤B1：特征图通过基于空间注意力的金字塔池化模块进行多尺度信息提取获得特征图/>；

步骤B2：特征图、特征图/>通过一个基于像素注意力的多尺度特征融合模块进行融合上采样获得特征图/>；

步骤B3：特征图、特征图/>通过一个基于像素注意力的多尺度特征融合模块进行融合上采样处理获得特征图/>；

步骤B4：特征图通过1×1卷积将该特征图通道处理成分割类别数，并使用双线性插值上采样进行上采样，获得待处理图像对应的语义分割图像/>。

作为本发明的一种优选技术方案，所述卷积下采样模块具体为：首先卷积下采样模块输入图像经过一个步长为2的3×3卷积对输入图像/>进行下采样，然后顺序经过两个步长为1的3×3卷积来提取特征获得卷积下采样模块输出特征图/>，公式表示为：

；

其中，为3×3卷积。

作为本发明的一种优选技术方案，针对所述步骤A2中三个各基于通道注意力的深度非对称模块、以及步骤A3中八个基于通道注意力的深度非对称模块，基于通道注意力的深度非对称模块结构相同，基于通道注意力的深度非对称模块具体为：首先基于通道注意力的深度非对称模块输入特征图经过一个3×3卷积将通道数减半，然后分别通过并行的两个分支，一个分支使用非对称卷积分解的3×3深度卷积用来提取局部特征/>，另一个分支使用非对称卷积分解的3×3深度膨胀卷积用来提取上下文特征/>；进而基于/>与/>拼接获得/>，使用全局平均池化进行池化，然后顺序经过两个1×1卷积进行特征增强，接着使用sigmoid函数进行非线性激活获得通道注意力/>；最后将注意力/>与特征图/>逐元素相乘获得增强后的特征图，再将增强后的特征图与输入特征图相加，然后进行通道重排操作，获得深度非对称模块输出特征图/>；公式表示为：

；

其中，和/>为非对称卷积分解的3×3深度卷积获得的3×1和1×3的深度非对称卷积，/>和/>为非对称卷积分解的3×3深度膨胀卷积获得的3×1和1×3的深度非对称膨胀卷积，/>为拼接操作，/>为通道重排操作，/>为全局平均池化操作，/>为1×1卷积，/>为sigmod激活。

作为本发明的一种优选技术方案，针对所述步骤A2中一个并行下采样模块、以及步骤A3中一个并行下采样模块，所述并行下采样模块结构相同，并行下采样模块具体为：首先针对并行下采样模块输入特征图并行经过步长为2的3×3卷积和步长为2的2×2最大池化进行下采样，并将获得的两特征图拼接获得并行下采样模块输出特征图/>；公式表示为：

；

其中，为最大池化操作，/>为拼接操作，/>为3×3卷积。

作为本发明的一种优选技术方案，所述基于空间注意力的金字塔池化模块具体为：首先基于空间注意力的金字塔池化模块输入特征图经过1×1卷积进行通道缩减，获得新的特征图/>，然后顺序经过三个平均池化逐步对特征图/>下采样获得各平均池化逐步分别输出的不同尺度的特征图/>、/>和/>；将下采样后获得的最小尺寸的特征图/>顺序经过3×1和1×3大小的卷积核进行卷积并上采样，获得新的特征图/>，然后特征图/>与/>逐元素相加，再顺序经过3×1和1×3大小的卷积核进行卷积并上采样，获得新的特征图/>，然后特征图/>与/>逐元素相加，再顺序经过3×1和1×3大小的卷积核进行卷积并上采样，获得最终多尺度特征金字塔/>；最后通过利用全局平均池化以及1×1卷积，获取图像级别的特征/>，并将多尺度特征金字塔/>作为注意力与输入图像/>进行逐元素相乘，再与上采样后的/>逐元素相加，获得金字塔池化模块输出；公式可表示为：

；

其中，为1×1卷积，/>为双线性插值上采样操作，/>为平均池化操作，/>和/>分别为3×1卷积和1×3卷积，+为逐元素相加操作，×为逐元素相乘操作，/>为全局平均池化操作。

作为本发明的一种优选技术方案，针对所述步骤B2中一个基于像素注意力的多尺度特征融合模块、以及步骤B3中一个基于像素注意力的多尺度特征融合模块，所述基于像素注意力的多尺度特征融合模块结构相同，基于像素注意力的多尺度特征融合模块具体为：首先针对基于像素注意力的多尺度特征融合模块输入的两特征图，利用1×1卷积将输入的低分辨率特征图通道数处理成输入的高分辨率特征图/>通道数并使用双线性插值上采样获得特征图/>；然后将/>与/>进行拼接，利用3×3卷积获得像素注意力/>，将/>和/>分别与/>相乘然后相加，获得基于像素注意力的多尺度特征融合模块输出/>；公式表示为：

；

其中，为双线性插值上采样操作，/>为1×1卷积，/>为拼接操作，为3×3卷积。

一种基于注意力的轻量化非对称场景语义分割方法的系统，包括数据获取模块和语义分割模块，

数据获取模块用于获取待处理图像；

语义分割模块用于针对待处理图像，利用预训练的以图像为输入，以该图像对应的语义分割图像为输出的语义分割模型，获得待处理图像对应的语义分割图像。

本发明的有益效果是：本发明提供了一种基于注意力的轻量化非对称场景语义分割方法及系统，通过基于通道注意力的深度非对称模块，使用较少参数提取足够特征，包括局部特征和上下文特征；通过基于空间注意力的金字塔池化模块获取上下文信息，提高对场景图像中不同尺度物体的分割能力；通过基于像素注意力的多尺度特征融合模块融合不同尺度特征，提高图像复原能力；本发明能够在参数量较小的轻量化场景图像语义分割模型中保证模型分割精度的同时，提高推理速度。具有分割精度高、推理速度快、参数量少的特点，在分割精度和推理速度之间达到了一个较好的平衡，能够满足在资源受限的实际应用场景中对准确性和时效性的要求。

附图说明

图1为本发实施例中语义分割方法整体流程图；

图2为本发实施例中基于注意力的轻量化非对称实时场景语义分割网络；

图3为本发实施例中卷积下采样模块；

图4为本发实施例中基于通道注意力的深度非对称模块；

图5为本发实施例中并行下采样模块；

图6为本发实施例中基于空间注意力的金字塔池化模块；

图7 为本发实施例中基于像素注意力的多尺度特征融合模块。

具体实施方式

下面结合附图对本发明进行进一步说明。下面的实施例可使本专业技术人员更全面地理解本发明，但不以任何方式限制本发明。

本实施例中，提出了一种基于注意力的轻量化非对称场景语义分割方法，执行以下步骤，

步骤1：获取待处理图像；

步骤2：针对待处理图像，利用预训练的以图像为输入，以该图像对应的语义分割图像为输出的语义分割模型，获得待处理图像对应的语义分割图像。

本方法，可应用在城市街景的分割上，把汽车，人，树等基于类别的分割开来；同样基于语义分割模型训练数据的不同，可应用于其他场景下进行图像语义分割。

进一步地，如图2所示，所述语义分割模型包括编码器、解码器，待处理图像通过编码器提取获得其对应的特征图，解码器基于编码器提取的特征图获得待处理图像对应的语义分割图像。

进一步地，所述待处理图像通过编码器提取获得其对应的特征图，具体过程如下：

步骤A3：特征图通过一个并行下采样模块进行下采样获得特征图/>，然后特征图/>顺次经过八个基于通道注意力的深度非对称模块依次对特征图/>进行特征提取，得特征图/>，并且将输入图像/>使用平均池化下采样八倍获得特征图/>，进而将特征图/>、/>和/>进行拼接获得特征图/>。

进一步地，所述编码器中，如图3所示，利用卷积对特征图下采样。所述卷积下采样模块（CDB）具体为：首先卷积下采样模块输入图像经过一个步长为2的3×3卷积对输入图像/>进行下采样，然后顺序经过两个步长为1的3×3卷积来提取特征获得卷积下采样模块输出特征图/>，公式表示为：

；

其中，为3×3卷积。

如图4所示。利用参数量较少的非对称深度卷积和非对称深度膨胀卷积，同时获取局部信息和上下文信息，使用通道重排加强通道之间的信息交互，使用通道注意力对特征进行增强。针对所述步骤A2中三个各基于通道注意力的深度非对称模块、以及步骤A3中八个基于通道注意力的深度非对称模块，所述基于通道注意力的深度非对称模块（CADAB）结构相同，基于通道注意力的深度非对称模块具体为：首先基于通道注意力的深度非对称模块输入特征图经过一个3×3卷积将通道数减半，然后分别通过并行的两个分支，一个分支使用非对称卷积分解的3×3深度卷积用来提取局部特征/>，另一个分支使用非对称卷积分解的3×3深度膨胀卷积用来提取上下文特征/>；进而基于/>与/>拼接获得/>，使用全局平均池化进行池化，然后顺序经过两个1×1卷积进行特征增强，接着使用sigmoid函数进行非线性激活获得通道注意力/>；最后将注意力/>与特征图逐元素相乘获得增强后的特征图，再将增强后的特征图与输入特征图相加，然后进行通道重排操作，获得深度非对称模块输出特征图/>；公式表示为：

；

其中，和/>为非对称卷积分解的3×3深度卷积获得的3×1和1×3的深度非对称卷积，/>和/>为非对称卷积分解的3×3深度膨胀卷积获得的3×1和1×3的深度非对称膨胀卷积，/>为拼接操作，/>为通道重排操作，/>为全局平均池化操作，/>为1×1卷积，/>为sigmod激活。原来的两分支中，一个分支使用3×3深度卷积用来提取局部特征，另一个分支使用3×3深度膨胀卷积用来提取上下文特征，为进一步降低参数量使用非对称卷积对两个分支中的3×3卷积进行分解。

本方案提出了基于通道注意力的深度非对称模块，设计了参数量较少的非对称深度卷积和非对称深度膨胀卷积。利用非对称深度卷积减少参数量，利用非对称深度膨胀卷积扩大感受野，以此同时得到局部信息和上下文信息。通过通道重排增强通道之间的信息交互，通过全局平均池化和1×1获取通道注意力对特征进行增强。解决了普通语义分割无法获取足够特征信息和无法聚合上下文信息的问题，同时在保证提取足够特征的同时减少了参数量，提高了推理速度。

如图5所示，使用卷积和池化对特征图下采样，针对所述步骤A2中一个并行下采样模块、以及步骤A3中一个并行下采样模块，所述并行下采样模块（PDB）结构相同，并行下采样模块具体为：首先针对并行下采样模块输入特征图并行经过步长为2的3×3卷积和步长为2的2×2最大池化进行下采样，并将获得的两特征图拼接获得并行下采样模块输出特征图/>；公式表示为：

；

其中，为最大池化操作，/>为拼接操作，/>为3×3卷积。

进一步地，所述解码器基于编码器提取的特征图获得待处理图像对应的语义分割图像，具体过程如下：

步骤B2：特征图、特征图/>通过一个基于像素注意力的多尺度特征融合模块进行融合上采样获得特征图/>；其中特征图/>是低分辨率特征图，特征图/>是高分辨率特征图；

步骤B3：特征图、特征图/>通过一个基于像素注意力的多尺度特征融合模块进行融合上采样处理获得特征图/>；其中特征图/>是低分辨率特征图，特征/>是高分辨率特征图；

进一步地，所述解码器中，如图6所示。使用金字塔池化来获取不同尺度的特征图。所述基于空间注意力的金字塔池化模块（SAPP）具体为：首先基于空间注意力的金字塔池化模块输入特征图经过1×1卷积进行通道缩减，获得新的特征图/>，然后顺序经过三个平均池化逐步对特征图/>下采样获得各平均池化逐步分别输出的不同尺度的特征图/>、/>和/>；将下采样后获得的最小尺寸的特征图/>顺序经过3×1和1×3大小的卷积核进行卷积并上采样，获得新的特征图/>，然后特征图/>与/>逐元素相加，再顺序经过3×1和1×3大小的卷积核进行卷积并上采样，获得新的特征图/>，然后特征图/>与/>逐元素相加，再顺序经过3×1和1×3大小的卷积核进行卷积并上采样，获得最终多尺度特征金字塔/>；最后通过利用全局平均池化以及1×1卷积，获取图像级别的特征/>，并将多尺度特征金字塔/>作为注意力与输入图像/>进行逐元素相乘，再与上采样后的/>逐元素相加，获得金字塔池化模块输出/>；公式可表示为：

；

本方案提出了基于空间注意力的金字塔池化模块，利用金字塔池化逐步获取不同尺度的特征信息，并进一步得到特征金字塔。将特征金字塔作为空间注意力对输入特征图进行增强。额外添加一个全局分支，获取全局特征。解决了普通语义分割无法精确分割不同尺寸物体的问题，实现了不同尺寸物体特别是小尺寸物体的精确分割，优化了各类别之间的分割轮廓。

如图7所示。通过相邻尺寸的特征图融合，卷积生成像素注意力，引导低分辨率特征图恢复空间细节。针对所述步骤B2中一个基于像素注意力的多尺度特征融合模块、以及步骤B3中一个基于像素注意力的多尺度特征融合模块，所述各基于像素注意力的多尺度特征融合模块（PAMFF）结构相同，基于像素注意力的多尺度特征融合模块具体为：首先针对基于像素注意力的多尺度特征融合模块输入的两特征图，利用1×1卷积将输入的低分辨率特征图通道数处理成输入的高分辨率特征图/>通道数并使用双线性插值上采样获得特征图/>；然后将/>与/>进行拼接，利用3×3卷积获得像素注意力/>，将和/>分别与/>相乘然后相加，获得基于像素注意力的多尺度特征融合模块输出；公式表示为：

；

本方案提出了基于像素注意力的多尺度特征融合模块，使用简单的3×3卷积整合基于通道注意力的深度非对称模块和基于空间注意力的金字塔池化模块的输出特征，得到像素注意力对特征图进行优化，避免上采样过程中像素还原不正确的问题，提高分割精度。

基于上述方法，本实施例还提供一种基于注意力的轻量化非对称场景语义分割方法的系统，包括数据获取模块和语义分割模块，

数据获取模块用于获取待处理图像；

基于本方案提出的一种非对称的编码器-解码器结构，编码器网络层数深，解码器网络层数浅，相对于普通对称的编码器-解码器结构，达到网络轻量化的效果。为保留空间信息和细节，在编码器中只包含3个stage，下采样三次，最终获得1/8大小的特征图。编码器中，使用初始模块进行初步下采样，通过较早的减小特征图尺寸来降低计算开销。使用基于通道注意力的深度非对称模块提取征，后续使用并行下采样模块进行下采样扩大感受野。此外，使用平均池化对输入图像进行下采样得到图像级别特征图，并与每个stage的输出特征进行拼接。解码器中，使用基于空间注意力的金字塔池化模块获取多尺度信息，使用基于像素注意力的多尺度特征融合模块优化上采样特征。本方案具有分割精度高、推理速度快、参数量少的特点，在分割精度和推理速度之间达到了一个较好的平衡，能够满足在资源受限的实际应用场景中对准确性和时效性的要求。

本实施例中，如图1所示，所述预训练的以图像为输入，以该图像对应的语义分割图像为输出的语义分割模型，通过以下步骤获得：

步骤S1：获取实施例中的预设场景图像数据集，划分训练集、验证集和测试集，并对数据集进行数据预处理。

进一步地，步骤S1包括以下步骤：

S11：从预设开源数据集网站下载或自制目标场景图像数据集；本实施例中，从开源数据集网站http://www.cityscape-dataset.com下载Cityscapes数据集。

S12：将整个数据集中图像及标签放入不同文件夹，并按照一定比例划分训练集、验证集及测试集；本实施例中，将整个Cityscapes数据集中图像及标签放入不同文件夹，划分训练集、验证集及测试集。其中，2975幅图像作为训练集，500幅图像作为验证集，1525幅图像作为测试集。

S13：将划分好的训练集、验证集及测试集首先进行尺寸缩放，然后进行数据增强。本实施例中，将划分好的训练集、验证集及测试集使用torchvision.transforms工具包中resize函数进行缩放，缩放为512×1024尺寸，使用随机尺度、均值减法以及水平翻转等技术对缩放后的数据集进行数据增强，其中随机尺度的参数设置为[0.75、1.0、1.25、1.5、1.75、2.0]。

步骤S2：构建基于注意力的轻量化非对称实时场景语义分割网络，即语义分割模型的网络结构。

进一步地，基于注意力的轻量化非对称实时场景语义分割网络包括：卷积下采样模块、基于通道注意力的深度非对称模块、并行下采样模块、基于空间注意力的金字塔池化模块、基于像素注意力的多尺度特征融合模块、1×1卷积和双线性插值上采样；各模块具体结构如上面基于注意力的轻量化非对称场景语义分割方法中描述所述，步骤S2包括以下步骤：

S21：构建卷积下采样模块；

S22：构建基于通道注意力的深度非对称模块；

S23：构建并行下采样模块；

S24：构建基于空间注意力的金字塔池化模块；

S25：构建基于像素注意力的多尺度特征融合模块；

S26：利用S21中构建的卷积下采样模块、S22中构建的基于通道注意力的深度非对称模块和S23中构建的并行下采样模块构建编码器。使用S21中构建的卷积下采样模块对输入的场景图像进行初步下采样和初步特征提取，使用S23中构建的并行下采样模块对特征图进行后续下采样，使用S22中构建的基于通道注意力的深度非对称模块提取特征图深层特征；编码器具体结构如上面基于注意力的轻量化非对称场景语义分割方法中描述所述，编码器模块包括3个stage，其中stage1包括一个卷积下采样模块，stage2包括一个并行下采样模块和三个基于通道注意力的深度非对称模块，stage3包括一个并行下采样模块和八个基于通道注意力的深度非对称模块；在stage1中采用S22构建的卷积下采样模块对输入的场景图像进行下采样和特征提取获得特征图/>，另外将场景图像使用平均池化下采样两倍获得特征图/>，将特征图/>和/>进行拼接获得特征图/>。在stage2中采用S24构建获得的并行下采样模块对特征图/>进行下采样获得特征图/>，然后使用三个S23构建的基于通道注意力的深度非对称模块依次对特征图/>进行特征提取，获得特征图/>、/>和/>，另外将场景图像/>使用平均池化下采样四倍获得特征图/>，将特征图/>、/>和/>进行拼接获得特征图/>。在stage3中继续采用S24构建获得的并行下采样模块对特征图/>进行下采样获得特征图/>，然后使用八个S23构建的基于通道注意力的深度非对称模块依次对特征图/>进行特征提取，获得特征图F₃₁、F₃₂、F₃₃、F₃₄、F₃₅、F₃₆、F₃₇和F₃₈，另外将场景图像/>使用平均池化下采样八倍获得特征图，将特征图/>、/>和/>进行拼接获得特征图/>。本实施例中，为了同时获取局部特征和上下文特征，将stage2中的膨胀率全部设置为2，将stage3中的膨胀率设置为4、4、8、8、16、16、32和32。

S27：利用S24中构建的基于空间注意力的金字塔池化模块、S25中构建的基于像素注意力的多尺度特征融合模块、1×1卷积和双线性插值上采样构建解码器。将S26中编码器获得的特征图送入到基于空间注意力的金字塔池化模块，获取多尺度上下文信息。再将处理完的特征图与S26中编码器获得的不同尺寸特征图送入S25中构建的基于像素注意力的多尺度特征融合模块融合不同尺度信息进行上采样，还原特征图尺寸。最后使用1×1卷积将处理完特征图的通道处理成分割类别数，并进行双线性插值上采样，获得最终语义分割图。解码器具体结构如上面描述所述；解码器包括一个基于空间注意力的金字塔池化模块，两个基于像素注意力的多尺度特征融合模块，一个1×1卷积和一个双线性插值上采样；具体的，使用S24构建的基于空间注意力的金字塔池化模块对S27处理获得的特征图进行多尺度信息提取获得特征图/>。然后使用S25构建的基于像素注意力的多尺度特征融合模块对特征图/>和S26中获得的特征图/>进行融合上采样处理获得特征图/>，再使用S25构建的基于像素注意力的多尺度特征融合模块对特征图/>和S26中获得的特征图/>进行融合上采样处理获得特征图/>。最后将特征图使用1×1卷积将特征图通道处理成分割类别数，并使用双线性插值上采样进行上采样，获得最终语义分割图/>。

步骤S3：利用步骤S1获得的训练集、验证集对步骤S2构建的基于注意力的轻量化非对称实时场景语义分割网络进行网络参数训练和性能验证。

进一步地，步骤S3包括以下步骤：

S31：设定训练模型初始参数；本实施例中，设定训练模型初始参数包括：初始学习率（learning rate）、优化器（optimization）：小批量随机梯度下降(SGD)优化器、学习率衰减（learning rate decay）、权重衰减（weight decay）、动量（momentum）、批大小（batchsize）、训练轮数（epoch）；具体的，初始学习率（learning rate）：0.045；优化器（optimization）：小批量随机梯度下降(SGD)优化器；学习率衰减（learning rate decay）：poly策略；权重衰减（weight decay）：0.0002；动量（momentum）：0.9；批大小（batch size）：8；训练轮数（epoch）：800。

S32：将步骤S1获得的训练集输入到基于注意力的轻量化非对称实时场景语义分割网络中训练，在训练过程中使用dropout进行正则化，采用在线难样本挖掘交叉熵损失函数(Online Hard Example Mining cross-entropy loss)计算损失；在线难样本挖掘交叉熵损失函数是给定一个阈值，计算符合阈值的前n个像素点的交叉熵损失，交叉熵损失函数计算公式如下：

；

其中，y为样本标签，为预测值。当y=1时，/>，此时/>越接近1，损失值越小，/>越接近0，损失值越大。当y为0时，/>，此时/>越接近1，损失值越大，越接近0，损失值越小。

S33：利用步骤S32获得的损失函数计算梯度，采用小批量随机梯度下降(SGD)优化器更新网络权重以及偏差，采用“poly”策略进行学习率衰减。采用poly策略进行学习率衰减，衰减公式如下：

；

其中，为初始学习率，/>为当前迭代次数，/>为最大迭代次数。

S34：使用平均交并比mIoU、每秒帧数FPS、参数量以及融合指标I对模型进行评估；进一步的，使用平均交并比mIoU（mean Intersection over Union）对模型分割精度进行评估，使用每秒帧数FPS（Frames Per Second）对模型推理速度进行评估，使用参数量对模型大小进行评估。其中，mIoU值越大则表示模型分割精度越好，FPS值越大代表模型推理速度越快，参数量越小代表模型越小。另外，为综合评价提出的分割网络模型，提出一个融合指标I去综合评估模型的mIoU、FPS以及参数量，I越大，代表模型综合性能越强，越能在分割精度、推理速度和参数量之间达到更好的平衡。FPS和参数量可使用torchstat工具包计算得出，mIoU以及综合指标I计算方法如下：

；

其中，N表示类别数，i表示第i类；（True Positive）为真正例，即模型第类预测类别与真实类别均为正例的情况；/>（False Positive）为假正例，即模型第类预测类别为正例，但真实类别为反例的情况；/>（False Negative）为假反例，即模型第类预测类别为反例，但真实类别为正例的情况；

；

其中，；/>分别为第i(i=1,2,…,n)轮的mIoU、FPS和参数量；/>分别为/>的最大值；/>分别为/>和/>的最大值和最小值。

S35：重复步骤S32-S34训练过程，每训练完一轮使用步骤S1获得的验证集对网络模型进行评估，直至训练轮数全部完成，保存最优训练模型。即本实施例中，按照最优mIoU值保存网络参数，直至训练轮数800轮全部完成，保存最优训练模型。

步骤S4：将步骤S1获得的测试集输入到步骤S3获得的训练好的基于注意力的轻量化非对称实时场景语义分割网络，输出场景图像语义分割结果。

进一步地，步骤S4包括以下步骤：

S41：导入步骤S3中获得的最优模型，输入步骤S1中获得的测试集的场景图像以及标签；

S42：计算mIoU、FPS、参数量以及综合指标，保存测试结果。

本发明设计了一种基于注意力的轻量化非对称场景语义分割方法及系统，通过基于通道注意力的深度非对称模块，使用较少参数提取足够特征，包括局部特征和上下文特征；通过基于空间注意力的金字塔池化模块获取上下文信息，提高对场景图像中不同尺度物体的分割能力；通过基于像素注意力的多尺度特征融合模块融合不同尺度特征，提高图像复原能力；本发明能够在参数量较小的轻量化场景图像语义分割模型中保证模型分割精度的同时，提高推理速度。具有分割精度高、推理速度快、参数量少的特点，在分割精度和推理速度之间达到了一个较好的平衡，能够满足在资源受限的实际应用场景中对准确性和时效性的要求。

以上仅为本发明的较佳实施例，但并不限制本发明的专利范围，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本发明专利保护范围之内。

Claims

1.一种基于注意力的轻量化非对称场景语义分割方法，其特征在于，执行以下步骤，

步骤1：获取待处理图像；

步骤A2：特征图通过一个并行下采样模块进行下采样获得特征图/>，然后特征图顺次经过三个基于通道注意力的深度非对称模块依次对特征图/>进行特征提取，获得特征图/>，并且将输入图像/>使用平均池化下采样四倍获得特征图/>，进而将特征图/>、/>和/>进行拼接获得特征图/>；

2.根据权利要求1所述一种基于注意力的轻量化非对称场景语义分割方法，其特征在于，所述卷积下采样模块具体为：首先卷积下采样模块输入图像经过一个步长为2的3×3卷积对输入图像/>进行下采样，然后顺序经过两个步长为1的3×3卷积来提取特征获得卷积下采样模块输出特征图/>，公式表示为：

；

其中，为3×3卷积。

3.根据权利要求1所述一种基于注意力的轻量化非对称场景语义分割方法，其特征在于，针对所述步骤A2中三个各基于通道注意力的深度非对称模块、以及步骤A3中八个基于通道注意力的深度非对称模块，基于通道注意力的深度非对称模块结构相同，基于通道注意力的深度非对称模块具体为：首先基于通道注意力的深度非对称模块输入特征图经过一个3×3卷积将通道数减半，然后分别通过并行的两个分支，一个分支使用非对称卷积分解的3×3深度卷积用来提取局部特征/>，另一个分支使用非对称卷积分解的3×3深度膨胀卷积用来提取上下文特征/>；进而基于/>与/>拼接获得/>，使用全局平均池化进行池化，然后顺序经过两个1×1卷积进行特征增强，接着使用sigmoid函数进行非线性激活获得通道注意力/>；最后将注意力/>与特征图/>逐元素相乘获得增强后的特征图，再将增强后的特征图与输入特征图相加，然后进行通道重排操作，获得深度非对称模块输出特征图/>；公式表示为：

；

其中，和/>为非对称卷积分解的3×3深度卷积获得的3×1和1×3的深度非对称卷积，/>和/>为非对称卷积分解的3×3深度膨胀卷积获得的3×1和1×3的深度非对称膨胀卷积，/>为拼接操作，/>为通道重排操作，为全局平均池化操作，/>为1×1卷积，/>为sigmod激活。

4.根据权利要求1所述一种基于注意力的轻量化非对称场景语义分割方法，其特征在于，针对所述步骤A2中一个并行下采样模块、以及步骤A3中一个并行下采样模块，所述并行下采样模块结构相同，并行下采样模块具体为：首先针对并行下采样模块输入特征图并行经过步长为2的3×3卷积和步长为2的2×2最大池化进行下采样，并将获得的两特征图拼接获得并行下采样模块输出特征图/>；公式表示为：

；

其中，为最大池化操作，/>为拼接操作，/>为3×3卷积。

5.根据权利要求1所述一种基于注意力的轻量化非对称场景语义分割方法，其特征在于，所述基于空间注意力的金字塔池化模块具体为：首先基于空间注意力的金字塔池化模块输入特征图经过1×1卷积进行通道缩减，获得新的特征图/>，然后顺序经过三个平均池化逐步对特征图/>下采样获得各平均池化逐步分别输出的不同尺度的特征图/>、/>和/>；将下采样后获得的最小尺寸的特征图/>顺序经过3×1和1×3大小的卷积核进行卷积并上采样，获得新的特征图/>，然后特征图/>与/>逐元素相加，再顺序经过3×1和1×3大小的卷积核进行卷积并上采样，获得新的特征图/>，然后特征图/>与/>逐元素相加，再顺序经过3×1和1×3大小的卷积核进行卷积并上采样，获得最终多尺度特征金字塔/>；最后通过利用全局平均池化以及1×1卷积，获取图像级别的特征/>，并将多尺度特征金字塔/>作为注意力与输入图像/>进行逐元素相乘，再与上采样后的/>逐元素相加，获得金字塔池化模块输出/>；公式可表示为：

；

其中，为1×1卷积，/>为双线性插值上采样操作，/>为平均池化操作，和/>分别为3×1卷积和1×3卷积，+为逐元素相加操作，×为逐元素相乘操作，/>为全局平均池化操作。

6.根据权利要求1所述一种基于注意力的轻量化非对称场景语义分割方法，其特征在于，针对所述步骤B2中一个基于像素注意力的多尺度特征融合模块、以及步骤B3中一个基于像素注意力的多尺度特征融合模块，所述基于像素注意力的多尺度特征融合模块结构相同，基于像素注意力的多尺度特征融合模块具体为：首先针对基于像素注意力的多尺度特征融合模块输入的两特征图，利用1×1卷积将输入的低分辨率特征图通道数处理成输入的高分辨率特征图/>通道数并使用双线性插值上采样获得特征图/>；然后将与/>进行拼接，利用3×3卷积获得像素注意力/>，将/>和/>分别与/>相乘然后相加，获得基于像素注意力的多尺度特征融合模块输出/>；公式表示为：

；

其中，为双线性插值上采样操作，/>为1×1卷积，/>为拼接操作，/>为3×3卷积。

7.一种基于权利要求1-6任意一项所述基于注意力的轻量化非对称场景语义分割方法的系统，其特征在于，包括数据获取模块和语义分割模块，

数据获取模块用于获取待处理图像；