CN112287940A

CN112287940A - 一种基于深度学习的注意力机制的语义分割的方法

Info

Publication number: CN112287940A
Application number: CN202011194569.8A
Authority: CN
Inventors: 王晓华; 李志正; 张蕾; 王文杰
Original assignee: Xian Polytechnic University
Current assignee: Shenzhen Wanzhida Technology Co ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-01-29

Abstract

本发明公开了一种基于深度学习的注意力机制的语义分割的方法，具体步骤按照以下实施；首先获取标准数据集预处理；然后将标准数据集图像信息存储并导入深度神经网络模型中，具体框架采用DeepLabv3+图像语义分割网络，将MS‑CAM模型与DeepLabv3+结合，解决尺度不一致问题，利用AFF模块解决上下文集合和初始集合融合问题，将MS‑CAM模块嵌入到AFF或者多次迭代的iAFF模块，解决语义特征融合和尺度不一致问题具有良好的效果。本发明在DeepLabv3+图像语义分割技术下，使用尺度不同的两个分支来提取通道注意力权重，达到因尺度变化和小物体而引起的识别问题。

Description

一种基于深度学习的注意力机制的语义分割的方法

技术领域

本发明属于人工智能技术领域，涉及一种基于深度学习的注意力机制的语义分割的方法。

背景技术

随着计算机技术的迅速发展，基于计算机平台的机器学习和计算机视觉技术成为了现代人工智能的主要研究方向，而计算机视觉作为人工智能的重要分支，对于场景理解的重要性越来越突出，如何精确且高效的从现实场景中推理出相关知识或者语义，并应用到现实场景成为了一种必然趋势。不同于传统的基于灰度、颜色、纹理和形状等特征的图像分割问题，图像语义分割是从像素级理解图像，从而确定图像中像素对应的目标分类。

针对目前卷积神经网络应用于语义分割中其中主要的问题就是池化层问题(poollayers)，池化层增加了视野，同时也丢失了精确的位置信息，这与语义分割需要的准确像素信息相矛盾。针对这个问题一般有两种类型的解决方法，一种是编码解码器(encoder-decoder)网络结构，编码器使用池化层逐渐减少空间维度，解码器逐渐恢复目标对象的细节和空间维度，通常从编码器到解码器的快捷连接，帮助解码器更好地恢复对象细节；另一种是取消池化层并使用空洞卷积。由于对象的比例变化是计算机视觉中的关键挑战，缓解因尺度变化和小物体而引起的语义分割问题是现有技术研究的关键。

发明内容

本发明的目的是提供一种基于深度学习的注意力机制的语义分割的方法，为了缓解因尺度变化和小物体而引起的语义分割问题。

本发明所采用的技术方案是，一种基于深度学习的注意力机制的语义分割的方法，具体步骤按照以下实施；

步骤1，获取标准数据集，进行预处理；

步骤2，将步骤1预处理后的标准数据集图像信息存储并导入深度神经网络模型中，通过DeeplabV3+引入的编码-解码结构和带空洞卷积的金字塔池化模块，以端到端的方式对网络进行训练，通过ASSP引入多尺度信息，通过Decoder模块将底层特征和高层特征进行融合，提升分割边界准确度；

步骤3，结合多通道注意力模块，沿通道维度聚合尺度的上下文信息，强调分部大型对象，并在全局范围内突出本地小物体信息，采用注意力特征融合模块进行特征融合，将现有特征算子与拟议的AFF模块一同放置，通过迭代集成的AFF框架形成iAFF框架；

步骤4，采用条件随机场对语义分割的预测结果进行特征优化，将低层图像信息和逐像素分类结果相结合；

步骤5，调整解码端输出特征的通道数并激活，即获取最终的预测结果。

本发明的特点还在于，

步骤1具体为：

步骤1.1，采用DeepLabv3+语义分割网络适用的数据集PASCAL VOC 2012；

步骤1.2，下载Deeplabv3+模型常用的标准PASCALVOC 2012数据集；

步骤1.3，预处理PASCAL VOC 2012数据集，PASCAL VOC 2012包括原始数据集和增强数据集两种版本的数据集，采用增强数据集的数据标签 label是.mat格式的文件，将.mat格式转换为.png格式的图片文件，转化后的数据图片是8-bit的灰度图；

步骤1.4，数据集融合，将增强数据集中label转化为三通道RGB图，并转化为8-bit的灰度.png图像；

步骤1.5，数据集导入编码端，调用函数转换导入数据集。

步骤2的具体步骤为：

步骤2.1，图像信息Image输入到Deeplabv3+上端编码器Encoder中，通过解码端处理，将编码器输出特征图；

步骤2.2，采用不同尺寸卷积核和rate，利用多扩张率的空洞卷积获取更丰富的上下文语义信息，提取多尺度特征，引入膨胀卷积即多扩张空洞卷积增加网络感受野；

步骤2.3，使用Dilated Convolution膨胀卷积提取特征阶段，实现感受野的扩大，并且不降低分辨率，实现保留原有位置信息并且语义信息保持不变；

步骤2.4，利用空洞金字塔池化，提出多尺度信息，根据ASPP有五个尺度，在Encoder部分，高级特征讲过五个不同从操作得到5个输出一个1×1 卷积，3个不同尺度rate的dilation conv和1个ImagePool，在Decoder部分，对于两个输入分别操作，将low-level-feature经过1×1卷积调整维度，另一操作将Eecoder的1×1conv经过Decoder中的向上采样Upsample，利用双线性插值法，再将两操作进行Concat结合处理。

步骤2.3的具体步骤为：

步骤2.3.1，利用膨胀卷积将卷积核变大，将一个3×3的卷积核膨胀为 5×5，从而增加了五个参数，并引入了空白信息；

步骤2.3.2，利用具有Atrous卷积的编码-解码器，由深度神经网络计算特征的分辨率，并且调整滤波器的视场以捕获多尺度信息，对于二维信号，输出特征图y上的每个位置i和卷积滤波器w，在输入特征图上进行如下粗卷积计算：

其中，y表示输出特征图，i表示某一具体卷积操作的像素，y[i]表示i 特征输出图，r表示参数距离也就是速率rate，k为有效视野感受参数，w为卷积滤波器；

步骤2.3.3，膨胀卷积输入输出维度大小计算公式如下：

Input：(N,Cin,Hin,Win)

Output：(N,Cout,Hout,Wout)

其中Input，Output为输入输出特征尺寸大小，C表示输入输出通道数， H，W表示输入图片尺寸大小，kernel_size表示卷积核尺寸，stride表示步长， padding表示宽度，dilation表示膨胀率，Hout和Wout为膨胀卷积的输入和输出。

步骤2.4具体步骤为：

步骤2.4.1，取一个1×1卷积层，以及3×3的空洞卷积，对于输入图像分辨率和输出图像分辨率的比值out_stride＝16，其中rate为(6,12,18)，若 out_stride＝8，rate加倍，此类卷积层的输出channel数均为256，并且含有 BN层；

步骤2.4.2，一个金字塔平均池化得到的image-level特征，然后送入1×1 卷积层，输出256个channel；

步骤2.4.3，将步骤2.2.1和步骤2.2.2得到的4个不同尺度的特征在 channel维度结合到一起，将多尺度的特征图调整分辨率后拼接融合，并利用1×1卷积将输出通道数调整为256，此时编码器输出特征图的分辨率是原始图像的十六分之一；

步骤2.4.4，对于DeepLabv3+，经过ASPP模块得到的特征图的out_stride 为8或者16，其经过1×1的分类层后，利用Encoder-Decoder结构对于输入的空间分辨率进行向下采样，得到低分辨率并经过学习高效的区分特征图，在进行向上采样特征表示全分辨率分割图。

步骤3具体步骤为：

步骤3.1，在DeepLav3+模型上提出一种多尺度通道注意模块，使用尺度不同的两个分支来提取通道注意力权重，多尺度通道注意模块结构分为两部分，其中一个分支使用Global Avg Pooling来提取全局特征的注意力，另一个分支直接使用point-wise卷积提取局部特征的通道注意力；

步骤3.2，将得到的采样图X，经MS-CAM注意力机制模块，分为两部分分别输入到全局特征提取和卷积局部特征通道；

步骤3.3，应用卷积神经网络注意力机制，采用channel Attention，对于每个通道channel维度，学习不同权重，平面维度上权重相同，基于多尺度通道注意力模块将一个通道内的信息进行全局平均；

步骤3.4，通过注意力掩模和特征图作用机制，在图像特征信息中实现总体结构；

步骤3.5，注意力特征融合基于步骤3.2卷积神经网络的注意力机制，将生成的特征进行融合，用以解决特征融合上下文聚合和初始集成的问题，实现特征融合从相同层场景扩展到跨层场景。

步骤步骤3.3具体为；

步骤3.3.1，分支trunk实现，应用传统的卷积神经网络结构，通过多次卷积操作提取原始特征；

步骤3.3.2，分支mask实现，利用注意力模块的buttom-up和top-down 结构实现；

buttom-up部分：执行下采样(down sample)，多次进行最大池化操作扩大接受域，直到达到最低分辨率，强语义信息的特征图，从而收集整个图片的全局信息；

top-down部分：执行上采样(up sample)线性插值，直到特征图尺寸与输入时相等，扩展Bottom-up所产生的特征图，使其尺寸与输入Bottom-up前的特征图大小相同，从而对输入特征图的每个像素进行推理选择；

步骤3.3.3，在mask输出之前，通过改变激活函数中的标准方差式，即对mask中的Attention添加不同约束，使其成为channel attention注意力模型。

步骤3.4首先将多个注意力模块的堆叠而成，并且将注意力模块分成两个分支：mask brunch和trunk branch，最后以特征点积输出；计算如下所示；

H_i,c(x)＝M_i,c(x)*T_i,c(x) (4)

其中M_i,c是mask分支输出的注意力特征权重，T_i,c(x)是trunk分支经过一系列操作所提取的特征图表示，H_i,c为输出，即为二者的点积；

步骤3.4.1，通过汇聚上下文信息利用多尺度通道注意模块(MS-CAM) 实现空间池大小缩放，将本地上下文信息添加到注意模块中的全局上下文，选择点卷积(PWCov)作为本地通道上下文聚合器，利用逐点通道每个位置空间的互动；

步骤3.4.2，计算本地通道上下文信息

计算模型输出所示；

L(X)＝B(PWConv₂(δ(B(PWConv₁(Z'))))) (5)

其中卷积核大小为PWconv₁和PWconv₁分别为

和

步骤3.4.3，给定全局通道上下文信息个g(X)和本地通道上下文信息 L(X)，并且重新定义特征X'，将其记为

即利用本地通道上下文信息作为新的输入特征，输入输出模型如下：

其中

相当于MS-CAM生成的注意力权重，

表示按元素进行乘法，

表示加法，σ为激活函数。

步骤3.5具体步骤为：

步骤3.5.1，将现有特征融合算子与拟议的AFF模块结合，通过迭代集成的AFF框架完善初始集成，即融合权重生成器，用它作为输出通过另一个AFF模块接收特征，形成迭代注意力特征融合iAFF；

步骤3.5.2，给定两幅特征图，

默认情况下，假定Y是具有较大感受野范围的特征图；

对于不同结构中，具体X，Y对应：同层场景中：X是3×3卷积的输出， Y是5×5卷积的输出；在短跳跃连接场景：X是本身映射，Y是学习残差；在长跳跃场景：X是低级特征图，Y是高层特征金字塔中的高阶语义特征图；基于多尺度通道注意力模块MS-CAM，将注意力特征融合表示为：

其中，

是融合后的输出特征，∪表示初始特征集整合；

步骤3.5.3，选择逐元素求和作为初始积分，AFF和iAFF模块与多尺度通道之间的框架关系，其中虚线表示1-M(X∪Y)，M(X∪Y)表示融合权重，将网络在X，Y之间进行平均或者软选择。

步骤4中采用Atrous Conv算法扩大视野，获取更多的上下文信息。

本发明的有益效果是，本发明采用最新的Deeplabv3+语义分割模型，该模型结合了空间金字塔池化模块和编码解码器结构，使网络能够对多种采样率和多个感受野进行滤波和池化操作来探查传入特征，从而对多尺度上下文信息进行编码，通过逐渐恢复空间信息来捕获更清晰的对象边界。在语义分割过程中，提出一种融合语义和尺度不一致的特征，多尺度通道注意模块 (MS-CAM)，用于解决跨不同尺度的特征不一致问题，以进行注意力特征融合(AFF)的方法。基于DeepLabv3+语义分割网络模型，多尺度注意机制模块在全局范围内的强调大对象，并突出显示分布在本地范围内的小对象，从而有助于网络识别和检测极端尺度变化下的对象。

附图说明

图1本发明一种基于深度学习的注意力机制的语义分割的方法总体框架图。

图2本发明多尺度通道注意模块(MS-CAM)框图；

图3本发明注意力特征融合模块(AFF-iAFF)框图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

本发明是一种基于深度学习的注意力机制的语义分割的方法，具体按照以下步骤实施：

步骤1，获取标准数据集，进行预处理；

DeepLabv3+模型级联多个卷积模块，在空间维度上便于更好的捕捉图像上下文信息，利用观察不同视野特征，利用金字塔池化的方式融合特征，该方法不足在于小尺度物体分割不明显，采用注意力机制多尺度通道模块来优化。

步骤1.2，下载Deeplabv3+模型常用的标准PASCAL VOC 2012数据集； PASCAL VOC2012包括原始数据集和增强数据集两种版本的数据集，数据集中包含20个对象类，person、bird、cat、cow等室外场景，包括10个动作类，running、reading等，数据集使用过程中要保证训练数据集train.txt和验证数据集vai.txt没有交集。

步骤1.3，预处理PASCAL VOC 2012数据集，采用增强数据集的数据标签label是.mat格式的文件，将.mat格式转换为.png格式的图片文件，转化后的数据图片是8-bit的灰度图；.mat是MATLAB数据的保存格式。

步骤1.4，数据集融合，将增强数据集中label转化为三通道RGB图，并转化为8-bit的灰度.png图像；大多数场合使用的数据集是两个以上数据的融合，本质区别在于数据的多少。

步骤1.5，数据集导入编码端，调用函数转换导入数据集；

步骤2，将步骤1预处理后的标准数据集图像信息存储并导入深度神经网络(DCNN)模型中，通过DeeplabV3+引入的编码-解码结构和带空洞卷积的金字塔池化模块，以端到端的方式对网络进行训练，通过ASSP引入多尺度信息，通过Decoder模块将底层特征和高层特征进行融合，提升分割边界准确度。

步骤2.1，图像信息Image输入到Deeplabv3+上端编码器Encoder中，通过解码端处理，首先将编码器输出特征图，

步骤2.3的具体步骤为：

步骤2.3.1，利用膨胀卷积将卷积核变大，将一个3×3的卷积核膨胀为 5×5，从而增加了五个参数，并引入了空白信息。

步骤2.3.3，膨胀卷积输入输出维度大小计算公式如下所示：

Input：(N,Cin,Hin,Win)

Output：(N,Cout,Hout,Wout)

其中Input，Output为输入输出特征尺寸大小，C表示输入输出通道数， H，W表示输入图片尺寸大小，kernel_size表示卷积核尺寸，stride表示步长， padding表示宽度，dilation表示膨胀率，Hout和Wout为膨胀卷积的输入和输出；

步骤2.4，利用空洞金字塔池化(ASPP)，提出多尺度信息，根据ASPP 有五个尺度，在Encoder部分，高级特征讲过五个不同从操作得到5个输出一个1×1卷积，3个不同尺度rate的dilation conv和1个ImagePool，在Decoder 部分，对于两个输入分别操作，将low-level-feature经过1×1卷积调整维度，另一操作将Eecoder的1×1conv经过Decoder中的向上采样Upsample，利用双线性插值法，再将两操作进行Concat结合处理；

步骤2.4具体步骤为：

步骤3，结合多通道注意力模块(MS-CAM)，沿通道维度聚合尺度的上下文信息，强调分部大型对象并在全局范围内突出本地小物体信息，采用注意力特征融合(AFF)模块进行特征融合，将现有特征算子与拟议的AFF 模块一同放置，通过迭代集成的AFF框架形成iAFF框架；

步骤3具体步骤为：

步骤3.1，在DeepLav3+模型上提出一种多尺度通道注意模块 (MS-CAM)，使用尺度不同的两个分支来提取通道注意力权重，多尺度通道注意模块结构分为两部分，其中一个分支使用Global Avg Pooling来提取全局特征的注意力，另一个分支直接使用point-wise卷积提取局部特征的通道注意力；在DeepLav3+模型上提出的多尺度通道注意模块(MS-CAM)，框架如图2所示，为融合语义和多尺度不一致特征，用以解决融合特征出现的问题；

步骤3.2，将得到的采样图X，经MS-CAM注意力机制模块，分为两部分分别输入到全局特征提取和卷积局部特征通道；注意力机制(Attention Mechanism)是一种用来强调或者选择目标处理对象的重要信息，并且抑制一些无关信息的数据处理方法。

步骤3.3，应用卷积神经网络注意力机制，采用channel Attention，对于每个通道channel维度，学习不同权重，平面维度上权重相同，基于多尺度通道注意力模块(MS-CAM)将一个通道内的信息进行全局平均；

步骤3.3.2，分支mask实现，利用注意力模块的buttom-up和top-down 结构实现，这种结构也是一种encoder-decoder模型实现。

buttom-up部分：执行下采样(down sample)，多次进行最大池化操作扩大接受域，直到达到最低分辨率，强语义信息的特征图，从而收集整个图片的全局信息。

步骤3.3.3，在mask输出之前，通过改变激活函数中的标准方差式，即可对mask中的Attention添加不同约束，使其成为channel attention注意力模型；

首先将多个注意力模块的堆叠而成，并且将注意力模块分成两个分支：maskbrunch和trunk branch，最后以特征点积输出；计算如下所示；

H_i,c(x)＝M_i,c(x)*T_i,c(x) (4)

具体步骤如下：

步骤3.4.1，通过汇聚上下文信息利用多尺度通道注意模块(MS-CAM) 实现空间池大小缩放，如图2所示MS-CAM结构图，将本地上下文信息添加到注意模块中的全局上下文，选择点卷积(PWCov)作为本地通道上下文聚合器，利用逐点通道每个位置空间的互动；

步骤3.4.2，计算本地通道上下文信息

计算模型输出所示；

L(X)＝B(PWConv₂(δ(B(PWConv₁(Z'))))) (5)

其中卷积核大小为PWconv₁和PWconv₁分别为

和

其中

相当于MS-CAM生成的注意力权重，

表示按元素进行乘法，

表示加法，σ为激活函数；

步骤3.5，注意力特征融合(AFF)，基于步骤3.2卷积神经网络的注意力机制，将生成的特征进行融合，用以解决特征融合上下文聚合和初始集成的问题，实现特征融合从相同层场景扩展到跨层场景；

步骤3.5具体步骤为：

步骤3.5.2，给定两幅特征图，

默认情况下，假定Y是具有较大感受野范围的特征图。

对于不同结构中，具体X，Y对应：同层场景中：X是3×3卷积的输出， Y是5×5卷积的输出；在短跳跃连接场景：X是本身映射，Y是学习残差；在长跳跃场景：X是低级特征图，Y是高层特征金字塔中的高阶语义特征图；基于多尺度通道注意力模块MS-CAM，可以将注意力特征融合(AFF)表示为：

其中，

是融合后的输出特征，∪表示初始特征集整合；

步骤3.5.3，选择逐元素求和作为初始积分，如图3所示，AFF和iAFF 模块与多尺度通道之间的框架关系，其中虚线表示1-M(X∪Y)，M(X∪Y) 表示融合权重，将网络在X，Y之间进行平均或者软选择；

步骤4，特征优化通常采用条件随机场(CRF)对语义分割的预测结果进行优化，将低层图像信息和逐像素分类结果相结合；

步骤4中采用Atrous Conv(带孔)算法扩大视野，获取更多的上下文信息，解决在高级特征的映射和池化下采样导致的语义分割精准度不够，信号采样或者池化分辨率降低的问题，针对DCNN分类器定位精度 DeepLabv3+采用完全连接的条件随机场(CRF)，提高模型获取细节的能力。

步骤5，调整解码端输出特征的通道数并激活，即可获取最终的预测结果；

步骤5中通过DeepLabv3+在模型架构上引入对尺度信息的融合结构、 encoder-decoder架构，为引入任意控制编码而达到控制分辨率的效果，并通过上文空洞卷积平衡精度和耗时，通过MS-CAM模块使用尺度不同的两个分支来提取通道注意力权重，达到两个线程分别处理全局特征和局部特征的目的；

本发明一种基于深度学习的注意力机制的语义分割的方法，采用最新的Deeplabv3+语义分割模型，为了融合多尺度信息，引入了语义分割常用的 encoder-decoder形式。在encoder-decoder架构中，引入可任意控制编码器提取特征的分辨率，通过空洞卷积平衡精度和耗时，通过沿通道维度聚合的多尺度上下文信息。结合MS-CAM模型，可以同时强调分布更多的大型对象，在全局范围内容中显示出分部在本地的小物体特征。

通过结合空间金字塔池化模块和编码解码器结构，使网络能够对多种采样率和多个感受野进行滤波和池化操作来探查传入特征，从而对多尺度上下文信息进行编码，通过逐渐恢复空间信息来捕获更清晰的对象边界。在语义分割过程中，多尺度通道注意模块(MS-CAM)，用于解决跨不同尺度的特征不一致问题，以进行注意力特征融合(AFF)的方法。基于DeepLabv3+语义分割网络模型，多尺度注意机制模块在全局范围内的强调大对象，并突出显示分布在本地范围内的小对象，从而有助于网络识别和检测极端尺度变化下的对象。

本发明一种基于深度学习的注意力机制的语义分割的方法，结合深度神经网络中的语义分割任务，即金字塔池化模块和编码解码模块，实现对多种采样率和多个感受野进行滤波和池化操作，提取输入特征，并且通过逐点恢复空间信息来捕获对象边界，改进了语义分割任务的准确性和快速性。通过分析在特征提取过程中会出现融合语义信息和尺度不一致问题，特征对象的比例变化会影响语义分割的精度，而描述符更容易倾向强调分布在全局范围内的大物体，并且可能会抹去存在于大对象里的小物体，而造成特征丢失。因此提出将多尺度通道注意模块(MS-CAM)，该模块可以通过改变空间池化的大小，在多个尺度上实现对通道的关注，只需要将本地上下文添加到注意模块的全局上下文中，利用逐点卷积(PWConv)作为本地通道实现全局信息交互，将MS-CAM模块引入注意力特征融合模块(AFF)，用以解决上下文聚合和初始集成的多尺度跨层融合问题。通过引入最新DeepLabv3+ 网络提出一种基于深度学习提出一种融合语义和尺度不一致特征的注意力机制特征融合，在DeepLabv3+图像语义分割技术下，使用尺度不同的两个分支来提取通道注意力权重，达到因尺度变化和小物体而引起的识别问题。本方法与特征直接融合的方法相比，用于特征融合的更复杂的注意力机制具有持续产生更好结果的巨大潜力。

本发明一种基于深度学习的注意力机制的语义分割方法，基于 DeepLabv3+模型架构，结合了深度神经网络中最常用的语义分割任务解决方案，即金字塔池化模块和编码解码模块，实现对多种采样率和多个感受野进行滤波和池化操作，提取输入特征，并且通过逐点恢复空间信息来捕获对象边界，改进了语义分割任务的准确性和快速性。通过分析在特征提取过程中会出现融合语义信息和尺度不一致问题，特征对象的比例变化会影响语义分割的精度，而描述符更容易倾向强调分布在全局范围内的大物体，并且可能会抹去存在于大对象里的小物体，而造成特征丢失。因此提出将多尺度通道注意模块(MS-CAM)，该模块可以通过改变空间池化的大小，在多个尺度上实现对通道的关注，只需要将本地上下文添加到注意模块的全局上下文中，利用逐点卷积(PWConv)作为本地通道实现全局信息交互。

Claims

1.一种基于深度学习的注意力机制的语义分割的方法，其特征在于，具体步骤按照以下实施；

步骤1，获取标准数据集，进行预处理；

2.根据权利要求1所述的一种基于深度学习的注意力机制的语义分割的方法，其特征在于，所述步骤1具体为：

步骤1.2，下载Deeplabv3+模型常用的标准PASCAL VOC 2012数据集；

步骤1.3，预处理PASCAL VOC 2012数据集，PASCAL VOC 2012包括原始数据集和增强数据集两种版本的数据集，采用增强数据集的数据标签label是.mat格式的文件，将.mat格式转换为.png格式的图片文件，转化后的数据图片是8-bit的灰度图；

步骤1.5，数据集导入编码端，调用函数转换导入数据集。

3.根据权利要求1所述的一种基于深度学习的注意力机制的语义分割的方法，其特征在于，所述步骤2的具体步骤为：

步骤2.4，利用空洞金字塔池化，提出多尺度信息，根据ASPP有五个尺度，在Encoder部分，高级特征讲过五个不同从操作得到5个输出一个1×1卷积，3个不同尺度rate的dilation conv和1个ImagePool，在Decoder部分，对于两个输入分别操作，将low-level-feature经过1×1卷积调整维度，另一操作将Eecoder的1×1conv经过Decoder中的向上采样Upsample，利用双线性插值法，再将两操作进行Concat结合处理。

4.根据权利要求3所述的一种基于深度学习的注意力机制的语义分割的方法，其特征在于，所述步骤2.3的具体步骤为：

步骤2.3.1，利用膨胀卷积将卷积核变大，将一个3×3的卷积核膨胀为5×5，从而增加了五个参数，并引入了空白信息；

其中，y表示输出特征图，i表示某一具体卷积操作的像素，y[i]表示i特征输出图，r表示参数距离也就是速率rate，k为有效视野感受参数，w为卷积滤波器；

步骤2.3.3，膨胀卷积输入输出维度大小计算公式如下：

Input：(N,Cin,Hin,Win)

Output：(N,Cout,Hout,Wout)

其中Input，Output为输入输出特征尺寸大小，C表示输入输出通道数，H，W表示输入图片尺寸大小，kernel_size表示卷积核尺寸，stride表示步长，padding表示宽度，dilation表示膨胀率，Hout和Wout为膨胀卷积的输入和输出。

5.根据权利要求4所述的一种基于深度学习的注意力机制的语义分割的方法，其特征在于，所述步骤2.4具体步骤为：

步骤2.4.1，取一个1×1卷积层，以及3×3的空洞卷积，对于输入图像分辨率和输出图像分辨率的比值out_stride＝16，其中rate为(6,12,18)，若out_stride＝8，rate加倍，此类卷积层的输出channel数均为256，并且含有BN层；

步骤2.4.2，一个金字塔平均池化得到的image-level特征，然后送入1×1卷积层，输出256个channel；

步骤2.4.3，将步骤2.2.1和步骤2.2.2得到的4个不同尺度的特征在channel维度结合到一起，将多尺度的特征图调整分辨率后拼接融合，并利用1×1卷积将输出通道数调整为256，此时编码器输出特征图的分辨率是原始图像的十六分之一；

步骤2.4.4，对于DeepLabv3+，经过ASPP模块得到的特征图的out_stride为8或者16，其经过1×1的分类层后，利用Encoder-Decoder结构对于输入的空间分辨率进行向下采样，得到低分辨率并经过学习高效的区分特征图，在进行向上采样特征表示全分辨率分割图。

6.根据权利要求1所述的一种基于深度学习的注意力机制的语义分割的方法，其特征在于，所述步骤3具体步骤为：

7.根据权利要求6所述的一种基于深度学习的注意力机制的语义分割的方法，其特征在于，所述步骤步骤3.3具体为；

步骤3.3.2，分支mask实现，利用注意力模块的buttom-up和top-down结构实现；

buttom-up部分：执行下采样，多次进行最大池化操作扩大接受域，直到达到最低分辨率，强语义信息的特征图，从而收集整个图片的全局信息；

top-down部分：执行上采样线性插值，直到特征图尺寸与输入时相等，扩展Bottom-up所产生的特征图，使其尺寸与输入Bottom-up前的特征图大小相同，从而对输入特征图的每个像素进行推理选择；

8.根据权利要求7所述的一种基于深度学习的注意力机制的语义分割的方法，其特征在于，所述步骤3.4首先将多个注意力模块的堆叠而成，并且将注意力模块分成两个分支：mask brunch和trunk branch，最后以特征点积输出；计算如下所示；

H_i,c(x)＝M_i,c(x)*T_i,c(x) (4)

步骤3.4.1，通过汇聚上下文信息利用多尺度通道注意模块实现空间池大小缩放，如图2所示MS-CAM结构图，将本地上下文信息添加到注意模块中的全局上下文，选择点卷积作为本地通道上下文聚合器，利用逐点通道每个位置空间的互动；

步骤3.4.2，计算本地通道上下文信息

计算模型输出所示；

L(X)＝B(PWConv₂(δ(B(PWConv₁(Z'))))) (5)

其中卷积核大小为PWconv₁和PWconv₁分别为

和

步骤3.4.3，给定全局通道上下文信息个g(X)和本地通道上下文信息L(X)，并且重新定义特征X'，将其记为

其中

相当于MS-CAM生成的注意力权重，

表示按元素进行乘法，

表示加法，σ为激活函数。

9.根据权利要求8所述的一种基于深度学习的注意力机制的语义分割的方法，其特征在于，所述步骤3.5具体步骤为：

步骤3.5.2，给定两幅特征图，X,

默认情况下，假定Y是具有较大感受野范围的特征图；

对于不同结构中，具体X，Y对应：同层场景中：X是3×3卷积的输出，Y是5×5卷积的输出；在短跳跃连接场景：X是本身映射，Y是学习残差；在长跳跃场景：X是低级特征图，Y是高层特征金字塔中的高阶语义特征图；基于多尺度通道注意力模块MS-CAM，将注意力特征融合表示为：

其中，

是融合后的输出特征，∪表示初始特征集整合；

10.根据权利要求1所述的一种基于深度学习的注意力机制的语义分割的方法，其特征在于，所述步骤4中采用Atrous Conv算法扩大视野，获取更多的上下文信息。