CN114155371A

CN114155371A - 基于通道注意力与金字塔卷积融合的语义分割方法

Info

Publication number: CN114155371A
Application number: CN202111361747.6A
Authority: CN
Inventors: 郑元林; 刘春霞; 廖开阳; 陈兵; 丁天淇; 黄港; 谢雨林; 张新会; 钟崇军; 李宏锦; 解博
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-03-08

Abstract

本发明公开了基于通道注意力与金字塔卷积融合的语义分割方法，具体为：步骤1，将数据库中的训练图像输入到ResNet50网络中，提取图像的特征；步骤2，在步骤1中的ResNet50网络的最后一层添加金字塔卷积模块，分别捕获局部特征与全局特征；步骤3，将步骤2获取的局部特征和全局特征进行融合，获取融合的特征信息；步骤4，将步骤3获取的融合的特征信息输入到通道注意力模块中，获取加强特征图；步骤5，将步骤3获取的融合的特征与步骤4获得的加强特征图进行融合；步骤6，将步骤5融合后的特征进行上采样得到分割图像。本发明解决了现有分割方法精确度低的问题。

Description

基于通道注意力与金字塔卷积融合的语义分割方法

技术领域

本发明属于图像处理及语义分割方法技术领域，涉及基于通道注意力与金字塔卷积融合的语义分割方法。

背景技术

近些年，计算机视觉与机器学习技术引起了较多的关注，同时人们对图像语义分割的问题越来越感兴趣。越来越多的应用场景需要精确且高效的分割技术，如自动驾驶、室内导航、虚拟现实与增强现实等。

语义分割是预测图像中单个像素类别的一项任务，长期以来是计算机视觉的关键问题之一。语义分割根据像素的不同属性，将图像划分为多个区域，并提取有意义的信息进行分析。

随着人们对语义分割的深入研究，也涌现出一些经典的语义分割模型。全卷积神经网络结构(Long J,Shelhamer E,Darrell T.Fully Convolutional Networks forSemantic Segmentation[J].IEEE Transactions on Pattern Analysis and MachineIntelligence,2015,39(4):640-651.)主要分为两部分：全卷积部分和反卷积部分。全卷积部分借用了一些经典的CNN网络，并把最后的全连接层换成卷积，用于特征提取；反卷积部分则是将小尺寸的特征图上采样得到原尺寸的语义分割图像。U-Net网络结构(Ronneberger O,Fischer P,Brox T.U-Net:Convolutional Networks for BiomedicalImage Segmentation[J].Springer International Publishing,2015.)主要分为三部分：下采样、上采样及跳跃连接。通过卷积与下采样降低图像尺寸，提取浅层特征；通过卷积和上采样获取深层特征；通过跳跃连接将浅层特征与深层特征融合细化图像。但是它们没有考虑全局上下文信息，只提取一些局部特征，从而导致分割性能受到限制。

PSPNet网络结构(Zhao H,Shi J,Qi X,et al.Pyramid Scene Parsing Network[J].IEEE Computer Society,2016.)引入空洞卷积提取特征，同时引入金字塔池化模块聚合基于不同区域的上下文信息，来提高获取全局上下文信息的能力。DeeplabV3+(Chen LC,Zhu Y,Papandreou G,et al.Encoder-Decoder with Atrous Separable Convolutionfor Semantic Image Segmentation[J].Springer,Cham,2018.)模型为了融合多尺度信息，引入了带有空洞卷积的空间金字塔池化模块；与此同时，引入解码器模块将底层特征与高层特征进一步融合。但是面对尺寸较小的物体时，无法提取较为显著的特征。在分割的过程中，会出现一些尺寸较小或不完整的物体，如果只是用简单的融合上下文信息将会忽略较小或者不完整的物体。因此若同等对待不同规模的特征来表示不同的语义，将会导致分割结果不够精确。

发明内容

本发明的目的是提供基于通道注意力与金字塔卷积融合的语义分割方法，解决现有分割方法精确度低的问题。

本发明所采用的技术方案是，基于通道注意力与金字塔卷积融合的语义分割方法，具体按照以下步骤实施：

步骤1，将数据库中的训练图像输入到ResNet50网络中，提取图像的特征；

步骤2，在步骤1中的ResNet50网络的最后一层添加金字塔卷积模块，分别捕获局部特征与全局特征；

步骤3，将步骤2获取的局部特征和全局特征进行融合，获取融合的特征信息；

步骤4，将步骤3获取的融合的特征信息输入到通道注意力模块中，获取加强特征图；

步骤5，将步骤3获取的融合的特征与步骤4获得的加强特征图进行融合；

步骤6，将步骤5融合后的特征进行上采样得到分割图像。

本发明的特征还在于，

步骤1中提取图像的特征的计算表达式为：

F＝f(W_c*X) (1)

式(1)中：X表示数据库中的训练图像，W_C表示ResNet50网络中的整体参数，f(·)表示对图像提取特征。

步骤2的具体过程为：

步骤2.1，在ResNet50网络的最后一层添加金字塔卷积局部特征提取模块，捕获局部特征；

步骤2.1.1，将步骤1中提取图像的特征通过1*1的卷积使维数降到512维；

步骤2.1.2，将步骤2.1.1降维的特征分成不同的组数分别按照卷积核为9*9、7*7、5*5、3*3的尺寸进行卷积；

步骤2.1.3，将步骤2.1.2卷积处理的特征进行卷积核为1*1的尺寸进行卷积，得到局部特征；

步骤2.2，在ResNet50网络的最后一层添加金字塔卷积的全局特征提取模块，捕获全局特征；

步骤2.2.1，采用自适应平均池化将步骤1中提取图像的特征的尺寸减少至9*9；

步骤2.2.2，将步骤2.2.1减小后的特征通过1*1的卷积将特征映射降到512维；

步骤2.2.3，将步骤2.2.2降维的特征分成不同的组数分别按照卷积核为9*9、7*7、5*5、3*3的尺寸进行卷积；

步骤2.2.4，将步骤2.2.3卷积处理的特征进行卷积核为1*1的尺寸进行卷积，得到全局特征。

步骤2.1.2和步骤2.2.3中卷积核为9*9所对应的特征组数为16，卷积核为7*7所对应的特征组数为8，卷积核为5*5所对应的特征组数为4，卷积核为3*3所对应的特征组数为1。

步骤3中融合的特征信息的表达式为：

式(4)中：f₁为得到的局部特征，f₂为得到的全局特征，F1为融合的特征信息。

步骤4的具体过程为：

步骤4.1，将步骤3获取的融合的特征信息输入到通道注意力模块，获取通道注意力图，即影响每个通道的相对因子，表达式为：

式(5)中，x_ji表示第i个通道对第j个通道的影响，A_i表示第i个通道的特征图，A_j表示第j个通道的特征图；

步骤4.2，通过步骤4.1得到的通道注意力图与步骤1提取图像的特征，计算得到加强特征图；

式(6)中，x_ji表示第i个通道对第j个通道的影响，A_i表示第i个通道的特征图，A_j表示第j个通道的特征图，β为权重因子，初始化为0。

步骤5中融合方式为：

式(7)中，F₁为步骤3中融合的特征信息，E为步骤4中加强特征图。

步骤6的具体过程为：将步骤5融合后的特征采用反卷积操作在每两个像素之间增加空像素，使处理后的特征图尺寸与训练图像尺寸相同，得到图像分割结果。

本发明的有益效果是，本发明基于通道注意力与金字塔卷积融合的语义分割方法，运用金字塔卷积模块提取局部特征与全局特征，并对局部特征和全局特征进行融合，通过引入通道注意力机制并通过获取不同通道映射之间的相互依赖性，有效增强特征图对于特定语义的表征能力，最终增强特征图的判别能力，提高分割的精确性。

附图说明

图1是本发明基于通道注意力与金字塔卷积融合的语义分割方法的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明提供基于通道注意力与金字塔卷积融合的语义分割方法，具体按照以下步骤实施：

ResNet50网络结构包括5个阶段，第一阶段：训练图像经过步长为2，卷积核大小为7的卷积层以及步长为2、3*3的最大池化处理；第二阶段包含3个Bottleneck；第三阶段包含4个Bottleneck；第四阶段包含6个Bottleneck；第五阶段包含3个Bottleneck；每个Bottleneck分别由1*1、3*3、1*1的卷积层组成；第一阶段为训练图像的预处理，剩下4个阶段进行特征提取；

ResNet50网络提取特征时，当特征图的尺寸降低一半其特征图的数量将会增加一倍，保持了网络的复杂度；但当模型的深度达到一定程度时会出现退化问题，ResNet50网络增加了一条恒等映射，经过一次卷积，若效果变差，则保持权重参数不变，如此也就阻止了模型退化问题；

经过ResNet50网络提取图像特征，最终提取的特征大小为7*7*2048；

其中，提取图像的特征的计算表达式为：

F＝f(W_c*X) (1)

式(1)中：X表示数据库中的训练图像，W_C表示ResNet50网络中的整体参数，包括权重与偏置，f(·)表示对图像提取特征；

金字塔卷积局部特征提取模块主要分成三个部分：特征降维、局部细节获取以及特征组合。特征降维由1*1的卷积核构成；局部细节获取由9*9、7*7、5*5、3*3不同尺寸的卷积核组成，同时为了在金字塔卷积每个级别上使用不同深度的内核，输入特征映射被分成不同的组进行分组卷积为每个输入特征映射组独立应用内核；特征组合由1*1的卷积核将不同内核大小和深度下提取的信息进行组合；

金字塔卷积局部特征提取模块主要负责较小对象以及在多个比例下捕获局部精细细节；

局部特征提取的计算方法如下，

f₁＝g₁(W₁*F) (2)

式(2)中：f₁为提取的局部特征，F为输入特征图，W₁表示金字塔卷积局部特征提取模块的整体参数，g₁(·)为金字塔卷积局部特征提取模块；

步骤2.1.2，将步骤2.1.1降维的特征分成不同的组(根据通道数分为不同的组)分别按照卷积核为9*9、7*7、5*5、3*3的尺寸进行卷积；其中，卷积核为9*9所对应的特征组数为16，卷积核为7*7所对应的特征组数为8，卷积核为5*5所对应的特征组数为4，卷积核为3*3所对应的特征组数为1；

步骤2.2，在ResNet50网络的最后一层添加金字塔卷积全局特征提取模块，捕获全局特征；

金字塔卷积全局特征提取模块负责捕获场景的全局特征，并处理较大的对象。它是一个多尺度的全局聚合模块，主要由自适应平均池化、特征降维、全局特征获取以及特征组合四部分组成；自适应平均池化将特征图的空间大小减少到固定的尺寸，确保捕获完整的全局信息；特征降维由1*1的卷积核组成，将特征降低到合理的维度；全局特征获取由9*9、7*7、5*5、3*3不同尺寸的卷积核组成，同时为了在金字塔卷积每个级别上使用不同深度的内核，输入特征映射被分成不同的组，进行分组卷积为每个输入特征映射组独立应用内核；特征组合由1*1的卷积核将不同内核大小和深度下提取的信息进行组合；

全局特征提取的计算方法如下，

f₂＝g₂(W₂*F) (3)

式(3)中：f₂为提取的全局特征，F表示输入特征图，W₂表示表示金字塔卷积全局特征提取模块的整体参数，g₂(·)为金字塔卷积全局特征提取模块；

步骤2.2.3，将步骤2.2.2降维的特征分成不同的组数分别按照卷积核为9*9、7*7、5*5、3*3的尺寸进行卷积；其中，卷积核为9*9所对应的特征组数为16，卷积核为7*7所对应的特征组数为8，卷积核为5*5所对应的特征组数为4，卷积核为3*3所对应的特征组数为1；

步骤2.2.4，将步骤2.2.3卷积处理的特征进行卷积核为1*1的尺寸进行卷积，得到全局特征；

步骤3，将步骤2获取的局部特征和全局特征进行融合，获取融合的特征信息，从而获取由粗到细的多尺度特征，获取较为丰富的特征信息；

其中，融合的特征信息的表达式为：

式(4)中：f₁为得到的局部特征，f₂为得到的全局特征，F₁为融合的特征信息；

通道注意力模块是用来挖掘图像特征图中每个通道之间的相似性关系，从而让每个通道都具有全局的语义特征；高层特征的每一个通道映射可以看作一个类别明确的响应，并且不同的语义响应之间互相联系；通过获取不同通道映射之间的相互依赖性可以有效增强特征图对于特定语义的表征能力；

式(6)中，x_ji表示第i个通道对第j个通道的影响，A_i表示第i个通道的特征图，A_j表示第j个通道的特征图，β为权重因子，初始化为0；

在分割过程中不仅要注意图像的多尺度特征，同时也要学习通道特征图之间的全局语义依赖，增强特征图的判别能力；通过融合得到图像从粗到细的多尺度特征以及远距离的上下文信息，融合方式为：

式(7)中，F₁为步骤3中融合的特征信息，E为步骤4中加强特征图；

步骤6，将步骤5融合后的特征进行上采样得到分割图像；

语义分割需要将提取的特征还原成与原图相同的尺寸，对步骤5得到的特征图进行上采样处理，将步骤5融合后的特征采用反卷积操作在每两个像素之间增加空像素，使处理后的特征图尺寸与训练图像尺寸相同，得到图像分割结果。

本发明基于通道注意力与金字塔卷积融合的语义分割方法，处理对象是数据库中的图像，在ResNet50网络添加金字塔卷积，通过金字塔卷积提取图像的全局与局部细节特征并将其融合得到多尺度特征，然后将融合后的特征输入到通道注意力模块中，来挖掘图像特征图中每个通道之间的相似性关系，从而让每个通道都具有全局的语义特征，增强特征图的判别能力，接下来将多尺度特征与增强的特征图相融合，捕获有效的上下文信息，最后将得到的特征图进行上采样得到分割后的图像；充分考虑了通道间的全局依赖性，增强判别能力，提高模型的分割精度。

Claims

1.基于通道注意力与金字塔卷积融合的语义分割方法，其特征在于，具体按照以下步骤实施：

步骤6，将步骤5融合后的特征进行上采样得到分割图像。

2.根据权利要求1所述的基于通道注意力与金字塔卷积融合的语义分割方法，其特征在于，步骤1中提取图像的特征的计算表达式为：

F＝f(W_c*X) (1)

3.根据权利要求1所述的基于通道注意力与金字塔卷积融合的语义分割方法，其特征在于，步骤2的具体过程为：

4.根据权利要求3所述的基于通道注意力与金字塔卷积融合的语义分割方法，其特征在于，步骤2.1.2和步骤2.2.3中卷积核为9*9所对应的特征组数为16，卷积核为7*7所对应的特征组数为8，卷积核为5*5所对应的特征组数为4，卷积核为3*3所对应的特征组数为1。

5.根据权利要求1所述的基于通道注意力与金字塔卷积融合的语义分割方法，其特征在于，步骤3中融合的特征信息的表达式为：

式(4)中：f₁为得到的局部特征，f₂为得到的全局特征，F₁为融合的特征信息。

6.根据权利要求1所述的基于通道注意力与金字塔卷积融合的语义分割方法，其特征在于，步骤4的具体过程为：

7.根据权利要求1所述的基于通道注意力与金字塔卷积融合的语义分割方法，其特征在于，步骤5中融合方式为：

8.根据权利要求1所述的基于通道注意力与金字塔卷积融合的语义分割方法，其特征在于，步骤6的具体过程为：将步骤5融合后的特征采用反卷积操作在每两个像素之间增加空像素，使处理后的特征图尺寸与训练图像尺寸相同，得到图像分割结果。