CN113239954A

CN113239954A - 基于注意力机制的图像语义分割特征融合方法

Info

Publication number: CN113239954A
Application number: CN202110356093.1A
Authority: CN
Inventors: 徐乐; 郭子健; 孟朝晖
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2021-08-10
Anticipated expiration: 2041-04-01
Also published as: CN113239954B

Abstract

本发明公开了一种基于注意力机制的图像语义分割特征融合方法，步骤如下：采集样本图像，利用卷积神经网络提取特征，获取样本图像的深层特征图和浅层特征图，调整特征图，将调整后的深层特征图和浅层特征图输入到注意力机制模块；在注意力模块中，将深层特征图进行降维，再将深层特征图聚类得到的语义特征分配到浅层特征图中，将特征图通道数恢复后输出融合特征图；将步骤2输出的融合特征图和步骤1调整之后的浅层特征图进行融合，之后再和步骤1调整后的深层特征图进行融合，得到最后融合特征图。本发明采用注意力机制辅助特征融合，将深层网络提取的语义特征与浅层网络保留的细节特征进行高效融合，提升了语义分割网络的分割精度。

Description

基于注意力机制的图像语义分割特征融合方法

技术领域

本发明涉及图像处理领域，特别涉及一种基于注意力机制的图像语义分割特征融合方法。

背景技术

图像分割是一种将图像根据灰度、色彩、纹理和几何形状等划分成多个有互不相交区域的图像处理技术，是从图像处理到图像分析的关键步骤。语义分割是图像分割的子问题，在语义分割中，每个像素被划分到一个预定义的类集合中，使得同一类的像素属于图像中唯一的语义实体。

目前语义分割通常采用全卷积网络的架构算法，具有良好的分割效果，其中卷积神经网络的深层特征图包含丰富的语义信息，适合指导分类，但存在分辨率较低、难以得到准确结果的缺点；浅层特征图分辨率高，拥有丰富的细节信息，但缺乏语义信息导致难以分类。为达到更好分割效果，需要将深层特征图经过上采样后与浅层特征图融合，目前常用的特征融合方法包括逐点相加法和通道拼接法，但简单的叠加或拼接较粗糙，难以有效利用卷积神经网络不同层次提取的特征，对小物体、边缘细节、易混淆物体、被遮挡物体的分割效果较差。

发明内容

发明目的：针对以上问题，本发明目的是提供一种基于注意力机制的图像语义分割特征融合方法，利用注意力机制辅助特征融合，提升语义分割效果。

技术方案：本发明的基于注意力机制的图像语义分割特征融合方法，步骤如下：

(1)采集样本图像，利用卷积神经网络提取特征，获取样本图像的深层特征图和浅层特征图，调整特征图使深层特征图和浅层特征图的分辨率一致、通道数一致，将调整后的深层特征图和浅层特征图输入到注意力机制模块；

(2)在注意力模块中，将深层特征图进行降维，使高维空间的特征映射到低维空间，再将深层特征图聚类得到的语义特征分配到浅层特征图中，将特征图通道数恢复后输出融合特征图；

(3)将步骤(2)输出的融合特征图和步骤(1)调整之后的浅层特征图进行融合，之后再和步骤(1)调整后的深层特征图进行融合，得到最后融合特征图。

进一步，所述步骤(1)包括：

(11)将深层特征图F_d0进行反卷积得到特征图F_d1，使得深层特征图尺寸和通道数与浅层特征图对齐，将F_d1输入到语义分割模块，用X表示输入的特征图，

K为通道数，H为特征图的长，W为特征图的宽，

为自然空间坐标系的符号；

(12)将浅层特征图F_S0经过1×1卷积得到特征图F_S1，将F_S1输入到语义分割模块，用Y表示输入的特征图，

进一步，所述步骤(2)包括：

(21)Y经过两个映射运算得到矩阵B和矩阵C，其中映射运算包括1×1卷积和维度转换，计算过程表示为：

其中

和σ代表映射运算，

和W_σ代表运算参数；

(22)X经过1×1卷积将深层特征图的通道数缩减至M，M为语义分割任务分类数，建立高秩特征向低秩特征的映射，之后经过维度转换得到矩阵A，1×1卷积和维度转换记为映射运算，计算过程表示为：

其中φ代表映射运算，W_φ代表运算参数；

(23)将矩阵B和矩阵C输入到注意力机制模块，对矩阵B进行归一化处理得到

将

转秩得到

将A与

进行矩阵相乘，得到注意力权重矩阵G，

(24)对矩阵C进行归一化处理得到

将

转秩得到

将G与

进行矩阵相乘得到矩阵D，

(25)矩阵D经过1×1卷积层，将特征图的通道数扩大至K，得到注意力机制模块的输出融合特征图Z：

其中ρ代表映射运算，W_ρ代表运算参数。

进一步，所述步骤(3)包括：

(31)Z与Y拥有相同的尺寸和相同的通道数，将Z与Y进行通道拼接，经过1×1卷积层，进行特征融合，并将通道数降低一半，得到特征图R；

(32)R与X拥有相同的尺寸和相同的通道数，将R与X进行通道拼接，经过1×1卷积层，进行特征融合，并将通道数降低一半，得到特征图S，S为最终融合输出特征图。

进一步，步骤(2)注意力权重矩阵计算表示式为：

其中softmax为归一化函数。

有益效果：本发明与现有技术相比，其显著优点是：

1、本发明采用注意力机制辅助特征融合，将深层网络提取的语义特征与浅层网络保留的细节特征进行高效融合，提升了语义分割网络的分割精度；

2、采用的注意力机制为一种轻量级注意力机制，在取得良好分割效果的同时，减少了计算成本，适用于需要实时语义分割的场景。

附图说明

图1为本发明流程图。

具体实施方式

本实施例所述的一种基于注意力机制的图像语义分割特征融合方法，流程图如图1所示，本实施例中将特征图尺寸为32×32、通道数为1024的深层特征与特征图尺寸为64×64、通道数为1024的浅层特征进行融合，在任务分类数位为20的训练网络模型需要数据集Cityscapes进行语义分割为例，详述本融合方法。

本实施例所述的一种基于注意力机制的图像语义分割特征融合方法，步骤如下：

(1)采集样本图像，利用卷积神经网络提取特征，获取样本图像的深层特征图和浅层特征图，调整特征图使深层特征图和浅层特征图的分辨率一致、通道数一致，将调整后的深层特征图和浅层特征图输入到注意力机制模块：

(11)深层32×32×1024的特征图F_d0首先进行反卷积将特征图尺寸和通道数与浅层特征图对齐得到64×64×512的浅层特征图F_d1，作为语义分割模块的输入特征图X；

(12)浅层64×64×512的特征图F_S0经过1×1的卷积操作得到特征图F_S1，其中没有改变特征图的尺寸，将特征图F_S1作为语义分割模块的输入特征图Y。

(2)在注意力模块中，将深层特征图进行降维，使高维空间的特征映射到低维空间，再将深层特征图聚类得到的语义特征分配到浅层特征图中，将特征图通道数恢复后输出融合特征图：

(21)Y经过两个映射运算得到矩阵B和矩阵C，其中映射运算包括1×1卷积和维度转换，将B和C作为注意力机制模块的输入。

(22)X经过1×1的卷积操作将深层特征图的通道数缩减至20，建立了高秩特征向低秩特征的映射，之后经过维度转换得到矩阵A，映射运算包括1×1卷积和维度转换，A的尺寸为64×64×20，计算过程表示为：

A＝φ(X；W_φ)；

其中φ代表映射运算，W_φ代表运算参数；

(23)对矩阵B进行归一化处理得到

将

转秩得到

将A与

进行矩阵相乘得到注意力权重矩阵G；

(24)对矩阵C进行归一化处理得到

将

转秩得到

将G与

进行矩阵相乘得到矩阵D，经过这两步运算，由较深层特征图组聚类得到的低秩特征便映射到了较浅层特征图组中；

(25)D经过一个1×1的卷积层，将特征图的通道数降低至20，得到注意力模块的最终输出Z。

(3)将步骤(2)输出的融合特征图和步骤(1)调整之后的浅层特征图进行融合，之后再和步骤(1)调整后的深层特征图进行融合，得到最后的输出特征图：

(31)Z与Y拥有相同的尺寸和相同的通道数512，将Z与Y直接进行通道拼接，总通道数为1024，之后经过一个1×1的卷积层，进行特征整合，并将通道数降低一半，为512，得到特征图R；

(32)R与X拥有相同的尺寸和相同的通道数，为64×64×512，将R与X直接进行通道拼接，之后经过一个1×1的卷积层，进行特征整合，并将通道数降低一半为512，得到特征图S，S为最终融合输出特征图。