CN115035298A

CN115035298A - 基于多维注意力机制的城市街景语义分割增强方法

Info

Publication number: CN115035298A
Application number: CN202210692153.1A
Authority: CN
Inventors: 章坚武; 刘奕晨; 郭春生; 陈华华
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-09-09

Abstract

本发明公开了一种基于多维注意力机制的城市街景语义分割增强方法，获取城市街景图像，提取低层特征图和高层特征图，将提取的高层特征图分别输入到空洞空间卷积池化金字塔模块和多维注意力融合模块，将所述空洞空间卷积池化金字塔模块和多维注意力融合模块的输出进行元素相加，得到第一特征图；将低层特征图与所述第一特征连接后，再次输入到多维注意力融合模块，得到第二特征；将低层特征图与所述第一特征连接后的特征输入到解码模块的第一个卷积层，与所述第二特征进行元素相加，在经过解码模块第二个卷积层，输出语义分割增强后的图像。本发明所构建的多维注意力融合模块，模型简单，其运用可以对远程上下文依赖性较大的物体产生更好的预测结果。

Description

基于多维注意力机制的城市街景语义分割增强方法

技术领域

本申请属于人工智能和图像处理领域，具体涉及面向城市背景下基于多维注意力机制的城市街景语义分割增强方法。

背景技术

语义图像分割是计算机视觉中的一项基本任务。传统分割主要是通过提取图片的低级特征然后进行分割，如阈值分割法，边缘检测法，区域分割法等。这个阶段一般是非监督学习，分割出来的结果缺少语义标注。基于深度学习的图像语义分割能根据标签进行语义划分，具有批量化处理和多分类的优点，在各领域均取得了广泛的应用。如生物医学，无人机航拍，图像编辑等。城市场景图像语义分割是以城市街景图像为研究对象理解城市内复杂的街景及交通状况，由此分析和获取路况信息。该技术对于实现自动驾驶、机器人传感和图像处理等在城市中潜在的应用领域具有重要意义。

引入软注意力机制是增强图像上下文关联，建立像素远程依赖的有效手段之一。在目前注意力机制相关研究中，结构大致可以分为三类：通道注意力，空间注意力，混合注意力。通道注意力使用全局池化提取通道特征，参数量少。如SENet中的SE模块通过全局平均池化获得全局感受野，强调了不同通道的权重，证明了通道注意力对结果提升的必要性。ECANet延续了该理论并提出一种不降维的局部跨信道交互策略，显著降低了模型的复杂度。但此类操作忽略了像素本身的注意力，损失了分割细节。空间注意力通常与多尺度输入、金字塔结构结合，特征图经过不同尺寸卷积核扩大感受野，捕捉上下文关联，加强同帧图像像素间、不同帧像素间的关联性。如CBAM通过平均池化与最大池化结合捕捉空间注意力；非局部神经网络中的非局部块合并了除通道外的所有维度，通过点乘操作建立当前像素间与其他所有像素间的关系。此类方法虽然保证了精度，但同时点乘操作会引入大量计算，且占用大量GPU内存。混合注意力同时结合通道和空间注意力，如DANet通过reshape操作合并除通道数外的维度，然后对进行矩阵点乘操作计算所有像素与所有像素之间的相似性，再与通道注意力融合，空间复杂度很高。因此，需要在计算资源与计算准确率之间作出平衡。

发明内容

本申请的目的是提供一种基于多维注意力机制的城市街景语义分割增强方法，针对传统注意力机制分割精度和运算速度存在矛盾的问题，构建多维注意力融合模块MAFM，减少普通二维卷积运算带来的计算负担，在仅增加很小的参数量的情况下融合了通道域和空间域的注意力。

为了实现上述目的，本申请技术方案如下：

一种基于多维注意力机制的城市街景语义分割增强方法，包括：

获取城市街景图像，输入到骨干网络ResNet101，提取骨干网络ResNet101第一残差区块输出的低层特征图以及第四残差区块输出高层特征图；

将提取的高层特征图分别输入到空洞空间卷积池化金字塔模块和多维注意力融合模块，将所述空洞空间卷积池化金字塔模块和多维注意力融合模块的输出进行元素相加，得到第一特征图；

将低层特征图与所述第一特征连接后，再次输入到多维注意力融合模块，得到第二特征；

将低层特征图与所述第一特征连接后的特征输入到解码模块的第一个卷积层，所述第一个卷积层的输出特征与所述第二特征进行元素相加，再经过解码模块第二个卷积层，输出语义分割增强后的图像；

其中，所述多维注意力融合模块执行如下操作：

提取高层特征图高度上的注意力权重，与输入的高层特征图逐元素相乘，得到第一阶段特征图；

提取高层特征图宽度上的注意力权重，将宽度上的注意力权重和第一阶段特征图逐元素相乘，得到第二阶段特征图；

对高层特征图在通道上采用全局池化操作，得到通道域特征图；

将第二阶段特征图经过一个卷积操作，得到空间域特征图；

融合空间域特征图和通道域特征图，得到多维注意力融合模块输出的特征图。

进一步的，所述骨干网络ResNet101中的卷积层包括3层3×3卷积。

进一步的，所述提取高层特征图高度上的注意力权重，包括：

对输入的高层特征图的宽度进行条状池化操作，融合宽度上的长距离信息，整合出每个通道上的高度特征，对每个通道上的高度特征进行降维操作，得到通道在高度上二维张量；

将通道在高度上二维张量进行平均池化，然后使用针对多标签问题的sigmoid函数计算出一个分布在[0,1]上的概率，得到带有高度上注意力权重的二维张量；

将带有高度上注意力权重的二维张量进行升维得到高度上的注意力权重。

进一步的，所述提取高层特征图宽度上的注意力权重，包括：

对输入的高层特征图的高度进行条状池化操作，融合高度上的长距离信息，整合出每个通道上的宽度特征，对每个通道上的宽度特征进行降维操作，得到通道在宽度上二维张量；

将通道在宽度上二维张量进行平均池化，然后使用针对多标签问题的sigmoid函数计算出一个分布在[0,1]上的概率，得到带有宽度上注意力权重的二维张量；

将带有宽度上注意力权重的二维张量进行升维得到宽度上的注意力权重。

进一步的，所述基于多维注意力机制的城市街景语义分割增强方法，还包括

计算所述骨干网络ResNet101中第三残差区块的输出损失；

计算所述解码模块的最终输出损失；

分别为所述第三残差区块的输出损失和解码模块的最终输出损失设置对应的权重，计算加权联合损失来完成网络训练。

本申请提出的一种基于多维注意力机制的城市街景语义分割增强方法，针对城市街景中道路、高层建筑、路灯、栅栏等条状物的形状特点，提出一种条状分维度注意力机制SPDA，利用条状池化提取单维度特征权重，捕捉长程上下文语义关联，通过降维操作，使权重计算空间复杂度从平方降低为线性，计算所需内存更小。模块的轻量化设计允许该模块能够插入各种网络结构中。基于条带池化的注意力机制，能更好的适应城市街景中大量的的条状目标物体，且不会影响其他物体的判别。结合通道域与空间域的多维注意力融合模块，在仅增加很小的参数量的情况下融合了通道域和空间域的注意力，模块的轻量化设计允许该模块能够插入各种网络结构中，取得了更高质量的图像分割预测结果。

附图说明

图1为本申请基于多维注意力机制的城市街景语义分割增强方法流程图；

图2为本申请实施例整体网络结构示意图；

图3为本申请实施例多维注意力融合模块结构示意图；

图4为本申请实施例SPDA结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提出了一种基于多维注意力机制的城市街景语义分割增强方法，包括：

步骤S1、获取城市街景图像，输入到骨干网络ResNet101，提取骨干网络ResNet101第一残差区块输出的低层特征图以及第四残差区块输出高层特征图。

如图2所示，本实施例以效果较好的ResNet101作为骨干网络，ResNet101包括五个部分，分别是conv1、conv2_x、conv3_x、conv4_x和conv5_x，也可以表示为layer0-layer4。其中conv1是7×7卷积，通常称为卷积层，而conv2_x、conv3_x、conv4_x和conv5_x则分别是残差区块，分别对应3、4、23和3个block，分别称为第一残差区块至第四残差区块。

在一个具体的实施例中，本实施例将卷积层的1个7×7卷积替换为3个3×3卷积。

对于高分辨率的输入图像，采用3个3×3卷积，在保证相同感受野的前提下大幅度的减少参数，使其本身带有正则性质的特征图能够更容易学习一个可泛化的特征空间。

本申请分别提取骨干网络ResNet101第一残差区块输出的低层特征图以及第四残差区块输出高层特征图，作为后续处理的特征图。

在一个具体的实施例中，由于第三残差区块深度(23个block)远大于其余几组，为了更好的监督分割质量，加快网络收敛，在第三残差区块后加入辅助loss。

步骤S2、将提取的高层特征图分别输入到空洞空间卷积池化金字塔模块和多维注意力融合模块，将所述空洞空间卷积池化金字塔模块和多维注意力融合模块的输出进行元素相加，得到第一特征图。

本步骤将高层特征图分别输入空洞空间卷积池化金字塔模块(ASPP)和多维注意力融合模块(MAFM)，特征图输入MAFM模块前首先进行通道数的调整，而输入ASPP保持原网络通道数不变。将ASPP与MAFM输出特征图相加后压缩通道数，综合局部与全局的信息，得到第一特征图。

本实施例多维注意力融合模块如图3所示，执行如下操作：

步骤21、提取高层特征图高度上的注意力权重，与输入的高层特征图逐元素相乘，得到第一阶段特征图；

步骤22、提取高层特征图宽度上的注意力权重，将宽度上的注意力权重和第一阶段特征图逐元素相乘，得到第二阶段特征图；

步骤23、对高层特征图在通道上采用全局池化操作，得到通道域特征图；

步骤24、将第二阶段特征图经过一个卷积操作，得到空间域特征图；

步骤25、融合空间域特征图和通道域特征图，得到多维注意力融合模块输出的特征图。

具体的，提取高层特征图高度上的注意力权重，如图4所示，包括：

步骤211、对输入的高层特征图的宽度进行条状池化操作，融合宽度上的长距离信息，整合出每个通道上的高度特征，对每个通道上的高度特征进行降维操作，得到通道在高度上二维张量。

即对于输入的高层特征图X∈R^C×W×H，执行宽度条状池化操作，得到：

其中，

W₀＝1。

然后对X_C×H进行squeeze降维操作，将三维特征图的宽度维度删除，最后得到二维张量S_C×H∈R^C×H，代表某通道在高度上的信息集合。

步骤212、将通道在高度上二维张量进行平均池化，然后使用针对多标签问题的sigmoid函数计算出一个分布在[0,1]上的概率，得到带有高度上注意力权重的二维张量。

采用公式表示如下：

所得到带有高度上注意力权重二维张量记为

步骤213、将带有高度上注意力权重的二维张量进行升维得到高度上的注意力权重。

需要说明的是，将二维张量升维，就是对二维张量进行复制，复制的数量就是原高层特征图在第三维度的大小，本实施例为宽度，从而使得最后得到的特征图与原特征图尺度一致。

本实施例中，将步骤212和步骤213所对应的操作，也表示为SPDA操作，如图3所示。

同样的，提取高层特征图宽度上的注意力权重，包括：

步骤221、对输入的高层特征图的高度进行条状池化操作，融合高度上的长距离信息，整合出每个通道上的宽度特征，对每个通道上的宽度特征进行降维操作，得到通道在宽度上二维张量。

步骤222、将通道在宽度上二维张量进行平均池化，然后使用针对多标签问题的sigmoid函数计算出一个分布在[0,1]上的概率，得到带有宽度上注意力权重的二维张量。

步骤213、将带有宽度上注意力权重的二维张量进行升维得到宽度上的注意力权重。

在一个实施例中，提取高层特征图高度上的注意力权重，与输入的高层特征图逐元素相乘，得到第一阶段特征图，表示如下：

其中，mul表示张量逐元素相乘。

在一个实施例中，提取高层特征图宽度上的注意力权重，将宽度上的注意力权重和第一阶段特征图逐元素相乘，得到第二阶段特征图，表示为：

在一个实施例中，对高层特征图在通道上采用全局池化操作，得到通道域特征图，表示为：

通过获取单通道W×H个元素的平均值，将每个通道的特征映射为单个数字，然后使用sigmoid函数计算每个通道的权值，得到通道域特征图：

在一个实施例中，将第二阶段特征图经过一个卷积操作，得到空间域特征图，是将第二阶段特征图经过一个3x3卷积的处理，输出通道数与输入相同，得到空间域特征图。

在一个实施例中，融合空间域特征图和通道域特征图，得到多维注意力融合模块输出的特征图，表示为：

其中，X_att为最终经过MAFM输出的特征图。MAFM整体参数量较小，计算相对简单，可以灵活加入任意骨干网络的任意部分。

步骤S3、将低层特征图与所述第一特征连接后，再次输入到多维注意力融合模块，得到第二特征。

本步骤多维注意力融合模块的操作与前一个步骤中的多维注意力融合模块操作相同，这里不再赘述。

步骤S4、将低层特征图与所述第一特征连接后的特征输入到解码模块的第一个卷积层，所述第一个卷积层的输出特征与所述第二特征进行元素相加，再经过解码模块第二个卷积层，输出语义分割增强后的图像。

如图2所示，本实施例解码模块包括两个3×3卷积，低层特征图与所述第一特征连接后，一个分支输入到多维注意力融合模块，得到第二特征。另一个分支输入到第一个卷积层后，第一个卷积层的输出特征与第二特征进行元素相加。相加后的特征图再输入到解码模块第二个卷积层，输出语义分割增强后的图像。

本申请技术方案将MAFM模块插入到基于ResNet-101骨干网的编码-解码网络中，构建空间-通道注意力语义分割网络MANet，实现城市街景的语义分割增强。

在一个具体的实施例中，本实施例基于多维注意力机制的城市街景语义分割增强方法，还包括

计算所述骨干网络ResNet101中第三残差区块的输出损失；

计算所述解码模块的最终输出损失；

本实施例网络模型的损失函数，包括第三残差区块输出损失以及最后输出损失，两种损失函数的权重分别为0.4和0.6，分别采用交叉熵函数作为损失函数，优化器为SGD优化器，完成网络训练。

本申请基于多维注意力机制的城市街景语义分割增强方法，利用条状分维度注意力机制分别得到特征图高度和宽度上的注意力权重，基于条带池化的注意力机制能更好的适应城市街景中的目标物体。在MAFM中进行空间域和通道域上注意力的融合后，该模块可以添加到不同骨干网的不同位置，灵活方便。MAFM使用参数少，模型简单，其运用可以对远程上下文依赖性较大的物体产生更好的预测结果。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多维注意力机制的城市街景语义分割增强方法，其特征在于，所述基于多维注意力机制的城市街景语义分割增强方法，包括：

其中，所述多维注意力融合模块执行如下操作：

将第二阶段特征图经过一个卷积操作，得到空间域特征图；

2.根据权利要求1所述的基于多维注意力机制的城市街景语义分割增强方法，其特征在于，所述骨干网络ResNet101中的卷积层包括3层3×3卷积。

3.根据权利要求1所述的基于多维注意力机制的城市街景语义分割增强方法，其特征在于，所述提取高层特征图高度上的注意力权重，包括：

4.根据权利要求1所述的基于多维注意力机制的城市街景语义分割增强方法，其特征在于，所述提取高层特征图宽度上的注意力权重，包括：

5.根据权利要求1所述的基于多维注意力机制的城市街景语义分割增强方法，其特征在于，所述基于多维注意力机制的城市街景语义分割增强方法，还包括

计算所述骨干网络ResNet101中第三残差区块的输出损失；

计算所述解码模块的最终输出损失；