CN115375922A

CN115375922A - 一种基于多尺度空间注意力的轻量化显著性检测方法

Info

Publication number: CN115375922A
Application number: CN202211098512.7A
Authority: CN
Inventors: 沈坤烨; 张翥佳; 周晓飞; 张继勇; 李世锋; 周振; 何帆
Original assignee: China Power Data Service Co ltd; Hangzhou Dianzi University
Current assignee: China Power Data Service Co ltd; Hangzhou Dianzi University
Priority date: 2022-09-03
Filing date: 2022-09-03
Publication date: 2022-11-22
Anticipated expiration: 2042-09-03
Also published as: CN115375922B

Abstract

本发明涉及一种基于多尺度空间注意力的轻量化显著性检测方法，包括以下步骤：步骤一、构建多尺度特征提取模块，并对输入信息进行处理；步骤二、依据深度可分离卷积及多尺度特征提取模块构建编码器，用于获取多级语义特征；步骤三、构建多尺度空间注意力模块；步骤四、依据深度可分离卷积与多尺度空间注意力模块构建解码器；步骤五、以编码器、解码器为基础，建立轻量化显著性检测模型；步骤六、对所建立轻量化显著性检测模型进行训练，并保存训练所得最终模型参数；本发明通过对图像中多尺度特征的充分挖掘以及图像全局特征的提取与利用，强化了轻量化模型的检测能力，在保持轻量化模型自身优势的同时，提升了模型的检测精度。

Description

一种基于多尺度空间注意力的轻量化显著性检测方法

技术领域

本发明涉及一种基于多尺度空间注意力的轻量化显著性检测方法，属于计算机视觉技术领域。

背景技术

随着计算机视觉领域的发展，显著性检测因其自身特性被广泛地应用于图像/视频压缩，视频质量评价以及目标检测等领域中，在学术上已取得了丰硕的研究成果。此外，为了将显著性检测技术应用于实际生产生活中，需要考虑模型的处理速度以及模型参数量，于是轻量化显著性检测在近年受到研究者的广泛关注。

显著性检测的目的在于找到图像当中最吸引人眼注意力关注的一个或多个目标，在实际生产生活中能帮助系统优先处理重要区域的图像信息，加快系统任务处理速度。在显著性检测的理论研究过程中，科研人员依据卷积神经网络构建了众多性能优秀的模型，能有效地解决现有图像中显著性检测的基本问题。然而，在实际应用的过程中，基于传统卷积神经网络的显著性检测模型因其庞大的参数量，导致系统处理速度过慢，从而降低整体性能。

为了解决显著性检测模型的实际应用问题，研究者们开始探索轻量化显著性检测模型，通过以深度可分离卷积为基础结构的方式，大幅度减小了模型参数量，有效地提升了模型的处理速度。另一方面，现有轻量化显著性检测模型在追求轻和快的过程中，降低了模型对于图像全局的关注能力，从而导致检测性能相比于现有模型仍有一定差距。

发明内容

本发明的目的是针对现有方法存在的不足，提供一种基于多尺度空间注意力的轻量化显著性检测方法。

为实现上述目的，本发明的技术方案是：

一种基于多尺度空间注意力的轻量化显著性检测方法，包括以下步骤：

步骤一、构建多尺度特征提取模块，并对输入信息进行处理；

步骤二、依据深度可分离卷积及多尺度特征提取模块构建编码器，用于获取多级语义特征；

步骤三、构建多尺度空间注意力模块；

步骤四、依据深度可分离卷积与多尺度空间注意力模块构建解码器；

步骤五、以编码器、解码器为基础，建立轻量化显著性检测模型；

步骤六、对所建立轻量化显著性检测模型进行训练，并保存训练所得最终模型参数。

所述步骤一具体包括：

首先将输入多尺度特征提取模块的信息分别通过不同膨胀率的深度可分离卷积，获得4种感受野下的多尺度特征；再利用深度可分离卷积融合多尺度特征作为模块输出；其过程可表示为：

其中，

表示多尺度特征，

表示卷积核尺寸为3×3，膨胀率为2ⁱ的深度可分离卷积，IFeature表示模块输入信息，OFeature表示模块输出信息。

所述步骤二具体包括：

利用卷积，批量归一化操作和Relu激活函数及步骤一构建的多尺度特征提取模块构成编码器的第一层；其次，利用步长为2的深度可分离卷积与多尺度特征提取模块分别构成编码器的第二层至第五层，其过程可表示为：

其中，

表示编码器提取获得的多级语义特征，MSFA_i表示i个连续的多尺度特征提取模块，Conv表示卷积，批量归一化操作和Relu激活函数，Input表示模型输入图像，DSConv₂表示步长为2的深度可分离卷积。

所述步骤三具体包括：

利用三种不同膨胀率的深度可分离卷积对输入信息进行处理；经过卷积核尺寸为1×1的卷积层和sigmoid激活函数，得到空间注意力图；后将空间注意力图与输入信息进行点乘操作，得到加权强化后的信息；将加权强化后的信息作为多尺度空间注意力模块输出；其过程可表示：

OFeature＝SWeight*IFeature

其中，SWeight表示空间注意力图，Sigmoid表示sigmoid激活函数，Conv_1×1表示卷积核尺寸为1×1的卷积层，

表示膨胀率为i的深度可分离卷积，IFeature表示输入信息，OFeature表示输出信息，*表示点乘操作。

所述步骤四具体包括：

利用卷积核尺寸分别为3×3和5×5的深度可分离卷积以及步骤三构建的多尺度空间注意力模块组成解码器各层；其次，将编码器对应层特征与解码器上一层特征通过相加操作融合，送入解码器相应层中；最后，依次通过卷积核尺寸为3×3的深度可分离卷积，多尺度空间注意力模块以及卷积核尺寸为5×5的深度可分离卷积，得到解码器各层输出；其过程可表示为：

其中，

表示解码器各层对应的输出，

表示卷积核尺寸为3×3膨胀率为2的深度可分离卷积，MSSA表示多尺度空间注意力模块，

表示卷积核尺寸为5×5的深度可分离卷积，

表示编码器对应层的输出，Up表示双线性插值的上采样操作，+表示相加操作。

所述步骤五具体包括：

依据编码器从输入图像提取多级语义特征

通过解码器融合来自编码器对应层的特征以及解码器上一层的特征，得到解码器各层输出

后将解码器最后一层输出

经过Dropout层，卷积核尺寸为1×1的卷积层以及Sigmoid函数得到最终显著性预测图，构建完整的轻量化显著性检测模型；其过程可表示为：

其中，Sal表示模型最终预测图，Sigmoid表示sigmoid函数，Conv_1×1表示卷积核尺寸为1×1的卷积层，Dropout表示概率为0.1的Dropout层，

表示解码器最后一层输出特征。

所述步骤六具体包括：

将图像尺寸统一调整为368×368；然后随机裁剪为336×336，批处理大小设置为12；利用Pytorch框架进行训练部署；采用交叉熵损失函数计算预测图与真值图之间的差异，利用Adam优化器进行参数更新操作，初始学习率设置为1.5×10^-3

与现有技术相比，本发明的有益效果在于：

本发明构建多尺度特征提取模块，用于提取输入图像的多尺度特征，并依此构建多级编码结构；此外，多尺度空间注意力模块，有助于提高轻量化模型对于全局特征的关注能力；最后，以深度可分离卷积为基础，结合多尺度特征提取模块与多尺度空间注意力模块，构建轻量化显著性检测模型。通过对图像中多尺度特征的充分挖掘以及图像全局特征的提取与利用，强化了轻量化模型的检测能力，在保持轻量化模型自身优势的同时，提升了模型的检测精度。

本发明中编码器通过采用以深度可分离卷积为基础的多尺度特征提取模块，有效地提高了编码器对于图像多尺度特征的挖掘。另一方面，解码器部分多尺度空间注意力模块的引入，能很好地帮助模型提升对于全局信息的关注能力。本发明方法通过利用多尺度特征及空间注意力，强化了轻量化模型对于全局特征的提取及利用能力，从而较好地实现了检测性能与模型大小之间的平衡。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于多尺度空间注意力的轻量化显著性检测方法的多尺度特征提取模块结构图；

图2为本发明基于多尺度空间注意力的轻量化显著性检测方法的多尺度空间注意力模块结构图；

图3为本发明基于多尺度空间注意力的轻量化显著性检测方法的模型结构图；

图4为本发明基于多尺度空间注意力的轻量化显著性检测方法的结果对比图，第一列为原图像，第二列为真值图，第三列为本发明方法实施例的结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，首先将输入多尺度特征提取模块的信息分别通过膨胀率为1、2、4、8的3×3深度可分离卷积，获得4种感受野下的多尺度特征

并再次利用卷积核尺寸为3×3的深度可分离卷积融合多尺度特征作为模块输出；其过程可表示为：

其中，

表示多尺度特征，

如图3左侧结构所示，首先，利用卷积，批量归一化操作和Relu激活函数组成的卷积块及步骤一构建的多尺度特征提取模块构成编码器的第一层；其次，利用步长为2的3×3深度可分离卷积与块数为1,4,6,3的多尺度特征提取模块分别构成编码器的第二层至第五层，用于提取多级语义特征

其通道数分别为16,32,64,96,128；其过程可表示为：

其中，

步骤三、构建多尺度空间注意力模块；

如图2所示，首先，利用膨胀率为6,4,2的3×3深度可分离卷积对输入信息进行处理；其次，经过卷积核尺寸为1×1的卷积层和sigmoid激活函数，得到空间注意力图SWeight；然后将空间注意力图与输入特征进行点乘操作，得到加权强化后的信息OFeature；最后，将加权强化后的信息作为多尺度空间注意力模块输出，输出信息尺寸与输入信息尺寸保持一致；其过程可表示：

OFeature＝SWeight*IFeature

如图3右侧结构所示，首先，利用卷积核尺寸分别为3×3和5×5的深度可分离卷积以及步骤(3)构建的多尺度空间注意力模块组成解码器各层；其次，将编码器对应层特征与解码器上一层特征通过相加操作融合，送入解码器相应层中；最后，依次通过卷积核尺寸为3×3的深度可分离卷积，多尺度空间注意力模块以及卷积核尺寸为5×5的深度可分离卷积，得到解码器各层输出

其通道数分别为96,64,32,16,16；其过程可表示为：

其中，

表示解码器各层对应的输出，

表示卷积核尺寸为5×5的深度可分离卷积，

如图3所示，首先，我们依据编码器从输入图像提取多级语义特征；其次，我们通过解码器融合来自编码器对应层的特征以及解码器上一层的特征，得到解码器各层输出；最后，我们将解码器最后一层输出经过Dropout层，卷积核尺寸为的卷积层以及Sigmoid函数组成的输出层得到最终显著性预测图，预测图尺寸与输入图像尺寸大小一致，从而构建完整的轻量化显著性检测模型；其过程可表示为：

表示解码器最后一层输出特征。

首先，将图像尺寸统一调整为368×368；然后随机裁剪为336×336，批处理大小设置为12；其次，利用Pytorch框架进行训练部署；最后，采用交叉熵损失函数计算预测图与真值图之间的差异，并利用Adam优化器进行参数更新操作，初始学习率设置为1.5×10^-3。

图4为本发明方法结果对比图，第一列为原图像，第二列为真值图，第三列为本发明方法的结果图。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。