CN116681978A

CN116681978A - 一种基于注意力机制和多尺度特征融合的显著性目标检测方法

Info

Publication number: CN116681978A
Application number: CN202310667710.9A
Authority: CN
Inventors: 张雷洪; 沈自敏; 方舒; 徐润初; 李阳俊; 张怡强; 杨麾; 刘凯; 王凯民; 徐邦联; 张大伟
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2023-09-01

Abstract

本发明公开了一种基于注意力机制和多尺度特征融合的显著性目标检测方法，包括：S1、进行数据预处理，构建深度学习模型训练及测试所需的数据集及标签；S2、构建基于注意力机制和多尺度特征融合的显著性目标检测网络；S3、将S1中的训练数据集输入到S2中构建的显著性目标检测网络中进行训练，得到显著性目标检测模型；S4、随机挑选图片输入到该模型中，得到检测结果。根据本发明，有效的提取到显著性区域的特征，有效地过滤冗余特征。

Description

一种基于注意力机制和多尺度特征融合的显著性目标检测方法

技术领域

本发明涉及图像处理的技术领域，特别涉及一种基于注意力机制和多尺度特征融合的显著性目标检测方法。

背景技术

显著性目标旨在获取到图像中在视觉上最具有吸引力的物体，作为很多计算机视觉任务的预处理步骤而广受关注成为计算机视觉不可或缺的一部分。例如弱监督语义分割，视觉追踪，图像检索，视频分割，内容感知图像裁剪和编辑等下游任务中都应用到了显著性目标检测。现在很多的显著性目标检测网络中对于显著性区域的关注不足，并且提取到的特征冗余较多，影响了检测的准确性。

发明内容

针对现有技术中存在的不足之处，本发明的目的是提供一种基于注意力机制和多尺度特征融合的显著性目标检测方法，有效的提取到显著性区域的特征，有效地过滤冗余特征。为了实现根据本发明的上述目的和其他优点，提供了一种基于注意力机制和多尺度特征融合的显著性目标检测方法，包括：

S1、进行数据预处理，构建深度学习模型训练及测试所需的数据集及标签；

S2、构建基于注意力机制和多尺度特征融合的显著性目标检测网络；

S3、将S1中的训练数据集输入到S2中构建的显著性目标检测网络中进行训练，得到显著性目标检测模型；

S4、随机挑选图片输入到该模型中，得到检测结果。

优选的，步骤S2中显著性目标检测网络的构建包括构建特征提取模块，将输入的原始图像经过卷积，再将卷积后的输出进行归一化，将归一化后的结果进行线性修正得到维度为C×H×W的特征图；

构建通道注意力模块；

建基于注意力机制的编码器和解码器，编码器和解码器的结构相同；

构建基于注意力门控机制的U型结构，分别构建深度为7、6、5、4及3层的基于注意力机制的编码器和解码器。

优选的，将图像经过卷积处理后提取的维度为C×H×W的特征图命名为A，构建通道注意力模块包括以下步骤将A分别重塑成两个C×N(N＝H×W)维的矩阵，用B、C表示，D与A相同，对D进行重塑加转置成N×C维矩阵，命名为D'；

C与D'矩阵相乘，后跟一个softmax函数，得到一个C×C维的矩阵X，X的生成公式为：其中，x_ji是衡量第i个通道对第j个通道的影响；

X再与B相乘得到一个C×N维的矩阵,再把该矩阵重塑成C×H×W维的矩阵；

矩阵与原特征图A进行每个元素对应相加操作，得到一个新的加上通道注意力权重的特征图，每个通道的最终特征是所有通道特征与原始特征的加权和。

优选的，构建基于注意力门控机制的U型结构包括将7，6，5，4，3层的编码器按照自顶向下的通路排列中间通过下采样进行链接，将3，4，5，6，7层的解码器按照自底向上的通路排列；通过3层的编码器将两个通路连接起来；每一个解码器的输入是经过注意力门控机制进行过滤冗余特征的特征以及上一层经过上采样后的特征，注意力门控机制接收上一层输出的特征以及对应层数编码器输出的特征。

优选的，U型结构中包含了不同深度的编码器和解码器，对应不同尺度的特征信息，将每一层的编码器的输出进行卷积再进行双线性插值便得到了每一层的显著性图，U型结构共有6层所以得到了六张不同的显著性图，对这6张显著性图进行融合，便得到了最终的结果。

优选的，步骤S1中下载显著性目标检测领域的公开数据集DUTS-TR数据集，其中DUTS-TR数据集包括10553张png格式的图像和图像对应的jpg格式显著性图，将png格式的图像当作数据，将jpg格式的显著性图当作标签；对这些图片进行水平翻转等操作进行数据增强，将该数据集扩充到21106张，将21106张图像以及对应的显著性图作为训练数据集。

本发明与现有技术相比，其有益效果是：通过编码器和解码器结构，该模块自适应的分配通道信息的权重，使特征更集中于显著性区域。基于注意力门控机制的U型结构，可以有效地过滤冗余特征。

附图说明

图1为根据本发明的基于注意力机制和多尺度特征融合的显著性目标检测方法的流程图；

图2为根据本发明的基于注意力机制和多尺度特征融合的显著性目标检测方法的构建的训练数据集图；

图3为根据本发明的基于注意力机制和多尺度特征融合的显著性目标检测方法的通道注意力机制图；

图4为根据本发明的基于注意力机制和多尺度特征融合的显著性目标检测方法的基于注意力机制的编码器和解码器结构图；

图5为根据本发明的基于注意力机制和多尺度特征融合的显著性目标检测方法的注意力门控机制图；

图6为根据本发明的基于注意力机制和多尺度特征融合的显著性目标检测方法的于注意力门控机制的U型结构图。

图7为根据本发明的基于注意力机制和多尺度特征融合的显著性目标检测方法的检测结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1-7，一种基于注意力机制和多尺度特征融合的显著性目标检测方法，包括：步骤1，下载显著性目标检测领域的公开数据集DUTS-TR数据集，其中DUTS-TR数据集包括10553张png格式的图像和图像对应的jpg格式显著性图，将png格式的图像当作数据，将jpg格式的显著性图当作标签；对这些图片进行水平翻转等操作进行数据增强，将该数据集扩充到21106张；将这21106张图像以及对应的显著性图作为训练数据和标签输入S2构建的显著性目标检测网络中进行训练。

步骤2，构建基于注意力机制的编码器和基于注意力机制的解码器，首先构建特征提取模块，将输入的原始图像经过卷积，再将卷积后的输出进行归一化，将归一化后的结果进行线性修正得到维度为C×H×W的特征图；其次构建通道注意力模块，将图像经过卷积处理后提取的维度为C×H×W的特征图命名为A。第一步：将A分别重塑成两个C×N(N＝H×W)维的矩阵，我们用B、C表示。另外D与A相同，对D进行重塑加转置成N×C维矩阵，命名为D'。总体如图2所示。第二步：C与D'矩阵相乘，后跟一个softmax函数，得到一个C×C维的矩阵X。其中X的生成公式为：其中，x_ji是衡量第i个通道对第j个通道的影响。第三步：X再与B相乘得到一个C×N维的矩阵,再把该矩阵重塑成C×H×W维的矩阵。第四步：最后把第三步中得到的矩阵与原特征图A进行每个元素对应相加操作，得到一个新的加上通道注意力权重的特征图，即E，其中E的生成公式为：/>这样每个通道的最终特征是所有通道特征与原始特征的加权和；最后构建基于注意力机制的编码器和解码器，编码器和解码器的结构相同，只是在网络结构中的功能不同，输入的原始图像进行多次特征提取和下采样后进行特征融合，特征融合模块的输入分别是上一阶段的特征以及对应尺度的特征提取输出的特征，经特征融合模块处理后再次输入特征提取模块，从特征提取模块输出后再进入通道注意力模块，最后进行上采样，重复该过程直至特征维度与输入是的特征维度相同，构建不同深度的该模块即改变重复进行特征提取和下采样的次数，因为不同的深度导致感受野不同，也便可以提取到不同尺度的特征信息。

步骤3，构建基于注意力门控机制的U型结构，分别构建深度为7，6，5，4，3层的基于注意力机制的编码器和解码器，将7，6，5，4，3层的编码器按照自顶向下的通路排列中间通过下采样进行链接，将3，4，5，6，7层的解码器按照自底向上的通路排列；通过3层的编码器将两个通路连接起来；每一个解码器的输入是经过注意力门控机制进行过滤冗余特征的特征以及上一层经过上采样后的特征；注意力门控机制接收上一层输出的特征以及对应层数编码器输出的特征；其中注意力门控机制的工作原理是：首先将编码器部分对应的输出进行卷积得到A；然后将来自于上一层的输出进行卷积得到B；将A、B相加得到C，相加是为了突出特征，如果在两个图中某个点两者都有，加起来，会更为突出；对C进行线性修正得到D；对D做卷积，降维到1通道得到E；对E进行sigmoid，使得值落在0-1区间，值越大，越是重点。得到的就是注意力权重最后和上一层的输出相乘，经过这一系列操作，可以达到抑制输入图像中的不相关区域，同时突出特定局部区域的显著特征的效果。

步骤4，构建的基于注意力门控机制的U型结构，因为U型结构中包含了不同深度的编码器和解码器，对应不同尺度的特征信息，将每一层的编码器的输出进行卷积再进行双线性插值便得到了每一层的显著性图，因为U型结构共有6层所以得到了六张不同的显著性图，对这6张显著性图进行融合，便得到了最终的结果。

步骤5，将S1中的训练数据集输入到S2中构建的显著性目标检测网络中进行训练，得到显著性目标检测模型，随机挑选图片输入到该模型中，得到检测结果。

这里说明的设备数量和处理规模是用来简化本发明的说明的，对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。

尽管本发明的实施方案已公开如上，但其并不仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于注意力机制和多尺度特征融合的显著性目标检测方法，其特征在于，包括以下步骤：

S4、随机挑选图片输入到该模型中，得到检测结果。

2.如权利要求1所述的一种基于注意力机制和多尺度特征融合的显著性目标检测方法，其特征在于，步骤S2中显著性目标检测网络的构建包括构建特征提取模块，将输入的原始图像经过卷积，再将卷积后的输出进行归一化，将归一化后的结果进行线性修正得到维度为C×H×W的特征图；

构建通道注意力模块；

3.如权利要求2所述的一种基于注意力机制和多尺度特征融合的显著性目标检测方法，其特征在于，将图像经过卷积处理后提取的维度为C×H×W的特征图命名为A，构建通道注意力模块包括以下步骤将A分别重塑成两个C×N(N＝H×W)维的矩阵，用B、C表示，D与A相同，对D进行重塑加转置成N×C维矩阵，命名为D'；

4.如权利要求3所述的一种基于注意力机制和多尺度特征融合的显著性目标检测方法，其特征在于，构建基于注意力门控机制的U型结构包括将7，6，5，4，3层的编码器按照自顶向下的通路排列中间通过下采样进行链接，将3，4，5，6，7层的解码器按照自底向上的通路排列；通过3层的编码器将两个通路连接起来；每一个解码器的输入是经过注意力门控机制进行过滤冗余特征的特征以及上一层经过上采样后的特征，注意力门控机制接收上一层输出的特征以及对应层数编码器输出的特征。

5.如权利要求4所述的一种基于注意力机制和多尺度特征融合的显著性目标检测方法，其特征在于，U型结构中包含了不同深度的编码器和解码器，对应不同尺度的特征信息，将每一层的编码器的输出进行卷积再进行双线性插值便得到了每一层的显著性图，U型结构共有6层所以得到了六张不同的显著性图，对这6张显著性图进行融合，便得到了最终的结果。

6.如权利要求1所述的一种基于注意力机制和多尺度特征融合的显著性目标检测方法，其特征在于，步骤S1中下载显著性目标检测领域的公开数据集DUTS-TR数据集，其中DUTS-TR数据集包括10553张png格式的图像和图像对应的jpg格式显著性图，将png格式的图像当作数据，将jpg格式的显著性图当作标签；对这些图片进行水平翻转等操作进行数据增强，将该数据集扩充到21106张，将21106张图像以及对应的显著性图作为训练数据集。