CN114332490A

CN114332490A - 一种基于涂鸦监督的高分辨显著性目标检测方法

Info

Publication number: CN114332490A
Application number: CN202111414795.7A
Authority: CN
Inventors: 王俊; 黄竹; 贾迪; 张永华; 杨尚钦; 杨清朋
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-04-12

Abstract

本发明公开了一种基于涂鸦监督的高分辨显著性目标检测方法，图像处理，将原始分辨率图像送入边缘结构保存分支来在较高分辨率下提取丰富的边缘细节特征；特征提取，将缩放的图像经过轻量级的MobileNet骨干网络来提取具有较大感受野的特征图，然后将不同尺度特征通过短连接的方式送到多尺度上下文融合模块得到多尺度特征；边缘提取，原始分辨率图像被送入边缘结构保持分支，使其在较高分辨率下提取显著目标的边缘特征；特征融合，两个分支的特征图分别通过1×1卷积和双线性插值扩张到相同的尺寸和维度来进行特征融合。解决了高分辨率图像处理问题，提高了分割结果的质量和减小了高分辨率图像引起的计算机内存消耗。

Description

一种基于涂鸦监督的高分辨显著性目标检测方法

技术领域

本发明属于图像处理技术领域，尤其涉及一种基于涂鸦监督的高分辨显著性目标检测方法。

背景技术

显著目标检测(SOD)的目的是准确检测和分割识别目标区域，在形象上吸引人们的注意，这导致产生一个令人印象深刻的表现各种视觉识别任务，它可以作为机器人智能控制、视觉跟踪、图像裁剪等方面的预处理步骤。

基于深度卷积神经网络(DCNN)的方法在复杂的背景下，更有效地获取显著的前景区域，进而获得精确的分割结果。然而，这些完全监督的方法严重依赖于大规模像素级标注的数据集来对模型进行训练学习。即使对于有经验的数据集注释者，像素级的ground-truth标注也是非常耗时费力的。因此，这种低效的注释工作将不可避免地限制了像素级训练样本的总数，进而成为全监督学习方进一步发的展瓶颈。为此，不依赖精细注释的弱监督学习方法引起了研究者的关注。

与完全监督方法相比，弱监督方法可以只采用下列的一种或者多种弱标签数据集，可节省大量人力和物力弱标签:图像级类别标签、边框标签、涂鸦标签和点标签。类别标签是易于获取，但缺乏对语义空间信息的标注和显著的前景区域的边界标注。边框标签提供位置和类别信息大多数目标对象，但忽略了语义像素标注。显著性目标检测是一个类不可知论的任务，着重于将突出的前景分割为白色，并将背景二值化黑色，对类别不敏感。涂鸦只标记在阶级不可知论的内部识别目标，并指示目标的空间位置信息。实验表明通过涂鸦得到的结果比用其他弱标签得到的结果要好甚至接近于通过监督学习获得的。

此外，几乎所有这些以往实现了高质量的显著性目标分割结果的工作，主要集中在低分辨率图像上。在实际场景中，由电子设备拍摄的图片都是高分辨率的(如1920×1080像素或更高)，高分辨率图像的处理是当下需要解决的问题，高分辨率输入图像处理面临的问题是分割结果的质量和高分辨率图像引起的计算机内存消耗。

发明内容

针对现有技术不足，本发明的目的在于提供一种基于涂鸦监督的高分辨显著性目标检测方法，来解决背景技术中的问题。

本发明提供如下技术方案：

一种基于涂鸦监督的高分辨显著性目标检测方法，包括以下步骤：

步骤1：图像处理，图像处理利用高分辨率图像的高推理质量和低分辨率图像的高效率能力，在特征提取阶段首先将高分辨率输入图像放缩到原始尺寸的1/4，送入特征提取分支来高效提取多尺度特征图，将原始分辨率图像送入边缘结构保存分支来在较高分辨率下提取丰富的边缘细节特征；

步骤2：特征提取，将缩放的图像送入轻量级上下文语义分支，经过轻量级的MobileNet骨干网络来提取具有较大感受野的特征图，然后将第二，三，四，五阶段的不同尺度特征通过短连接的方式送到多尺度上下文融合模块得到多尺度特征；

步骤3：边缘提取，原始分辨率图像被送入边缘结构保持分支，通过卷积层处理，使其在较高分辨率下提取显著目标的边缘特征；

步骤4：特征融合，两个分支的特征图分别通过1×1卷积和双线性插值扩张到相同的尺寸和维度来进行特征融合，采用concatenate融合方式获得最终的预测结果。

优选的，所述图像处理前模型的两个分支同时处理两个不同分辨率的图像，一个是原始高分辨率图像，一个是经resize缩放到原始分辨率1/4的较低分辨率图像。

优选的，所述特征提取骨干网络采用MobileNet V2网络，利用深度可分离卷积和倒残差结构减少模型的参数量和减少在低纬度处理时造成特征的丢失。

优选的，所述多尺度上下文融合模块首先将第二，三，四，五阶段的特征分别采用双线性插值上采样4，8，16，32倍，采用concatenate将不同尺度的特征拼接融合，然后经过全局平均池化，批归一化，卷积操作后得到多尺度特征图。

优选的，所述上下文语义特征提取阶段，选择部分交叉熵损失函数。

优选的，在边缘结构保持分支采用三层卷积层和一个空间位置注意力模块来抑制无用的细节特征，保留有效的显著目标的边缘特征。

优选的，利用空间位置注意力模块将三层卷积提取到的特征分别进行全局最大值池化和全局平均池化操作，然后将两个特征图融合后再经过卷积操作和sigmoid操作给有用的边缘结构进行权值加权后与前一阶段的特征进行元素相乘操作。

与现有技术相比，本发明具有以下有益效果：

(1)本发明一种基于涂鸦监督的高分辨显著性目标检测方法，通过制作并打标首个涂鸦标注的高分辨率显著性目标检测数据集，极大的节省了大规模像素级标注数据集的时间，提高了像素级标注数据集的工作效率。

(2)本发明一种基于涂鸦监督的高分辨显著性目标检测方法，轻量级上下文语义分支采用轻量级的MobileNet V2特征提取骨干网络，利用深度可分离卷积和倒残差结构大大减少了模型的参数量，并减少了在低纬度处理时造成特征的丢失。

(3)本发明一种基于涂鸦监督的高分辨显著性目标检测方法，采用三层卷积层和一个空间位置注意力模块来抑制无用的细节特征，保留有效的显著目标的边缘特征，能够在较高分辨率下提取丰富的显著目标的边缘结构。

(4)本发明一种基于涂鸦监督的高分辨显著性目标检测方法，两个分支的特征图分别通过1×1卷积和双线性插值扩张到相同的尺寸和维度来进行特征融合，采用简单的concatenate融合方式获得最终的预测结果，减少参数量，保证工作效率。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的总体网络框架图。

图2为本发明提出的首个涂鸦标注的数据集中标注像素占比。

图3为本发明提出的首个涂鸦标注的数据集的标注示例图。

图4为本发明的多尺度上下文特征融合模块图。

图5为本发明的空间位置注意力模块图。

图6为本发明的在不同数据集的评价结果表。

图7为本发明的PR曲线和F值曲线对比图。

图8为本发明的MAE对比图。

图9为本发明的可视化过程示意图。

图10为本发明的子模块消融实验图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述。显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

实施例一：

如图1所示，一种基于涂鸦监督的高分辨显著性目标检测方法，包括以下步骤：

所述图像处理前模型的两个分支同时处理两个不同分辨率的图像，一个是原始高分辨率图像，一个是经resize缩放到原始分辨率1/4的较低分辨率图像。

所述特征提取骨干网络采用MobileNet V2网络，利用深度可分离卷积和倒残差结构减少模型的参数量和减少在低纬度处理时造成特征的丢失。

所述多尺度上下文融合模块首先将第二，三，四，五阶段的特征分别采用双线性插值上采样4，8，16，32倍，采用concatenate将不同尺度的特征拼接融合，然后经过全局平均池化，批归一化，卷积操作后得到多尺度特征图。

所述上下文语义特征提取阶段，选择部分交叉熵损失函数。

在边缘结构保持分支采用三层卷积层和一个空间位置注意力模块来抑制无用的细节特征，保留有效的显著目标的边缘特征。

利用空间位置注意力模块将三层卷积提取到的特征分别进行全局最大值池化和全局平均池化操作，然后将两个特征图融合后再经过卷积操作和sigmoid操作给有用的边缘结构进行权值加权后与前一阶段的特征进行元素相乘操作。

实施例二

如图1-10所示，一种基于涂鸦监督的高分辨显著性目标检测方法，包括以下步骤：

对高分辨率图像输入时，为了需要平衡推理速度和预测结果的质量，使用了Mobilenet V2作为骨干网络处理较低分辨率图像(原始图像的1/4)，MobileNet V2采用深度可分卷积替代标准卷积，它还构建了倒置残差和线性瓶颈，大大减少了网络中的参数，避免高维信息的丢失，特别是对于高分辨率图像的输入，参数数量的减少意味着网络的推理速度将加快。

通过卷积或池化操作得到的高层特征具有较大的感受野和良好的语义编码能力，但会导致特征图的分辨率较低，几何信息的代表性较弱。底层特征的特征是与高级功能相反，可以相互补充。因此,多尺度特征表示和多尺度感受野可以提高不同尺度的显著性目标的检测效果。构建一个多尺度上下文聚合模块(MCAM)，将不同阶段的侧输出连接起来，然后对多尺度全局上下文语义信息通过全局平均池化操作和卷积λ进行编码，得到具有多尺度接受野的特征图，这个操作过程并不会大大增加网络的计算量。

在涂鸦监督下，网络只利用不完整的前景标记像素，在没有界位置信息的情况下，需要精确地识别分割出显著性目标。涂鸦标签不能明确地识别最具辨别力的物体的位置和边界细节，为了避免直接使用涂鸦监督导致较差的预测分割结果，引入一个边界结构维护分支，仅包含三个卷积层和一个空间位置注意模块(SLAM)以保持以全分辨率输入图像作为补充，尽可能多地提供明显的边界信息到另一个分支。

为了在运行效率和性能准确性之间实现折衷，采用最简单的concatenate方法来融合两个分支的特征，而无需使用后处理算法再次细化显著性图。连接后操作中，采用双线性插值的上采样操作来恢复最终的细粒度图像，映射到原始高分辨率输入大小。

为了验证本方法的有效性，在高分辨率数据集(HRSOD,)四个公开的低分辨率数据集(DUT-TE、ECSSD、DUTS-OMORN,HKU-IS)上与10个最新的显著性目标检测方法进行了对比实验。实验采用深度学习框架Pytorch搭建网络，实验环境为Linux系统，使用NVIDIA TeslaT4 GPU16GB进行神经网络模型训练与测试，在制作的首个涂鸦标注的高分辨率显著性目标检测数据集Scr-HRSOD上对模型进行训练。此外，还同时使用Scr-HRSOD和S-DUTS数据集对提出的方法进行训练，以验证对低分辨率输入的泛化能力。在五个数据集上与最新的方法进行了实验性能对比，如图6，图7所示，本方法的PR曲线和F值曲线表现良好。如图7所示，从显著图结果对比来看，本方法具有较强的高分辨率显著性目标边缘分割、位置检测和细节分割能力。

以上所述仅为本发明的优选实施方式而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化；凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于涂鸦监督的高分辨显著性目标检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种基于涂鸦监督的高分辨显著性目标检测方法，其特征在于，所述图像处理前模型的两个分支同时处理两个不同分辨率的图像，一个是原始高分辨率图像，一个是经resize缩放到原始分辨率1/4的较低分辨率图像。

3.根据权利要求1所述一种基于涂鸦监督的高分辨显著性目标检测方法，其特征在于，所述特征提取骨干网络采用MobileNet V2网络，利用深度可分离卷积和倒残差结构减少模型的参数量和减少在低纬度处理时造成特征的丢失。

4.根据权利要求1所述一种基于涂鸦监督的高分辨显著性目标检测方法，其特征在于，所述多尺度上下文融合模块首先将第二，三，四，五阶段的特征分别采用双线性插值上采样4，8，16，32倍，采用concatenate将不同尺度的特征拼接融合，然后经过全局平均池化，批归一化，卷积操作后得到多尺度特征图。

5.根据权利要求1所述一种基于涂鸦监督的高分辨显著性目标检测方法，其特征在于，所述上下文语义特征提取阶段，选择部分交叉熵损失函数。

6.根据权利要求1所述一种基于涂鸦监督的高分辨显著性目标检测方法，其特征在于，在边缘结构保持分支采用三层卷积层和一个空间位置注意力模块来抑制无用的细节特征，保留有效的显著目标的边缘特征。

7.根据权利要求1-6任一项所述一种基于涂鸦监督的高分辨显著性目标检测方法，其特征在于，利用空间位置注意力模块将三层卷积提取到的特征分别进行全局最大值池化和全局平均池化操作，然后将两个特征图融合后再经过卷积操作和sigmoid操作给有用的边缘结构进行权值加权后与前一阶段的特征进行元素相乘操作。