CN115205641A

CN115205641A - 一种多先验驱动的显著性目标检测算法

Info

Publication number: CN115205641A
Application number: CN202210726449.0A
Authority: CN
Inventors: 张笑钦; 徐曰旺; 赵丽; 廖唐飞; 冯士杰
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-10-18

Abstract

本发明提供了一种多先验驱动的显著性目标检测算法，涉及图像处理技术领域，包括：获取待检测目标图像，并对所述待检测目标图像进行预处理，得到具有显著性先验知识的先验图像；采用不同网络参数量的先验视觉注意力模块对不同的先验图像进行处理，获得八个不同尺度的显著性特征图；对八个不同尺度的显著性特征图进行特征融合，得到四个融合特征表示；根据四个融合特征表示提取显著性目标边缘特征信息；将提取的显著性目标边缘特征信息补充至上采样后的全分辨率显著性mask中，根据补充信息后的显著性mask完成目标检测，本发明可实现在前景和背景对比度低、背景复杂、主体形状复杂等各种复杂环境下的主体边缘的精确分割。

Description

一种多先验驱动的显著性目标检测算法

技术领域

本发明涉及图像处理技术领域，具体涉及到一种多先验驱动的显著性目标检测算法。

背景技术

在计算机视觉中，显著性mask是显示每个像素独特质量的图像。显著性mask的目标是简化或将图像表示更改为更有意义且更易于分析的图像。例如，如果像素在彩色图像中具有高灰度级或其他独特的颜色质量，则该像素的质量将以更明显的方式显示在显著性mask中，显著性检测可以被视为图像分割的实例。

显著性目标检测主要应用于图像前景分割、目标追踪、图像理解以及弱监督学习等等，可以快速设计富有创意的图片，也可以针对图片或视频帧更换背景，将前景人物融入到不同的场景中，更能够为需要高级视觉任务提供指导帮助，推动智能行业的发展。传统的人工处理方式对人员的专业技能有一定要求，还有获取手工先验工作量巨大、速度慢和效果差等问题。近些年来随着深度学习算法的发展，图像语义分割算法逐步成熟，基于显著性目标的分割算法已经被广泛应用。但是算法本身同样存在未将主体边缘精细化以及图像特征提取模块庞大等问题。

综上所述，如何克服上述缺陷，是本领域技术人员急需解决的问题。

发明内容

本方案针对上文提到的问题和需求，提出一种多先验驱动的显著性目标检测算法，具体由于采取了如下技术方案而能够解决上述技术问题。

为实现上述目的，本发明提供如下技术方案：一种多先验驱动的显著性目标检测算法，包括：获取待检测目标图像，并对所述待检测目标图像进行预处理，得到具有显著性先验知识的先验图像；

采用不同网络参数量的先验视觉注意力模块对不同的先验图像进行处理，获得八个不同尺度的显著性特征图；

对所述八个不同尺度的显著性特征图进行特征融合，得到包含语义信息和结构化细节信息的四个融合特征表示；

根据所述四个融合特征表示提取显著性目标边缘特征信息；

将提取的显著性目标边缘特征信息补充至上采样后的全分辨率显著性mask中，根据补充信息后的显著性mask完成目标检测。

进一步地，所述预处理过程包括：

通过机器学习方法获取输入的待检测目标图像的五种先验图像，所述五种先验图像包括LC、FT、FG、RC和Gradient；

构建先验指导网络，并通过所述先验指导网络筛选出比原输入图像的显著性表征能力强的先验图像，并针对最终输出显著性mask与标签图像进行损失计算及反向传播优化，所述先验指导网络由ResNet50网络和多先验注意力网络组成；

将三通道RGB图像输入ResNet50网络进行处理，得到第一特征信息，所述多先验注意力网络使用四个带分组卷积的空间注意力模块对输入的三通道先验特征图进行处理输出第二特征信息；

通过add函数将所述第一特征信息和所述第二特征信息进行相加融合后输出先验特征图；

根据先验指导网络输出的先验特征图筛选出FG和Gradient作为具有显著性先验知识的先验图像。

更进一步地，所述采用不同网络参数量的先验视觉注意力模块对不同的先验特征图进行处理，获得八个不同尺度的显著性特征图包括：通过所述先验视觉注意力模块从Gradient获得的四项特征，所述四项特征为F_G2、F_G4、F_G8和F_G16，从FG获得的四项特征，所述四项特征为F_F2、F_F4、F_F8和F_F16，并使用标签mask对上采样至原图分辨率的F_G2、F_G4、F_G8、F_G16、F_F2、F_F4、F_F8和F_F16进行损失计算及阶段性反向传播优化；所述先验视觉注意力模块由四级伪孪生网络块串联而成，即当前级伪孪生网络块的输入为上一级伪孪生网络块的输出，每个伪孪生网络块包括通道配置子模块、空间注意力子模块和组间整合子模块，所述三个子模块按顺序串联。

更进一步地，所述通道配置子模块将每一级伪孪生网络块的输入特征通道数量增加至64、128、256和512，实现对显著性特征信息的增加及细化；所述空间注意力子模块利用PyTorch框架中的分组卷积按通道数量进行分组处理，分组数量与输入特征图通道数量保持一致，所述分组卷积的卷积核大小k共有三种，k＝1、k＝5和k＝7，激活函数使用高斯误差线性单元GELU进行特征激活；所述组间整合子模块使用2D卷积对所述空间注意力子模块输出的特征进行处理，将输出的特征通道数量转化至下一级伪孪生网络块要求的特征通道数，输出即为F_F2、F_G2、F_F4、F_G4、F_F8、F_G8、F_F16和F_G16八个特征。

更进一步地，所述对所述八个不同尺度的显著性特征图进行特征融合包括：

通过逐像素相加操作将输入的所述八个特征按分辨率大小分为四组，采用add函数将每一组内两个分辨率一致的特征进行融合并进行batchnorm批归一化和GELU线性激活；

然后通过特征信息补充操作利用较大分辨率特征具有的细节信息补充至较小分辨率特征具有的语义信息中：将原图分辨率

的F_G2分别下采样至F_G4、F_G8和F_G16分辨率进行逐像素相加融合，将原图分辨率

的F_G4分别下采样至F_G8和F_G16，将原图分辨率

的F_G8下采样至F_G16，将分辨率进行逐像素相加融合；

使用标签mask对上采样至原图分辨率的F_P2、F_P4、F_P8和F_P16进行损失计算及阶段性反向传播优化。

更进一步地，所述根据所述四个融合特征表示提取显著性目标边缘特征信息包括通过边缘提取操作对输入的四个特征进行边缘特征提取，然后利用边缘特征融合操作融合四个不同分辨率的特征，输出全分辨率的显著性边缘特征图F_E；

所述边缘提取操作利用两组不同卷积核大小k(k＝1,3)和不同空洞率d(d＝1,2)的空洞卷积组对输入特征进行处理,根据两组空洞卷积后的特征差值计算注意力权重图，将原特征图与所述注意力权重图相乘获得粗粒度的显著性边缘特征，所述显著性边缘特征再经过卷积、reshape和转置操作，计算非局部增强权重图，将粗粒度的显著性边缘特征与非局部增强权重图相乘可得细粒度的显著性边缘特征图；

所述边缘特征融合操作首先将得到的四个显著性边缘特征图上采样至原图分辨率，再使用PyTorch框架中的cat函数按通道拼接，最后使用卷积核大小为3*3的2D卷积将拼接特征通道数变为1；

并使用边缘标签mask对F_E进行损失计算及阶段性反向传播优化。

更进一步地，所述将提取的显著性目标边缘特征信息补充至上采样后的全分辨率显著性mask中包括：首先将输入的F_P2、F_P4、F_P8和F_P16特征图上采样至原图分辨率，并融合为通道数1的显著性特征图F_P；再利用PyTorch中的add函数将F_P和F_E逐像素相加融合，最终得到显著性mask。

从上述的技术方案可以看出，本发明的有益效果是：可将传统机器学习图像处理与深度学习结合，使得深度学习网络模块参数量减少，提高模型运算速度，而且对于显著性mask的边缘等结构化细节信息进行补充，实现对显著性目标的精准捕获，进而将显著性主体与背景分割。在前景和背景对比度低、背景复杂、主体形状复杂等各种复杂环境下，得到主体边缘的精确分割，具有较强的鲁棒性。

除了上面所描述的目的、特征和优点之外，下文中将结合附图对实施本发明的最优实施例进行更详尽的描述，以便能容易地理解本发明的特征和优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下文将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍，其中，附图仅仅用于展示本发明的一些实施例，而非将本发明的全部实施例限制于此。

图1为本发明中一种多先验驱动的显著性目标检测算法的具体步骤示意图。

图2为本发明实施例的先验指导网络的网络结构示意图。

图3为本发明实施例的显著性目标检测网络的总体网络结构示意图。

图4为本发明实施例的先验视觉注意力模块的结构示意图。

图5为本发明实施例的特征融合网络结构的结构示意图。

图6为本发明实施例的边缘特征提取网络结构的结构示意图。

图7为本发明实施例在不同场景下显著性目标检测的效果图。

具体实施方式

为了使得本发明的技术方案的目的、技术方案和优点更加清楚，下文中将结合本发明具体实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。附图中相同的附图标记代表相同的部件。需要说明的是，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明通过一种多先验驱动的显著性目标检测网络，使用传统机器学习方法快速获取输入图像的不同先验，指导算法网络进行图像的前景主体检测，能够快速准确地捕获图像的显著性主体并细化边缘细节，以提升更广泛的适用性。

如图1至图2所示，一种多先验驱动的显著性目标检测算法具体包括以下步骤：

步骤Step1：获取待检测目标图像，并对所述待检测目标图像进行预处理，得到具有显著性先验知识的先验图像；

预处理为将待处理的图像使用传统数字图像处理方式和传统机器学习方法转化为带有显著性先验知识的特征图，而传统数字图像处理和传统机器学习方法主要使用OpenCV框架，处理后的先验特征图分辨率以及通道数与原图保持一致。

具体地，所述预处理过程包括：

步骤Step1.1：通过机器学习方法获取输入的待检测目标图像的五种先验图像，所述五种先验图像包括LC、FT、FG、RC和Gradient；

步骤Step1.2：构建先验指导网络，并通过所述先验指导网络筛选出比原输入图像的显著性表征能力强的先验图像，并针对最终输出显著性mask与标签图像进行损失计算及反向传播优化，所述先验指导网络由ResNet50网络和多先验注意力网络组成；

步骤Step1.3：将三通道RGB图像输入ResNet50网络进行处理，得到第一特征信息，所述多先验注意力网络使用四个带分组卷积的空间注意力模块对输入的三通道先验特征图进行处理输出第二特征信息；

步骤Step1.4：通过add函数将所述第一特征信息和所述第二特征信息进行相加融合后输出先验特征图；

步骤Step1.5：根据先验指导网络输出的先验特征图筛选出FG和Gradient作为具有显著性先验知识的先验图像。

在本实施例中，通过传统图像处理或封装在OpenCV中的传统机器学习方法获取RGB图像的五种先验图像(包括LC、FT、FG、RC和Gradient)。设计简单的先验指导网络进行消融实验，验证五种先验图像与原输入图像的显著性表征能力强弱，挑选出比原输入图像的显著性表征能力强的先验图像。具体地，挑选出Gradient和FG两种有效显著性表征先验，FG显著性表征能力比Gradient强。而简单的先验指导网络包含两个模块：Backbone网络和多先验注意力网络。其中，Backbone网络使用的是Residual Network子网络ResNet50，处理输入的三通道RGB图像，多先验注意力网络使用四个带分组卷积的空间注意力模块处理输入的三通道先验特征图。最终，将两模块所得的全分辨率特征使用PyTorch框架中的add函数进行相加融合后输出。

步骤Step2：采用不同网络参数量的先验视觉注意力模块对不同的先验图像进行处理，获得八个不同尺度的显著性特征图。

具体包括：通过所述先验视觉注意力模块从Gradient获得的四项特征，所述四项特征为F_G2、F_G4、F_G8和F_G16，从FG获得的四项特征，所述四项特征为F_F2、F_F4、F_F8和F_F16，并使用标签mask对上采样至原图分辨率的F_G2、F_G4、F_G8、F_G16、F_F2、F_F4、F_F8和F_F16进行损失计算及阶段性反向传播优化；所述先验视觉注意力模块由四级伪孪生网络块串联而成，即当前级伪孪生网络块的输入为上一级伪孪生网络块的输出，每个伪孪生网络块包括通道配置子模块、空间注意力子模块和组间整合子模块，所述三个子模块按顺序串联，其中，所述通道配置子模块将每一级伪孪生网络块的输入特征通道数量增加至64、128、256和512，实现对显著性特征信息的增加及细化；所述空间注意力子模块利用PyTorch框架中的分组卷积按通道数量进行分组处理，分组数量与输入特征图通道数量保持一致，所述分组卷积的卷积核大小k共有三种，k＝1、k＝5和k＝7，激活函数使用高斯误差线性单元GELU进行特征激活；所述组间整合子模块使用2D卷积对所述空间注意力子模块输出的特征进行处理，将输出的特征通道数量转化至下一级伪孪生网络块要求的特征通道数，方便后续前向串联处理，输出即为F_F2、F_G2、F_F4、F_G4、F_F8、F_G8、F_F16和F_G16八个特征。

使用分组卷积按通道分组处理每一通道的特征，更有利于关注到显著性目标主体的相关特征。因此经过上述模块的处理，先验特征图中的冗余信息进一步被忽略掉，突出了显著性目标主体的相关特征。而较大分辨率的特征包含较多的结构化细节信息，较小分辨率特征包含较多整体语义信息。因此所提模块还具有分类显著性目标特征信息的作用。

步骤Step3：对所述八个不同尺度的显著性特征图进行特征融合，得到包含语义信息和结构化细节信息的四个融合特征表示，具体为通过逐像素相加操作和特征信息补充提升操作将输入八个特征级联为四个累积特征F_P2、F_P4、F_P8和F_P16。

如图5所示出的特征融合网络结构，所述对所述八个不同尺度的显著性特征图进行特征融合包括：

步骤Step3.1：通过逐像素相加操作将输入的所述八个特征按分辨率大小分为四组，采用使用PyTorch框架中add函数将每一组内两个分辨率一致的特征进行融合并进行batchnorm批归一化和GELU线性激活；

步骤Step3.2：然后通过特征信息补充操作利用较大分辨率特征具有的细节信息补充至较小分辨率特征具有的语义信息中：将原图分辨率

的F_G4分别下采样至F_G8和F_G16分辨率进行逐像素相加融合，将原图分辨率

的F_G8下采样至F_G16分辨率进行逐像素相加融合，该操作可以使得所有累积特征都具有一定程度的显著性主体细节信息；

步骤Step3.3：使用标签mask对上采样至原图分辨率的F_P2、F_P4、F_P8和F_P16进行损失计算及阶段性反向传播优化。

逐步整合获得的八个不同尺度特征图，因此显著性目标信息也逐步累积。而首先使用逐像素加法将四组相同分辨率的特征相加得到融合后的四个特征，然后使用较大分辨率特征下采样去增强较小分辨率特征，使得较小分辨率特征中也具有细节信息，因此累积特征信息不仅包含目标整体的语义信息，也包含对于边缘先验捕获模块有帮助的结构化细节信息。

步骤Step4：根据所述四个融合特征表示提取显著性目标边缘特征信息。

如图4示出的边缘特征提取网络结构，具体可使用不同卷积核大小且不同空洞率的卷积组处理不同尺度的累积特征，逐步细化边缘结构化信息，并用于补充至最终上采样过后的全分辨率显著性mask中。

具体地，所述根据所述四个融合特征表示提取显著性目标边缘特征信息包括通过边缘提取操作对输入的四个特征进行边缘特征提取，然后利用边缘特征融合操作融合四个不同分辨率的特征，输出全分辨率的显著性边缘特征图F_E；

步骤Step4.1：所述边缘提取操作利用两组不同卷积核大小k(k＝1,3)和不同空洞率d(d＝1,2)的空洞卷积组对输入特征进行处理,根据两组空洞卷积后的特征差值计算注意力权重图，将原特征图与所述注意力权重图相乘获得粗粒度的显著性边缘特征，所述显著性边缘特征再经过卷积、reshape和转置等操作，使得每个像素能够充分考虑到与所有其他像素关系来计算非局部增强权重图，将粗粒度的显著性边缘特征与非局部增强权重图相乘可得细粒度的显著性边缘特征图；

步骤Step4.2：所述边缘特征融合操作首先将得到的四个显著性边缘特征图上采样至原图分辨率，再使用PyTorch框架中的cat函数按通道拼接，最后使用卷积核大小为3*3的2D卷积将拼接特征通道数变为1；

步骤Step4.3：并使用边缘标签mask对F_E进行损失计算及阶段性反向传播优化。

步骤Step5：将提取的显著性目标边缘特征信息补充至上采样后的全分辨率显著性mask中，根据补充信息后的显著性mask完成目标检测。因此最终所得显著性mask既具有显著性目标语义信息又包含较多结构化细节信息。

步骤Step5具体包括：

步骤Step5.1：首先将输入的F_P2、F_P4、F_P8和F_P16特征图上采样至原图分辨率，并融合为通道数1的显著性特征图F_P；

步骤Step5.2：再利用PyTorch中的add函数将F_P和包含边缘细节信息的F_E逐像素相加融合，得到最终显著性mask。该操作最终得到的显著性mask兼顾显著性目标的语义信息和细节信息。

如图3所示，本发明利用已经成熟的传统图像处理方法或传统机器学习方法得到待检测图像的先验特征图，并利用先验特征设计模型参数量小、推理速度快的显著性目标检测网络，指导网络结合显著性目标的语义信息和结构化细节信息，得到更加精细的显著性mask。具体包括利用OpenCV封装的传统数字图像处理方法或传统机器学习方法获取输入RGB图像的五项先验特征图，实施消融实验挑选出显著性表征能力较强的两项特征图用于显著性目标检测网络输入；使用不同网络参数量的先验视觉注意力模块处理不同先验特征图，去除先验特征图中的冗余信息，突出显著性目标主体的相关特征；再逐步整合从先验视觉注意力模块获得的八个不同尺度特征图，使得累积特征信息不仅包含目标整体的语义信息，也包含对于边缘先验捕获部分有帮助的结构化细节信息；边缘先验捕获部分用于从获取的特征中提取显著性目标边缘特征，用于补充至最终上采样过后的全分辨率显著性mask中；最后利用逐像素相加输出操作将所得特征与边缘先验捕获部分融合输出最终全分辨率的显著性mask。

由图7所示出的不同场景下显著性目标检测的效果图可看出本发明能够对多目标、目标遮挡、微小目标等复杂场景下的目标进行高精度的显著性目标检测，得到高质量地前景主体分割结果图，可实现在前景和背景对比度低、背景复杂、主体形状复杂等各种复杂环境下的主体边缘的精确分割。

应当说明的是，本发明所述的实施方式仅仅是实现本发明的优选方式，对属于本发明整体构思，而仅仅是显而易见的改动，均应属于本发明的保护范围之内。

Claims

1.一种多先验驱动的显著性目标检测算法，其特征在于，包括以下步骤：

获取待检测目标图像，并对所述待检测目标图像进行预处理，得到具有显著性先验知识的先验图像；

根据所述四个融合特征表示提取显著性目标边缘特征信息；

2.如权利要求1所述的多先验驱动的显著性目标检测算法，其特征在于，所述预处理过程包括：

3.如权利要求2所述的多先验驱动的显著性目标检测算法，其特征在于，所述采用不同网络参数量的先验视觉注意力模块对不同的先验特征图进行处理，获得八个不同尺度的显著性特征图包括：通过所述先验视觉注意力模块从Gradient获得的四项特征，所述四项特征为F_G2、F_G4、F_G8和F_G16，从FG获得的四项特征，所述四项特征为F_F2、F_F4、F_F8和F_F16，并使用标签mask对上采样至原图分辨率的F_G2、F_G4、F_G8、F_G16、F_F2、F_F4、F_F8和F_F16进行损失计算及阶段性反向传播优化；所述先验视觉注意力模块由四级伪孪生网络块串联而成，即当前级伪孪生网络块的输入为上一级伪孪生网络块的输出，每个伪孪生网络块包括通道配置子模块、空间注意力子模块和组间整合子模块，所述三个子模块按顺序串联。

4.如权利要求3所述的多先验驱动的显著性目标检测算法，其特征在于，所述通道配置子模块将每一级伪孪生网络块的输入特征通道数量增加至64、128、256和512，实现对显著性特征信息的增加及细化；所述空间注意力子模块利用PyTorch框架中的分组卷积按通道数量进行分组处理，分组数量与输入特征图通道数量保持一致，所述分组卷积的卷积核大小k共有三种，k＝1、k＝5和k＝7，激活函数使用高斯误差线性单元GELU进行特征激活；所述组间整合子模块使用2D卷积对所述空间注意力子模块输出的特征进行处理，将输出的特征通道数量转化至下一级伪孪生网络块要求的特征通道数，输出即为F_F2、F_G2、F_F4、F_G4、F_F8、F_G8、F_F16和F_G16八个特征。

5.如权利要求4所述的多先验驱动的显著性目标检测算法，其特征在于，所述对所述八个不同尺度的显著性特征图进行特征融合包括：

的F_G4分别下采样至F_G8和F_G16，将原图分辨率

的F_G8下采样至F_G16，将分辨率进行逐像素相加融合；

6.如权利要求5所述的多先验驱动的显著性目标检测算法，其特征在于，所述根据所述四个融合特征表示提取显著性目标边缘特征信息包括通过边缘提取操作对输入的四个特征进行边缘特征提取，然后利用边缘特征融合操作融合四个不同分辨率的特征，输出全分辨率的显著性边缘特征图F_E；

7.如权利要求6所述的多先验驱动的显著性目标检测算法，其特征在于，所述将提取的显著性目标边缘特征信息补充至上采样后的全分辨率显著性mask中包括：首先将输入的F_P2、F_P4、F_P8和F_P16特征图上采样至原图分辨率，并融合为通道数1的显著性特征图F_P；再利用PyTorch中的add函数将F_P和F_E逐像素相加融合，最终得到显著性mask。