CN114913344A

CN114913344A - 层次化多感受野网络的显著性目标检测算法

Info

Publication number: CN114913344A
Application number: CN202210019564.4A
Authority: CN
Inventors: 高修菊; 孙延光; 夏晨星; 段秀真; 段松松
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2022-01-07
Filing date: 2022-01-07
Publication date: 2022-08-16

Abstract

本发明属于计算机视觉领域，提供了一种层次化多感受野网络的显著性目标检测算法，包括以下步骤：1)将ResNet‑50作为主干框架对RGB图像提取多尺度特征信息然后进行编码；2)利用层次化多感受野卷积机制优化多层次特征生成高质量特征；3)利用隐形关系特征融合机制将优化后的特征进行互补性融合，然后生成最终显著性图。与现有的技术相比，本发明层次化多感受野网络的显著性目标检测算法利用不同层次感受野的卷积操作优化多层次特征并进行隐形关系特征融合，多层次特征逐层优化生成高性能显著性图。

Description

层次化多感受野网络的显著性目标检测算法

技术领域：

本发明涉及图像处理领域，具体来说，涉及了层次化多感受野网络的显著性目标检测算法。

背景技术：

本部分的陈述仅仅是涉及到了与本发明相关的背景技术，并不必然构成现有技术。

随着互联网技术、多媒体技术以及数码产品的快速普及，数字图像已经成为人们从外界获取信息的重要载体。而这就意味着，高效快速地处理大量的数字图像数据成了一个至关重要的问题。计算机同时处理数字图像中的所有细节信息是非常低效的。如果将有限的计算机资源分配给图像中的显著性目标区域，那么将大大提高计算机处理数字图像的效率。因此，显著性目标检测准确定位显著性目标并完整地将其从背景中分割出来的研究成为计算机视觉领域一个非常重要的研究方向。这个研究内容在图像分割、视觉追踪、场景分类、图像和视频压缩、目标识别等多个视觉领域研究都具有重要的意义。

当下的显著性目标检测算法主要分为两类，一类是基于视觉刺激驱动的传统显著性目标检测，主要是利用支持向量机、贝叶斯网络等传统学习方法。另一类是基于数据驱动的深度学习显著性目标检测，主要是利用卷积神经网络、全卷积神经网络、循环神经网络等神经网络方法。基于视觉刺激驱动的传统显著性目标检测方法主要是利用一些低级的视觉先验信息(如颜色、纹理、对比度等)进行显著性目标检测。虽然，传统的显著性检测方法利用低级视觉先验信息可以初步定位出显著性目标，然而当背景环境复杂时传统的显著性目标检测方法效果较差，很难准确定位显著性目标并完整地将其从背景中分割出来。随着，硬件的不断发展，基于数据驱动的深度学习方法开始广泛流行，基于深度学习的显著性目标检测方法也开始了高速发展。与传统的显著性目标检测方法相比，基于深度学习的显著目标检测方法可以利用深层次神经网络提取高级语义信息，而高级语义信息对于准确地定位显著性目标至关重要。

虽然，基于深度学习的显著性目标检测方法，相较于传统的显著性目标检测有了很大的提升。然而显著性目标在不同的场景下尺度复杂多变且类别不固定，使得很难准确地定位显著性目标并完整地从背景中分割出来。研究发现高层次语义特征，对于高效地定位显著性目标并完整地从背景中分割出来至关重要。当下的很多方法通过增加感受野的方法来进一步提取高层次语义特征。然而，利用卷积层的堆叠、较大的卷积核或直接使用空洞卷积增大感受野的方式进一步提取语义特征的操作效果并不佳。

发明内容：

为了解决上述问题，本发明提出了层次化多感受野网络的显著性目标检测算法，设计层级多感受野卷积机制，通过并行不同尺度的卷积核，与不用填充率的空洞卷积操作，进一步提取主干ResNet-50框架生成特征的高层次语义信息，然后进行融合使得可以高效准确定位显著性目标；其次设计隐形关系特征融合机制，对于上一步中优化的特征进行基于隐形关系逐层次融合对于不同尺度的特征进行互补性融合，生成最终显著性图。使得网络可以从复杂背景中准确地定位显著性目标并完整地将其分割出来。

本发明的技术方案是提供了层次化多感受野网络的显著性目标检测算法，该方法包括以下步骤：

1.层次化多感受野网络的显著性目标检测算法，其特征在于，该方法包括一下步骤：

(1)将ResNet-50作为主干框架对RGB图像提取多尺度特征信息然后进行编码；

(2)利用层次化多感受野卷积机制优化多层次特征特征生成高质量特征；

(3)利用隐形关系特征融合机制将优化后的特征进行互补性融合，然后生成最终显著性图。

2.根据权利要求1所述的层次化多感受野网络的显著性目标检测算法，其特征在于：所述步骤(1)具体方法是：

2.1)收集显著性目标检测领域常用的RGB图像数据集，DUTS数据集、MSRA-10K数据集、SOD数据集、THU-IS数据集、ECSSD数据集、HKU-IS数据集、PASCAL-S数据集。

2.2)将DUTS数据集作为训练数据集，将P MSRA-10K数据集、SOD数据集、THU-IS数据集、ECSSD数据集、HKU-IS数据集、PASCAL-S数据集作为测试数据集。

2.3)将预训练好的ResNet-50作为主干框架从输入RGB图像数据集提取多尺度特征，然后对多尺度特征进行编码(Res_1、Res_2、Res_3、Res_4、Res_5)

3.根据权利要求1所述的层次化多感受野网络的显著性目标检测算法其特征在于，所述步骤(2)具体方法是：

3.1)将多层次特征层次化多感受野卷积机制，输入特征和相关侧输出特征通过卷积核为1×1、3×3、1×5和5×1、1×7和7×1的卷积操作生成特征(T1、T2、T3、T4)。

其中Conv_i(i＝1,3,5,7)分别为卷积核为1×1、3×3、1×5和5×1、1×7和7×1的卷积操作，Res_i为从ResNet-50中提取的多尺度特征，up(x)为上采样操作。

3.2)步骤3.1中生成特征T1、T2、T3、T4分别输入到卷积核为3×3，其中填充率分别为(0,2,4,8)，并进行空洞卷积操作生成特征Z1、Z2、Z3、Z4。

Zi＝astrous(Ti)

其中i＝1,2,3,4，astrous(x)为卷积核大小为3×3填充率分别为(0,2,4,8)的空洞卷积操作。

3.3)步骤3.2种生成特征Z1、Z2、Z3、Z4、Res_i进行特征聚合生成优化后的特征Pi(i＝1,2,3,4,5)

Pi＝concat(Res-i+up(Z1)+up(Z2)+up(Z3)+up(Z4))

其中concat(x)为特征聚合操作，Res-i(i＝1,2,3,4,5)为ResNet-50中提取的多尺度特征，up(x)为上采样操作。

4.根据权利要求1所述的层次化多感受野网络的显著性目标检测算法，其特征在于：所述步骤(3)具体方法是：

4.1)将层次化多感受野卷积机制中生成的特征P1、P2、P3、P4、P5输入到隐形关系特征融合机制多尺度特征进行层次性融合，生成高质量特征F1、F2、F3、F4、F5。

其中concat(x)为特征聚合操作，up(x)为上采样操作。

4.2)将生成的F1利用卷积核大小是1×1的卷积操作和sigmoid(x)函数生成最终显著性图M。

M＝s(conv1(F1))

其中s(x)是sigmoid(x)函数，conv1(x)是卷积核为1×1的卷积操作。

本发明的优势：本发明充分利用了从ResNet-50主干框架中中提取的多尺度特征，利用层次化多感受野卷积机制充分提取多尺度上下文信息，更进一步提取高层次语义信息融合提高显著性目标检测准确率；同时隐形关系特征融合机制，特征通过隐形关系多尺度特征逐层次融合进行多尺度特征之间的隐形关系互补性融合，进一步增强特征质量，优化显著性目标边缘信息，最终生成高性能显著性图。与现有的显著性目标检测方法相比具有良好的效果。

附图说明

图1整体网络流程图

图2网络训练模式图

图3层次化多感受野卷积机制

图4隐形关系特征融合机制

图5预测显著性图

具体实施方式

下面将结合本发明实例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，此外，所叙述的实施例仅仅是本发明一部分实施例，而不是所有的实施例。基于本发明中的实施例，本研究方向普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护范围。

本发明的流程图框架如图1所示，本发明一种层次化多感受野网络的显著性目标检测算法，其具体操作说明如下：

2.收集RGB图像数据集，利用ResNet-50主干框架提取图像多尺度特征并进行编码

收集公开RGB图像数据集，设置训练数据和测试数据，为了增强网络的鲁棒性，对训练数据进行随机缩放、剪裁、填充边界、反转等数据增强处理，利用ResNet-50作为主干框架，提出初始的多尺度特征信息并对多尺度特征进行编码。

具体步骤如下：

2.1收集显著性目标检测领域常用的RGB图像数据集，DUTS数据集、MSRA-10K数据集、SOD数据集、THU-IS数据集、ECSSD数据集、HKU-IS数据集、PASCAL-S数据集。

2.2将DUTS数据集作为训练数据集，将MSRA-10K数据集、SOD数据集、THU-IS数据集、ECSSD数据集、HKU-IS数据集、PASCAL-S数据集作为测试数据集。

2.3将预训练好的ResNet-50作为主干框架从输入RGB图像数据集提取多尺度特征，然后对多尺度特征进行编码(Res_1、Res_2、Res_3、Res_4、Res_5)

3.利用层次化多感受野卷积机制优化多层次特征生成具有更丰富语义特征的特征。

由于处于不同场景中的显著性目标尺度变化大且类别不固定，使得准确检测显著性目标并完整将其从背景中分割出来成为一件非常困难的事情。现有的很多方法通过不同程度地增大感受野来缓解上述问题，然而由于感受野增大可能会带来相关特征丢失问题，使得预测出的显著性图性能下降。本发明设计了大感受野多尺度特征优化机制，通过不同感受野对特征进行提取，然后层次化融合增强特征性能，从而提高定位显著性目标的准确率。

具体步骤如下：

3.1将多层次特征层次化多感受野卷积机制，输入特征和相关侧输出特征通过卷积核为1×1、3×3、1×5和5×1、1×7和7×1的卷积操作生成特征(T1、T2、T3、T4)。

3.2步骤3.1中生成特征T1、T2、T3、T4分别输入到卷积核为3×3，其中填充率分别为(0,2,4,8)，并进行空洞卷积操作生成特征Z1、Z2、Z3、Z4。

Zi＝astrous(Ti)

3.3步骤3.2种生成特征Z1、Z2、Z3、Z4、Res_i进行特征聚合生成优化后的特征Pi(i＝1,2,3,4,5)

Pi＝concat(Res-i+up(Z1)+up(Z2)+up(Z3)+up(Z4))

4.利用隐形关系特征融合机制将优化后的特征进行互补性融合，然后生成最终显著性图。

高层次特征包含丰富的语义信息，而低层次特征包含丰富的边缘信息。高低层次特征对于充分定位显著性目标并完整将其从背景中分割出来至关重要。为了更加充分利用高低层次之间信息，同时考虑到特征融合之后相关计算问题。本发明由图神经网络中节点之间隐形关系推理所启发，探索一种隐形关系特征融合机制，对于隐形关系特征进行融合，进一步提升预测显著性图性能。

具体步骤如下：

4.1将层次化多感受野卷积机制中生成的特征P1、P2、P3、P4、P5输入到隐形关系特征融合机制多尺度特征进行层次性融合，生成高质量特征F1、F2、F3、F4、F5。

其中concat(x)为特征聚合操作，up(x)为上采样操作。

4.2将生成的F1利用卷积核大小是1×1的卷积操作和sigmoid(x)函数生成最终显著性图M。

M＝s(conv1(F1))

其中s(x)是sigmoid(x)函数，conv1(x)是卷积核为1×1的卷积操作。

5.如图5所示，展示了我们所提出的层次化多感受野网络的显著性目标检测算法的预测显著性图，第一行是输入图像，第二行为真值标签，第三行是我们算法预测的显著性图。

以上所述为本申请优选实施而以，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本申请的保护范围内。

Claims

2.2)将DUTS数据集作为训练数据集，将MSRA-10K数据集、SOD数据集、THU-IS数据集、ECSSD数据集、HKU-IS数据集、PASCAL-S数据集作为测试数据集。

2.3)将预训练好的ResNet-50作为主干框架从输入RGB图像数据集提取多尺度特征，然后对多尺度特征进行编码(Res_1、Res_2、Res_3、Res_4、Res_5) 。

Zi＝astroud(Ti)

Pi＝concat(Res-i+up(Z1)+up(Z2)+up(Z3)+up(Z4))

其中concat(x)为特征聚合操作，up(x)为上采样操作。

M＝s(conv1(F1))

其中s(x)是sigmoid(x)函数，conv1(x)是卷积核为1×1的卷积操作。