CN111340046A

CN111340046A - 基于特征金字塔网络和通道注意力的视觉显著性检测方法

Info

Publication number: CN111340046A
Application number: CN202010100233.4A
Authority: CN
Inventors: 王永雄; 陈凯
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2020-06-26

Abstract

本发明涉及一种基于特征金字塔网络和通道注意力的视觉显著性检测方法，包括以下步骤：步骤R1：以特征金字塔网络为基础，构建显著性检测网络；步骤R2：利用显著性检测网络的最深层特征生成通道权重，对不同尺度的低层特征进行通道加权；步骤R3：获取训练数据集，以最小化输入图像的加权交叉熵损失函数为目标，基于通道注意力对显著性检测网络进行训练，得到基于特征金字塔网络和通道注意力的显著性检测网络模型；步骤R4：将待检测图像输入基于特征金字塔网络和通道注意力的显著性检测网络模型，得到显著图结果。与现有方法相比，本发明具有改善不同层次特征之间的融合质量、提高所获得的显著图的准确性等优点。

Description

基于特征金字塔网络和通道注意力的视觉显著性检测方法

技术领域

本发明涉及计算机图像处理领域，尤其是涉及一种基于特征金字塔网络和通道注意力的视觉显著性检测方法。

背景技术

一幅图像往往包含大量的信息，但其中也存在很多价值较低、冗余的噪声信息，在一般情况下，这些冗余信息对最终的处理结果并没有帮助，甚至有不好的影响。如果对海量的图像数据逐一进行整幅处理，图像处理系统的效率自然十分低下，事实上，人们通常只需要对最显著、最有价值的那部分图像区域，即显著性区域进行计算就可以得到接近预期的效果，从而大大降低任务的复杂度和计算量。随着现代信息技术的不断发展，越来越多的工作需要通过处理海量的图像数据来完成，为加快图像处理速率，仿照生物视觉系统对视觉信息的处理方法，计算机视觉领域的研究人员提出了图像的显著性检测任务，它是指用计算机自动检测一幅图像中最重要、最有价值的部分，从而对其优先处理，提升图像处理系统的效率。显著性检测可以广泛地应用在各种计算机视觉任务中，作为图像检索、图像分割、目标识别和视觉跟踪等任务的预处理步骤，近年来获得了越来越多的关注和研究。

得益于深度学习的发展，全卷积神经网络的引入使得显著性检测脱离了传统手工特征的束缚，实现了端到端的学习，并取得了较好的结果，在近年被广泛使用。研究人员提出了多种基于多特征融合范式的网络模型，主要包括预测结果融合的多流结构、侧边融合结构，以及高低层特征融合的自底向上自上向下结构。现有的融合网络，主要关注特征的融合范式而忽略了不同层次特征之间融合与传递过程的重要性，忽视了高层特征和低层特征之间的差异，忽视了低层特征背景噪声的干扰，这会造成高层特征的全局语义信息丢失，也可能会增加低层特征的干扰。

发明内容

本发明的目的就是为了克服上述现有技术存在的忽略了不同层次特征之间融合与传递、忽视了高层特征和低层特征之间的差异、忽视了低层特征背景噪声的干扰的缺陷而提供一种基于特征金字塔网络和通道注意力的视觉显著性检测方法。

本发明的目的可以通过以下技术方案来实现：

一种基于特征金字塔网络和通道注意力的视觉显著性检测方法，包括以下步骤：

步骤R1：以特征金字塔网络为基础，构建基于特征金字塔网络的显著性检测网络；

步骤R2：利用所述基于特征金字塔网络的显著性检测网络的最深层特征生成通道权重，对不同尺度的低层特征进行通道加权；

步骤R3：获取训练数据集，以所述训练数据集的最小化输入图像的加权交叉熵损失函数为目标，基于所述通道注意力对所述基于特征金字塔网络的显著性检测网络进行训练，得到基于特征金字塔网络和通道注意力的显著性检测网络模型；

步骤R4：将待检测图像输入所述基于特征金字塔网络和通道注意力的显著性检测网络模型，得到显著图结果。

所述基于特征金字塔网络的显著性检测网络包括自下而上的特征编码阶段和自上而下的特征解码阶段，并利用所述特征编码阶段得到的最深层特征生成通道权重，根据所述通道权重对所述特征编码阶段的低层特征进行通道加权。

所述自下而上的特征编码阶段包括依次连接的输入层、第一卷积单元、第二卷积单元、第三卷积单元、第四卷积单元和第五卷积单元，所述第一卷积单元、第二卷积单元、第三卷积单元、第四卷积单元和第五卷积单元的每个卷积层均连接一个批量归一化层。

所述第一卷积单元、第二卷积单元、第三卷积单元和第四卷积单元均连接有一个最大池化层。

所述第一卷积单元和第二卷积单元包括依次交错设置的2个卷积层和2个激活函数，所述第三卷积单元、第四卷积单元和第五卷积单元包括依次交错设置的3个卷积层和3个激活函数。

所述基于特征金字塔网络的显著性检测网络的最深层特征为所述第五卷积单元的输出，然后依次下采样2倍、4倍、8倍的池化层，再相加卷积并全局池化得到所述通道权重。

所述自上而下的特征解码阶段包括依次连接的第一融合单元、第二融合单元、第三融合单元和反卷积单元，所述第一融合单元与第四卷积单元连接，所述第二融合单元与第三卷积单元连接，所述第三融合单元与第二卷积单元连接，所述反卷积单元包括Sigmoid激活函数，所述第一融合单元、第二融合单元和第三融合单元的每个卷积层均连接一个批量归一化层，每个所述卷积单元先与所述通道权重相乘，再与所述融合单元进行连接。

所述第一融合单元、第二融合单元和第三融合单元均包括三个分支，所述三个分支分别含有2倍、4倍和8倍的下采样和上采样。

所述步骤R3中基于特征金字塔网络的显著性检测网络采用随机梯度下降优化器进行训练。

所述交叉熵损失函数的公式具体为：

其中，L_C表示损失函数，GT⁽ⁱ⁾表示真值图，S⁽ⁱ⁾表示显著图，K表示像素个数，α为权重。

与现有技术相比，本发明具有以下有益效果：

1.本发明采用特征金字塔网络对训练数据集进行特征提取和采样，有效地解决已有方法在多层特征提取中忽略了特征融合与传递的问题，提高了显著图的精度。

2.本发明采用通道注意力对低层特征进行特征选择，用最深层特征包含的显著目标位置信息对低层特征的通道加权，减少低层特征的背景噪声。

3.本发明在特征金字塔网络中使用多种尺度的池化，多尺度池化有着高效的语义提取能力，能够实现更高质量的多尺度特征的特征提取和融合，有效地融合多尺度的特征。

附图说明

图1为本发明的流程示意图；

图2为本发明基于特征金字塔网络的显著性检测网络的结构示意图；

图3为本发明的训练数据集通过不同算法得到的显著图的对比示意图；

图4为本发明的准确率召回率曲线对比图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，一种基于特征金字塔网络和通道注意力的视觉显著性检测方法，包括以下步骤：

步骤R2：利用基于特征金字塔网络的显著性检测网络的最深层特征生成通道权重，对不同尺度的低层特征进行通道加权；

步骤R3：获取训练数据集，以训练数据集的最小化输入图像的加权交叉熵损失函数为目标，基于通道注意力对基于特征金字塔网络的显著性检测网络进行训练，得到基于特征金字塔网络和通道注意力的显著性检测网络模型；

步骤R4：将待检测图像输入基于特征金字塔网络和通道注意力的显著性检测网络模型，得到显著图结果。

如图2所示，基于特征金字塔网络的显著性检测网络包括用于提取特征的自下而上的特征编码阶段，用于采样的自上而下的特征解码阶段，编码得到的最深层特征对低层特征进行特征选择。

自下而上的特征编码阶段包括依次连接的输入层、第一卷积单元、第二卷积单元、第三卷积单元、第四卷积单元和第五卷积单元，每个卷积单元的每个卷积层均连接一个批量归一化层。

第一卷积单元包括依次连接的3x3x64卷积层、Relu激活函数、3x3x64卷积层、Relu激活函数和最大池化层；

第二卷积单元包括依次连接的3x3x128卷积层、Relu激活函数、3x3x128卷积层、Relu激活函数和最大池化层；

第三卷积单元包括依次连接的3x3x256卷积层、Relu激活函数、3x3x256卷积层、Relu激活函数、3x3x256卷积层、Relu激活函数和最大池化层；

第四卷积单元包括依次连接的3x3x512卷积层、Relu激活函数、3x3x512卷积层、Relu激活函数、3x3x512卷积层、Relu激活函数和最大池化层；

第五卷积单元包括依次连接的3x3x512卷积层、Relu激活函数、3x3x512卷积层、Relu激活函数、3x3x512卷积层和Relu激活函数。

自上而下的特征解码阶段包括依次连接的第一融合单元、第二融合单元、第三融合单元和反卷积单元，第一融合单元与第四卷积单元连接，第二融合单元与第三卷积单元连接，第三融合单元与第二卷积单元连接，每个融合单元的每个卷积层均连接一个批量归一化层。

第一融合单元包括三个分支，第一个分支依次连接2倍下采样、1x7x512卷积层、7x1x512卷积层、7x7x512空洞卷积层和2倍上采样；第二个分支依次连接4倍下采样、1x5x512卷积层、5x1x512卷积层、5x5x512空洞卷积层和4倍上采样；第三个分支依次连接8倍下采样、1x3x512卷积层、3x1x512卷积层、3x3x512空洞卷积层和8倍上采样，最后将三个分支的输出结果相加。

第二融合单元包括三个分支，第一个分支依次连接2倍下采样、1x7x256卷积层、7x1x256卷积层、7x7x256空洞卷积层和2倍上采样；第二个分支依次连接4倍下采样、1x5x256卷积层、5x1x256卷积层、5x5x256空洞卷积层和4倍上采样；第三个分支依次连接8倍下采样、1x3x256卷积层、3x1x256卷积层、3x3x256空洞卷积层和8倍上采样，最后将三个分支的输出结果相加。

第三融合单元包括三个分支，第一个分支依次连接2倍下采样、1x7x128卷积层、7x1x128卷积层、7x7x128空洞卷积层和2倍上采样；第二个分支依次连接4倍下采样、1x5x128卷积层、5x1x128卷积层、5x5x128空洞卷积层和4倍上采样；第三个分支依次连接8倍下采样、1x3x128卷积层、3x1x128卷积层、3x3x128空洞卷积层和8倍上采样，最后将三个分支的输出结果相加。

反卷积单元包括依次连接的3x3x1卷积层和Sigmoid激活函数。

基于特征金字塔网络的显著性检测网络的最深层特征为所述第五卷积单元的输出，然后依次下采样2倍、4倍、8倍的池化层，再相加卷积并全局池化得到所述通道权重。通道权重通过依次连接的三个分支进行处理并相加。第一个分支包括依次连接1x1x512卷积层和1x1自适应平均池化层；第二个分支包括依次连接3x3x512卷积层和1x1自适应平均池化层；第三个分支包括依次连接5x5x512卷积层和1x1自适应平均池化层，三个分支输出相加后依次连接1x1x512全连接层和Sigmoid激活函数。

基于特征金字塔网络的显著性检测网络的最深层特征为第五卷积单元的输出，然后依次下采样2倍、4倍、8倍的池化层，再相加卷积并全局池化得到通道注意权重。

自上而下的特征解码阶段需要对自下而上的特征编码阶段传来的低层特征进行噪声抑制，抑制噪声后的低层特征由依次连接的初始低层特征和通道权重相乘得到。

步骤R3中基于特征金字塔网络的显著性检测网络采用随机梯度下降优化器进行训练。

加权的交叉熵损失函数的公式具体为：

其中，L_C表示损失函数，GT⁽ⁱ⁾表示真值图，S⁽ⁱ⁾表示显著图，K表示像素个数，α为权重，本实施例中取0.52。

实施例一

使用DUTS数据集作为训练数据集训练出基于特征金字塔网络和通道注意力的显著性检测网络模型，在DUTS-test、ECSSD、DUT-OMRON和HKU-IS上测试显著性检测网络模型，评价指标包括最大F值(MaxF)，平均绝对误差(MAE)和准确率召回率(PR)曲线。以最小化交叉熵损失函数为目标，学习率设置为0.002，迭代次数15000次，采用随机梯度下降优化器训练。采用NVIDIA GTX TITAN Xp GPU硬件平台和PyTorch深度学习框架。对比的方法包括五种主流且相关的显著性检测模型C2S、RAS、RFCN、DSS和SRN。

如图3所示，显示了本发明和对比方法模型输出显著图的对比结果。由图3可以看出，无论简单场景、显著目标与背景对比度低的场景还是多显著目标的复杂场景，本发明都是最接近真值图的结果。

本发明和对比方法在四个数据集上定量比较的结果如表1所示，评价指标包括MaxF和MAE，表1具体如下：

表1显著性定量比较表

从表1中可以看出，对于两种评价指标，本发明都是最高的结果，即使在最具挑战性的数据集DUT-OMRON上也明显高于其他方法，所提模型有着优秀地特征选择和学习能力。同时如图4所示，本发明四种测试模型的PR曲线上，均明显包裹住进行对比的方法的曲线，表示在查全率较高时仍有较高的查准率。

此外，需要说明的是，本说明书中所描述的具体实施例，所取名称可以不同，本说明书中所描述的以上内容仅仅是对本发明结构所做的举例说明。凡依据本发明构思的构造、特征及原理所做的等小变化或者简单变化，均包括于本发明的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于特征金字塔网络和通道注意力的视觉显著性检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于特征金字塔网络和通道注意力的视觉显著性检测方法，其特征在于，所述基于特征金字塔网络的显著性检测网络包括自下而上的特征编码阶段和自上而下的特征解码阶段，并利用所述特征编码阶段得到的最深层特征生成通道权重，根据所述通道权重对所述特征编码阶段的低层特征进行通道加权。

3.根据权利要求2所述的一种基于特征金字塔网络和通道注意力的视觉显著性检测方法，其特征在于，所述自下而上的特征编码阶段包括依次连接的输入层、第一卷积单元、第二卷积单元、第三卷积单元、第四卷积单元和第五卷积单元，所述第一卷积单元、第二卷积单元、第三卷积单元、第四卷积单元和第五卷积单元的每个卷积层均连接一个批量归一化层。

4.根据权利要求3所述的一种基于特征金字塔网络和通道注意力的视觉显著性检测方法，其特征在于，所述第一卷积单元、第二卷积单元、第三卷积单元和第四卷积单元均连接一个最大池化层。

5.根据权利要求3所述的一种基于特征金字塔网络和通道注意力的视觉显著性检测方法，其特征在于，所述第一卷积单元和第二卷积单元包括依次交错设置的2个卷积层和2个激活函数，所述第三卷积单元、第四卷积单元和第五卷积单元包括依次交错设置的3个卷积层和3个激活函数。

6.根据权利要求3所述的一种基于特征金字塔网络和通道注意力的视觉显著性检测方法，其特征在于，所述基于特征金字塔网络的显著性检测网络的最深层特征为所述第五卷积单元的输出，然后依次连接下采样2倍、4倍、8倍的池化层，再相加卷积并全局池化得到所述通道权重。

7.根据权利要求3所述的一种基于特征金字塔网络和通道注意力的视觉显著性检测方法，其特征在于，所述自上而下的特征解码阶段包括依次连接的第一融合单元、第二融合单元、第三融合单元和反卷积单元，所述第一融合单元与第四卷积单元连接，所述第二融合单元与第三卷积单元连接，所述第三融合单元与第二卷积单元连接，所述反卷积单元包括Sigmoid激活函数，所述第一融合单元、第二融合单元和第三融合单元的每个卷积层均连接一个批量归一化层，每个所述卷积单元先与所述通道权重相乘，再与所述融合单元进行连接。

8.根据权利要求7所述的一种基于特征金字塔网络和通道注意力的视觉显著性检测方法，其特征在于，所述第一融合单元、第二融合单元和第三融合单元均包括三个分支，所述三个分支分别含有2倍、4倍和8倍的下采样和上采样。

9.根据权利要求1所述的一种基于特征金字塔网络和通道注意力的视觉显著性检测方法，其特征在于，所述步骤R3中基于特征金字塔网络的显著性检测网络采用随机梯度下降优化器进行训练。

10.根据权利要求1所述的一种基于特征金字塔网络和通道注意力的视觉显著性检测方法，其特征在于，所述加权交叉熵损失函数的公式具体为：