CN111797841A

CN111797841A - 一种基于深度残差网络的视觉显著性检测方法

Info

Publication number: CN111797841A
Application number: CN202010389359.8A
Authority: CN
Inventors: 朱威; 王图强; 岑宽; 何德峰; 郑雅羽
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-05-10
Filing date: 2020-05-10
Publication date: 2020-10-20
Anticipated expiration: 2040-05-10
Also published as: CN111797841B

Abstract

本发明涉及一种基于深度残差网络的视觉显著性检测方法，包括以下四部分：（1）搭建视觉显著性检测神经网络：包括以深度残差网络为基础网络结构，增加金字塔特征增强模块、基于空间金字塔池化的语义监督模块以及特征融合模块；（2）神经网络训练优化：包括多路损失函数设计和数据集增强；（3）完成对神经网络的训练；（4）使用训练好的神经网络对通用图像进行检测，输出显著性区域的图像。与现有神经网络显著性检测方法相比，本发明具有更好的显著性检测效果，对具有复杂纹理信息、各种颜色背景的图像也能检测出精确的显著性区域，检测结果更接近真实值、噪声更少、分辨率更高、边缘精细，帧率更高，能够满足实时性检测的要求。

Description

一种基于深度残差网络的视觉显著性检测方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于深度残差网络的视觉显著性检测方法。

背景技术

显著性检测旨在从场景中提取视觉上显著的区域。准确且快速的显著性检测方法，在计算机视觉领域中有着广泛的用途，比如目标跟踪、智能图像压缩、目标分割、图像裁剪等。现有的显著性检测方法存在特征提取不充分、计算复杂度高等问题，无法实时且准确的完成显著性检测。

早期的显著性检测方法主要通过挖掘图像不同的低层视觉特征，如颜色、边缘、纹理等，考虑像素点在其领域空间上的特征差异。Itti等(见ITTI L,KOCH C,NIEBUR E.Amodel of saliency-based visual attention for rapid scene analysis[J].IEEETransactions on Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259)将视觉先验信息应用于检测过程中，将图像颜色、方向和亮度三种不同特征，通过中央-周围原理计算得到不同特征的显著性图，最后通过线性融合得到原始图像的显著性图。Hou等 (见Hou X,Zhang L.Dynamic visual attention:searching for codinglength increments[C].//Neural Information Processing Systems.Massachusetts:MIT, 2009:681-688)通过数学变换得到图像中有价值信息，提出了一种基于傅里叶变换的快速显著性检测方法，以谱残差的幅度度量图像的显著性值。上述方法从底层特征出发，基于变换分析、视觉先验等方法，建立了一系列检测模型，该类方法无需训练学习，操作简单，但对于复杂的背景、小目标物体、低对比度图像等场景，其准确率较低，有待进一步的提高和完善。

近年来，深度学习理论的快速发展和计算机处理能力的大幅提升，深度卷积神经网络在人工智能等领域取得了一系列巨大的成功。自2012年 AlexNet的横空出世，涌现了许多经典的卷积神经网络模型，如VGGNet、 GoogleNet等，在图像识别、目标检测等多个领域获得了很好的性能。近几年深度残差网络ResNet(见He Kaiming,Zhang Xiangyu,RenShaoqing,et al.Deep Residual Learning for Image Recognition，IEEE Conferenceon Computer Vision and Pattern Recognition,2016:770-778)的出现，解决了卷积神经网络层数过深导致难以训练的问题，进一步推动了卷积神经网络的实际应用。深度卷积神经网络能够从大量训练样本中学习到更为本质的特性，能有效改善传统模型的检测效果。

目前已有一些基于卷积神经网络的图像显著性区域检测相关的技术，申请号为CN201510964488.4的专利公开了一种深度学习的图像显著性区域检测方法，将不同网络层的结果进行结合，得到图像在不同尺度下的特征，从而得到更好的检测性能；同时利用图像分割进行超像素阈值学习，将所有显著性均值低于下阈值的超像素置为非显著性区域，将所有显著性均值高于上阈值的超像素置为显著性区域，进一步优化了检测性能。虽然该方法处理速度较快，但普适性不强，误检率较高。申请号为 CN201910827885.5的专利公开了一种局部对比和全局指导的立体图像视觉显著性检测方法，选取原始立体图像的左视点图、深度图和对应的主观视觉显著图构成训练集；构建神经网络，将训练集输入神经网络模型中进行训练，计算每幅显著性预测图与训练集中对应的主观视觉显著图之间的损失函数值；利用训练后的卷积神经网络对待测立体图像进行预测处理获得视觉显著图，实现图像的显著性检测。虽然该方法有效提高检测的准确率，但复杂度较高，不利于实际应用场景，且显著性区域的边界较为模糊。

发明内容

为了解决现有显著性检测方法存在误检率较高、边缘分辨率低、噪声多、处理速度慢等问题，本发明提供了一种基于深度残差网络的视觉显著性检测方法，具体包括以下步骤：

(1)搭建视觉显著性检测神经网络

(1-1)以深度残差网络为基础架构

采用深度残差网络作为视觉显著性检测的基础网络架构，该基础网络参数少、训练快，而且可以大幅提升显著性检测的准确率。

(1-2)在深度残差网络中配合设置金字塔特征增强模块

卷积神经网络自底向上采样过程中，会产生多种的特征，神经网络的高层包含语义相关的特征，而低层包含辅助的细节信息，有效利用不同卷积层的特征，是提升显著性区域检测效果的一大关键。因此，本发明设计了一种金字塔特征增强模块，对不同卷积层位置的特征信息采取相应的特征增强方法，该模块包括低层特征增强子模块、中层特征增强子模块、高层特征增强子模块，具体结构如下：

(1-2-1)低层特征增强子模块设置了一个重叠池化层，并在池化层之后设置了激活层，选用ReLu为激活函数。该子模块对深度残差网络第一层的输出进行特征提取，输出特征图A1作为下一单元的输入。

(1-2-2)中层特征增强子模块采用3×3卷积核进行简单卷积提取特征，然后，在卷积层之后设置了激活层，选用ReLu为激活函数。该子模块对深度残差网络第二层的输出进行特征提取，输出特征图A2作为下一单元的输入。

(1-2-3)高层特征增强子模块设置了一个重叠池化层，在池化层之后，采用1×1、3×3、5×5三种不同卷积核对图像进行特征提取；接着，在卷积层后设置了激活层，选用ReLu为激活函数；然后，采用级联的方式将上述得到三种特征图像进行合并重组。该子模块对深度残差网络第三层和第四层的输出进行特征提取，输出特征图A3、A4作为下一单元的输入。

(1-3)在深度残差网络中配合设置基于空间金字塔池化的语义监督模块

为了高效利用卷积神经网络顶层特征中丰富的上下文信息，本发明设计了一种语义监督模块，具体结构如下：

(1-3-1)首先采用一个1×1标准卷积和两个3×3的采样率分别为6、12 的空洞卷积对深度残差网络的顶层特征进行特征提取，得到三幅特征图，有效捕获多尺度信息，聚合不同区域的上下文信息。

(1-3-2)然后将步骤(1-3-1)得到三幅特征图采用级联的方式进行合并重组，构成新的特征图，最后采用1×1的卷积核对新的特征图进行卷积，使得输出特征图的通道数和输入的原始特征图一致，输出特征图C作为下一单元的输入。

(1-4)在深度残差网络中增加特征融合模块

为了高效融合不同尺度下的特征信息，本发明设计了一种特征融合模块，具体结构如下：

(1-4-1)对步骤(1-2-1)、(1-2-2)和(1-2-3)输出的四路特征图A1、A2、 A3、A4，采用大小为1×1的卷积核进行卷积，分别得到特征图B1、B2、 B3、B4；

(1-4-2)使用双线性插值的上采样方法对步骤(1-3-2)语义监督模块输出的特征图C同时进行四次上采样，分别得到四路特征图D1、D2、D3、 D4，其中D1和B1、D2和B2、D3和B3、D4和B4的尺寸一致；

(1-4-3)在特征融合过程中，若当前特征融合模块位于神经网络的第四层，只将特征图B4与特征图D4通过级联方式进行融合；若当前特征融合模块位于神经网络的其它位置，则将特征图B3、特征图D3与神经网络第三层特征融合模块输出的特征图、或特征图B2、特征图D2与神经网络第二层特征融合模块输出的特征图、或特征图B1、特征图D1与神经网络第一层特征融合模块输出的特征图通过级联方式进行融合；

(1-4-4)采用3×3的卷积核对步骤(1-4-3)融合的结果进行卷积运算，消除上采样所带来的混叠效应，输出特征图。

(2)对神经网络进行训练优化

本发明对第一部分所搭建的神经网络进行训练优化，包括多路损失函数设计和数据集增强两部分，具体步骤如下：

(2-1)多路损失函数设计

损失函数反映了模型预测的准确程度，切合实际问题的损失函数对模型训练起到关键作用。

(2-1-1)输入测试图像，采用交叉熵损失函数来计算模型输出的显著性图和测试图像的显著性真值图的损失。

(2-1-2)对模型输出的显著性图进行3×3卷积操作得到边缘图像，再将边缘图像经过ReLu激活函数得到二值边缘图像，然后使用加权交叉熵损失函数计算二值边缘图像和测试图像边缘的真值图的损失。

(2-1-3)将步骤(2-1-1)和步骤(2-1-2)两部分损失按式(1)进行加权相加，式(1)给出了两部分损失的权重关系，L_all表示总损失，L_sal表示显著性区域的损失，L_edge表示显著性边缘的损失，α为权重系数，其取值范围为[0,1]。

L_all＝α×L_sal+(1-α)×L_edge (1)

(2-2)数据集增强

为了在一定程度上避免过拟合，本发明对数据集进行数据增强：(1)旋转：将图像以8个不同角度进行旋转[0°,45°,…315°]；(2)缩放：将图像按照[1.5,0.5]倍数进行放大及缩小；(3)翻转：将图像按水平和垂直方向进行翻转。

(3)完成对神经网络的训练

经过步骤(1)、步骤(2)，完成对神经网络的训练。

(4)使用训练好的神经网络对输入图像进行检测：

使用步骤(3)中训练好的神经网络对输入图像进行检测，输出显著性区域的图像。

本发明的技术构思为：在深度残差网络的基础上，设计了一种金字塔特征增强模块，充分提取卷积网络中不同位置的特征信息；设计了一种基于空间金字塔池化的语义监督模块，高效利用上下文语义信息；设计了一种特征融合模块，以融合不同尺度下的特征信息，提升显著性检测效果；设计了一种多路损失函数，考虑边缘损失的影响，细化显著性区域的边缘效果。

与现有技术相比，本方法具有以下有益效果：对具有复杂纹理信息、各种颜色背景的图像也能检测出精确的显著性区域，检测结果更接近真实值，并且分辨率更高，边缘精细，能够满足实时性检测的要求。

附图说明

图1为本发明的内容框图，箭头所示为流程方向。

图2为本发明中低层特征增强子模块L-FE的示意图，箭头所示为处理方向。

图3为本发明中中层特征增强子模块M-FE的示意图，箭头所示为处理方向。

图4为本发明中高层特征增强子模块H-FE的示意图，箭头所示为处理方向。

图5为本发明中语义监督模块SSM的示意图，箭头所示为处理方向。

图6为本发明中特征融合模块M的示意图，箭头所示为处理方向。

图7为本发明的总体网络结构图，箭头所示为处理方向。

图8为本发明方法与其他方法的检测结果对比图，其中，(a)行为待检测图像、(b)行为UCF算法的显著性检测结果、(c)行为DGRL算法的显著性检测结果、(d)行为PAGR算法的显著性检测结果、(e)行为PICANet 算法的显著性检测结果、(f)行为本发明的显著性检测结果、(g)行为(a)行的真值图。

具体实施方式

下面结合实施例和附图来详细描述本发明，但本发明并不仅限于此。

本发明方法选用运行的计算机硬件配置为Intel(R)Xeon(R)E5-2678 CPU@2.50GHz，GPU为GeForce GTX TITAN Xp，显存为12GB，内存为16GB；软件环境为64位的Ubuntu 16.04系统、PyTorch0.4.1和Matlab R2017b。显著性检测模型的检测指标主要包括：平均绝对误差(Mean Absolute Error,MAE)、F值(F-Measure)。

如图1所示，一种基于深度残差网络的视觉显著性检测方法，包括以下四个部分：

(1)视觉显著性检测神经网络的搭建，包括四个子步骤：

(1-1)以深度残差网络为基础网络结构；

(1-2)在深度残差网络中配合设置金字塔特征增强模块；

(1-3)在深度残差网络中配合设置基于空间金字塔池化的语义监督模块；

(1-4)在深度残差网络中增加特征融合模块。

(2)对神经网络进行训练优化；

(3)完成对神经网络的训练；

(4)使用训练好的神经网络对输入图像进行检测。

第一部分视觉显著性检测神经网络搭建具体包括：

(1-1)以深度残差网络为基础网络结构

本发明选用深度残差网络RseNet-50为基础网络结构。

(1-2)在深度残差网路中配合设置金字塔特征增强模块

金字塔特征增强模块包括低层特征增强子模块、中层特征增强子模块、高层特征增强子模块，网络结构分别如图2、3、4所示。

(1-2-1)低层特征增强子模块采用一个重叠池化层，对深度残差网络第一层的输出进行特征提取，减少低层网络的参数量，同时有效增大网络感受野，接着，在卷积层之后设置了激活层，选用ReLu为激活函数，输出特征图A1作为下一单元的输入。

(1-2-2)中层特征增强子模块采用3×3卷积核进行简单卷积提取特征，然后，在卷积层之后设置了激活层，选用ReLu为激活函数，对深度残差网络第二层的输出进行特征提取，输出特征图A2作为下一单元的输入。

(1-2-3)高层特征增强子模块采用一个重叠池化层，有效提取上下文信息，并在池化层后采用1×1、3×3、5×5三种不同卷积核对图像进行特征提取；接着，在池化层后设置了激活层，选用ReLu为激活函数；然后，采用级联的方式将上述得到三种特征图像进行合并重组，对深度残差网络第三层、第四层的输出进行特征提取，输出特征图A3、A4作为下一单元的输入。

通过金字塔特征增强模块，针对性地对不同卷积层进行特征增强，高效处理特征信息，从而提升显著性检测效果。在使用金字塔特征增强模块后，在SOD测试集上，客观指标MAE降低到0.106，F-Measure提高到 0.873。

(1-3)在深度残差网路中配合设置基于空间金字塔池化的语义监督模块

本发明基于空间金字塔结构上，设计了一种语义监督模块，引导深度残差网络中的顶层特征信息对各层卷积进行语义监督。

(1-3-1)如图5所示，对深度残差网络中输出的顶层特征采用一个1×1 标准卷积和两个3×3的采样率分别为6、12的空洞卷积对深度残差网络的顶层特征进行特征提取，得到三幅特征图，有效捕获多尺度信息，聚合不同区域的上下文信息。

(1-3-2)采用级联的方式将上述得到三幅特征图进行合并重组，构成新的特征图，最后采用1×1的卷积核对新的特征图进行卷积，使得输出特征图的通道数和输入的原始特征图一致，输出特征图C作为下一单元的输入。

通过语义监督模块，在网络上采样过程中，高效结合网络顶层中的语义信息，改善显著性检测效果。在步骤(1-2)网络的基础上，进一步添加步骤(1-3)语义监督模块后，在SOD测试集上，客观指标MAE降低到0.099， F-Measure提高到0.883。

(1-4)增加特征融合模块

本发明设计了一种特征融合模块，将深度残差网络中的多路特征信息进行高效融合，具体步骤如下：

(1-4-1)如图6所示，对步骤(1-2-1)、(1-2-2)和(1-2-3)输出的特征图 A1、A2、A3、A4，采用大小为1×1的卷积核进行卷积，分别得到特征图B1、B2、B3、B4；

(1-4-2)使用双线性插值的上采样方法对步骤(1-3)输出的特征图C同时进行四次上采样，如图6所示，分别得到四路特征图D1、D2、D3、D4，其中D1和B1、D2和B2、D3和B3、D4和B4的尺寸一致；

(1-4-3)在特征融合过程中，如图7所示，若当前特征融合模块位于神经网络的第四层，只将特征图B4与特征图D4通过级联方式进行融合；若当前特征融合模块位于神经网络的其它位置，则将特征图B3、特征图 D3与神经网络第三层特征融合模块输出的特征图、或特征图B2、特征图 D2与神经网络第二层特征融合模块输出的特征图、或特征图B1、特征图 D1与神经网络第一层特征融合模块输出的特征图通过级联方式进行融合；

如图7所示，第四层即顶层，为最下方的M，若融合模块不在顶层，则融合模块M存在三路输入，其中的一路即为当前特征融合模块的上一个融合模块的输出；

(1-4-4)采用3×3的卷积核对步骤(1-4-3)融合的结果进行卷积运算，如图6所示。

通过特征融合模块，对不同尺度的特征进行高效融合，改善显著性检测效果。

第二部分神经网络训练优化具体包括：

本发明对第一部分所搭建的神经网络进行训练优化，包括多路损失函数设计和数据集增强两部分。

(2-1)多路损失函数设计

本发明设计了一种多路损失函数，对第一部分搭建的神经网络优化训练过程。

(2-1-1)输入测试图像，采用交叉熵损失函数计算模型输出的显著性图和测试图像的显著性真值图的损失；

这一路损失函数是为了计算显著性区域的损失；

(2-1-2)对显著性图进行3×3卷积操作得到边缘图像，再将边缘图像经过ReLu激活函数得到二值边缘图像，然后使用加权交叉熵损失函数计算二值边缘图像和测试图像边缘的真值图的损失；

这一路损失函数是为了计算显著性区域的边缘的损失；

(2-1-3)将步骤(2-1-1)和(2-1-2)两部分损失进行加权相加，式(1)给出了两部分损失的权重关系。L_all表示总损失，L_sal表示显著性区域的损失，L_edge表示显著性边缘的损失，α为权重系数，此处取值为0.7。

L_all＝α×L_sal+(1-α)×L_edge (1)

(2-2)数据集增强

本发明选择在DUTS-TR数据集上进行训练，该训练集包含10553张图片，为了在一定程度上避免过拟合，本发明对数据集进行增强：(1)旋转：将图像以8个不同角度进行旋转[0°,45°,…315°]；(2)缩放：将图像按照[1.5,0.5]倍数进行放大及缩小；(3)翻转：将图像按水平和垂直方向进行翻转。将上述处理得到的图像均加入到训练集中。

通过对神经网络训练进行优化，在SOD测试集上，客观指标MAE 降低到0.099，F-Measure提高到0.883，FPS提升到42，主观检测效果也更接近真实值、噪声更少。

第三部分完成对神经网络的训练具体包括：

经过第一部分和第二部分，在硬件配置为Intel(R)Xeon(R)E5-2678 CPU@2.50GHz，GPU为GeForce GTX TITAN Xp，显存为12GB，内存为16GB、软件环境为64位的Ubuntu 16.04系统的计算机上，使用深度学习框架PyTorch，其版本为0.4.1，完成对神经网络的训练。

第四部分使用训练好的神经网络对输入图像进行检测具体包括：

使用第三部分训练好的神经网络模型对输入图像进行检测，输出显著性图像。图8为本发明方法与其他方法的检测结果对比图，其中图8(a)为待检测图像、图8(b)为UCF算法的显著性检测结果、图8(c)为DGRL算法的显著性检测结果、图8(d)为PAGR算法的显著性检测结果、图8(e)为 PICANet算法的显著性检测结果、图8(f)为本发明的显著性检测结果、图 8(g)为图8(a)的真值图。因此，本发明的检测结果更接近真实值，并且分辨率更高，噪声更少，显著性区域的边缘更精细，且能够满足实时性检测的要求。

Claims

1.一种基于深度残差网络的视觉显著性检测方法，其特征在于：所述方法包括以下步骤：

步骤1：搭建视觉显著性检测神经网络；

步骤2：对神经网络进行训练优化；

步骤3：完成对神经网络的训练；

步骤4：使用训练好的神经网络对输入图像进行检测，输出显著性区域的图像。

2.根据权利要求1所述的一种基于深度残差网络的视觉显著性检测方法，其特征在于：所述步骤1包括以下步骤：

步骤1.1：以深度残差网络为基础网络结构；

步骤1.2：在深度残差网络中配合设置金字塔特征增强模块，输出特征图A1、A2、A3、A4；

步骤1.3：在深度残差网络中配合设置基于空间金字塔池化的语义监督模块，输出特征图C；

步骤1.4：在深度残差网络中增加特征融合模块。

3.根据权利要求2所述的一种基于深度残差网络的视觉显著性检测方法，其特征在于：所述步骤1.2中，金字塔特征增强模块包括低层特征增强子模块、中层特征增强子模块、高层特征增强子模块；低层特征增强子模块采用重叠池化对深度残差网络第一层的输出进行特征提取，选用ReLu为激活函数，输出特征图A1；中层特征增强子模块采用3×3卷积核对深度残差网络第二层的输出进行特征提取，选用ReLu为激活函数，输出特征图A2；高层特征增强子模块先进行重叠池化运算，再采用1×1、3×3、5×5三种不同卷积核对深度残差网络第三层和第四层的输出进行特征提取，选用ReLu为激活函数，分别输出特征图A3和A4。

4.根据权利要求2所述的一种基于深度残差网络的视觉显著性检测方法，其特征在于：所述步骤1.3中，语义监督模块：

采用一个1×1标准卷积和两个3×3的采样率分别为6、12的空洞卷积对深度残差网络的顶层特征进行特征提取，得到三幅特征图；

将得到的三幅特征图采用级联的方式进行合并重组，构成新的特征图，最后采用1×1的卷积核对新的特征图进行卷积，输出特征图C。

5.根据权利要求2所述的一种基于深度残差网络的视觉显著性检测方法，其特征在于：所述步骤1.4中，特征融合模块的融合方法包括以下步骤：

步骤1.4.1：对金字塔特征增强模块输出的四路特征图A1、A2、A3、A4采用大小为1×1的卷积核进行卷积，分别得到特征图B1、B2、B3、B4；

步骤1.4.2：使用双线性插值的上采样方法对语义监督模块输出的特征图C同时进行四次上采样，分别得到四路特征图D1、D2、D3、D4，其中D1和B1、D2和B2、D3和B3、D4和B4的尺寸一致；

步骤1.4.3：若当前特征融合模块位于神经网络的第四层，则将特征图B4与特征图D4通过级联方式进行融合；若当前特征融合模块位于神经网络的其它位置，则将特征图B3、特征图D3与神经网络第三层特征融合模块输出的特征图、或特征图B2、特征图D2与神经网络第二层特征融合模块输出的特征图、或特征图B1、特征图D1与神经网络第一层特征融合模块输出的特征图通过级联方式进行融合；

步骤1.4.4：采用3×3的卷积核对步骤1.4.3融合的结果进行卷积运算，输出特征图。

6.根据权利要求1所述的一种基于深度残差网络的视觉显著性检测方法，其特征在于：所述步骤2中，对神经网络进行训练优化包括设置多路损失函数和数据集增强。

7.根据权利要求6所述的一种基于深度残差网络的视觉显著性检测方法，其特征在于：设置所述多路损失函数包括以下步骤：

步骤2.1：输入测试图像，采用交叉熵损失函数来计算模型输出的显著性图和测试图像的显著性真值图的损失；

步骤2.2：对模型输出的显著性图进行3×3卷积操作得到边缘图像，再将边缘图像经过ReLu激活函数得到二值边缘图像，然后使用加权交叉熵损失函数计算二值边缘图像和测试图像边缘的真值图的损失；

步骤2.3：将步骤2.1和步骤2.2两部分损失按式(1)进行加权相加，

L_all＝α×L_sal+(1-α)×L_edge (1)

其中L_all表示总损失，L_sal表示显著性区域的损失，L_edge表示显著性边缘的损失，α为权重系数，其取值范围为[0,1]。

8.根据权利要求6所述的一种基于深度残差网络的视觉显著性检测方法，其特征在于：所述数据集增强包括将图像以若干不同角度进行旋转、将图像以若干倍数进行放大及缩小、将图像按水平和垂直方向反转。