CN113449667A

CN113449667A - 基于全局卷积和边界细化的显著目标检测方法

Info

Publication number: CN113449667A
Application number: CN202110772283.1A
Authority: CN
Inventors: 穆楠; 张彧
Original assignee: Sichuan Normal University
Current assignee: Sichuan Normal University
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2021-09-28

Abstract

本发明公开了一种基于全局卷积和边界细化的显著目标检测方法，包括如下步骤：S1、在深度网络中集成五个全局卷积模块，基于卷积操作将输入图像生成特征图F^G；S2、通过步骤S1得到的特征图收集全局上下文信息获取全局特征图；S3、在深度网络中集成五个边界细化模块，基于局部上下文信息将输入图像集成局部特征图F^L；S4、通过softmax函数融合步骤S2得到的全局特征图F^G以及步骤S3得到的局部特征图F^L计算夜间图像显著性。本发明主要利用深度网络学习图像的全局和局部信息来对像素点的显著性做出决策，使其能够产生更均匀的显著图；同时，为夜间安全监控、复杂环境目标定位等热点问题提供理论和技术基础。

Description

基于全局卷积和边界细化的显著目标检测方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于全局卷积和边界细化的显著目标检测方法。

背景技术

随着计算机视觉领域的飞速发展，近年来显著性目标检测作为视觉感知的注意力模拟方向得到广泛关注。人眼视觉感知系统可以快速精准地定位到视觉场景中具有高区分度、吸引人关注的物体或场景区域。这种高效的视觉注意力机制引发了计算机视觉领域对人眼视觉感知能力的模拟、研究与探索。人眼视觉注意力机制通过对视觉空间内的局部信息进行分析整合，建立对整个视觉场景的理解。显著性目标检测旨在高效过滤视觉场景中的非重要信息，辅助抽取人眼视觉感知中的高阶语义信息，以模拟人类视觉感知系统的机制。

人类对视觉系统感知机制认知不断加深，计算机视觉领域的研究人员提出了大量的视觉注意力模型，并将其成功应用于视觉计算的各个研究领域，显著目标检测已经成为了智能图像信号处理等的研究热点。现有的这些视觉显著目标检测模型大多数仅适用于白天可见光环境，然而对于光照条件很差的夜间环境，监控设备所采集的图像普遍具有的特征是整体亮度低、灰度值范围集中在比较小的区间、相邻位置的像素值变化不大且有着较高的空间相关性。夜间图像中的显著目标、背景和噪声等信息就会聚集在一个非常狭小的动态范围内，在经过图像传送和转换等处理后，夜间图像的质量也将进一步地降低并夹杂了更多噪声，这就使得传统显著性模型检测结果的准确性和可靠性大幅度下降。

发明内容

本发明为了克服以上技术的不足，提供了一种基于全局卷积和边界细化的显著目标检测方法。

本发明从决策级层面出发，发明了一种基于全局卷积和边界细化引导的深度完全卷积网络框架用于夜间图像的显著性检测。主要利用深度网络去学习图像的局部和全局信息来对像素点的显著性做出决策，使其能够产生更均匀的显著图。为了优化深度网络模型对显著目标的定位和分类性能，在网络结构中集成了五个全局卷积模块，用以保留特征图更多的空间知识，同时也保证了特征图与分类器之间的密集连接。此外，为了使显著性信息在网络上传播的过程中保留更加丰富的边界内容，在每个卷积块后面嵌入了一个边界细化模块。本发明提出的基于全局卷积和边界细化的显著目标检测方法可以通过学习夜间图像中的显著特征来估计图像的显著性。

本发明克服其技术问题所采用的技术方案是：

一种基于全局卷积和边界细化的显著目标检测方法，包括如下步骤：

S1、在深度网络中集成五个全局卷积模块，基于卷积操作将输入图像生成特征图；

S2、通过步骤S1得到的特征图收集全局上下文信息获取全局特征图F^G；

S3、在深度网络中集成五个边界细化模块，基于局部上下文信息将输入图像集成局部特征图F^L；

S4、通过softmax函数融合步骤S2得到的全局特征图F^G以及步骤S3得到的局部特征图F^L计算夜间图像显著性。

进一步地，步骤S1具体包括如下：

将一幅给定图像I的尺寸调整为416×416，并将其作为深度网络的输入单元；

然后通过五个核大小均为3×3的卷积块生成五个特征图{F₁,F₂,F₃,F₄,F₅}，设该五个卷积块分别为Conv-1、Conv-2、Conv-3、Conv-4、Conv-5，每个卷积块都包含了一个步长为2的最大池化操作，从而将图像的空间分辨率由208×208降为13×13。

进一步地，五个卷积块Conv-1、Conv-2、Conv-3、Conv-4、Conv-5的通道数分别是64、128、256、512、512。

进一步地，步骤S2具体包括如下：

全局特征图F^G的计算是通过特征图{F_i}收集全局上下文信息来实现的，其中，i＝1,···,5，计算过程如下：

F^G＝Conv(F₅) (1)

通过在卷积块Conv-5后面添加了具有128特征通道的三个卷积层将F₅的分辨率降为1×1，该三个卷积层的核大小分别为7×7、5×5和3×3；

每个全局卷积模块均包括左分支和右分支两个分支，左分支的卷积操作包括一个7×1的卷积块和一个1×7的卷积块，右分支的卷积操作包括一个1×7的卷积块和一个7×1的卷积块。

进一步地，步骤S3具体包括如下：

首先，定义五个卷积块为Conv-6、Conv-7、Conv-8、Conv-9、Conv-10，该五个卷积块的通道均为128且核大小为3×3，将该五个卷积块Conv-6、Conv-7、Conv-8、Conv-9、Conv-10分别连接到五个卷积块Conv-1、Conv-2、Conv-3、Conv-4、Conv-5，通过卷积块Conv-6、Conv-7、Conv-8、Conv-9、Conv-10获得多尺度局部特征图{F₆,F₇,F₈,F₉,F₁₀}；

深度网络模型将每个特征图的对比度特征

m＝6,···,10定义为各个特征与其局部平均值之间的差异，计算方法如下：

上式中，F″_m为局部特征图F_m通过3×3内核进行局部平均池化操作后的输出；

然后，在每个特征图后连接一个解卷积块，通过步长为2且内核大小为5×5的上采样来增加其空间尺度；

上池化特征图表示为

其计算是通过级联其局部特征图F_m、局部对比度特征图

和上池化特征图

来实现的，计算方式如下：

上式中，上池化特征图

是通过平均池化操作对上一个特征图进行降维压缩得到的；

最终的局部特征图通过核大小为1×1的卷积后生成，其用级联的方式整合了局部特征图F₆、局部对比度特征图

和上池化特征图

的信息，计算方式如下：

进一步地，步骤S4具体包括如下：

通过将全局特征图F^G和局部特征图F^L融合即可得到最终的显著图；

设S^M表示显著图，G^T表示基准显著图，则特征图中像素p属于显著还是非显著的概率P通过softmax函数预测，计算过程如下：

上式中，

和

分别为像素值等于l时的局部特征图和全局特征图的线性运算符，

和

分别为像素值等于l'时的局部特征图和全局特征图的线性运算符；将深度网络的损失函数定义为交叉熵损失和边界损失之和，交叉熵损失和边界损失分别表示为Loss^CE和Loss^B，深度网络的损失函数计算方式如下：

上式中，α_r为调谐Loss^CE的正加权常数，β_r为调谐Loss^B的正加权常数；

Loss^CE定义为区域Ω_r中的像素p在基准显著图和生成显著图之间的交叉熵损失，计算如下：

上式中，N为像素点的个数；

Loss^B定义为像素p在真实边界图B^T和估计的边界图B^M之间的边界损失，具体计算如下：

上式中，

表示真实边界图所代表的区域，

代表估计的边界图所代表的区域。

本发明的有益效果是：

本发明主要利用深度网络去学习图像的全局和局部信息来对像素点的显著性做出决策，使其能够产生更均匀的显著图；为了优化深度网络模型对显著目标的定位和分类性能，在深度网络结构中集成了五个全局卷积模块，用以保留特征图更多的空间知识，同时也保证了特征图与分类器之间的密集连接；此外，为了使显著性信息在网络上传播的过程中保留更加丰富的边界内容，在每个卷积层后面嵌入了一个边界细化模块。本发明的方法可以通过学习夜间图像中的显著特征来估计图像的显著性，为夜间安全监控、复杂环境目标定位等热点问题提供理论和技术基础。

附图说明

图1为本发明实施例所述的基于全局卷积和边界细化的显著目标检测方法的流程示意图。

图2为本发明实施例所述的全局卷积模块和边界细化模块的框架原理图。

图3为采用现有的4种图像显著性检测方法和本发明方法分别在MSRA-B数据集、DUT-OMRON数据集、PASCAL-S数据集、HKU-IS数据集、DUTS数据集和NI数据集上测试所得到的显著图的主观性能对比图，其中，图3(a)列为输入图像，图3(b)列为图像对应的基准显著图，图3(c)列为基于非局部深度特征的NLDF模型的方法所得到的显著图，图3(d)列为基于显著性检测器学习的LPS模型的方法所得到的显著图，图3(e)列为基于轮廓到显著性转换的C2S模型的方法所得到的显著图，图3(f)列为基于反向注意显著性的RAS模型所得到的显著图，图3(g)列为本发明方法所得到的显著图。

图4为采用现有的4种图像显著性检测方法和本发明方法分别在MSRA-B数据集、DUT-OMRON数据集、PASCAL-S数据集、HKU-IS数据集、DUTS数据集和NI数据集上测试所得到结果的真阳性率-假阳性率曲线性能对比图，其中，图4(a)为MSRA-B数据集上的曲线性能对比，图4(b)为DUT-OMRON数据集上的曲线性能对比，图4(c)为PASCAL-S数据集上的曲线性能对比，图4(d)为HKU-IS数据集上的曲线性能对比，图4(e)为DUTS数据集上的曲线性能对比，图4(f)为本研究提出的NI-B数据集上曲线性能对比。

图5为采用现有的4种图像显著性检测方法和本发明方法分别在MSRA-B数据集、DUT-OMRON数据集、PASCAL-S数据集、HKU-IS数据集、DUTS数据集和NI数据集上测试所得的F值的性能对比图，其中，图5(a)为MSRA-B数据集上的F值曲线性能对比，图5(b)为DUT-OMRON数据集上的F值曲线性能对比，图5(c)为PASCAL-S数据集上的F值曲线性能对比，图5(d)为HKU-IS数据集上的F值曲线性能对比，图5(e)为DUTS数据集上的F值曲线性能对比，图5(f)为NI-B数据集上F值曲线性能对比。

具体实施方式

为了便于本领域人员更好的理解本发明，下面结合附图和具体实施例对本发明做进一步详细说明，下述仅是示例性的不限定本发明的保护范围。

如图1所示，本实施例所述的一种基于全局卷积和边界细化的显著目标检测方法，包括如下步骤：

步骤S1、在深度网络中集成五个全局卷积模块，基于卷积操作将输入图像生成特征图。

具体地，首先，将一幅给定图像I的尺寸调整为416×416，并将其作为深度网络的输入单元；

然后，通过五个核大小均为3×3的卷积块生成五个特征图{F₁,F₂,F₃,F₄,F₅}，设该五个卷积块分别为Conv-1、Conv-2、Conv-3、Conv-4、Conv-5，五个卷积块Conv-1、Conv-2、Conv-3、Conv-4、Conv-5的通道数分别是64、128、256、512、512，每个卷积块都包含了一个步长为2的最大池化操作，从而将图像的空间分辨率由208×208降为13×13。

步骤S2、通过步骤S1得到的特征图收集全局上下文信息获取全局特征图。

具体地，设全局特征图为F^G，全局特征图F^G的计算是通过特征图{F_i}收集全局上下文信息来实现的，其中，i＝1,···,5，计算过程如下：

F^G＝Conv(F₅) (1)

通过在卷积块Conv-5后面添加了具有128特征通道的三个卷积层将F₅的分辨率降为1×1，该三个卷积层的核大小分别为7×7、5×5和3×3，不同的卷积核保证了感受野的多样性，从而获取更加丰富的对象信息。

步骤S1中所述的全局卷积模块如图2(a)所示，每个全局卷积模块均包括左分支和右分支两个分支，左分支的卷积操作包括一个7×1的卷积块和一个1×7的卷积块，右分支的卷积操作包括一个1×7的卷积块和一个7×1的卷积块。将这两个分支相结合后，就使得特征图密集连接在了一个较大的7×7区域，从而增加了感受野的有效范围。

通过考虑分类器和特征图之间的密集连接，全局卷积模块可以有效提高显著模型的分类能力，这也使得深度网络能够处理各种变换类型。同时，全局卷积模块的内核比较大，这就有助于特征图编码更多的空间信息，从而提高了定位显著目标的精度。

步骤S3、在深度网络中集成五个边界细化模块，基于局部上下文信息将输入图像集成局部特征图。

具体地，设局部特征图为F^L，对于局部特征图F^L的计算：

首先，定义五个卷积块为Conv-6、Conv-7、Conv-8、Conv-9、Conv-10，该五个卷积块的通道均为128且核大小为3×3，将该五个卷积块Conv-6、Conv-7、Conv-8、Conv-9、Conv-10分别连接到五个卷积块Conv-1、Conv-2、Conv-3、Conv-4、Conv-5，即，Conv-6连接到Conv-1、Conv-7连接到Conv-2、Conv-8连接到Conv-3、Conv-9连接到Conv-4、Conv-10连接到Conv-5，通过卷积块Conv-6、Conv-7、Conv-8、Conv-9、Conv-10获得多尺度局部特征图{F₆,F₇,F₈,F₉,F₁₀}。

由于显著值的获取主要是计算前景物体相较于其周围背景之间的差异，深度网络模型将每个特征图的对比度特征

上式中，F″_m为局部特征图F_m通过3×3内核进行局部平均池化操作后的输出。

然后，在每个特征图后连接一个解卷积块，通过步长为2且内核大小为5×5的上采样来增加其空间尺度。

上池化特征图表示为

其计算是通过级联其局部特征图F_m、局部对比度特征图

和上池化特征图

来实现的，计算方式如下：

上式中，上池化特征图

是通过平均池化操作对上一个特征图进行降维压缩得到的。

和上池化特征图

的信息，计算方式如下：

为了进一步提高深度网络模型定位显著目标空间位置的精度，本发明在模型中加入了边界细化模块，如图2(b)所示。该边界细化模块旨在优化目标边界附近的定位性能，可以在训练阶段极大地保留边界信息。边界细化模块是基于残差结构进行构建的，它的一个分支直接连接输入和输出层，无需任何操作；另一个分支是残差网络，包含两个内核大小为3×3的卷积块。这两个分支通过快捷连接的方式组合，更有利于学习边界信息，从而可以细化边界像素的显著分数。所述边界细化模块的输入和对应输出具有相同尺寸。

步骤S4、通过softmax函数融合步骤S2得到的全局特征图以及步骤S3得到的局部特征图计算夜间图像显著性。

具体地，通过将全局特征图F^G和局部特征图F^L融合即可得到最终的显著图。

上式中，

和

和

分别为像素值等于l'时的局部特征图和全局特征图的线性运算符。

将深度网络的损失函数定义为交叉熵损失和边界损失之和，交叉熵损失和边界损失分别表示为Loss^CE和Loss^B，深度网络的损失函数计算方式如下：

上式中，N为像素点的个数；

上式中，

表示真实边界图所代表的区域，

代表估计的边界图所代表的区域。

本发明的监督机制结合了Loss^CE和Loss^B的效果。由于本发明是由两个损失函数共同训练得到的，因此提取显著目标和细化边界的参数就得到了优化。

本发明方法与现有的图像显著性检测方法分别在MSRA-B数据集、DUT-OMRON数据集、PASCAL-S数据集、HKU-IS数据集、DUTS数据集和NI数据集上测试所得到的显著图的检测效果对比如图3所示，其中，图3(a)列为输入图像，图3(b)列为图像对应的基准显著图，图3(c)为基于非局部深度特征的NLDF模型(2017年CVPR提出)，图3(d)为基于显著性检测器学习的LPS模型(2018年CVPR提出)，图3(e)为基于轮廓到显著性转换的C2S模型(2018年ECCV提出)和图3(f)为基于反向注意显著性的RAS模型(2018年ECCV提出)。从图中也能明显看出，大多数模型很难找到正确的显著目标，而本发明的模型成功地捕获了真实的显著目标且这些目标有均匀的内部结构和完整的边界，这也证明本发明中全局卷积模块和边界细化模块的有效性。

如图4所示，各曲线分别表示NLDF方法、LPS方法、C2S方法、RAS方法以及本发明方法的真阳性率-假阳性率曲线。其中，图4(a)为MSRA-B数据集上的曲线性能对比，图4(b)为DUT-OMRON数据集上的曲线性能对比，图4(c)为PASCAL-S数据集上的曲线性能对比，图4(d)为HKU-IS数据集上的曲线性能对比，图4(e)为DUTS数据集上的曲线性能对比，图4(f)为本研究提出的NI数据集上曲线性能对比。从图中可以看出，本发明方法在六个数据集上获得比其他4种最先进的显著性方法更好的性能。

如图5所示，各曲线图分别表示NLDF方法、LPS方法、C2S方法、RAS方法以及本发明方法的F值的性能对比图。其中，图5(a)为MSRA-B数据集上的曲线性能对比，图5(b)为DUT-OMRON数据集上的曲线性能对比，图5(c)为PASCAL-S数据集上的曲线性能对比，图5(d)为HKU-IS数据集上的曲线性能对比，图5(e)为DUTS数据集上的曲线性能对比，图5(f)为NI数据集上曲线性能对比。从图中可以看出，本发明在不同数据集上都有着优越的性能。

各显著模型在MSRA-B数据集、DUT-OMRON数据集、PASCAL-S数据集、HKU-IS数据集、DUTS数据集和NI数据集上的定量性能对比，如下表1-6所示。最好的三个分数分别以粗体，斜体和下划线显示。向上箭头↑表示值越大，性能越好。向下箭头↓表示值越小，性能越好。

表1-6中，AUC表示曲线下面积，通过得分表示其大小；MAE表示平均绝对误差，通过得分表示其大小；WF表示加权F度量，通过得分表示其大小；OR表示重叠率，通过得分表示其大小；S-M表示结构测量，通过得分表示其大小；TIME表示每个图像的平均执行时间，单位是秒。

表1-6中，本实施例设置了三个基准来评估各个模块的性能，基准1只保留主干网络，未在深度网络模型中引入任何模块，以评估原始模型检测显著目标的能力；基准2主要是在深度网络模型中引入了全局卷积模块以获取更丰富的对象结构信息；基准3主要是引入了边界细化模块来保留对象的边界信息。基准1为了评估原始模型检测显著目标的能力，基准2为了评估全局卷积模块的性能，基准3为了评估边界细化模块的优势。通过对比这三个基准，可以证明本发明提出的模块有利于检测出更完整的显著目标。

表1.各个显著模型在MSRA-B数据集上的定量性能对比

表2.各个显著模型在DUT-OMRON数据集上的定量性能对比

表3.各显著模型在PASCAL-S数据集上的定量性能对比

表4.各显著模型在HKU-IS数据集上的定量性能对比

表5.各显著模型在DUTS数据集上的定量性能对比

表6.各显著模型在NI数据集上的定量性能对比

在MSRA-B数据集上，大多数图像具有单一对象和简单背景，本发明所述的模型在AUC得分上获得最佳性能，而RAS模型在除时间的其他指标上表现最好。同时，本发明的基准2更胜一筹，在AUC上达到了第二好的分数。

在DUT-OMRON数据集上，图像具有很大的复杂性和多样性，这导致所有模型与MSRA-B相比都表现不佳。本发明所述的模型在所有指标方面表现第二好，且与LPS模型的最佳结果有很小的差距。LPS性能之所以最优是因为其采用了大量图像作为训练集来提高其鲁棒性。同时本发明的基准1可以在AUC分数上取得相当好的性能。

在PASCAL-S数据集上，本发明所述的模型与其他模型相比取得了具有竞争性的性能，它在除时间的所有的指标上除时间均表现最好。除此之外，本发明的基准2在这些标准上排名第三。

在HKU-IS和DUTS数据集上，由于大部分图像都有相对复杂的背景，所提出的模型在AUC和OR指标上表现最好。此外，本发明所述模型的MAE得分、WF得分和S-M得分均排名第二，比LPS模型取得的最佳结果略微逊色。在DUTS数据集上，本发明的基准3的S-M得分排名第三。

在NI数据集上，本发明所述模型在WF分数、OR分数和S-M分数上都取得了最好的结果。在AUC和MAE得分方面，本发明的模型取得了排名第二好的分数，与LPS和C2S模型的最佳结果分别只有0.0033和0.006的差异。具体来说，C2S模型生成一个显著图大约需要0.03秒，是六个数据集上效率最高的模型。

本实施例中，通过与三个基准对比，本发明最终的模型能够准确地检测出更完整的显著目标，并产生更连贯的边界，这也证明了本发明的局部-全局策略，全局卷积模块和边界细化模块对显著结果都有着很大贡献。

综上所述，本发明提高了传统显著性检测的鲁棒性，能够高效的获得更加准确的显著图，同时对于夜间图像，能够很好的提取出显著性目标。

以上仅描述了本发明的基本原理和优选实施方式，本领域人员可以根据上述描述做出许多变化和改进，这些变化和改进应该属于本发明的保护范围。