CN108898145A

CN108898145A - 一种结合深度学习的图像显著目标检测方法

Info

Publication number: CN108898145A
Application number: CN201810618566.9A
Authority: CN
Inventors: 安维胜; 赵恒�
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2018-06-15
Filing date: 2018-06-15
Publication date: 2018-11-27

Abstract

本发明提出一种结合深度学习的图像显著目标检测方法，该方法基于一种改进的跨层级特征融合的RFCN深度卷积神经网络，网络模型包含基础特征提取，跨层级特征融合两个部分。首先通过改进的深度卷积网络模型对输入图像进行特征提取，利用跨层级联合框架进行特征融合，从而生成高层语义特征初步显著图；然后，将初步显著图与图像底层特征融合进行显著性传播获取结构信息；最后利用条件随机场(CRF)对显著性传播结果进行优化得到最终显著图。本方法得到的PR曲线图，F值和MAE的效果优于现有其他9种算法的结果。本方法对显著目标检测的完整性得到提升，具有背景噪声少、算法鲁棒性高的特点。

Description

一种结合深度学习的图像显著目标检测方法

技术领域

本发明涉及图像处理技术领域，特别是基于深度学习计算机数学模型的图像检测方法。

背景技术

在当今网络普及图像信息爆炸的时代，人类仅通过自身视觉感知系统处理外部图像信息变得越发困难，利用计算机进行图像信息处理成为一种有效的方法。研究人员模拟人类能够对图像中感兴趣区域进行迅速关注的视觉感知机制，提出了图像显著目标检测方法。由于能够提取图像场景关键信息，在有限资源下进行后续处理时大幅度减少计算量，在图像索引^[1]，图像场景理解^[2]，目标感知^[3]，图像视频压缩^[4]等领域应用日益广泛。随着研究的进一步深入，逐渐成为计算机视觉，神经生物学，心理学等多学科交叉的综合研究课题^[5]。

1998年Itti等^[6]第一次以数学计算模型阐述显著性特征后，新的算法模型便不断被提出，根据数据处理方式现主要分为自顶向下和自底向上两类模型^[7]。自底向上模型从专注于视觉注视点的检测^[8]逐步发展到主要对图像目标的检测^[9,10]，由于其基于数据驱动^[11]，面对复杂语义场景缺陷较为突出。研究人员发现底层颜色对比度等特征主要是在视觉关注的早期起作用，在大脑皮层感知信息丰富的情况下，高层语义特征逐渐占据主导作用^[12]，因此利用图像高层语义特征并结合图像底层信息能够提升显著目标检测能力。

自顶向下的显著目标检测算法，包括特征学习生成目标模型和利用目标模型生成显著图两个计算过程

^[13,14]。近年来深度卷积神经网络逐步在显著目标检测领域得到应用，Li等^[15]融合多个尺度的深度卷积特征获取显著图。Lin等^[16]用循环全卷积网络模型，从第一层将原图像和底层前景先验特征作为输入，后续卷积时将前一层输出特征和当前层特征联合作为输入计算下一层特征；Lixi等^[17]提出多任务深度卷积模型。Lee等^[18]提出高层特征和底层特征差异图联合编码模型，基于VGG16^[19]模型输出高层语义特征图，再与底层先验特征图同权值相加融合。Li等^[20]提出多尺度全卷积网络模型，将高层语义信息与图像超像素特征融合的二值掩码图重新映射到卷积网络，并联合所有的卷积特征输出显著特征图像，最后用全连接条件随机场CRF^[21]进行优化。Zhang^[22]等基于卷积后的Dropout策略提出一个显著特征学习模型。基于学习的方法相比于传统方法性能有进一步的突破，但也存在高层语义特征没有突出、特征冗余、结构信息缺失、离散噪声多等问题。

发明内容

本发明针对现有显著性检测算法模型存在的不足，而提供一种结合深度学习的图像显著目标检测方法，旨在提出一种新的结合深度学习的显著目标检测算法模型，利用改进的神经网络提取高层语义特征，并结合图像底层特征信息进行显著性优化获取图像结构和边缘细节信息，从而提高提升图像显著目标完整性，降低背景离散噪声。

本发明的目的是这样实现的：一种结合深度学习的图像显著目标检测方法。

本文算法模型

网络模型结构

本文算法模型的整体结构如图1所示，包括利用神经网络模型生成高层语义特征初始显著图和结合底层特征优化两个阶段。图2为本文算法模型对图像进行显著性检测的处理过程示例。对于数据集合D＝{(Xⁿ,Gⁿ)}，Xⁿ为训练的输入图像，Gⁿ为输入图像对应的真值图像，n＝(1,2,……N)。基于VGG16模型的循环全卷积算法模型(RFCN)特征传递过程为

式(1)中，和代表输入图像处于第(c-1)(Stage(c-1))和(c)(Stage(c))阶段的特征；代表输出的Stage(c+1)特征，即将前一层特征和当前层特征联合作为下一层卷积计算层的输入；c＝1时，前一层特征由底层显著先验特征替代；W为卷积核；b为偏置；*代表卷积运算过程；代表跨层级特征联合时所需的一系列运算过程，包括：逆卷积层、裁剪层和特征联合层等。

根据式(1)可知，RFCN若从第一层就开始循环卷积，逆卷积层、裁剪层和联合层等增加必然导致网络结构复杂性增大，特征冗余。根据算法DCL^[20]可知：浅卷积层可以较多的获取图像底层特征信息，深卷积层可以较好的定位目标区域，但DCL算法模型在VGG16模型前四个Stage的池化层后都增加额外的卷积层，并提升了算法整体性能，说明在显著目标检测性能提升中深卷积层特征占据着主导作用，此外，不同语义层级的深度卷积层能够对浅卷积层的特征信息进行共享^[17]。因此为避免在联合不同Stage特征信息时造成的网络特征冗余，并在突出高层语义特征时获取一定底层信息，本文在式(1)基础上设定c＝6，即在原VGG16模型第5阶段(Stage5)基础上进一步卷积生成第6阶段(Stage6)特征，然后将Stage5特征作为前景先验与Stage6特征进行跨层级的联合，进而计算生成Stage7特征信息，采用深卷积层和浅卷积层的中间层第4阶段(Stage4)的特征信息作为获取底层信息的补充，让整个网络模型在突出高层语义信息的同时共享一定的底层信息。联合Stage4，Stage6，stage7的特征信息作为最终的特征输出。计算过程如下

式(2)(3)三个跨Stage特征传递过程，每个阶段都包含三个卷积层，两个线性修正单元层(ReLU)；式(4)是输出的最终卷积特征图。设定上述卷积特征传递过程中涉及到的参数集合为θ,则神经卷积网络结构的输出特征图为对卷积特征图进行逆卷积和裁剪等运算获取全分辨率显著图像；式(5)中α为卷积特征图生成初步显著图所设定的参数集合，H_f(；α)为卷积特征图生成显著图的逆卷积和裁剪等运算过程，Sig()为Sigmod激活函数，fⁿ为神经网络模型输出的全分辨率显著图。神经卷积网络模型训练的过程主要是提取特征并迭代求解收敛参数集合θ，迭代优化过程是否收敛，采用交叉熵损失函数(Cross-entropy loss function)评价，定义如下

式(6)中，[Xⁿ]为图像像素个数，β_i为真值图像中像素标签为0的数目占比，为像素i的真值标签，为原图像在网络模型参数集合为θ的情况下，输出图像像素i属于标签为1的概率，即为像素i属于标签0的概率。对以上计算过程进行不断迭代并求解更新θ，在L值没有产生大的波动时，迭代运算便达到收敛的状态，可求得最终的参数集合θ_z，从而生成目标神经网络模型。对于单幅图像输入I，利用求解的参数θ_z，代入式(5)便可求得初始显著图f。

底层特征优化

图2(b)为卷积神经网络输出的初始显著图,和图2(e)真值图相比,其能够对目标区域进行较好的定位，但目标边界结构，边缘的细节较为模糊，需要进一步处理增加图像结构细节信息。SLIC^[23]将图像根据颜色特征分割为大小较均匀的子区域，能够去除区域不太重要的颜色特征冗余，并保留图像目标与背景的结构边界细节信息。文献^[20]虽考虑到图像目标形状细节信息缺失，但利用底层超像素信息生成掩码映射到卷积特征图时，卷积核是大小较为规则的k×k格窗，结构信息仍然会丢失。本文为增加显著目标的结构信息，并且避免产生过分割，在利用SLIC进行聚类时融合初始显著图信息，将图像底层特征与高层语义显著特征结合用于图像聚类分割进行显著性传播，可以突出高层语义特征的作用，最后再利用CRF进行像素级优化。

显著性传播的基本过程：(1)提取(l,a,b,f_i,x,y)六维特征，(l,a,b)为CIE-Lab空间像素颜色特征，f_i为像某像素显著值，(x,y)为像素坐标；(2)设图像像素数目为K,，超像素初始聚类中心点数目m，从而初始聚类中心点间距(3)计算聚类中心点2S×2S区域内像素特征差异，将与聚类中心特征差异较小的像素合并到聚类中心区域，更新聚类中心的六维平均特征；(4)重复上述计算过程直到收敛。

式(7)中，D_t衡量两个像素点特征差异，值越小说明越相似，反之差异较大；h为常数，综合代表颜色，显著性和空间特征在相似性度量中的权重；d_c为任意两像素点i，j颜色和显著性特征欧式距离；d_s是其空间距离。其中：

式(8)中，β为显著性常系数，衡量显著性特征在聚类中的作用，公式(8)(9)中，a_i、a_j、b_i、b_j、f_i、f_j、l_i、l_j、x_i、x_j分别是像素i、j对应的六维特征；f_i∈[0,1]。根据特征差异进行迭代聚类收敛后，图像像素显著值f_i ^s计算如下

式(10)中N^C为C类像素个数；f_cj为C类像素显著值。C代表在图像聚类后某一超像素的类别标签；

公式代表计算C类超像素的平均显著值，并且将平均显著值赋予其类内所有像素，作为每个像素的显著值，所以i涉及到的f_i ^s代表任一像素i属于C类时的显著值。j涉及到的f_cj代表是在计算平均显著特征前，C类中某个像素j的显著值，对于C的定义是相同的，都是某一超像素的类别标签。

式(11)中，表示当超像素平均显著特征小于0.3时，意味着超像素区域内大部分像素点的显著性都较低，应当属于强背景，因此区域内所有像素值置为0。从图2(c)仿真结果看，显著目标区域没有大的变化，但观察图像细节发现，经过显著性传播后离散噪声得到较好的清除，并且显著目标的边界不再模糊，变得更加清晰明确，是目标结构更加完整的表现。CRF^[21]是一个二值标签分类框架，在图像目标结构信息较为完整的情况下，能够在像素级水平增加边缘细节信息。条件随机场CRF优化过程为能量函数E(S)的最优解计算过程

公式(14)中，p_j代表图像某一像素j在图像上的坐标，I_j则代表图像某一像素j对应的颜色特征；

式(12)(13)(14)中，S代表输出图像的标签值，即图像中各个像素属于显著标签1或背景标签0；P(f_i ^s)为像素i属于1或0标签的概率；为二元势函数联合代表颜色和空间特征的差异；只有当i＝j时，D_Tc为高斯核能量项；p_i和I_i分别为像素i的空间和颜色特征；ω₁、ω₂、δ_α、δ_β、δ_γ联合控制空间和颜色特征在势函数中的作用。如图2(d)所示，经过CRF优化的显著图像，整个目标区域内部均匀一致高亮，边界清晰明确，边缘细节信息丰富，与真值图接近程度进一步提升。

本发明提出结合深度学习的图像显著目标检测算法。针对现有结合卷积神经网络的算法模型存在的不足，对深卷积层特征进行了跨层级联合，突出高层语义特征在显著性检测中占据的主导性作用。在进行条件随机场优化前，针对结构信息的不足，较为新颖的将卷积网络输出的显著图与底层特征融合进行图像区域聚类显著性传播，使得图像目标区域和结构细节信息得到了较好的整合，边缘信息得到有效的保留。在两个大型数据集上，与其他共10种显著性算法进行实验对比，综合三个客观评价指标，视觉效果图以及时间运行效率的对比，证明了在复杂自然场景图像显著目标检测中，本文提出的算法是有效的，能够在高效率下更加精准的分离前景与背景，使得显著目标完整性得到提升，背景噪声少，算法鲁棒性好，具有一定的使用价值。

附图说明

图1是本文算法模型。

图2是图像处理示例。

图3是损失(L)随迭代步长的变化。

图4是PR曲线图对比。

图5是各个算法显性检测结果对比。

具体实施方式

实施例：图像显著目标检测

参数设置

本文基于VGG16改进的神经网络模型，选用在显著目标检测中应用较为广泛MSRA-B数据集^[17]作为训练集，包含2500张自然场景图像及其对应的人工标记真值图，场景语义多样，其来源于MSRA5000数据集。将原图像与其对应的真值图像输入网络模型进行训练，各个初始参数设置为：基础学习率10^-8,权重衰减系数0.0005,动量0.9，批处理数量设置为1，设置的初始最大迭代次数15000次，采用“SGD”学习率衰减方式训练整个神经网络。通过神经网络模型设定的初始参数进行训练迭代优化求解θ，模型迭代次数在11000次左右时，交叉熵损失L开始保持平稳没有太大的波动；迭代次数在(12000-15000)时，L值迭代变化量小于5％；损失值L最终保持在16000平稳波动收敛的水平，具体损失值与迭代步长变化如图3所示，整个网络模型迭代优化训练过程耗时7.5h。

在实验测试中，显著性传播过程中涉及到的初始聚类数目m∈(800,1200)和显著性常系数β∈(180,250)时，显著性检测结果没有太大的变化，最终设定m＝900和α＝240，其他参数根据^[22]采取默认值。全连接条件随机场涉及到的参数ω₁、ω₂、δ_α、δ_β、δ_γ根据^[20]采取默认值。

算法模型

在训练过程利用式(6)交叉熵损失函数迭代优化求解模型参数θ_z，从而获得目标深度卷积神经网络模型。在生成模型后，对单幅图像的处理计算流程如图1所示，基本步骤如下：

输入：一幅图像I。

Step1.在VGG16模型基础上，通过式(2)(3)(4)(5)获取全分辨率初始显著图f。

Step2.利用图像I底层信息和高层语义信息f,根据式(7)(8)(9)获取超像素分割结果，再根据式(10)(11)进行显著性传播获取f^s。

Step3.根据式(12)(13)(14)迭代优化f^s获取最终显著图S。

输出：显著目标检测图像。

实验评价分析

在显著性检测领域内应用较多的ECSSD和DUT-OMRON两个大型数据集[17]上，与其他总共10种显著性检测算法进行实验对比,采用PR曲线图，F-measure以及MAE值三种客观评价指标评测本文算法与其他算法的性能。文中涉及到的实验基于Intel CPU处理器和英伟达GTX GPU处理器，采用Python2.7，Visual Studio 2013软件，以python和C++语言进行编程处理，深度学习框架则基于Caffe^[24]。

ECSSD包含1000张自然场景图像，包含相应的人工标记真值图，来源于BSD和PASCAL VOC两个公开的数据集，DUT-OMRON有5168张自然场景图像，也包含相应的人工标记真值图，是人工从超过140000张自然场景的图像中挑选出来的，图像超过一个或多个显著目标。DUT-OMRON相比于ECSSD图像自然场景更为复杂，显著目标检测的难度更大^[17]。测试的算法包括DCL^[20]，DRFI^[14]，DS^[17]，ELD^[18]，FT^[8]，MDF^[15]，QCUT^[9]，RC^[10]，RFCN^[16](首字母排序)，其中FT是早期经典的基于像素层面的显著性检测算法；QCUT和RC是近年自底向上具有代表性的算法[7]；DRFI是早期集合多特征学习的自顶向下回归森林分类算法；DCL，DS，ELD，MDF，RFCN是近年来出现的基于深度学习的先进算法。所对比的显著性检测算法的图像结果，由文献作者公开网页提供，或网页源代码生成。

显著性检测客观评价

将显著图按阈值从0变换到255进行固定阈值分割后，与真值图比较计算准确率P，召回率R值，并在直角坐标系进行绘制得到PR曲线图。P，R计算过程如下

式(15)、(16)中，G_z(x,y)为真值图灰度值，S_b(x,y)为显著图阈值分割后的灰度值。图4是两个数据集多种算法的PR曲线图对比。在PR曲线图上，PR曲线在较高准确率区间持续范围越广，越靠近坐标系右上角区域算法性能越优越。两个数据集上，基于学习的算法比基于底层特征的算法整体性能上更加优越。在ECSSD数据集上，本文算法和DCL，RFCN先进的算法都较为突出，PR曲线的表现没有太明显的差异，但观察坐标细节可以看出，准确率在90％以上时本文算法优于所有其他对比的算法；DUT-OMRON的数据集自然场景复杂性难于ECSSD，所有算法的测试表现比在ECSSD数据集上的结果都更远离坐标系右上角，仍然是DCL，RFCN和本文算法较为优越，并且本文算法的PR曲线相比于其他算法有更加突出的表现，最接近坐标右上角区域，准确率高于70％的高水平持续区间范围最广，明显的优于DCL，RFCN算法。综合来看，在ECSSD数据集上本文算法的PR曲线表现略微优于其他算法，而在难度更大的DUT-OMRON数据集上，优越性较为明显，说明面对场景更为复杂的图像，本文算法鲁棒性好。

自适应阈值F-measure(F)值。取显著图像素灰度平均值2倍进行自适应阈值分割，阈值计算

式(17)中，S(x,y)为显著图灰度值，按式(15)(16)计算P，R，然后进一步计算F值。

式(18)中，β为衡量准确率与召回率的权值，通常情况下突出算法检测的准确率，设β²＝0.3，F值越大表征算法性能越好。两个数据集上F值的对比如表1所示。可以看出：在两个数据集上，本文算法的F值高于其他所有对比算法的结果，说明本文算法相比于其他算法准确率有明显的提升，对图像显著目标检测的完整性进一步提高，算法性能优于其他算法。PR曲线图，F值反映显著目标是否较为完整均匀一致的凸显，对于显著图也需要考虑图像离散背景的影响。平均绝对误差MAE反映显著图与真值图在整体上包括背景区域的相似程度，计算如下：

表1 F，MAE对比

Table 1 Comparison of F and MAE

式(19)中，M和V代表输入图像的大小。MAE值越小，说明显著图不仅目标区域与真值图相似程度高，而且背景区域噪声也少，算法的整体性能也更加优越。不同算法MAE值如表1所示。在两个数据集上，本文算法的MAE值优于其他所有对比的算法，与真值最为相似，说明本文算法相对于其他算法，目标区域不仅均匀一致突显程度高，而且背景区域噪声也进行了很好的抑制。

视觉效果对比

显著性检测算法来源于人类的视觉注意机制，显著性检测结果的好坏也应当从视觉观感上进行评判。受篇幅所限，图5为部分图像不同显著性检测算法处理生成的结果示例，其中包含原图像以及真值图像。从图5可以看出，针对各种不同复杂自然场景图像，各个显著性检测算法的结果在不同程度上，与真值图都存在着差异，但本文算法的结果和真值图最为接近。经典算法FT模型检测结果结果较差，其在像素层面关注显著性，凸显像素点离散，无法形成具体的目标；QCUT，RC算法相对较好，但由于其基于区域对比的底层特征进行显著性检测，图像目标相对于背景特征比较杂乱，并且不具有明显差异时，显著目标不够平滑完整，离散背景凸显程度高；早期的学习型DRFI算法集合算法，虽然目标定位较为准确，但是出现大面积的背景噪声，显著目标完整性缺失严重；本文算法，以及DCL，DS，ELD，MDF，RFCN几种近年较为先进的算法从整体上都能够提取目标区域，但从细节上看，本文算法的检测结果目标完整性最高，目标区域凸显高亮的程度均匀一致，边缘的细节信息丰富，而且背景噪声最少。从视觉效果看，本文提出的算法相比于其他算法，对复杂背景图像进行处理时，不仅能够均匀一致高亮显著目标，而且对背景区域也进行了很好的抑制，使得图像目标完整性提高。

效率对比

基于深度学习的算法性能效果相比于其他算法较好，因此本文只将性能较好的算法运行时间进行对比，如表2所示为处理单张图像为400x400分辨率大小左右的平均耗时。

表2耗时对比

Table2 Comparison of time consuming

本文算法是一种端到端的显著性检测算法模型，只需输入原始图像便可生成相应的显著图。由于RFCN存在底层先验特征计算的输入，循环全卷积网络结构冗余，在生成初始显著图后还需要计算底层空间特征置信度以及颜色特征置信度，最后进行多特征融合后还包括数学形态学运算，整个算法模型计算复杂度较高。本文算法神经网络模型降低了冗余，采用的后处理基于成熟高效的以显著性引导的SLIC和CRF传播方法，因此算法效率提升明显，完成一张图像处理耗时只需0.3s。本文基于RFCN算法模型的改进，算法性能提升，时间效率也较高。此外，根据表2，本文算法比其他基于深度学习的算法时间效率都要高，满足显著性检测实时性要求，并且在高效率下算法性能表现也比较好。

参考文献：

[1]Zheng L,Wang S J,Liu Z Q,et al.Fast Image Retrieval:Query Pruningand Early Termination[J].IEEE Transactions on Multimedia,2015,17(5):648-659.

[2]Zhu J Y,Wu J J,Wei Y C.Unsupervised object class discovery viasaliency-guided multiple class learning[C]//Proceedings of 2012ComputerVision and Pattern Recognition.IEEE Computer Society,2012:3218-3225.

[3]Liu F,Shen T S,Lou S L,et al.Deep Network Saliency Detection Basedon Global Model and Local Optimization[J].ACTA OPTICA SINICA，2017,37(12):272-280.

刘峰,沈同圣,娄树理等.全局模型和局部优化的深度网络显著性检测.光学学报,2017,37(12):272-280.

[4]Hadizadeh H,Bajic I V.Saliency-Aware Video Compression[J].IEEETransactions on Image Processing A Publication of the IEEE Signal ProcessingSociety,2014,23(1):19.

[5]Chen Z H,Wang H Z,Zhang L M,et al.Visual saliency detection basedon homology similarity and an experimental evaluation[J].Journal of VisualCommunication&Image Representation,2016,40(Part A):251-264.

[6]Itti L,Koch C,Niebur E.A Model of Saliency-Based Visual Attentionfor Rapid Scene Analysis[J].IEEE Transactions on Pattern Analysis&MachineIntelligence,1998,20(11):1254-1259.

[7]Borji A,Cheng Mingming,Jiang Huaizu,et al.Salient ObjectDetection:A Benchmark[J].IEEE Transactions on Image Processing A Publicationof the IEEE Signal Processing Society,2015,24(12):5706.

[8]Achanta R,Hemami S,Estrada F,et al.Frequency-tuned salient regiondetection[C]//Proceeding of 2009IEEE Conference on Computer Vision andPattern Recognition.Miami,FL,USA:IEEEXplore,2009:1597-1604.

[9]Aytekin C,Kiranyaz S,Gabbouj M.Automatic Object Segmentation byQuantum Cuts[C]//Proceeding of 2014International Conference on PatternRecognition.IEEE Computer Society,2014:112-117.

[10]Cheng M M,Mitra N J,Huang X L,et al.Global contrast based salientregion detection[J].IEEE Transaction on Pattern Analysis&MachineIntelligence,2015.37(3):569-582

[11]Mou L,Zhang X W,Zhang Z,et al.Saliency Detection OptimizationMethon in Natural Scene[J].Laser&Optoelectronics Progress,2016,53(12):193-200

牟丽,张学武,张卓等.自然场景下的显著性检测优化方法[J].激光与光电子学进展,2016,53(12):193-200.

[12]Liu N,Han J W,Zhang D W,et al.Predicting eye fixations usingconvolutional neural networks[C]//Proceeding of IEEE Conference on ComputerVision and Pattern Recognition.Boston:IEEE Computer Society,2015:362-370.

[13]Lin C,He B W,Dong S S.An indoor Object Fast Detection MethodBased on Visual Attention Mechanism of Fusion Depth Information in RGB Image[J].Chinese Journal of Lasers,2014,41(11):211-216

林昌,何炳蔚,董升升.融合深度信息的室内RGB图像视觉显著物体快速检测方法[J].中国激光,2014,41(11):211-216.

[14]Jiang H Z,Wang J D,Yuan Zejian,et al.Salient Object Detection:ADiscriminative Regional Feature Integration Approach[J].International Journalof Computer Vision,2014,123(2):251-268.

[15]Li G B,Yu Y Z.Visual saliency based on multiscale deep features[C]//Proceeding of the 2015IEEE Computer Vision and PatternRecognition.Boston,MA,USA：IEEE Computer Society,2015:5455-5463.

[16]Wang L Z,Wang L J,Lu H C,et al.Saliency Detection with RecurrentFully Convolutional Networks[J].2016,2(2):825-841.

[17]Li Xi,Zhao L M,Wei L N,et al.DeepSaliency:Multi-Task Deep NeuralNetwork Model for Salient Object Detection[J].IEEE Transactions on ImageProcessing A Publication of the IEEE Signal Processing Society,2016,25(8):3919.

[18]Lee Gayoung,Tai Yu-Wing,Kim Junmo.Deep Saliency with Encoded LowLevel Distance Map and High Level Features[C]//Proceeding of the 2016IEEEComputer Vision and Pattern Recognition.IEEE Computer Society,2016:660-668.

[19]Simonyan Karen,Zisserman Andrew.Very Deep Convolutional Networksfor Large-Scale Image Recognition[J].Computer Science,2014.

[20]Li G B,Yu Y Z.Deep Contrast Learning for Salient Object Detection[C]//Proceeding of the 2016IEEE Computer Vision and PatternRecognition.IEEE.2016:478-487.

[21]P,Koltun V.Efficient inference in fully connected CRFswith gaussian edge potentials[J].2012:109-117.

[22]Zhang S L,Xie L b.Salient Object Detection Based on AllConvolutional Feature Combination[J].Laser&Optoelectronics Progress,1-10[2018-04-27].http://kns.cnki.net /kcms/detail/31.1690.TN.20180427.1528.038.html.

张松龙,谢林柏.基于全部卷积特征融合的显著性检测[J/OL].激光与光电子学进展:1-10[2018-04-27].http://kns.cnki.net/kcms/detail/31.1690.TN.20180427.1528.038.html.

[23]Achanta R,Shaji A,Smith K,et al.SLIC Superpixels Compared toState-of-the-Art Superpixel Methods[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2012,34(11):2274-2282.

[24]Jia Y Q,Shelhamer,et al.Caffe:Convolutional Architecture for FastFeature Embedding[J].Proceedings of the 2014 ACM Conference on Multimedia2014:675-678。

Claims

1.一种结合深度学习的图像显著目标检测方法，其特征是，包括利用神经网络模型生成高层语义特征初始显著图和结合底层特征优化两个阶段；

A.网络模型结构

对于数据集合D＝{(Xⁿ,Gⁿ)}，Xⁿ为训练的输入图像，Gⁿ为输入图像对应的真值图像，n＝(1,2,……N)；基于VGG16模型的循环全卷积算法模型(RFCN)特征传递过程为

式(1)中，和代表输入图像处于第(c-1)(Stage(c-1))和(c)(Stage(c))阶段的特征；代表输出的Stage(c+1)特征，即将前一层特征和当前层特征联合作为下一层卷积计算层的输入；c＝1时，前一层特征由底层显著先验特征替代；W为卷积核；b为偏置；*代表卷积运算过程；代表跨层级特征联合时所需的一系列运算过程，包括：逆卷积层、裁剪层和特征联合层等；

为避免在联合不同Stage特征信息时造成的网络特征冗余，并在突出高层语义特征时获取一定底层信息，本文在式(1)基础上设定c＝6，即在原VGG16模型第5阶段(Stage5)基础上进一步卷积生成第6阶段(Stage6)特征，然后将Stage5特征作为前景先验与Stage6特征进行跨层级的联合，进而计算生成Stage7特征信息，采用深卷积层和浅卷积层的中间层第4阶段(Stage4)的特征信息作为获取底层信息的补充，让整个网络模型在突出高层语义信息的同时共享一定的底层信息；联合Stage4，Stage6，stage7的特征信息作为最终的特征输出；计算过程如下

式(2)(3)三个跨Stage特征传递过程，每个阶段都包含三个卷积层，两个线性修正单元层(ReLU)；式(4)是输出的最终卷积特征图；设定上述卷积特征传递过程中涉及到的参数集合为θ,则神经卷积网络结构的输出特征图为对卷积特征图进行逆卷积和裁剪等运算获取全分辨率显著图像；式(5)中α为卷积特征图生成初步显著图所设定的参数集合，H_f(；α)为卷积特征图生成显著图的逆卷积和裁剪等运算过程，Sig()为Sigmod激活函数，fⁿ为神经网络模型输出的全分辨率显著图；神经卷积网络模型训练的过程主要是提取特征并迭代求解收敛参数集合θ，迭代优化过程是否收敛，采用交叉熵损失函数(Cross-entropyloss function)评价，定义如下

式(6)中，[Xⁿ]为图像像素个数，β_i为真值图像中像素标签为0的数目占比，为像素i的真值标签，为原图像在网络模型参数集合为θ的情况下，输出图像像素i属于标签为1的概率，即为像素i属于标签0的概率；对以上计算过程进行不断迭代并求解更新θ，在L值没有产生大的波动时，迭代运算便达到收敛的状态，可求得最终的参数集合θ_z，从而生成目标神经网络模型；对于单幅图像输入I，利用求解的参数θ_z，代入式(5)便可求得初始显著图f；

B.底层特征优化

为增加显著目标的结构信息，并且避免产生过分割，在利用SLIC进行聚类时融合初始显著图信息，将图像底层特征与高层语义显著特征结合用于图像聚类分割进行显著性传播，以突出高层语义特征的作用，最后再利用CRF进行像素级优化；

显著性传播的基本过程：(1)提取(l,a,b,f_i,x,y)六维特征，(l,a,b)为CIE-Lab空间像素颜色特征，f_i为像某像素显著值，(x,y)为像素坐标；(2)设图像像素数目为K,，超像素初始聚类中心点数目m，从而初始聚类中心点间距(3)计算聚类中心点2S×2S区域内像素特征差异，将与聚类中心特征差异较小的像素合并到聚类中心区域，更新聚类中心的六维平均特征；(4)重复上述计算过程直到收敛；

式(7)中，D_t衡量两个像素点特征差异，值越小说明越相似，反之差异较大；h为常数，综合代表颜色，显著性和空间特征在相似性度量中的权重；d_c为任意两像素点i，j颜色和显著性特征欧式距离；d_s是其空间距离；其中：

式(8)中，β为显著性常系数，衡量显著性特征在聚类中的作用，公式(8)(9)中，a_i、a_j、b_i、b_j、f_i、f_j、l_i、l_j、x_i、x_j分别是像素i、j对应的六维特征；f_i∈[0,1]；根据特征差异进行迭代聚类收敛后，图像像素显著值f_i ^s计算如下

式(10)中N^C为C类像素个数；f_cj为C类像素显著值；C代表在图像聚类后某一超像素的类别标签；

式(11)中，表示当超像素平均显著特征小于0.3时，意味着超像素区域内大部分像素点的显著性都较低，应当属于强背景，因此区域内所有像素值置为0；条件随机场CRF优化过程为能量函数E(S)的最优解计算过程

公式(14)中，^p _j代表图像某一像素j在图像上的坐标，I_j则代表图像某一像素j对应的颜色特征；

公式(12)(13)(14)中，S代表输出图像的标签值，即图像中各个像素属于显著标签1或背景标签0；为像素i属于1或0标签的概率；为二元势函数联合代表颜色和空间特征的差异；只有当i＝j时，D_Tc为高斯核能量项；p_i和I_i分别为像素i的空间和颜色特征；ω₁、ω₂、δ_α、δ_β、δ_γ联合控制空间和颜色特征在势函数中的作用；最终得到CRF优化的显著图像。