CN110956185A

CN110956185A - 一种图像显著目标的检测方法

Info

Publication number: CN110956185A
Application number: CN201911146337.2A
Authority: CN
Inventors: 卢湖川; 曾昱; 张宏爽; 李建华; 张立和
Original assignee: Dalian Institute Of Artificial Intelligence Dalian University Of Technology
Current assignee: Dalian Institute Of Artificial Intelligence Dalian University Of Technology
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2020-04-03
Anticipated expiration: 2039-11-21
Also published as: CN110956185B

Abstract

本发明提供一种图像显著目标的检测方法，属于图像显著度检测技术领域。该发明在第一阶段，构建分类网络CNet和文字序列生成网络PNet分别从分类和文字序列生成任务获取显著性图；该发明在第二阶段，利用CNet和PNet建立两个互补的训练数据集，即带有噪声标签的自然图像数据集和网络图像数据集，利用这两个互补的数据集交替地训练SNet；该发明在第三阶段，利用SNet的预测结果更新自然图像数据集和网络图像数据集，递归地优化模型。在测试阶段，只利用SNet来预测显著性图。实验表明，该发明优于无监督和弱监督方法，跟一些有监督的方法比仍具有良好的性能。

Description

一种图像显著目标的检测方法

技术领域

本发明属于图像显著度检测技术领域，目的是对任意一幅图像中的显著目标进行检测，从而分割出图像中最显著的对象区域。

背景技术

图像显著性检测近年来引起了人们的广泛关注，作为一种预处理方法，图像显著性检测被广泛应用于图像压缩、图像分类及图像分割等多个领域。早期的显著性检测研究主要是利用手工设计特征和启发式先验来对图像中的显著性区域进行预测，如利用中心先验，背景先验等。近年来，随着深度卷积神经网络(CNN)在各种视觉任务中的成功应用，人们提出了许多基于深度学习的显著性检测方法。2015年，在CVPR发表的论文‘Visualsaliency based on multi-scale deep features’提出从深层卷积神经网络提取多尺度特征来表示超像素，并使用分类器预测每个超像素的显著性得分。发表在CVPR17的论文‘Deeply supervised salient object detection with short connection’提出了一种具有深层监督的跳层结构，用于显著性检测。CVPR18的论文‘Detect Globally,RefineLocally:A Novel Approach to Saliency Detection’中提出了一种全局递归定位网络，利用加权响应挖掘上下文信息，从而更准确地定位显著对象。这些方法取得了优异的检测效果，但它们都需要昂贵的像素级标注来进行训练。

为了降低人工标注的成本，弱监督学习越来越受到人们的关注。Pinheiro等人在论文‘From image-level to pixel-level labeling with convolutional networks’中提出将分割网络预测的像素级标签聚合为图像级标签，利用预测值与图像真值之间的误差进行反向传播来更新网络。Ahn和Kwak等人在论文‘Learning Pixel-Level SemanticAffinity With Image-Level Supervision for Weakly Supervised SemanticSegmentation’提出利用类别激活图(CAM)训练网络预测局部图像区域内的语义相似度，并将其与随机游走结合修正CAM，同时生成分割标签。2017年，CVPR会议论文‘Learning toDetect Salient Objects with Image-level Supervision’提出通过图像级标签监督显著性目标检测任务，他们设计了一个前景推理网络(FIN)来推断潜在的前景区域，并提出了一个平滑的全局池化(GSP)操作来聚合推断出的前景对象的响应。

更近一步地，为了避免大量的像素级标注，同时缓解弱监督效果不好的问题，网络监督引起了研究者们的关注。网络监督学习已经在多个计算机视觉任务中进行了探索，如图像分类、目标检测、图像分割等。2015年，论文‘Webly Supervised Learning ofConvolutional Networks’提出了一种利用大量网络图片进行目标分类和目标检测的方法，他们建议在简单的图片上预训练一个初始的卷积神经网络，然后使之适应更难的例子。2017年，TPAMI期刊论文‘STC:A Simple to Complex Framework for Weakly-supervisedSemantic Segmentation’提出了一个从简单到复杂的图像级标注分割框架，利用来自互联网的简单图像和来自现有数据集的复杂图像逐步增强分割网络的效果。同一年，论文‘Webly Supervised Semantic Segmentation’提出了一种由三个阶段组成的语义分割模型，他们在网络上搜集了三类图像，包括白背景物体、单纯背景图像和特定类别的真实图像，对于每个类别，首先训练一个浅层网络来生成特定类别的分割图，并在真实图像上进行迭代细化，然后利用浅层网络生成的分割图作为真值训练深层神经网络。

尽管上述显著性检测算法取得了不错的效果，但在弱监督和网络监督任务中仍然存在以下问题。首先，在弱监督线索监督下，网络很难准确的分割出显著性目标。图像级别标签是显著性检测的有效监督线索，它指出了图像中主要对象的类别，这很可能是突出的前景，但是类别标签太简单，监督噪声大，无法传达足够的信息。在不知道显著对象的属性或运动的情况下，使用类别标签训练的网络可能只突出最具辨别力的区域，而不是整个显著性对象。另一个弱监督线索是图像的文字描述信息，与图像级标签相比，文字信息提供了更全面的显著性对象的描述。例如，对于狗的图片，文字描述不仅告诉我们有一只狗，而且还告诉我们狗正在回来，并且带着飞盘，网络需要关注整条狗来生成正确的语句，因此，使用文字描述训练的神经网络更有可能捕获整个显著对象。然而，图像的语句描述通常不仅描述突出的前景对象，同时也描述背景，可能会导致显著性检测结果不准确。图像级别的监督没有提供明确的分割提示，虽然使用图像级标签训练的深层卷积神经网络能提供目标的位置信息，但它们通常只是粗略地定位感兴趣的目标。因此，仅使用图像级标签训练显著性模型的结果往往在对象和背景区域之间缺乏清晰的边界，或者在显著对象轮廓附近错误地分类像素。此外，由于具有多种标注的大规模数据集的缺乏，具有不同标注的数据集对于显著性检测任务来说是不匹配的，同时，使用不同标注训练的模型通常需要具有不同的结构，因此，有必要设计一个统一的框架来组合这些模型，并使它们从多种弱监督信息中受益。

发明内容

本发明要解决的技术问题是：通过弱监督与网络监督线索，解决显著性目标检测问题。为此，我们提出了一个统一的学习框架，该框架集成了多个弱监督线索和网络图片监督线索来检测显著目标。

一种图像显著目标的检测方法，步骤如下：

步骤1：构建网络框架

网络包含三个子网络：标签分类网络CNet、文字序列生成网络PNet和显著性预测网络SNet；所述分类网络CNet由特征提取器、注意力模块和完全连接层组成；文字序列生成网络PNet由特征提取器、注意力模块和LSTM层组成；显著性预测网络SNet由一个特征提取器、四个扩张率不同的扩张卷积层和一个反卷积层组成；

所述三个子网络的特征提取器都是基于稠密网络densenet169和PNet，去掉了最后一个下采样操作，以生成原始输入图像1/16大小的特征图；对于SNet，去掉了最后两个下采样操作，以获得更多细节信息的特征映射，生成更好的显著性检测结果，SNet的特征提取器生成原始输入图像1/8大小的特征图。

步骤2：利用图像级别标签训练CNet和PNet

训练集由三个子集组成：分类数据集、文字描述数据集和未标记数据集；分类数据集包括输入图像、图像对应的分类标签；文字描述数据集包括输入图像、图像对应的单词序列标签；未标记数据集只包括输入图像，没有任何的标签注释；

CNet分别利用分类数据集的输入图像和图像对应的分类标签进行前向传播和反向传播，在前向传播过程中，给定输入图像X，CNet预测图像中目标属于每个类别的概率以及对应的显著性映射图S_c，在反向传播的过程中，CNet的损失函数由类别损失函数L_c和注意力转移损失函数L_at两项组成，通过反向传播损失函数的梯度，更新CNet的参数；PNet分别利用文字描述数据集的输入图像和图像对应的单词序列标签进行前向传播和反向传播，PNet的前向传播过程中，给定输入图像X，PNet预测描述图像的单词序列的条件概率分布以及对应的显著映射图S_p，在反向传播过程中，PNet的损失函数由文字描述损失函数L_p和注意力转移损失函数L_at两项组成，PNet利用文字序列标签进行监督，通过将损失函数的梯度进行反向传播，更新参数；多次迭代之后，在未标记数据集上引入注意力一致性损失函数L_ac监督同时PNet和CNet；L_c使CNet找到最重要的分类区域，L_p使PNet找到生成文字描述的对应的最重要区域，L_at使被一种标签监督的网络能从另一种标签提供的信息中受益；L_ac损失函数鼓励网络检测出显著区域而不是特定任务区域；

类别损失函数L_c定义如下：

其中，第一项是对数似然函数,

代表分类数据集，Xⁱ代表输入图片，

是图像Xⁱ的类别编码，C是类别数，N_c是D_c中的样本数；第二项是正则化项，该正则化计算的是显著性映射图S_c和全零映射之间的交叉熵，，sc_i代表显著性映射图S_c中的像素，β是数值固定的超参数。

文字序列生成网络损失函数L_p定义如下：

其中，第一项是对数似然函数，

代表文字描述数据集，Xⁱ代表输入图片,

代表一个Lⁱ个单词的序列

N_p是D_p中的样本数，PNet中的LSTM模块在给定前面l-1个单词序列y_1:l-1的基础上输出第l个候选单词的条件概率分布，表示为

同时，PNet输出当前图片显著映射S_p；第二项是正则化项，sp_i是显著映射S_p中的像素，β是超参数。

注意力转移损失函数定义如下：

其中，sc_i和sp_i分别代表由CNet和PNet产生的显著性映射S_c和S_p中的像素，

和

是根据显著性映射显著性映射S_c选择的显著区域和背景区域的索引；

和

是根据S_p选择的显著区域和背景区域的索引。对于输入图像，CNet和PNet分别关注对预测类别和生成文字任务最重要的区域。

注意力一致性损失函数L_ac定义如下：

利用SLIC算法将未标记的图片分割成超像素，将显著性值同时大于S_c和S_p显著性均值的超像素标记为显著种子，对图片中每个显著种子的颜色相似性进行排序，选择排名得分大于相似性平均值的超像素作为正样本，表示为

并使用其他像素作为负样本，表示为

未标记的数据集表示为

N_u是未标记数据集的样本数；训练整个系统的损失函数由上述四个损失函数组合而成：

L＝L_c+L_p+λL_at+λL_ac (5)

其中，λ控制每个损失函数的权重。对于L_at和L_ac，使用相同的权重。

步骤3：构建自然图像数据集和网络图像数据集

利用步骤2的模型构造两个训练数据集：一个是自然图像数据集D_n，另一个是用搜集的两类网络图像创建的网络图像数据集D_s；D_n和D_s具体生成方式如下：

(1)通过CNet和PNet的前向传播获取未标记的显著性检测数据集

和在网络搜集的白底显著性目标数据集

的显著性图

(2)利用(1)获取的显著性图分别对D_n和D_s数据集的真值

初始化，

其中，CRF()代表对显著性图进行CRF处理，Binarizate()代表以显著性图的均值为门限对显著性图进行二值化。

(3)随机选取一张显著性前景图片

和一张背景图片

通过正态分布

产生一个调节比例r，根据r来调节

和

的尺度。

(4)通过正态分布

和

获取位置参数(x,y)，其中W和H代表合成之后的图像的尺度。用

替换背景图片

上从(x,y)的开始的矩形区域的像素，当

为1时替换，否则保持背景的像素值。生成的图片标记为

将尺度为W×H的全0谱图中对应

中前景区域的像素设置为1，生成合成图像的真值

(5)通过以上方式合成自然图像数据集D_n和合成网络图像数据集D_s：

步骤4：训练显著性预测网络SNet

交替在自然图像数据集D_n和网络图像数据集D_s训练上SNet，数据集中的图片在SNet中做前向传播，并利用合成真值计算损失函数，反向传播损失函数的梯度，更新参数；

D_n数据集的损失函数定义如下：

其中，Y为标签，S为SNet的输出，y_i、s_i分别是Y、S的元素，当s_i>＝0.5则a_i＝1，否则a_i＝0，δ是固定的参数。与D_n相比，合成网络图像数据集D_s包含准确的标签，在D_s数据集上用交叉熵损失函数更新SNet的参数。

步骤5：数据集和模型的递归优化

对于时间序列t，t≥2，首先在数据集

上训练SNet^t，接着利用SNet^t来获取未标记的显著性检测数据集图像的噪声标签，并替换

中的标签，生成数据集

然后利用SNet^t剪切出白底图像中包含的显著性对象，对得到的显著性图进行二值化处理后，通过步骤3中(3)(4)(5)将显著性目标随机放置在背景图像上，合成新的训练图像和真值，替换

中的图像和标签，生成数据集

最后利用新的数据集训练并优化SNet，直至SNet收敛；

步骤5：测试时以端到端的方式进行预测，直接利用SNet对输入的测试图像进行显著度预测，无需任何后处理。

本发明的有益效果：能够联合的利用多种弱监督信息来进行显著性检测，我们设计了分类网络(CNet)和标题生成网络(PNet)，分别从类别标签和图像文字描述中学习生成显著性图。训练CNet和PNet后，利用它们对未标记图像进行标注，合成更多的训练样本来训练显著性预测网络(SNet)。实验证明了该方法的优越性，其性能优于无监督和弱监督方法，甚至优于大多数有监督的显著性检测方法，多种显著性检测方法的结果比较见附图6。

附图说明

图1多种监督信息的显著性预测结果。其中，(a-1)～(a-3)分别是三种图像的标注；(b-1)～(b-3)分别是三种图像的输入图像；(c-1)～(c-3)分别是三种图像的单一弱监督信息预测结果；(d-1)～(d-3)分别是三种图像的真实图像噪声数据集监督的预测结果；(e-1)～(e-3)分别是三种图像的合成网络数据集和真实图像噪声数据集联合监督的预测结果。

图2网络合成数据集D_s合成过程示意图。

图3网络框图。

图4网络模型中各个阶段的显著性检测结果。其中，(a-1)～(a-3)代表输入图像；(b-1)～(b-3)分别是CNet输出的显著性图；(c-1)～(c-3)分别是PNet输出的显著性图；(d-1)～(d-3)是CNet和PNet输出的显著性图的平均值；(e-1)～(e-3)是引入注意力转移损失函数的显著性检测结果，(f-1)～(f-3)是引入注意力一致性损失函数的显著性检测结果，(g-1)～(g-3)是SNet在噪声数据集D_n监督下的显著性检测结果，(h-1)～(h-3)是SNet在噪声数据集D_n和网络数据集D_s联合监督下的显著性检测结果，(i-1)～(i-3)是SNet递归优化后的显著性检测结果，(j-1)～(j-3)是输入图像的真值。

图5递归优化模块中各个阶段的显著性检测结果。其中，(a-1)～(a-3)代表输入图像；(b-1)～(b-3)代表第一次递归的显著性检测结果，(c-1)～(c-3)代表第二次递归的显著性检测结果，(d-1)～(d-3)代表第三次递归的显著性检测结果，(e-1)～(e-3)代表输入图像的真值，

图6多种显著性检测方法的结果比较。其中，(a-1)～(a-4)代表输入图像；(b-1)～(b-4)代表BSCA算法预测结果；(c-1)～(c-4)代表MR算法预测结果；(d-1)～(d-4)代表HS算法预测结果；(e-1)～(e-4)代表WSS算法预测结果；(f-1)～(f-4)代表DRFI算法预测结果；(g-1)～(g-4)代表LEGS算法预测结果；(h-1)～(h-4)代表MCDL算法预测结果；(i-1)～(i-4)代表MDF算法预测结果；(j-1)～(j-4)代表DS算法预测结果；(k-1)～(k-4)代表ELD算法预测结果；(l-1)～(l-4)代表RFCN算法预测结果；(m-1)～(m-4)代表DCL算法预测结果；(n-1)～(n-4)代表UCF算法预测结果；(o-1)～(o-4)代表Amulet算法预测结果；(p-1)～(p-4)是该专利的检测结果；(q-1)～(q-4)代表输入图像的真值。

图7合成数据集的图像和真值。其中，(a-1)，(a-2)代表背景图像；(b-1)～(b-4)代表白底显著性目标图像；(c-1)～(c-8)代表合成数据集D_s中的合成图像，(d-1)～(d-8)代表合成数据集D_s中的合成真值。

图8注意力模块示意图。

具体实施方式

具体来说，我们使用分类数据集，文字描述数据集，合成的网络图片数据集以及未标记的数据集作为监督信息，其他的监督信息也可以灵活的插入到这个框架中。我们设计了三个子网络：多标签分类网络(CNet)，标题生成网络(PNet)和显著性预测网络(SNet)。CNet由卷积特征抽取器，注意模块力和全连接层组成，对于输入图像，特征提取器为每个区域生成一个特征向量，注意力模块在图像所有区域上生成空间注意力谱图，从而控制每个区域到完全连接层的信息流，正确地预测类别标签必须关注最重要的区域，所有图像区域的空间注意力值组成一个粗糙的显著性图，突出所有潜在的类别不可知的对象区域。PNet具有与CNet相似的结构，区别是用LSTM层代替完全连接层来生成图片的文字描述，由注意力模块生成的粗糙显著图突出显示了生成正确文字的基本区域。

由于CNet和PNet只使用图像级标签进行训练，因此它们生成的显著性响应图在显著对象和周围背景之间没有清晰的边界(CNet和PNet的检测结果如附图1)。简单地利用这些显著性响应图二值化的结果作为训练真值，不能为SNet提供良好的分割线索。我们利用网络图片生成合成数据集来解决这个问题。我们分别使用显著性对象类别关键字和背景关键字从网页中检索出白背景中有突出对象的图像和只有背景(没有突出对象)的图像。然后利用CNet和PNet对图像中的显著目标进行分割并粘贴到背景图像上，合成合成数据集D_s，尽管CNet和PNet生成的显著性图并不完美，但这使得真值与合成数据集中的图像精确对齐。另一方面，我们在未标记的数据集上，以CNet和PNet的预测结果作为真值，生成自然图像数据集，来训练SNET，使显著性模型适应自然图像。在上述基础上，我们提出了一种递归训练机制以更好地利用带噪声标签的自然图像数据集D_n和具有准确真值的网络图像数据集D_s，优化SNet。

具体内容如下：

(1)网络框架

我们的网络包含三个子网络：分类网络(CNet)、文字序列生成网络(PNet)和显著性预测网络(SNet)(附图3)。他们的特征抽取器都是基于稠密网络densenet169设计的，由五个特征提取卷积模块和一个线性分类器组成，我们去掉了其中的分类器，只使用卷积模块作为特征提取器。由于densenet169具有稠密的连通结构，它可以在较少的参数数量下获得与其他体系结构相当的分类精度。为了获得分辨率更高的特征映射，我们去掉了最后几个池化层的下采样操作，对于CNet和PNet，我们去掉最后一个下采样操作，生成原始输入图像1/16大小的特征图。对于SNet，我们去掉最后两个下采样操作，获得具有更多细节信息的特征映射，SNet的特征提取器生成原始输入图像1/8大小的特征图，从而获得更好的显著性检测结果，

分类网络(CNet)由先前介绍的特征提取器，注意力模块以及完全连接层组成。在给定输入图像的情况下，注意力模块根据特征提取器提供的特征图生成全局特征和粗糙的显著性图，然后全连接层将全局特征转换为一个编码每个类别概率的C维向量，其中C是类别数。文字生成网络(PNet)的结构与CNet类似，它们之间的主要区别是LSTM模块取代了CNet的完全连接层，LSTM模块以全局特征作为输入，生成一个m维向量序列，其中m是所有候选词的个数。显著性预测网络(SNet)由一个特征提取器，四个扩张卷积层和一个反卷积层组成。四个扩展卷积层以特征映射为输入，预测感受域不同的四个显著性映射，然后将四个显著性映射图叠加在一起，通过反卷积上采样到原始输入图像的大小。

注意力模块的目的是计算前景对象在图像区域上的空间分布，同时聚集所有区域的特征。给定一个输入图像，特征提取器生成特征映射，该特征映射表示为一组特征向量{v₁,...,v_k}，每个特征向量编码一个图像区域，对于一个空间大小是H×W的特征图，K＝H×W代表区域的数量。我们在特征映射上应用1×1卷积以及sigmoid函数来生成一个粗略的显著性图。

s_i＝σ(w_sv_i+b_s) (1)

其中，σ代表sigmoid函数，w_s和b_s是可学习的参数，s_i是第i个区域的显著性值，所有区域的显著性值构成显著性检测图S。给定一个特征向量v_i以及每个区域的的显著性值s_i，我们将1×1卷积层的输出与s_i的乘积作为一个新的特征:

f_i＝s_i·(w_fv_i+b_f) (2)

其中，w_f和b_f是可学习的参数。

接着，我们对每个图像区域计算一个归一化的注意力权重值a_i。

a_i＝w_af_i+b_a (3)

α＝soft max(a) (4)

其中，向量a的每个元素a_i是第i个区域注意力的权重值。w_a和b_a是可学习的参数，softmax函数使所有位置的权重之和限制为1。输入图像的全局注意力特征g是所有区域特征的加权平均值：

这种计算方式相当于具有自适应空间权重的全局池操作。图8是注意模块的示意图。

(2)利用图像级别标签训练网络

在第一个训练阶段，我们利用分类标签与文字描述标签分别训练CNet和PNet。第一阶段的训练集由三个子集组成：分类数据集、文字描述数据集和未标记数据集。分类数据集被表示为

其中

是图像Xⁱ中出现的类别编码,C是类别数，N_c是D_c中的样本数。文字描述数据集表示为

其中

代表一个Lⁱ个单词的序列

N_p是D_p中的样本数。未标记的数据集表示为

其中N_u是样本数。给定输入图像X，CNet预测图像中出现的目标属于每个类别的概率，表示为p(y_j|X),j＝1,...,C,y_j∈{0,1}，以及显著性映射S_c,S_c中的每个元素表示为sc_i。PNet中的LSTM模块在给定前面l-1个单词序列y_1:l-1的基础上输出第l个候选单词的条件概率分布，表示为

同时输出当前图片的显著映射S_p，S_p中的每个元素表示为sp_i。我们定义了四个损失函数来训练网络：类别损失函数L_c，文字描述损失函数L_p，注意力转移损失函数L_at和注意力一致性损失函数L_ac。L_c使CNet找到分类任务最关注的图像区域，L_p使PNet找到生成文字描述序列对应的最重要的图像区域，L_at将另一个网络的信息传输到当前的网络，L_ac鼓励由不同监督信息监督的两个网络检测到共同的显著区域，而不是特定任务区域。L_c定义如下，

其中，第一项是对数似然函数，第二项是正则化项，该正则化计算的是显著性映射图S_c和全零映射之间的交叉熵，从而防止在所有位置都获得高响应的显著性映射，β是设置为0.005的超参数。通过最小化损失函数L_c使CNet学习预测输入图像中对象的类别，正则化项限制了从图像区域流向分类器的信息量，因此网络必须关注最重要的区域即生成合理的显著性图以来预测类别。

文字生成网络损失函数L_p定义如下：

其中第一项是对数似然函数，第二项是正则化项，β设置为0.005。通过最小化损失函数L_p，PNet学习为输入图像生成描述图片的文字序列，并找到与文字描述相对应的显著区域。受到网络结构的限制，CNet无法直接利用文字描述信息，PNet也无法直接从类别标签中学习，为了充分利用多种标注数据，我们提出了注意力转移损失函数的概念，使网络在没有另一种标注的情况下，也能从另一个网络的注意力图中学习到另一种标注中提供的信息。具体来说，对于带有类别标签的图像，我们使用CNet的显著性图来监督PNet的显著性图，对于标注了文字的图像，我们根据PNet的显著性图来监督CNet的显著性图。注意力转移损失函数定义如下：

其中，

和

是根据显著性映射图S_c选择的显著区域和背景区域的索引。

和

是根据显著性映射图S_p选择的显著区域和背景区域的索引。对于输入图像，CNet和PNet分别关注对预测类别和生成文字任务最重要的区域。

我们利用SLIC算法将未标记的图片分割成超像素，将显著性值同时大于S_c和S_p显著性均值的超像素标记为显著种子，超像素的显著性值定义为超像素中像素的平均值。每个超像素都连接到它的二阶邻域，并且图像边界上的所有超像素都是连接的，第m个节点和第n个节点之间边缘的权重定义为对应的超像素之间Lab颜色的高斯加权的欧式距离，w_mn＝exp(-||c_m-c_n||/σ²)，其中，c_m和c_n代表超像素m和n的Lab颜色,σ设置成0.1。我们通过优化公式(9)，对每个显著种子的颜色相似性进行排序，

其中，

μ设置为0.01，z_m＝1表示第m个超像素是显著种子，否则z_m＝0。设D＝diag{d_mm}，优化的h^*＝(I＝γL)^-1z是所有超像素的排名分数，其中

是标准化的拉普拉斯矩阵，γ＝1/(1+μ)。我们选择排名得分大于h^*的平均值的超像素作为正样本，表示为

并使用其他像素作为负样本，表示为

定义注意力一致性损失函数来监督两个网络的显著性映射。

训练整个系统的损失函数由上述四个损失函数组合而成：

L＝L_c+L_p+λL_at+λL_ac (11)

其中λ控制每个损失函数的权重。对于L_at和L_ac，我们使用相同的权重λ＝0.01。

(3)训练显著性预测网络

在第二阶段中，在训练了CNet和PNet之后，我们利用第一阶段模型构造了两个训练数据集：一个是自然图像数据集D_n，该数据集的噪声标签是在未标记的显著性检测数据集上运行CNet和PNet创建的；另一个是用网络图像创建的合成图像数据集D_s，具体合成方式见附图2。这两个数据集是互补的，D_n包含自然图像，但真值有噪声，D_s中的图像不真实，但是基本真实地提供了精确的真值。为了生成D_n数据集，我们对CNet和PNet生成的粗糙的显著性映射进行平均，通过双线性插值将其调整到原始图像大小，并利用CRF进行处理，增强空间相关性。为了创建D_s，我们通过对网络图像的探索和分析，收集了两组图像，包括白色背景下有突出目标的图像和无显著性目标的清晰背景图像。我们利用显著性目标关键字在Bing Web Search搜索并收集具有显著对象的图像，关键字与ImageNet分类数据集中的类别相关，一共收集了10000张带有显著性目标的图像。与此同时，我们使用Microsoft Bing和Flickr检索搜集关键字为“纹理/天空/草地等”的干净背景图像，并且从LSUN数据集中选取了一些没有显著目标的图像，总共收集了4000张没有明显显著性物体的干净背景图像。对含有显著目标的图像通过CNet和PNet运算提取目标，然后通过在背景图像上随机放置显著目标来合成训练样本，D_n和D_s包含图像和真值图像对用于训练显著性检测网络SNet。D_n和D_s具体生成方式如下：

步骤1:利用CNet和PNet获取未标记的显著性检测数据集

和白底显著性目标数据集

的显著性图

步骤2:分别对D_n和D_s数据集的真值

初始化，

其中,CRF()代表对显著性图进行CRF处理，Binarizate()代表以显著性图的均值为门限对显著性图进行二值化。

步骤3:随机选取一张显著性前景图片

和一张背景图片

通过正态分布

产生一个调节比例r，根据r来调节

和

的尺度。

步骤4:通过正态分布

和

获取位置参数(x，y)，其中W和H代表合成之后的图像的尺度。用

替换背景图片

上从(x，y)的开始的矩形区域的像素，当

为1时替换，否则保持背景的像素值。生成的图片标记为

将尺度为W×H的全0谱图中对应

中前景区域的像素设置为1，生成合成图像的真值

步骤4:通过以上方式合成自然图像数据集D_n和合成网络图像数据集D_s：

设Y为标签，S为SNet的输出，由于D_n中的标签有噪声，SNet使用如下的损失函数来训练，用网络的预测结果来更正标签，

其中，y_i，s_i分别是Y，S的元素，如果s_i>＝0.5则a_i＝1，否则a_i＝0，δ设置为0.05。我们只在生成标签来训练SNet时使用CRF，在测试时，显著性映射以端到端的方式进行预测，无需任何后处理。与D_n相比，合成数据集D_s包含准确的标签，我们在这个数据集上用交叉熵损失函数的更新SNet的参数。网络模型中各个阶段的显著性检测结果见附图6。

(4)数据集和模型的递归优化

在上述基础上，我们提出了一种递归训练机制以更好地利用带噪声标签的自然图像数据集D_n和具有准确真值的网络图片数据集D_s。首先，我们对CNet和PNet的预测结果进行平均和CRF处理，生成数据集

的噪声标签，并且生成网络图像数据集

然后，对于每个时间序列t＝1,2,...,，我们在数据集

上训练SNet^t，并在网络收敛后使用SNet^t的预测结果更新数据集。为了更新自然图像数据集，我们运行SNet^t来获取未标记图像的噪声标签，并替换

中的标签，从而生成数据集

为了获得新的合成数据集

我们用SNet^t剪切出白底图像上的显著性目标，然后将显著性目标随机放置在背景图像上合成训练对。一方面，合成的网络图像数据集D_s提供正确的训练真值，SNet可以更准确地从背景中分割出前景对象，在下一次迭代中，SNet可以较少的错误标记自然图像数据集D_n；另一方面，自然图像数据集D_n使SNet能够适应自然图像输入，而不是过度拟合网络图像数据集，随着迭代的进行，训练数据和模型可以共同的改进。递归优化模块各个阶段的显著性检测结果如附图5。

实施例：

步骤1：分别在Imagenet detetion数据集和MicrosoftCOCO caption数据集交替训练CNet和PNet，CNet的损失函数由L_c(公式6)和L_at(公式8)两项组成，PNet的损失函数由L_p(公式7)和L_at(公式8)两项组成，L_at使被一种标签监督的网络可以从另一种标签提供的信息中受益。在200次迭代之后，我们在未标记的Imagenet classification的数据集上引入L_ac损失函数(公式10)监督PNet和CNet，L_ac损失函数鼓励网络检测出显著区域而不是特定任务区域。各模块的显著检测结果如附图4中Cls，Cap，Avg，AT，AC所示。

步骤2：分别利用前景关键字和背景关键字从网络上搜集了两类图片，包括白色背景上的显著性目标图片和没有显著性目标的背景图片，我们用CNet和PNet剪切出白色背景上的显著性目标，用CRF处理后与背景图像随机合成，构成标签准确的合成数据集

合成数据集的图像和真值如附图7。

步骤3：在对CNet和PNet进行训练之后，我们利用第一阶段两个网络获取显著性检测数据集DUTS-train的噪声标签，我们对噪声标签进行CRF处理并二值化，合成自然图像数据集

步骤4：对于每个时间序列t＝1,2,...,，我们交替地在自然图像数据集

和合成数据集

上训练SNet^t，并在网络收敛后使用SNet^t的预测结果更新数据集。具体来说，为了更新自然图像数据集，我们运行SNet^t来获取未标记图像的噪声标签，并替换

中的标签，从而生成数据集

为了获得新的合成数据集

我们用SNet^t剪切包含显著对象的白底图像，然后将显著性目标随机放置在背景图像上重新合成训练对。我们递归的更新数据库和模型，直至SNet达到最佳效果

步骤5：测试时，我们直接利用SNet来对输入的测试图像进行显著性预测，最终的检测结果如附图4中RO所示。

Claims

1.一种图像显著目标的检测方法，其特征在于，步骤如下：

步骤1：构建网络框架

网络包含三个子网络：分类网络CNet、文字序列生成网络PNet和显著性预测网络SNet；所述分类网络CNet由特征提取器、注意力模块和完全连接层组成；文字序列生成网络PNet由特征提取器、注意力模块和LSTM模块组成；显著性预测网络SNet由一个特征提取器、四个扩张率不同的扩张卷积层和一个反卷积层组成；

步骤2：利用图像级别标签训练CNet和PNet

类别损失函数L_c定义如下：

其中，第一项是对数似然函数,

代表分类数据集，Xⁱ代表输入图片，

是图像Xⁱ的类别编码，C是类别数，N_c是D_c中的样本数；第二项是正则化项，该正则化项计算的是显著性映射图S_c和全零映射之间的交叉熵，sc_i代表显著性映射图S_c中的像素，β是数值固定的超参数；

文字序列生成网络损失函数L_p定义如下：

其中，第一项是对数似然函数，

代表文字描述数据集，Xⁱ代表输入图片,

代表一个Lⁱ个单词的序列

同时，PNet输出当前图片显著映射图S_p；第二项是正则化项，sp_i是显著映射S_p中的像素，β是超参数；

注意力转移损失函数定义如下：

其中，sc_i和sp_i分别代表由CNet和PNet产生的显著性映射图S_c和S_p中的像素，

和

是根据显著性映射S_c选择的显著区域和背景区域的索引；

和

是根据显著性映射S_p选择的显著区域和背景区域的索引；对于输入图像，CNet和PNet分别关注对预测类别和生成文字任务最重要的区域；

注意力一致性损失函数L_ac定义如下：

并使用其他像素作为负样本，表示为

未标记的数据集表示为

L＝L_c+L_p+λL_at+λL_ac(5)

其中，λ控制每个损失函数的权重；L_at和L_ac使用相同的权重；

步骤3：构建自然图像数据集和网络图像数据集

(1)通过CNet和PNet的前向传播获取未标记的显著性检测数据集

和在网络上搜集的白底显著性目标数据集

的显著性图

(2)利用(1)获取的显著性图分别初始化D_n和D_s数据集的真值

其中，CRF()代表对显著性图进行CRF处理，Binarizate()代表以显著性图的均值为门限对显著性图进行二值化；

(3)随机选取一张显著性前景图片

和一张背景图片

通过正态分布

产生一个调节比例r，根据r来调节

和

的尺度；

(4)通过正态分布

和

获取位置参数(x,y)，其中W和H代表合成后图像的尺度；用

替换背景图片

上从(x,y)的开始的矩形区域的像素，当

为1时替换，否则保持背景的像素值；生成的图片标记为

将尺度为W×H的全0谱图中对应

中前景区域的像素设置为1，生成合成图像的真值

(5)通过以上方式合成自然图像数据集D_n和网络图像数据集D_s：

步骤4：利用有噪声的数据集训练SNet

D_n数据集的损失函数定义如下：

其中，Y为标签，S为SNet的输出，y_i、s_i分别是Y、S的元素，当s_i>＝0.5则a_i＝1，否则a_i＝0，δ是固定的参数；与D_n相比，合成网络图像数据集D_s包含准确的标签，在D_s数据集上用交叉熵损失函数更新SNet的参数；

步骤5：数据集和模型的递归优化

对于时间序列t，t≥2，首先在数据集

中的标签，生成数据集

中的图像和标签，生成数据集

最后利用新的数据集训练并优化SNet，直至SNet收敛；

2.根据权利要求1所述的一种图像显著目标的检测方法，其特征在于，三个子网络的特征提取器都是基于稠密网络densenet169，CNet和PNet去掉了最后一个下采样操作，以生成原始输入图像1/16大小的特征图；对于SNet，去掉了最后两个下采样操作，以获得具有更多细节信息的特征映射，生成更好的显著性检测结果，SNet的特征提取器生成原始输入图像1/8大小的特征图。