CN114743027A

CN114743027A - 弱监督学习引导的协同显著性检测方法

Info

Publication number: CN114743027A
Application number: CN202210375572.2A
Authority: CN
Inventors: 钱晓亮; 曾银凤; 李哲辉; 王慰; 曾黎; 张秋闻; 吴青娥; 程塨; 姚西文; 岳伟超; 任航丽; 刘向龙; 马振宇
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-07-12
Anticipated expiration: 2042-04-11
Also published as: CN114743027B

Abstract

本发明提出了一种弱监督学习引导的协同显著性检测方法，用以解决现有协同显著性检测方法易受到不相关的显著目标的干扰的技术问题。本发明的步骤为：搭建GCAM网络的架构；搭建主干网络的架构，通过GCAM网络和主干网络构建GWSCoSal模型；利用训练数据对GCAM网络以图像组的公共类别标签作为真值进行弱监督训练；利用训练数据对主干网络进行像素级训练；GCAM网络的弱监督训练和主干网络的像素级训练联合执行，得到训练后的优化GWSCoSal模型。利用优化GWSCoSal模型对协同显著性数据集进行预测，生成预测的协同显著图。本发明在受到相似非公共显著目标干扰的情况下，能够更准确地检测出协同显著目标，操作简单，检测精度较高。

Description

弱监督学习引导的协同显著性检测方法

技术领域

本发明涉及协同显著性检测的技术领域，尤其涉及一种弱监督学习引导的协同显著性检测方法。

背景技术

随着现代科技的飞速发展，社会数字化进程加速推进，人工智能在各领域快速兴起。大量的图像、视频等多媒体数据呈爆发式增长，如何利用现有的计算机技术来有效处理并获取有用信息十分重要。现有的协同显著性检测技术是一种模拟人眼注意力机制的计算机视觉技术。在图像组内，可以利用频繁出现的图形或前景区域来表示图像组的主要内容。该方法不仅能够获取图像或视频中的有效目标信息，还能滤除图像或视频中的冗余信息，降低了算法处理的复杂度，从而实现计算资源的优先分配。

协同显著性检测的目的在于从两幅或多幅相关图像中寻找公共且显著的目标，根据该定义，协同显著目标必须满足两个要求，它们必须在每幅图像中都是显著的且彼此之间具有相似性。因此，这两个要求对应以下两个任务：(1)从单幅图像中获得图内显著性信息(Intra-saliency)；(2)从多幅相关图像中挖掘图间显著性信息(Inter-saliency)。现有的协同显著性检测方法可以依据图内和图间显著性信息的不同融合方式大致分为两类：一类是非端到端的方法，该类方法通常利用手工设计的特征来直接挖掘并融合图内和图间显著性信息的线索。但是，这些手工设计的特征并不能为协同显著目标的公共属性提供强有力的表达，极大程度上限制了非端到端方法的检测性能。另一类是端到端的方法，该类方法利用深度学习的方法来挖掘图内和图间显著性信息，获取的深度特征能更好地对图像进行描述，同时，以端到端的方式将图内和图间显著性信息进行结合，有效地提高了协同显著性检测的性能。

协同显著性检测是由图内显著性信息和图间显著性信息两部分组成，目前已经有研究者提出了大量优秀的单幅图像显著性检测方法来挖掘图内显著性信息线索，因此，无论是对非端到端的方法还是端到端的方法，挖掘更优的图间显著性信息的线索是协同显著性检测的关键。到目前为止，无论是非端到端的方法还是端到端的方法都是提取图像组中每幅图像的特征，并计算其特征的相似度，然后，将其作为图间显著性信息。然而，以这种方式获得的图间显著性信息通常容易受到图像中不相关的显著目标的干扰，这些不相关的显著目标常与协同显著目标之间具有相似的外观特征。事实上，协同显著目标与不相关的显著目标之间最关键的区别在于它们属于不同的类别。因此，挖掘公共类别信息对于提取间的显著性信息至关重要。

发明内容

针对现有协同显著性检测方法易受到不相关的显著目标的干扰的技术问题，本发明提出一种弱监督学习引导的协同显著性检测方法，通过弱监督学习引导可以更好的提取一组相关图像的图间显著性信息，得到的协同显著性检测结果更准确。

为了达到上述目的，本发明的技术方案是这样实现的：一种弱监督学习引导的协同显著性检测方法，步骤如下：

步骤一：搭建GCAM网络的架构，将包含有公共类别显著目标的图像组输入GCAM网络，生成每幅图像的组类别激活图GCAM；

步骤二：搭建主干网络的架构，图像组中的每幅图像依次送入主干网络进行处理，主干网络提取的特征与步骤一的组类别激活图GCAM相融合，得到每幅图像的协同显著图；通过GCAM网络和主干网络构建GWSCoSal模型；

步骤三：利用训练数据对GWSCoSal模型的GCAM网络以图像组的公共类别标签作为真值进行弱监督训练；

步骤四：利用训练数据对主干网络进行像素级训练；

步骤五：利用训练数据对GWSCoSal模型的GCAM网络和主干网络以端到端的方式进行联合训练，得到训练后的优化GWSCoSal模型。

步骤六：利用步骤五的优化GWSCoSal模型对现有的协同显著性数据集进行预测，生成预测的协同显著图。

所述GCAM网络包含N个并联的子网络，N个子网络设置一致且模型参数彼此共享；N个子网络的输出进行逐像素相加得到融合特征向量，融合特征向量通过第二全连接层和softmax分类器，获得分类结果为公共类别标签。

所述子网络为ImageNet数据集上预训练好的VGG16网络，子网络包括连接的特征提取部分和第一全连接层，特征提取部分是由5个依次连接的卷积组构成，每个卷积组中分别对应有2、2、3、3、3个尺寸大小一致的卷积层，5个卷积组之间设有最大池化层。

所述步骤一中生成每幅图像的组类别激活图GCAM的方法为：通过第二全连接层FC²的输出结果对子网络的特征提取部分中任意特征层的输出特征矩阵进行求偏导；沿着输入图像各自的子网络反向传播至该特征层，得到该特征层的梯度矩阵并计算其各通道的权重；将各通道权重与该特征层的输出特征矩阵进行逐像素相乘，利用激活函数得到图像组中每幅图像I_n的组类别激活图GCAM；实现公式为：

其中，C表示公共类别数；S∈R^C是图像组

从第二个全连接层FC²中输出的得分向量，N表示图像组中图像的总数，S_c表示公共类别c的得分；Aⁿ∈R^W×H×K表示图像I_n对应的第n个子网络的最后一个卷积层输出的特征矩阵，W、H和K分别表示特征矩阵Aⁿ的宽、高以及通道数；A^nk∈R^W×H表示特征矩阵Aⁿ的第k个通道；

表示特征矩阵A^nk中坐标为(i,j)的像素；

是公共类别c中特征矩阵A^nk的权重；ReLU(·)表示激活函数ReLU；

表示公共类别c中图像I_n的组类别激活图GCAM。

所述N个子网络的输出进行逐像素相加的方法为：

其中，F₁ ¹、F₂ ¹、

分别表示第一个子网络中第一个全连接层

第二个子网络中第一个全连接层

以及第N个子网络中第一个全连接层

的输出结果；

表示逐像素相加操作；FF表示融合后的特征向量；

所述GCAM网络一个子网络的结构为：

在生成GCAM的过程中，利用第二全连接层输出的结果对卷积层5_3输出的特征矩阵求偏导；沿着输入图像各自的子网络反向传播至卷积5_3层的特征层，得到卷积5_3层的特征层的梯度矩阵并计算其512个通道的权重；将各通道权重与最后一个卷积层的特征层的输出特征矩阵进行逐像素相乘，利用激活函数得到图像组中每幅图像I_n的组类别激活图GCAM。

所述主干网络基于特征金字塔网络，主干网络包括编码器和解码器，解码器通过侧向连接融合编码器中各层级尺度特征；图像组

中的每幅图像I_n依次被送入主干网络的编码器，编码器输出的特征矩阵与组类别激活图GCAM进行融合，融合后的特征矩阵通过解码器输出每幅图像I_n的协同显著图。

所述编码器由VGG16网络的特征提取部分构成，即不含最后一个最大池化层、全连接层以及softmax层；解码器由与编码器结构对称的卷积层构成，通过将编码器的输出特征与对应解码器的输入特征进行侧向连接，获取多层次的图像特征信息；侧向连接时，编码器中通道数不一致的特征通过卷积操作得到与解码器通道数一致的特征；在解码器最后一层卷积层的输出中，利用线性插值将输出特征尺寸调整为原始图像尺寸。

所述编码器输出的特征矩阵与组类别激活图GCAM进行融合：

其中，

表示编码器网络输出的特征矩阵；

表示特征矩阵

的第k个通道；

表示逐像素相乘操作；

表示融合后的特征矩阵；

表示特征矩阵

的第k个通道的矩阵；

所述编码器和解码器的结构为：

其中，ReLU和Sigmoid均表示激活函数。

所述GCAM网络的弱监督训练的损失函数为CE-loss损失函数：

其中，

表示在GCAM网络中softmax分类器的分类结果；Y∈R^C表示图像组的公共类别标签；CE(·)表示交叉熵函数；

所述主干网络的像素级训练的损失函数L_P为：

其中，O_n表示图像组中每幅图像I_n的预测协同显著图；GT_n表示图像I_n的像素级真值图；L_SIoU(·)表示交并比损失；L_BCE(·)表示二值交叉熵损失；

所述GWSCoSal模型的总体训练损失函数为：L＝L_P+λL_GWS；

其中，λ是用于平衡L_GWS和L_P之间比例的超参数；

所述训练数据采用现有的DUTS数据集和拼图训练策略，随机选择训练数据中的一组5幅图像分别输入GCAM网络和主干网络；所述GCAM网络的弱监督训练中，将图像组中的5幅图像分别输入至GCAM网络中5个对应的子网络，以图像组的公共类别标签作为真值，将第二个全连接层的输出结果与各子网络的特征提取部分中任意特征层的输出特征矩阵进行求偏导；沿着输入图像各自的子网络反向传播至该特征层，得到该特征层的梯度矩阵并计算其各通道的权重；将各通道权重与该特征层的输出特征矩阵进行逐像素相乘，利用激活函数得到5幅图像对应的组类别激活图GCAM；所述主干网络的像素级训练中，将图像组中的5幅图像依次输入至主干网络的编码器；将编码器的最后一个输出特征与GCAM网络生成的组类别激活图GCAM以逐像素相乘的方式进行融合；将融合的特征输入至主干网络的解码器生成5幅图像的协同显著图。训练时解码器生成的协同显著图，在测试时生成的协同显著图为协同显著性检测结果。

所述步骤六中将现有协同显著性数据集中一组5幅图像分别输入GCAM网络和主干网络，其中，每幅输入图像尺寸统一调整为224×224；在图像组输入GCAM网络进行分类时，选择概率得分为Top-3的公共类别作为公共类别标签，并将选择的概率得分作为前3个公共类别对应生成的组类别激活图GCAM的权重，然后，将该权重与每幅输入图像的前3个公共类别对应生成的组类别激活图GCAM进行逐像素相乘，并将3个相乘后的组类别激活图GCAM进行逐像素取均值，生成每幅输入图像的组类别激活图GCAM；

所述步骤六中预测的图像组

的组类别激活图GCAM为：

其中，

表示图像I_n中公共类别m的预测GCAM；p_m表示图像组

中公共类别m的概率得分；

表示图像I_n的预测组类别激活图GCAM；

获得组类别激活图

后，将其送入主干网络进行融合，主干网络对图像组中的5幅图像依次进行处理，编码器的输出与对应图像的组类别激活图GCAM进行逐像素相乘，来融合图间显著性信息；通过主干网络的解码器生成预测的协同显著图即协同显著性检测结果。

与现有技术相比，本发明的有益效果：首先，采用一组相关图像的公共类别作为真值，通过弱监督学习的方式构建了一个新的组类别激活图(Group Class ActivationMaps,GCAM)网络，使用图像组的公共类别标签通过弱监督学习对GCAM网络进行训练，以GCAM形式呈现图间显著性信息的线索由经过训练的GCAM网络产生；然后，将训练后的GCAM网络产生的GCAM作为图间显著性信息的线索，GCAM网络只突显图像组中公共类别目标所覆盖的区域；最后，将GCAM网络融合到基于特征金字塔网络(Feature Pyramid Networks,FPN)的主干网络中，由像素级标签训练编码-解码器主干网络；采用端到端的方式同时进行GCAM网络的弱监督训练和主干网络的像素级训练，通过主干网络的解码器输出图像组的协同显著图。本发明在受到相似非公共显著目标干扰的情况下，能够更准确地检测出协同显著目标，操作简单，检测精度较高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程示意图。

图2为图1中GCAM网络的机构示意图。

图3为本发明主干网络的结构图。

图4为本发明与现有方法在Cosal2015数据集上的主观对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种弱监督学习引导的协同显著性检测(Group Weakly SupervisedLearning Induced Co-saliency Detection，GWSCoSal)方法，该方法的GWSCoSal模型包含两个子网络：GCAM网络和编码-解码器主干网络。GWSCoSal模型先使用图像组的公共类别标签，通过弱监督学习对GCAM网络进行训练，以GCAM形式呈现的图间显著性特征的线索由经过训练的GCAM网络产生。然后，图像组的GCAM融合至由像素级标签训练的编码-解码器主干网络中。最后，通过主干网络的解码器输出图像组的协同显著图。其步骤如下：

步骤一：搭建GCAM网络的架构，将包含有相关图像的图像组输入GCAM网络，生成每幅图像的组类别激活图GCAM。

(1)前向传播

输入一组相关图像

至GCAM网络，该图像组包含具有公共类别的显著目标，如图2所示，其中N幅图像均是有关香蕉的图像。图像组中的每幅图像I_n被送入各自对应的子网络，该子网络的结构继承于在ImageNet数据集上预训练好的VGG16网络，其中，VGG16网络的特征提取部分是由5个依次连接的卷积组构成，每个卷积组中分别对应有2、2、3、3、3个尺寸大小一致的卷积层，N个子网络的模型参数彼此共享。5个卷积组之间设有最大池化层，最大池化层是为了增加视觉感受野，使深度学习模型可以提取全局的语义特征，同时可以降低特征的空间维度，减少计算。然后，将N个子网络的输出进行逐像素相加，表达式如下：

其中，F₁ ¹、F₂ ¹、

分别表示第一个子网络中第一个全连接层

第二个子网络中第一个全连接层

以及第N个子网络中第一个全连接层

的输出结果；

表示逐像素相加操作；FF表示融合后的特征向量。最后，融合后的特征向量FF依次通过第二个全连接层FC²和softmax分类器以获得最终分类结果。

(2)生成组类别激活图GCAM

图像组中每幅图像I_n的GCAM获取过程如下：可以通过第二个全连接层FC²的输出结果对VGG16网络的特征提取部分中任意特征层的输出特征矩阵进行求偏导；然后，沿着输入图像各自的子网络反向传播至该特征层，得到该特征层的梯度矩阵并计算其各通道的权重；最后，将各通道权重与该特征层的输出特征矩阵进行逐像素相乘，利用激活函数得到图像组中每幅图像I_n的组类别激活图GCAM，其公式如下：

其中，C表示公共类别数；S∈R^C是图像组

从第二个全连接层FC²中输出的得分向量，如图2所示，S_c表示公共类别c的得分；Aⁿ∈R^W×H×K表示图像I_n对应的第n个子网络的最后一个卷积层输出的特征矩阵，W、H和K分别表示特征矩阵Aⁿ的宽、高以及通道数；A^nk∈R^W×H表示特征矩阵Aⁿ的第k个通道；

表示特征矩阵A^nk中坐标为(i,j)的像素；

表示公共类别c中图像I_n的组类别激活图GCAM。

很显然，

能够只激活公共类别c对应的目标区域，因为它们来源于得分S_c，而该得分是由图像组

联合产生。总而言之，

可以作为

的图间显著性信息的线索。

根据协同显著性检测的任务特征和现有的VGG16模型的特征，对已有的VGG16网络基本框架进行改进和创新，搭建了一个符合协同显著性检测任务的网络，以挖掘图间显著性信息，即GCAM网络，其结构如表1所示。

表1 GCAM网络的结构组成

本发明构建的GCAM网络由N个VGG16子网络构成，其中，每幅图像对应一个VGG16子网络，每个子网络设置均一致且模型参数彼此共享，上述表格结构以一个VGG16子网络为例，其余子网络结构与之一致，GCAM网络包含N个特征提取部分、N个第一个全连接层FC¹、一个第二个全连接层FC²和一个softmax层。对于损失函数，GCAM网络用到的是CE-loss损失函数。VGG16子网络结构的设计思想参考文献[Simonyan K,Zisserman A.Very DeepConvolutional Networks for Large-Scale Image Recognition[J].arXiv preprintarXiv:1409.1556,2014]。通过特征提取部分的多个卷积组可以提取图像中的细节信息，将每个子网络中第一个全连接层

的输出结果1×1×1000以逐像素相加的方式进行结合，结合之后的结果为1×1×1000，以获取图像组的公共信息。在GCAM网络构建过程中，将最后一个全连接层FC²的输出改为训练数据的类别数，在softmax层输出分类结果后与图像组的公共类别这一真值对比做CE-loss，具体的设置如表1所示。表1中Dropout表示是随机将一部分卷积核的值置零，其目的是防止过拟合。图2中的反向传播方式与卷积神经网络训练时的反向传播方式一样，是求偏导，根据链式法则实现，在本发明中反向传播的作用是求得图像组的GCAM。

在生成GCAM的过程中，利用第二个全连接层FC²输出的概率结果对卷积5_3输出的特征矩阵求偏导；然后，沿着输入图像各自的VGG16子网络反向传播至卷积5_3的特征层，得到卷积5_3特征层的梯度矩阵并计算其512个通道的权重，如公式(2)所示。最后，将各通道权重与卷积5_3特征层的输出特征矩阵进行逐像素相乘，利用激活函数得到图像组中每幅图像I_n的GCAM，如公式(3)所示。

步骤二：搭建主干网络的架构，图像组中的每幅图像依次送入主干网络进行处理，主干网络提取的特征与步骤一的组类别激活图GCAM相融合，得到每幅图像的协同显著图，将GCAM网络和主干网络联合构建GWSCoSal模型。

采用目前流行的编码器-解码器结构来构建主干网络。如图3所示，特征金字塔网络(FPN)用于构建编码器-解码器网络，其中，解码器部分通过侧向连接融合了编码器中各层级尺度特征。

与GCAM网络类似，主干网络的编码和解码部分都继承自在ImageNet数据集上预训练的VGG16模型，没有全连接层。如图1和图3所示，图像组

被送入GCAM网络，得到图像组的组类别激活图

同时，图像组

中的每幅图像都依次被送入主干网络进行处理，编码器网络输出的特征矩阵通过以下公式与GCAM进行融合：

其中，

表示编码器网络输出的特征矩阵；

表示特征矩阵

的第k个通道；

表示逐像素相乘操作；

表示融合后的特征矩阵；

表示特征矩阵

的第k个通道的矩阵。最后，特征矩阵

通过解码器网络输出图像组中每幅图像I_n的协同显著图。

根据协同显著性检测的任务特征和现有的FPN网络的特征，对已有的FPN网络的基本框架进行改进，利用VGG16网络来构建FPN网络中的编码器和解码器，搭建了一个符合协同显著性检测任务的网络，以为挖掘图间显著性信息并将其与图内显著性信息进行融合，即编码-解码器的主干网络。

如表2所示，本发明构建的主干网络包括两个部分：编码器和解码器，其中，编码器由VGG16网络的特征提取部分构成，即不含最后一个最大池化层、全连接层以及softmax层；解码器是由与编码器结构对称的卷积层构成，通过将编码器的输出特征与对应解码器的输入特征进行侧向连接，获取多层次的图像特征信息，即编码器卷积4_3的输出与解码器卷积4_1连接，编码器的卷积3_3的输出与解码器的卷积3_1连接，编码器的卷积2_2的输出与解码器的卷积2_1连接，编码器的卷积1_2的输出与解码器的卷积1_1连接，侧向连接时，编码器中通道数不一致的特征将通过卷积操作得到与解码器通道数一致的特征。此外，在解码器最后一层卷积层的输出中，利用线性插值将输出特征尺寸调整为原始图像尺寸。

另外，在图间和图内显著性信息融合过程中，将输入图像对应的尺寸为14×14×1的组类别激活图GCAM与编码器的最后一个卷积层5_3的尺寸为14×14×512的输出特征以逐像素相乘的方式进行融合，如公式(4)所示，然后将融合后的特征输入至解码器，最终输出与原始图像尺寸一致的协同显著图。表2中解码器的上采样是采用线性插值。Sigmoid表示激活函数，在此处的使用与一般卷积神经网络中的激活函数用法一样，是将卷积神经网络的输出输入至激活函数进行运算。

表2编码器-解码器的主干网络的结构组成

步骤三：利用训练数据对GCAM网络以图像组的公共类别标签作为真值进行弱监督训练。

训练数据采用现有的DUTS数据集和拼图训练策略，随机选择训练数据中的一组5幅图像输入GCAM网络，GCAM网络以图像组的公共类别标签作为真值进行弱监督训练。如图2所示，图像组中的每幅图像I_n输入至对应的子网络，将每个子网络中第一个全连接层

的输出以逐像素点相加的方式进行融合，然后将累加后的特征输入第二个全连接层和softmax层，得到分类结果，从而形成GCAM网络的弱监督训练。在GCAM网络的弱监督训练过程中，通过不断地训练、迭代，GCAM网络参数不断更新，Adam优化器不断优化网络，得到学习率、训练次数和批量大小的参数设置分别为0.0001、400和1。

GCAM网络的弱监督训练损失函数L_GWS表达式如下：

其中，

表示在GCAM网络中softmax分类器的分类结果；Y∈R^C表示图像组的公共类别标签；CE(·)表示交叉熵函数。

步骤四：利用训练数据对主干网络进行像素级训练。

与GCAM网络训练数据一致，均采用融合GCAM后现有的DUTS数据集和拼图训练策略对主干网络进行像素级训练。如图3所示，将图像组中的5幅图像依次输入至主干网络的编码器部分；然后，将编码器的最后一个输出特征与GCAM网络生成的GCAM以逐像素相乘的方式进行融合；最后，将融合的特征输入至主干网络的解码器部分生成5幅图像的检测结果。在主干网络的像素级训练过程中，通过不断地训练、迭代，主干网络参数不断更新，Adam优化器不断优化网络，得到学习率、训练次数和批量大小的参数设置分别为0.0001、400和1。主干网络的像素级训练损失函数L_P如下：

其中，O_n表示图像组中每幅图像I_n的预测协同显著图；GT_n表示图像I_n的像素级真值图；L_SIoU(·)表示交并比损失(Intersection over Union,IoU)；L_BCE(·)表示二值交叉熵损失(Binary Cross Entropy,BCE)。

步骤五：利用训练数据对GCAM网络和主干网络以端到端的方式进行联合训练，得到训练后的优化GWSCoSal模型。

在训练阶段，GCAM网络和主干网络以端到端的方式进行联合训练，输入的训练数据均为现有的DUTS数据集和拼图训练策略。在联合训练过程中，通过不断地训练、迭代，GWSCoSal模型参数不断更新，Adam优化器不断优化网络，得到学习率、训练次数和批量大小的参数设置分别为0.0001、400和1。最后，GWSCoSal模型的总体训练损失函数如下：

L＝L_P+λL_GWS (7)

其中，λ是用于平衡L_GWS和L_P之间比例的超参数。λ的取值一般由实验得出，本发明中该值设置为0.8。

在预测阶段，利用现有的协同显著性数据集来预测步骤五训练后得到的GWSCoSal模型，实现协同显著性检测。

利用现有的协同显著性数据集(iCoseg和Cosal2015)进行预测，将一组5幅图像分别输入GCAM网络和主干网络，其中，每幅输入图像尺寸统一调整为224×224。在图像组输入GCAM网络进行分类时，选择概率得分为Top-3(即得分为前3名)的公共类别作为公共类别标签，并将选择的概率得分作为前3个公共类别对应生成的GCAM的权重，然后，将该权重与每幅输入图像的前3个公共类别对应生成的组类别激活图GCAM进行逐像素相乘，并将3个相乘后的组类别激活图GCAM进行逐像素取均值，生成每幅输入图像的组类别激活图GCAM，以增强模型的鲁棒性。图像组

的GCAM可以在预测阶段通过以下公式获得：

其中，

表示图像I_n中公共类别m的预测GCAM；p_m表示图像组

中公共类别m的概率得分，概率得分p_m的值是属于前3个Top-3的；

表示图像I_n的预测GCAM。

在获得组类别激活图

后，将其送入主干网络进行融合，同时，主干网络对输入图像组中的5幅图像依次进行处理，主干网络中编码器部分的输出将与对应图像的GCAM进行逐像素相乘，以此来融合图间显著性信息，并通过主干网络的解码器部分生成预测的协同显著图即协同显著性检测结果。对一组含有相同类别的协同显著图像进行检测，相当于完成一次协同显著性检测任务。

本发明的实现的硬件配置：NVIDIA GeForce RTX 2080Ti@11GB×10GPU，512G内存的工作站进行实验，其软件的平台配置：Ubuntu16.04、python3.7、pytorch1.1.0。

此外，为了更好的证明本发明的性能，本发明在现已有的流行的公开数据集Cosal2015进行主观对比。对比的算法一共有12种，分别是CBCS来自于Cluster-based Co-saliency Detection，IPTD来自于Cosaliency Detection Based on IntrasaliencyPrior Transfer and Deep Intersaliency Mining，CODW来自于Detection of Co-salient Objects by Looking Deep and Wide，UMLF来自于A Unified Metric Learning-based Framework for Co-saliency Detection，DARM来自于Co-saliency Detection viaCo-salient Object Discovery and Recovery，GW来自于Deep Group-wise FullyConvolutional Network for Co-saliency Detection with Graph Propagation，CSMG来自于Co-saliency Detection via Mask-guided Fully Convolutional Networks withMulti-scale Label Smoothing，RCAN来自于Detecting Robust Co-saliency withRecurrent Co-attention Neural Network，TSE-GAN来自于Two-stream Encoder GANwith Progressive Training for Co-saliency Detection，GCAGC来自于Adaptive GraphConvolutional Network with Attention Graph Clustering for Co-saliencyDetection，CoEGNet来自于Re-thinking Co-salient Object Detection，GICD来自于Gradient-induced Co-saliency Detection。

如图4所示，本发明所提GWSCoSal方法与12种流行方法在Cosal2015数据集上进行了主观对比，图4中显示的这5组图像分别是瓢虫组、斧头组、香蕉组、飞机组以及圆号组。由于Cosal2015数据集更具挑战性，因此，对其进行主观比较可以更直观地证明GWSCoSal方法的优越性。由图4可知，例如：对于瓢虫组而言，只有GWSCoSal的结果才能在彩色背景干扰的情况下准确、完整地捕捉瓢虫；对于香蕉组而言，GWSCoSal的结果可以准确地捕捉香蕉，更好地提取图间显著性信息的线索，并在抑制不相关的前景目标方面提供最佳性能。与瓢虫组、香蕉组的结果类似，GWSCoSal模型在斧头组、飞机组以及圆号组中的检测结果与人工标注的真值图更接近。

由于不相关的显著目标与公共显著目标之间具有相似的外观特征，因此，协同显著性检测容易受到无关显著目标的干扰。为了解决这一问题，本发明提出了一种弱监督学习引导的协同显著性检测(GWSCoSal)方法，包含多幅相关图像间相似信息的图间显著性信息(Inter-saliency)是协同显著性检测的核心，也是解决上述问题的关键，本发明分析发现，应依据多幅相关图像的公共类别信息来挖掘图间显著性信息。因此，本发明首先采用一组相关图像的公共类别作为真值，通过弱监督学习的方式构建了一个新的组类别激活图(GCAM)网络；然后，将训练后的GCAM网络产生的GCAM作为图间显著性线索，该GCAM只突显图像组中公共类别目标所覆盖的区域；最后，将GCAM融合到基于特征金字塔(FPN)网络的主干网络中；采用端到端的方式同时进行GCAM网络的弱监督训练和主干网络的像素级训练。本发明在受到相似非公共显著目标干扰的情况下，能够更准确地检测出协同显著目标，操作简单，检测精度较高。

本发明包含的GCAM网络在训练阶段利用只包含类别标签的DUTS数据集和拼图训练策略进行弱监督训练，并利用最高的类别得分进行求导和反向传播，以产生具有只激活公共类别目标区域的GCAM；在预测阶段则利用位置类别标签的协同显著性数据集进行测试，采用概率得分为Top-3(前3名)的公共类别作为公共类别标签，并利用该类别得分进行求导和反向传播，以产生图像组的GCAM，从而更好地提取图像组中的图间显著线索。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种弱监督学习引导的协同显著性检测方法，其特征在于，步骤如下：

步骤四：利用训练数据对主干网络进行像素级训练；

2.根据权利要求1所述的弱监督学习引导的协同显著性检测方法，其特征在于，所述GCAM网络包含N个并联的子网络，N个子网络设置一致且模型参数彼此共享；N个子网络的输出进行逐像素相加得到融合特征向量，融合特征向量通过第二全连接层和softmax分类器，获得分类结果为公共类别标签。

3.根据权利要求2所述的弱监督学习引导的协同显著性检测方法，其特征在于，所述子网络为ImageNet数据集上预训练好的VGG16网络，子网络包括连接的特征提取部分和第一全连接层，特征提取部分是由5个依次连接的卷积组构成，每个卷积组中分别对应有2、2、3、3、3个尺寸大小一致的卷积层，5个卷积组之间设有最大池化层。

4.根据权利要求2或3所述的弱监督学习引导的协同显著性检测方法，其特征在于，所述步骤一中生成每幅图像的组类别激活图GCAM的方法为：通过第二全连接层FC²的输出结果对子网络的特征提取部分中任意特征层的输出特征矩阵进行求偏导；沿着输入图像各自的子网络反向传播至该特征层，得到该特征层的梯度矩阵并计算其各通道的权重；将各通道权重与该特征层的输出特征矩阵进行逐像素相乘，利用激活函数得到图像组中每幅图像I_n的组类别激活图GCAM；实现公式为：

其中，C表示公共类别数；S∈R^C是图像组

表示特征矩阵A^nk中坐标为(i,j)的像素；

表示公共类别c中图像I_n的组类别激活图GCAM。

5.根据权利要求4所述的弱监督学习引导的协同显著性检测方法，其特征在于，所述N个子网络的输出进行逐像素相加的方法为：

其中，F₁ ¹、F₂ ¹、

分别表示第一个子网络中第一个全连接层

第二个子网络中第一个全连接层

以及第N个子网络中第一个全连接层

的输出结果；

表示逐像素相加操作；FF表示融合后的特征向量；

所述GCAM网络一个子网络的结构为：

6.根据权利要求1、2、3或5所述的弱监督学习引导的协同显著性检测方法，其特征在于，所述主干网络基于特征金字塔网络，主干网络包括编码器和解码器，解码器通过侧向连接融合编码器中各层级尺度特征；图像组

7.根据权利要求6所述的弱监督学习引导的协同显著性检测方法，其特征在于，所述编码器由VGG16网络的特征提取部分构成，即不含最后一个最大池化层、全连接层以及softmax层；解码器由与编码器结构对称的卷积层构成，通过将编码器的输出特征与对应解码器的输入特征进行侧向连接，获取多层次的图像特征信息；侧向连接时，编码器中通道数不一致的特征通过卷积操作得到与解码器通道数一致的特征；在解码器最后一层卷积层的输出中，利用线性插值将输出特征尺寸调整为原始图像尺寸。

8.根据权利要求7所述的弱监督学习引导的协同显著性检测方法，其特征在于，所述编码器输出的特征矩阵与组类别激活图GCAM进行融合：

其中，

表示编码器网络输出的特征矩阵；

表示特征矩阵

的第k个通道；

表示逐像素相乘操作；

表示融合后的特征矩阵；

表示特征矩阵

的第k个通道的矩阵；

所述编码器和解码器的结构为：

其中，ReLU和Sigmoid均表示激活函数。

9.根据权利要求7或8所述的弱监督学习引导的协同显著性检测方法，其特征在于，所述GCAM网络的弱监督训练的损失函数为CE-loss损失函数：

其中，

所述主干网络的像素级训练的损失函数L_P为：

所述GWSCoSal模型的总体训练损失函数为：L＝L_P+λL_GWS；

其中，λ是用于平衡L_GWS和L_P之间比例的超参数；

所述训练数据采用现有的DUTS数据集和拼图训练策略，随机选择训练数据中的一组5幅图像分别输入GCAM网络和主干网络；所述GCAM网络的弱监督训练中，将图像组中的5幅图像分别输入至GCAM网络中5个对应的子网络，以图像组的公共类别标签作为真值，将第二个全连接层的输出结果与各子网络的特征提取部分中任意特征层的输出特征矩阵进行求偏导；沿着输入图像各自的子网络反向传播至该特征层，得到该特征层的梯度矩阵并计算其各通道的权重；将各通道权重与该特征层的输出特征矩阵进行逐像素相乘，利用激活函数得到5幅图像对应的组类别激活图GCAM；所述主干网络的像素级训练中，将图像组中的5幅图像依次输入至主干网络的编码器；将编码器的最后一个输出特征与GCAM网络生成的组类别激活图GCAM以逐像素相乘的方式进行融合；将融合的特征输入至主干网络的解码器，生成5幅图像的协同显著图。

10.根据权利要求2、3、7或8所述的弱监督学习引导的协同显著性检测方法，其特征在于，所述步骤六中将现有协同显著性数据集中一组5幅图像分别输入GCAM网络和主干网络，其中，每幅输入图像尺寸统一调整为224×224；在图像组输入GCAM网络进行分类时，选择概率得分为Top-3的公共类别作为公共类别标签，并将选择的概率得分作为前3个公共类别对应生成的组类别激活图GCAM的权重，然后，将该权重与每幅输入图像的前3个公共类别对应生成的组类别激活图GCAM进行逐像素相乘，并将3个相乘后的组类别激活图GCAM进行逐像素取均值，生成每幅输入图像的组类别激活图GCAM；

所述步骤六中预测的图像组

的组类别激活图GCAM为：

其中，

表示图像I_n中公共类别m的预测GCAM；p_m表示图像组

中公共类别m的概率得分；

表示图像I_n的预测组类别激活图GCAM；

获得组类别激活图