CN112348033A

CN112348033A - 一种协同显著性目标检测方法

Info

Publication number: CN112348033A
Application number: CN202011100360.0A
Authority: CN
Inventors: 丛润民; 张晨; 杨宁; 张禹墨; 杨浩巍; 赵耀
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-02-09
Anticipated expiration: 2040-10-15
Also published as: CN112348033B

Abstract

本发明涉及一种协同显著性目标检测方法，具体包括如下步骤：给定一个包含N幅相关图像的图像组；步骤2：使用共享的骨干特征提取器来获取深层特征；步骤3：通过在线的图内显著性引导模块生成图内显著性特征；步骤4：采用集成‑分发结构聚合群组语义特征并自适应地将其分配给不同的个体，以实现协同显著性特征学习；步骤5：将低分辨率的协同显著性特征送入群组一致性保持解码器和协同显著性预测头部件来一致性地突出协同显著性目标并生成全分辨率的协同显著性图。通过本发明提供方法能够生成更加准确、完整的协同显著性图，且能够有效抑制无关干扰的影响，图间一致性保持好。

Description

一种协同显著性目标检测方法

技术领域

本发明涉及计算机视觉、深度学习领域，具体说是一种协同显著性目标检测方法。

背景技术

人类视觉系统具有天然的注意力机制，这使得人们能够从复杂的场景中快速找到最吸引注意的内容或目标。显著性检测作为计算机视觉的一个分支，致力于使计算机能够自动发现这些显著区域，已经被广泛应用于图像分割、目标检测、图像编辑等研究领域，以及智能拍照、推荐系统、自动驾驶等工程领域，具有重要的研究价值和广阔的市场前景。与人类的协同处理机制一致，协同显著性检测旨在发现包含多个相关图像的图像组中多次出现的显著性目标，可应用于协同分割、图像匹配、协同定位等。与图像显著性检测不同，协同显著性检测模型需要通过图像间约束来考虑图像组中显著目标的共同属性。近年来，深度学习技术的蓬勃发展极大地促进了协同显著性检测任务的性能提升。Zhang等人提出了一个在掩膜引导下的全卷积神经网络分层框架来实现协同显著性目标检测。Hsu等人提出了一种基于图的无监督卷积神经网络来完成协同显著性检测。Zhang等人应用卷积神经网络提取高级语义特征，提出了一种自步多实例学习的协同显著性检测方法。Wei等人提出了一个端到端的全监督协同显著性检测架构。Zheng等人提出一种特征自适应的半监督协同显著性检测框架，将多视角特征选择、图结构优化和协同显著性传播整合在同一网络中进行学习。Wang等人提出了一种融合群组语义信息的鲁棒协同显著性检测方法。Li等人提出了一种递归的协同注意力网络实现协同显著性检测。Zhang等人提出了一种带有注意力图聚类机制的自适应图卷积网络以实现协同显著性检测。

发明人在实现本发明的过程中，发现现有技术中至少存在以下缺点和不足：

(1)RGB协同显著性检测是在图像组中进行检测，学习到的群组语义会随输入图像组的顺序不同而变化，从而导致训练不稳定；

(2)图内显著性和图间关系存在竞争，学习到的群组语义直接与个体特征融合会导致图像间交互过程中的信息冗余；

(3)特征解码时忽略了图像间的一致性，这导致最终的协同显著性检测结果的图间一致性降低。

发明内容

针对现有技术中存在的缺陷，本发明旨在充分学习单图内的显著性目标基础上，有效的挖掘组内对应关系，设计一种两阶段的聚合和分发网络动态的对协同显著性特征进行提取和重新分配，以获得更佳的检测性能。

为达到以上目的，本发明采取的技术方案是：

本发明提供了一种协同显著性目标检测方法，技术路线为：

给定一个包含N幅相关图像的图像组

协同显著性目标检测的目标是将显著且反复出现的目标与非显著背景以及那些显著但不反复出现的目标区分开来，并预测相应的协同显著图。

一种协同显著性目标检测方法，具体包括如下步骤：

步骤1：给定一个包含N幅相关图像的图像组

设计协同显著性目标检测网络，包括共享的骨干特征提取器、在线的图内显著性引导模块、集成和分发模块、群组一致性保持解码器和显著性预测模块；

步骤2：使用共享的骨干特征提取器来获取图像组

的深层特征；

步骤3：基于深层特征，通过在线的图内显著性引导模块生成图内显著性特征；

步骤4：基于图内显著性特征，采用集成和分发模块聚合群组语义信息并自适应地将其分配给不同的个体，以实现协同显著性特征学习；

步骤5：将协同显著性特征送入群组一致性保持解码器和协同显著性预测头部件中来一致性地突出协同显著性目标并生成全分辨率的协同显著性图。

在上述方案的基础上，步骤2具体包括如下步骤：

将一个包含N幅相关图像的图像组以权值共享的方式馈送到骨干网络中，得到一组深层特征

中，所述

表示大小为C×H×W的线性空间。

在上述方案的基础上，步骤3具体包括如下步骤：

利用在线的图内显著性引导模块中的图内显著性预测头部件来在线的推断显著性图，得到在线显著性先验

表示大小为1×H×W的线性空间，并将其与空间注意力特征融合，得到一组图内显著性特征

使得背景冗余信息得到了有效的抑制；

其中，

表示空间注意力特征，

和

分别表示对骨干网络输出特征F⁽ⁿ⁾计算通道维平均池化和最大池化得到的特征，方括号[]代表通道维度上的串联，f^3×3代表卷积核大小为3×3的卷积操作，σ代表Sigmoid激活函数，⊙代表元素级的相乘操作。

得益于图内显著性分支的联合优化框架，可以得到可信度更高、更为灵活的图内引导信息。在训练阶段，除了从协同显著性目标检测数据集加载的输入外，还将从单图显著性目标数据集加载的K个辅助样本与图内显著性预测头部件同时馈送到共享的骨干网络，从而生成单图显著性图

单图显著性预测和协同显著性预测作为一个多任务学习框架进行联合优化，在提供可靠的显著性先验方面具有更好的灵活性和可扩展性。

在上述方案的基础上，所述集成和分发模块包括：群组注意力语义集成模块和门控群组分发模块；

在上述方案的基础上，步骤4具体包括如下步骤：

本发明设计了块级的特征重组策略，利用群组注意力语义集成模块首先将步骤3得到的每一个图内显著性特征U⁽ⁿ⁾拆分成B个特征块

然后，将图内显著性特征依次连接为

通过块级的分组重组策略，使群组特征U转换为

其中

用于收集来自于所有N个图内显著性特征的第b个特征块的特征。

为了实现顺序不变性，需要首先对整个S_b进行通道级softmax，然后在N个特征块上求和。对每个S_b重复上述操作，可以获得对应的块级群组特征

所述

表示大小为D×H×W的线性空间，它们对群组语义信息进行了统一编码。

将局部和全局关系编码为群组注意力结构。

首先利用具有不同半径的空洞卷积来整合多感受野特征并捕捉局部上下文信息。

具体地说，先将来自不同空洞卷积层的特征图进行级联，并馈送到1×1卷积层中进行跨通道交互，本过程可表示为：

其中，

代表了半径为k、卷积核大小3×3的卷积操作，它将会生成D/4维度的特征图，f^1×1是用于保持输入通道尺寸的1×1卷积层。

然后，基于注意力的方式对长距离语义依赖关系进行了建模。

对于一个集成特征块

通过并行的卷积层生成三个新特征，它们可以被表示为“查询”、“键”和“值”：

其中，f^q,f^k和f^v是三个独立的卷积层，

操作将三维张量拉伸，得到输出

表示大小为D×(H·W)的线性空间；

然后，可以按照公式(5)构造相应的全局注意力特征

其中，*表示矩阵乘法，T_r代表矩阵转置，CSM代表了列级的softmax操作，

代表了

操作的逆运算。

每个块级群组特征G_b被转换为全局注意力特征

而不需要权值共享。

然后，对

应用1×1卷积进行块融合，得到群组语义信息

表示大小为C×H×W的线性空间。

所述门控群组分发模块用于自适应地将最有用的群组语义信息分配给每个个体。

为此，构造了一个动态学习权重的群组重要性估计器，通过门控机制将群组语义信息与不同的图内显著性特征结合起来。

具体地说，首先将特征块

和群组语义信息G连接起来；

然后应用1×1卷积层进行通道上的降维，产生

作为估计器的输入；

随后，按照公式(6)得到概率图

其中，SE表示Squeeze-and-Excitation映射函数，f^p是一个瓶颈卷积层，σ表示Sigmoid激活函数。

直观来说，将P视为一种概率度量，它决定了群组特征和图内显著特征之间的线性组合权重。

因此，通过门控操作得出协同显著性特征X⁽ⁿ⁾：

其中，

表示哈达玛积。要注意的是，

在上述方案的基础上，所有图内显著性特征输入均共享门控群组分发模块。

在上述方案的基础上，步骤5具体包括如下步骤：

使用群组一致性保持解码器来一致地预测全分辨率协同显著性图。

群组一致性保持解码器由三个级联的特征解码单元组成，通过每个单元，特征分辨率翻倍，而特征通道减半。

在每个单元中，输入的协同显著性特征

通过一个1×1卷积和一个2×反卷积变换到

其中C_d＝C/2，

表示大小为C_d×2H×2W的线性空间。

然后，对

应用全局平均池化，得到N个向量化表示

这些向量化表示进一步排列到矩阵

的行中，

表示大小为N×C_d的线性空间。

接下来，对Y进行列级的softmax和行级的求和操作，生成更为紧凑的组特征向量

表示大小为C_d的线性空间。注意，该过程也是顺序不敏感的。

因此，输出的更高分辨率的特征图可以通过以下方式得到：

其中，X⁽ⁿ⁾为输入的协同显著性特征，

为全局池化的输出向量，y是对Y进行列级的softmax和行级的求和操作的输出结果，MLP是共享的多层感知机，它将

和y连接之后的特征映射成C_d维，通过堆叠三个级联特征解码单元，可以获得空间分辨率最精细的N个解码特征

表示大小为C/8×8H×8W的线性空间，并进一步馈送到共享的协同显著性预测头部件以生成全分辨率的图M⁽ⁿ⁾。这里，协同显著性预测头部件包含了带有Sigmoid激活函数的1×1卷积层。

在上述方案的基础上，协同显著性目标检测网络在损失函数的约束下进行训练。

本发明在一个多任务学习框架中联合优化了协同显著性预测和单图显著性预测。

通过两个二值交叉熵损失函数来构成整个协同显著性目标检测网络的联合目标函数

其中，

是协同显著性损失函数，

是辅助的显著性损失函数；

M⁽ⁿ⁾代表第n个预测输出的协同显著性图，

为给定的第n个协同显著性真图，A^(k)为第k个输出的辅助显著性预测，

为第k个辅助显著性真图。

本发明的有益效果：

本发明提出了一种协同显著性目标检测方法，该方法能够以在线的方式生成图内显著性引导特征，通过两阶段的集成-分发结构来聚合群组语义特征并自适应地将其分配给不同的个体，以实现协同显著性特征学习。本发明方法能够生成更加准确、完整的协同显著性图，且能够有效抑制无关干扰的影响，图间一致性保持好。

附图说明

本发明有如下附图：

图1给出了本发明提出方法的检测结果。

图2给出本发明提出方法的整体流程图。

具体实施方式

以下结合附图1～2对本发明作进一步详细说明。

本发明提出了一种协同显著性目标检测方法，通过群组语义集成和自适应分发策略，能够更加准确地建模图间关系，进而生成更好的协同显著性检测结果。

1、技术路线

给定一个包含N幅相关图像的图像组

协同显著性目标检测的目标是将显著且反复出现的目标与非显著背景以及那些显著但不反复出现的目标区分开来，并预测相应的协同显著图。在给定图像组的情况下，首先使用共享的骨干特征提取器来获取深层特征，并通过在线的图内显著性引导模块生成图内显著性特征，然后将群组注意力语义集成模块和门控群组分发模块集成到一个两阶段的集成-分发结构中，来聚合群组语义特征并自适应地将其分配给不同的个体，以实现协同显著性特征学习。最后，将协同显著性特征送入群组一致性保持解码器和协同显著性预测头部件中来一致性地突出协同显著性目标并生成全分辨率的协同显著性图。

2、在线的图内显著性引导模块

从概念上讲，协同显著性检测任务可以分解为两个关键部分，即显著性和重复性。前者要求目标在视觉上是显著的、容易引起注意的，而后者则约束目标在图像组中是重复多次出现的。但是，此任务面临的挑战是：1)单个图像中的显著性目标可能不会在其他图像中都出现，2)重复的对象不一定在视觉上是显著的，这使得很难学习到将这两个因素结合在一起的统一表示。因此，本发明采用联合学习框架来提供可训练的显著性先验作为指导信息，以此抑制背景冗余。

具体地说，将群组输入以权值共享的方式馈送到骨干网络中，得到一组深层特征

中。然后利用在线的图内显著性引导模块中的图内显著性预测头部件来在线的推断显著性图，得到在线显著性先验

表示大小为1×H×W的线性空间，并将其与空间注意力特征融合：

其中，

表示空间注意力特征，

和

分别表示对F⁽ⁿ⁾计算通道维平均池化和最大池化得到的特征，方括号[]代表通道维度上的串联，f^3×3代表卷积核大小为3×3的卷积操作，σ代表Sigmoid激活函数，⊙代表元素级的相乘操作。通过这种方式，得到了一组图内显著性特征

并且背景的冗余得到了有效的抑制。

得益于图内显著性分支的联合优化框架，可以得到可信度更高、更为灵活的引导信息。在训练阶段，除了从协同显著性目标检测数据集加载的输入外，还将从单图显著性目标数据集加载的K个辅助样本与图内显著性预测头部件同时馈送到共享的骨干网络，从而生成单图显著性图

单图显著性和协同显著性预测作为一个多任务学习框架进行联合优化，在提供可靠的显著性先验方面具有更好的灵活性和可扩展性。

3、群组注意力语义集成模块

为了有效地捕获具有判别力、鲁棒的群组关系，本发明设置了三个关键标准：

1)对输入顺序不敏感，这意味着所学习的群组语义特征应对分组图像的输入顺序不敏感；

2)考虑到协同显著性目标可能位于图像中的不同位置，因此需要对空间位置变化鲁棒；

3)兼顾计算效率，特别是在处理大型图像组或高维特征时。基于此，本发明提出了一种计算效率高且对顺序不敏感的群组注意力语义集成模块，该模块能够很好的在组语义上下文中建立协同显著对象的局部和全局联系。

直接串联图内显著性特征来学习群组关系不可避免地会导致较高的计算复杂度和顺序敏感性，本发明通过将通道分组调整为按块分组来设计特征重组策略，该重组策略在块级别重新组合了特征通道。

具体来说，本发明首先将每一个图内显著性特征U⁽ⁿ⁾拆分成B个特征块

然后将图内显著性特征依次连接为

通过块级的分组重组策略，使连接之后的群组特征U转换为

其中

所述

为了获取更丰富的语义信息，本发明将每个块级群组特征G_b独立处理，然后融合得到群组语义表示。由于G_b只集成了相同位置的图间特征，因此本发明进一步聚合了不同空间位置之间的图间关系。现有的群组集成方法只对局部对应关系进行建模，不能很好地对分散的协同显著性目标的远程依赖关系进行建模，因此本发明将局部和全局关系编码为群组注意力结构。

其中，

代表了半径为k、卷积核大小3×3的卷积操作，它将会生成D/4维度的特征图，f^1×1是用于保持输入通道尺寸的1×1卷积层。事实上，这一步操作建立了不同图像相同位置的关系。

由于协同显著性目标可能出现在不同图像的任何位置，受到自注意力机制的启发，本发明以基于注意力的方式对长距离语义依赖关系进行了建模。

对于一个集成特征块

其中，f^q,f^k和f^v是三个独立的卷积层，

操作将三维张量拉伸，得到输出

表示大小为D×(H·W)的线性空间；

然后，可以按照如下公式构造相应的全局注意力特征

其中，*表示矩阵乘法，T_r代表矩阵转置，CSM(·)代表了列级的softmax操作，

代表了

操作的逆运算。每个块级群组特征G_b被转换为全局的注意力特征

而不需要权值共享。然后对

应用1×1卷积进行块融合，得到群组语义信息

表示大小为C×H×W的线性空间。

4、门控群组分发模块

在以往的研究中，学习到的群组语义信息被直接复制，然后与图内显著性特征连接，这意味着分组信息被不同的图像平等地利用。实际上，群组语义信息编码了所有图像之间的关系，对于不同图像的协同显著性预测来说，这可能包括一些信息冗余。

因此，本发明提出了一种门控群组分发模块来自适应地将最有用的组间信息分配给每个个体。为此，本发明构造了一个动态学习权重的群组重要性估计器，通过门控机制将群组语义与不同的图内显著性特征结合起来。

具体地说，首先将

和G连接起来，然后应用1×1卷积层进行通道上的降维，产生

作为估计器的输入。

然后，可以按照如下公式得到概率图

其中，SE表示Squeeze-and-Excitation映射函数，f^p是一个瓶颈卷积层。直观来说，将P视为一种概率度量，它决定了群组特征和图内显著特征之间的线性组合权重。因此，可以通过门控操作得出协同显著性特征X⁽ⁿ⁾：

其中，

表示哈达玛积。要注意的是，所有图内显著性特征输入均共享门控群组分发模块。

5、群组一致性保持解码器

分层特征提取产生低分辨率的深度特征，这些特征应该被放大以生成全分辨率预测。然而，最常见的基于上采样或反卷积的特征解码器不适用于协同显著性目标检测任务，因为它们忽略了图像间的约束关系，并且在预测过程中可能会削弱图像之间的一致性。因此，本发明提出了一种群组一致性保持解码器来一致地预测全分辨率协同显著性图。

群组一致性保持解码器由三个级联的特征解码单元组成，通过每个单元，特征分辨率翻倍，而特征通道减半。在每个单元中，输入的协同显著性特征

通过一个1×1卷积和一个2×反卷积变换到

其中C_d＝C/2，

表示大小为C_d×2H×2W的线性空间。

然后，对

应用全局平均池化，得到N个向量化表示

这些向量化表示进一步排列到矩阵

的行中，

表示大小为N×C_d的线性空间。接下来，对Y进行列级的softmax和行级的求和操作，生成更为紧凑的组特征向量

表示大小为C_d的线性空间。注意，该过程也是顺序不敏感的。因此，输出的更高分辨率的特征图可以通过以下方式得到：

其中，MLP是共享的多层感知机，它将

和y连接之后的特征映射成C_d维。通过堆叠三个级联特征解码单元，可以获得空间分辨率最精细的N个解码特征

表示大小为C/8×8H×8W的线性空间。并进一步馈送到共享的协同显著性预测头部件以生成全分辨率的图M⁽ⁿ⁾。这里，协同显著性预测头部件包含了带有Sigmoid激活函数的1×1卷积层。

6、损失函数

本发明在一个多任务学习框架中联合优化了协同显著性预测和单图显著性预测。给定N个协同显著性图和真图(即

和

)，以及K个辅助显著性预测和真图(即

和

)，通过两个二值交叉熵损失函数来构成整个协同显著性目标检测网络的联合目标函数

其中，

是协同显著性损失函数，

是辅助的显著性损失函数。

M⁽ⁿ⁾代表第n个预测输出的协同显著性图，

为第k个辅助显著性真图。

图1给出了本发明技术的可视化实例。

第一列为RGB图像，第二列为协同显著性检测结果的真图，第三列为本发明生成的协同显著性结果。从结果可以看出，本发明方法能够完整、准确的提取协同显著性目标，而且能够很好的抑制干扰，如第三幅图像中的苹果，它是单图显著性目标但却不是协同显著性目标。

附图2给出了本发明的整体技术流程图，主要包括共享的特征提取器、在线的图内显著性引导模块、集成和分发模块、群组一致性保持解码和协同显著性预测头部件。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种协同显著性目标检测方法，其特征在于，具体包括如下步骤：

步骤1：给定一个包含N幅相关图像的图像组

步骤2：使用共享的骨干特征提取器来获取图像组

的深层特征；

2.如权利要求1所述的协同显著性目标检测方法，其特征在于，步骤2具体包括如下步骤：

中，所述

表示大小为C×H×W的线性空间。

3.如权利要求2所述的协同显著性目标检测方法，其特征在于，步骤3具体包括如下步骤：

使得背景冗余得到了有效的抑制；

其中，

表示空间注意力特征，

和

4.如权利要求3所述的协同显著性目标检测方法，其特征在于，所述集成和分发模块包括：群组注意力语义集成模块和门控群组分发模块。

5.如权利要求4所述的协同显著性目标检测方法，其特征在于，

群组注意力语义集成模块首先将步骤3得到的每一个图内显著性特征U⁽ⁿ⁾拆分成B个特征块

然后，将图内显著性特征依次连接为

通过块级的分组重组策略，使群组特征U转换为

其中

用于收集来自于所有N个图内显著性特征的第b个特征块的特征；

为了实现顺序不变性，需要首先对整个S_b进行通道级softmax，然后在N个特征块上求和；对每个S_b重复上述操作，获得对应的块级群组特征

所述

表示大小为D×H×W的线性空间，对群组语义信息进行了统一编码；

将局部和全局关系编码为群组注意力结构；

首先，利用具有不同半径的空洞卷积来整合多感受野特征并捕捉局部上下文信息；

其中，

代表了半径为k、卷积核大小3×3的卷积操作，它将会生成D/4维度的特征图，f^1×1是用于保持输入通道尺寸的1×1卷积层；

然后，基于注意力的方式对长距离语义依赖关系进行了建模；

对于一个集成特征块

通过并行的卷积层生成三个新特征，它们被表示为“查询”、“键”和“值”：

其中，f^q,f^k和f^v是三个独立的卷积层，

操作将三维张量拉伸，得到输出

表示大小为D×(H·W)的线性空间；

然后，按照公式(5)构造相应的全局注意力特征

代表了

操作的逆运算；

每个块级群组特征G_b被转换为全局注意力特征

而不需要权值共享；

然后，对

应用1×1卷积进行块融合，得到群组语义信息

表示大小为C×H×W的线性空间；

所述门控群组分发模块用于自适应地将最有用的群组语义信息分配给每个个体；

具体地说，首先将特征块

和群组语义信息G连接起来；

然后应用1×1卷积层进行通道上的降维，产生

作为估计器的输入；

然后，按照公式(6)得到概率图

其中，SE表示Squeeze-and-Excitation映射函数，f^p是一个瓶颈卷积层，σ表示Sigmoid激活函数；

通过门控操作得出协同显著性特征X⁽ⁿ⁾：

其中，

表示哈达玛积。

6.如权利要求5所述的协同显著性目标检测方法，其特征在于，所有图内显著性特征输入均共享门控群组分发模块。

7.如权利要求6所述的协同显著性目标检测方法，其特征在于，步骤5具体包括如下步骤：

所述群组一致性保持解码器由三个级联的特征解码单元组成，通过每个单元，特征分辨率翻倍，而特征通道减半；

在每个单元中，输入的协同显著性特征

通过一个1×1卷积和一个2×反卷积变换到

其中C_d＝C/2，

表示大小为C_d×2H×2W的线性空间；

然后，对

应用全局平均池化，得到N个向量化表示

这些向量化表示进一步排列到矩阵

的行中，

表示大小为N×C_d的线性空间；

表示大小为C_d的线性空间；

输出的更高分辨率的特征图通过以下方式得到：

其中，X⁽ⁿ⁾为输入的协同显著性特征，

和y连接之后的特征映射成C^d维，通过堆叠三个级联特征解码单元，获得空间分辨率最精细的N个解码特征

表示大小为C/8×8H×8W的线性空间，并进一步馈送到共享的协同显著性预测头部件以生成全分辨率的图M⁽ⁿ⁾；这里，协同显著性预测头部件包含了带有Sigmoid激活函数的1×1卷积层。

8.如权利要求7所述的协同显著性目标检测方法，其特征在于，协同显著性目标检测网络在损失函数的约束下进行训练；

其中，

是协同显著性损失函数，

是辅助的显著性损失函数；

M⁽ⁿ⁾代表第n个预测输出的协同显著性图，

为第k个辅助显著性真图。