CN112348033A - 一种协同显著性目标检测方法 - Google Patents

一种协同显著性目标检测方法 Download PDF

Info

Publication number
CN112348033A
CN112348033A CN202011100360.0A CN202011100360A CN112348033A CN 112348033 A CN112348033 A CN 112348033A CN 202011100360 A CN202011100360 A CN 202011100360A CN 112348033 A CN112348033 A CN 112348033A
Authority
CN
China
Prior art keywords
feature
group
cooperative
saliency
significance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011100360.0A
Other languages
English (en)
Other versions
CN112348033B (zh
Inventor
丛润民
张晨
杨宁
张禹墨
杨浩巍
赵耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202011100360.0A priority Critical patent/CN112348033B/zh
Publication of CN112348033A publication Critical patent/CN112348033A/zh
Application granted granted Critical
Publication of CN112348033B publication Critical patent/CN112348033B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种协同显著性目标检测方法,具体包括如下步骤:给定一个包含N幅相关图像的图像组;步骤2:使用共享的骨干特征提取器来获取深层特征;步骤3:通过在线的图内显著性引导模块生成图内显著性特征;步骤4:采用集成‑分发结构聚合群组语义特征并自适应地将其分配给不同的个体,以实现协同显著性特征学习;步骤5:将低分辨率的协同显著性特征送入群组一致性保持解码器和协同显著性预测头部件来一致性地突出协同显著性目标并生成全分辨率的协同显著性图。通过本发明提供方法能够生成更加准确、完整的协同显著性图,且能够有效抑制无关干扰的影响,图间一致性保持好。

Description

一种协同显著性目标检测方法
技术领域
本发明涉及计算机视觉、深度学习领域,具体说是一种协同显著性目标检测方法。
背景技术
人类视觉系统具有天然的注意力机制,这使得人们能够从复杂的场景中快速找到最吸引注意的内容或目标。显著性检测作为计算机视觉的一个分支,致力于使计算机能够自动发现这些显著区域,已经被广泛应用于图像分割、目标检测、图像编辑等研究领域,以及智能拍照、推荐系统、自动驾驶等工程领域,具有重要的研究价值和广阔的市场前景。与人类的协同处理机制一致,协同显著性检测旨在发现包含多个相关图像的图像组中多次出现的显著性目标,可应用于协同分割、图像匹配、协同定位等。与图像显著性检测不同,协同显著性检测模型需要通过图像间约束来考虑图像组中显著目标的共同属性。近年来,深度学习技术的蓬勃发展极大地促进了协同显著性检测任务的性能提升。Zhang等人提出了一个在掩膜引导下的全卷积神经网络分层框架来实现协同显著性目标检测。Hsu等人提出了一种基于图的无监督卷积神经网络来完成协同显著性检测。Zhang等人应用卷积神经网络提取高级语义特征,提出了一种自步多实例学习的协同显著性检测方法。Wei等人提出了一个端到端的全监督协同显著性检测架构。Zheng等人提出一种特征自适应的半监督协同显著性检测框架,将多视角特征选择、图结构优化和协同显著性传播整合在同一网络中进行学习。Wang等人提出了一种融合群组语义信息的鲁棒协同显著性检测方法。Li等人提出了一种递归的协同注意力网络实现协同显著性检测。Zhang等人提出了一种带有注意力图聚类机制的自适应图卷积网络以实现协同显著性检测。
发明人在实现本发明的过程中,发现现有技术中至少存在以下缺点和不足:
(1)RGB协同显著性检测是在图像组中进行检测,学习到的群组语义会随输入图像组的顺序不同而变化,从而导致训练不稳定;
(2)图内显著性和图间关系存在竞争,学习到的群组语义直接与个体特征融合会导致图像间交互过程中的信息冗余;
(3)特征解码时忽略了图像间的一致性,这导致最终的协同显著性检测结果的图间一致性降低。
发明内容
针对现有技术中存在的缺陷,本发明旨在充分学习单图内的显著性目标基础上,有效的挖掘组内对应关系,设计一种两阶段的聚合和分发网络动态的对协同显著性特征进行提取和重新分配,以获得更佳的检测性能。
为达到以上目的,本发明采取的技术方案是:
本发明提供了一种协同显著性目标检测方法,技术路线为:
给定一个包含N幅相关图像的图像组
Figure BDA0002725105270000031
协同显著性目标检测的目标是将显著且反复出现的目标与非显著背景以及那些显著但不反复出现的目标区分开来,并预测相应的协同显著图。
一种协同显著性目标检测方法,具体包括如下步骤:
步骤1:给定一个包含N幅相关图像的图像组
Figure BDA0002725105270000032
设计协同显著性目标检测网络,包括共享的骨干特征提取器、在线的图内显著性引导模块、集成和分发模块、群组一致性保持解码器和显著性预测模块;
步骤2:使用共享的骨干特征提取器来获取图像组
Figure BDA0002725105270000033
的深层特征;
步骤3:基于深层特征,通过在线的图内显著性引导模块生成图内显著性特征;
步骤4:基于图内显著性特征,采用集成和分发模块聚合群组语义信息并自适应地将其分配给不同的个体,以实现协同显著性特征学习;
步骤5:将协同显著性特征送入群组一致性保持解码器和协同显著性预测头部件中来一致性地突出协同显著性目标并生成全分辨率的协同显著性图。
在上述方案的基础上,步骤2具体包括如下步骤:
将一个包含N幅相关图像的图像组以权值共享的方式馈送到骨干网络中,得到一组深层特征
Figure BDA0002725105270000041
中,所述
Figure BDA0002725105270000042
表示大小为C×H×W的线性空间。
在上述方案的基础上,步骤3具体包括如下步骤:
利用在线的图内显著性引导模块中的图内显著性预测头部件来在线的推断显著性图,得到在线显著性先验
Figure BDA0002725105270000043
Figure BDA0002725105270000044
表示大小为1×H×W的线性空间,并将其与空间注意力特征融合,得到一组图内显著性特征
Figure BDA0002725105270000045
使得背景冗余信息得到了有效的抑制;
Figure BDA0002725105270000046
Figure BDA0002725105270000047
其中,
Figure BDA0002725105270000048
表示空间注意力特征,
Figure BDA0002725105270000049
Figure BDA00027251052700000410
分别表示对骨干网络输出特征F(n)计算通道维平均池化和最大池化得到的特征,方括号[]代表通道维度上的串联,f3×3代表卷积核大小为3×3的卷积操作,σ代表Sigmoid激活函数,⊙代表元素级的相乘操作。
得益于图内显著性分支的联合优化框架,可以得到可信度更高、更为灵活的图内引导信息。在训练阶段,除了从协同显著性目标检测数据集加载的输入外,还将从单图显著性目标数据集加载的K个辅助样本与图内显著性预测头部件同时馈送到共享的骨干网络,从而生成单图显著性图
Figure BDA00027251052700000411
单图显著性预测和协同显著性预测作为一个多任务学习框架进行联合优化,在提供可靠的显著性先验方面具有更好的灵活性和可扩展性。
在上述方案的基础上,所述集成和分发模块包括:群组注意力语义集成模块和门控群组分发模块;
在上述方案的基础上,步骤4具体包括如下步骤:
本发明设计了块级的特征重组策略,利用群组注意力语义集成模块首先将步骤3得到的每一个图内显著性特征U(n)拆分成B个特征块
Figure BDA0002725105270000051
然后,将图内显著性特征依次连接为
Figure BDA0002725105270000052
通过块级的分组重组策略,使群组特征U转换为
Figure BDA0002725105270000053
其中
Figure BDA0002725105270000054
用于收集来自于所有N个图内显著性特征的第b个特征块的特征。
为了实现顺序不变性,需要首先对整个Sb进行通道级softmax,然后在N个特征块上求和。对每个Sb重复上述操作,可以获得对应的块级群组特征
Figure BDA0002725105270000055
所述
Figure BDA0002725105270000056
表示大小为D×H×W的线性空间,它们对群组语义信息进行了统一编码。
将局部和全局关系编码为群组注意力结构。
首先利用具有不同半径的空洞卷积来整合多感受野特征并捕捉局部上下文信息。
具体地说,先将来自不同空洞卷积层的特征图进行级联,并馈送到1×1卷积层中进行跨通道交互,本过程可表示为:
Figure BDA0002725105270000057
其中,
Figure BDA0002725105270000058
代表了半径为k、卷积核大小3×3的卷积操作,它将会生成D/4维度的特征图,f1×1是用于保持输入通道尺寸的1×1卷积层。
然后,基于注意力的方式对长距离语义依赖关系进行了建模。
对于一个集成特征块
Figure BDA0002725105270000061
通过并行的卷积层生成三个新特征,它们可以被表示为“查询”、“键”和“值”:
Figure BDA0002725105270000062
其中,fq,fk和fv是三个独立的卷积层,
Figure BDA0002725105270000063
操作将三维张量拉伸,得到输出
Figure BDA0002725105270000064
Figure BDA0002725105270000065
表示大小为D×(H·W)的线性空间;
然后,可以按照公式(5)构造相应的全局注意力特征
Figure BDA0002725105270000066
Figure BDA0002725105270000067
其中,*表示矩阵乘法,Tr代表矩阵转置,CSM代表了列级的softmax操作,
Figure BDA0002725105270000068
代表了
Figure BDA0002725105270000069
操作的逆运算。
每个块级群组特征Gb被转换为全局注意力特征
Figure BDA00027251052700000610
而不需要权值共享。
然后,对
Figure BDA00027251052700000611
应用1×1卷积进行块融合,得到群组语义信息
Figure BDA00027251052700000612
Figure BDA00027251052700000613
表示大小为C×H×W的线性空间。
所述门控群组分发模块用于自适应地将最有用的群组语义信息分配给每个个体。
为此,构造了一个动态学习权重的群组重要性估计器,通过门控机制将群组语义信息与不同的图内显著性特征结合起来。
具体地说,首先将特征块
Figure BDA0002725105270000071
和群组语义信息G连接起来;
然后应用1×1卷积层进行通道上的降维,产生
Figure BDA0002725105270000072
作为估计器的输入;
随后,按照公式(6)得到概率图
Figure BDA0002725105270000073
Figure BDA0002725105270000074
其中,SE表示Squeeze-and-Excitation映射函数,fp是一个瓶颈卷积层,σ表示Sigmoid激活函数。
直观来说,将P视为一种概率度量,它决定了群组特征和图内显著特征之间的线性组合权重。
因此,通过门控操作得出协同显著性特征X(n)
Figure BDA0002725105270000075
其中,
Figure BDA0002725105270000076
表示哈达玛积。要注意的是,
在上述方案的基础上,所有图内显著性特征输入均共享门控群组分发模块。
在上述方案的基础上,步骤5具体包括如下步骤:
使用群组一致性保持解码器来一致地预测全分辨率协同显著性图。
群组一致性保持解码器由三个级联的特征解码单元组成,通过每个单元,特征分辨率翻倍,而特征通道减半。
在每个单元中,输入的协同显著性特征
Figure BDA0002725105270000077
通过一个1×1卷积和一个2×反卷积变换到
Figure BDA0002725105270000078
其中Cd=C/2,
Figure BDA0002725105270000079
表示大小为Cd×2H×2W的线性空间。
然后,对
Figure BDA0002725105270000081
应用全局平均池化,得到N个向量化表示
Figure BDA0002725105270000082
这些向量化表示进一步排列到矩阵
Figure BDA0002725105270000083
的行中,
Figure BDA0002725105270000084
表示大小为N×Cd的线性空间。
接下来,对Y进行列级的softmax和行级的求和操作,生成更为紧凑的组特征向量
Figure BDA0002725105270000085
Figure BDA0002725105270000086
表示大小为Cd的线性空间。注意,该过程也是顺序不敏感的。
因此,输出的更高分辨率的特征图可以通过以下方式得到:
Figure BDA0002725105270000087
其中,X(n)为输入的协同显著性特征,
Figure BDA0002725105270000088
为全局池化的输出向量,y是对Y进行列级的softmax和行级的求和操作的输出结果,MLP是共享的多层感知机,它将
Figure BDA0002725105270000089
和y连接之后的特征映射成Cd维,通过堆叠三个级联特征解码单元,可以获得空间分辨率最精细的N个解码特征
Figure BDA00027251052700000810
Figure BDA00027251052700000811
表示大小为C/8×8H×8W的线性空间,并进一步馈送到共享的协同显著性预测头部件以生成全分辨率的图M(n)。这里,协同显著性预测头部件包含了带有Sigmoid激活函数的1×1卷积层。
在上述方案的基础上,协同显著性目标检测网络在损失函数的约束下进行训练。
本发明在一个多任务学习框架中联合优化了协同显著性预测和单图显著性预测。
通过两个二值交叉熵损失函数来构成整个协同显著性目标检测网络的联合目标函数
Figure BDA00027251052700000812
Figure BDA0002725105270000091
其中,
Figure BDA0002725105270000092
Figure BDA0002725105270000093
是协同显著性损失函数,
Figure BDA0002725105270000094
Figure BDA0002725105270000095
是辅助的显著性损失函数;
M(n)代表第n个预测输出的协同显著性图,
Figure BDA0002725105270000096
为给定的第n个协同显著性真图,A(k)为第k个输出的辅助显著性预测,
Figure BDA0002725105270000097
为第k个辅助显著性真图。
本发明的有益效果:
本发明提出了一种协同显著性目标检测方法,该方法能够以在线的方式生成图内显著性引导特征,通过两阶段的集成-分发结构来聚合群组语义特征并自适应地将其分配给不同的个体,以实现协同显著性特征学习。本发明方法能够生成更加准确、完整的协同显著性图,且能够有效抑制无关干扰的影响,图间一致性保持好。
附图说明
本发明有如下附图:
图1给出了本发明提出方法的检测结果。
图2给出本发明提出方法的整体流程图。
具体实施方式
以下结合附图1~2对本发明作进一步详细说明。
本发明提出了一种协同显著性目标检测方法,通过群组语义集成和自适应分发策略,能够更加准确地建模图间关系,进而生成更好的协同显著性检测结果。
1、技术路线
给定一个包含N幅相关图像的图像组
Figure BDA0002725105270000101
协同显著性目标检测的目标是将显著且反复出现的目标与非显著背景以及那些显著但不反复出现的目标区分开来,并预测相应的协同显著图。在给定图像组的情况下,首先使用共享的骨干特征提取器来获取深层特征,并通过在线的图内显著性引导模块生成图内显著性特征,然后将群组注意力语义集成模块和门控群组分发模块集成到一个两阶段的集成-分发结构中,来聚合群组语义特征并自适应地将其分配给不同的个体,以实现协同显著性特征学习。最后,将协同显著性特征送入群组一致性保持解码器和协同显著性预测头部件中来一致性地突出协同显著性目标并生成全分辨率的协同显著性图。
2、在线的图内显著性引导模块
从概念上讲,协同显著性检测任务可以分解为两个关键部分,即显著性和重复性。前者要求目标在视觉上是显著的、容易引起注意的,而后者则约束目标在图像组中是重复多次出现的。但是,此任务面临的挑战是:1)单个图像中的显著性目标可能不会在其他图像中都出现,2)重复的对象不一定在视觉上是显著的,这使得很难学习到将这两个因素结合在一起的统一表示。因此,本发明采用联合学习框架来提供可训练的显著性先验作为指导信息,以此抑制背景冗余。
具体地说,将群组输入以权值共享的方式馈送到骨干网络中,得到一组深层特征
Figure BDA0002725105270000111
中。然后利用在线的图内显著性引导模块中的图内显著性预测头部件来在线的推断显著性图,得到在线显著性先验
Figure BDA0002725105270000112
Figure BDA0002725105270000113
表示大小为1×H×W的线性空间,并将其与空间注意力特征融合:
Figure BDA0002725105270000114
Figure BDA0002725105270000115
其中,
Figure BDA0002725105270000116
表示空间注意力特征,
Figure BDA0002725105270000117
Figure BDA0002725105270000118
分别表示对F(n)计算通道维平均池化和最大池化得到的特征,方括号[]代表通道维度上的串联,f3×3代表卷积核大小为3×3的卷积操作,σ代表Sigmoid激活函数,⊙代表元素级的相乘操作。通过这种方式,得到了一组图内显著性特征
Figure BDA0002725105270000119
并且背景的冗余得到了有效的抑制。
得益于图内显著性分支的联合优化框架,可以得到可信度更高、更为灵活的引导信息。在训练阶段,除了从协同显著性目标检测数据集加载的输入外,还将从单图显著性目标数据集加载的K个辅助样本与图内显著性预测头部件同时馈送到共享的骨干网络,从而生成单图显著性图
Figure BDA00027251052700001110
单图显著性和协同显著性预测作为一个多任务学习框架进行联合优化,在提供可靠的显著性先验方面具有更好的灵活性和可扩展性。
3、群组注意力语义集成模块
为了有效地捕获具有判别力、鲁棒的群组关系,本发明设置了三个关键标准:
1)对输入顺序不敏感,这意味着所学习的群组语义特征应对分组图像的输入顺序不敏感;
2)考虑到协同显著性目标可能位于图像中的不同位置,因此需要对空间位置变化鲁棒;
3)兼顾计算效率,特别是在处理大型图像组或高维特征时。基于此,本发明提出了一种计算效率高且对顺序不敏感的群组注意力语义集成模块,该模块能够很好的在组语义上下文中建立协同显著对象的局部和全局联系。
直接串联图内显著性特征来学习群组关系不可避免地会导致较高的计算复杂度和顺序敏感性,本发明通过将通道分组调整为按块分组来设计特征重组策略,该重组策略在块级别重新组合了特征通道。
具体来说,本发明首先将每一个图内显著性特征U(n)拆分成B个特征块
Figure BDA0002725105270000121
然后将图内显著性特征依次连接为
Figure BDA0002725105270000122
通过块级的分组重组策略,使连接之后的群组特征U转换为
Figure BDA0002725105270000123
其中
Figure BDA0002725105270000124
用于收集来自于所有N个图内显著性特征的第b个特征块的特征。
为了实现顺序不变性,需要首先对整个Sb进行通道级softmax,然后在N个特征块上求和。对每个Sb重复上述操作,可以获得对应的块级群组特征
Figure BDA0002725105270000125
所述
Figure BDA0002725105270000126
表示大小为D×H×W的线性空间,它们对群组语义信息进行了统一编码。
为了获取更丰富的语义信息,本发明将每个块级群组特征Gb独立处理,然后融合得到群组语义表示。由于Gb只集成了相同位置的图间特征,因此本发明进一步聚合了不同空间位置之间的图间关系。现有的群组集成方法只对局部对应关系进行建模,不能很好地对分散的协同显著性目标的远程依赖关系进行建模,因此本发明将局部和全局关系编码为群组注意力结构。
首先利用具有不同半径的空洞卷积来整合多感受野特征并捕捉局部上下文信息。
具体地说,先将来自不同空洞卷积层的特征图进行级联,并馈送到1×1卷积层中进行跨通道交互,本过程可表示为:
Figure BDA0002725105270000131
其中,
Figure BDA0002725105270000132
代表了半径为k、卷积核大小3×3的卷积操作,它将会生成D/4维度的特征图,f1×1是用于保持输入通道尺寸的1×1卷积层。事实上,这一步操作建立了不同图像相同位置的关系。
由于协同显著性目标可能出现在不同图像的任何位置,受到自注意力机制的启发,本发明以基于注意力的方式对长距离语义依赖关系进行了建模。
对于一个集成特征块
Figure BDA0002725105270000133
通过并行的卷积层生成三个新特征,它们可以被表示为“查询”、“键”和“值”:
Figure BDA0002725105270000134
其中,fq,fk和fv是三个独立的卷积层,
Figure BDA0002725105270000137
操作将三维张量拉伸,得到输出
Figure BDA0002725105270000135
Figure BDA0002725105270000136
表示大小为D×(H·W)的线性空间;
然后,可以按照如下公式构造相应的全局注意力特征
Figure BDA0002725105270000141
Figure BDA0002725105270000142
其中,*表示矩阵乘法,Tr代表矩阵转置,CSM(·)代表了列级的softmax操作,
Figure BDA0002725105270000143
代表了
Figure BDA0002725105270000144
操作的逆运算。每个块级群组特征Gb被转换为全局的注意力特征
Figure BDA0002725105270000145
而不需要权值共享。然后对
Figure BDA0002725105270000146
应用1×1卷积进行块融合,得到群组语义信息
Figure BDA0002725105270000147
Figure BDA0002725105270000148
表示大小为C×H×W的线性空间。
4、门控群组分发模块
在以往的研究中,学习到的群组语义信息被直接复制,然后与图内显著性特征连接,这意味着分组信息被不同的图像平等地利用。实际上,群组语义信息编码了所有图像之间的关系,对于不同图像的协同显著性预测来说,这可能包括一些信息冗余。
因此,本发明提出了一种门控群组分发模块来自适应地将最有用的组间信息分配给每个个体。为此,本发明构造了一个动态学习权重的群组重要性估计器,通过门控机制将群组语义与不同的图内显著性特征结合起来。
具体地说,首先将
Figure BDA0002725105270000149
和G连接起来,然后应用1×1卷积层进行通道上的降维,产生
Figure BDA00027251052700001410
作为估计器的输入。
然后,可以按照如下公式得到概率图
Figure BDA00027251052700001411
Figure BDA00027251052700001412
其中,SE表示Squeeze-and-Excitation映射函数,fp是一个瓶颈卷积层。直观来说,将P视为一种概率度量,它决定了群组特征和图内显著特征之间的线性组合权重。因此,可以通过门控操作得出协同显著性特征X(n)
Figure BDA0002725105270000151
其中,
Figure BDA0002725105270000152
表示哈达玛积。要注意的是,所有图内显著性特征输入均共享门控群组分发模块。
5、群组一致性保持解码器
分层特征提取产生低分辨率的深度特征,这些特征应该被放大以生成全分辨率预测。然而,最常见的基于上采样或反卷积的特征解码器不适用于协同显著性目标检测任务,因为它们忽略了图像间的约束关系,并且在预测过程中可能会削弱图像之间的一致性。因此,本发明提出了一种群组一致性保持解码器来一致地预测全分辨率协同显著性图。
群组一致性保持解码器由三个级联的特征解码单元组成,通过每个单元,特征分辨率翻倍,而特征通道减半。在每个单元中,输入的协同显著性特征
Figure BDA0002725105270000153
通过一个1×1卷积和一个2×反卷积变换到
Figure BDA0002725105270000154
其中Cd=C/2,
Figure BDA0002725105270000155
表示大小为Cd×2H×2W的线性空间。
然后,对
Figure BDA0002725105270000156
应用全局平均池化,得到N个向量化表示
Figure BDA0002725105270000157
这些向量化表示进一步排列到矩阵
Figure BDA0002725105270000158
的行中,
Figure BDA0002725105270000159
表示大小为N×Cd的线性空间。接下来,对Y进行列级的softmax和行级的求和操作,生成更为紧凑的组特征向量
Figure BDA00027251052700001510
Figure BDA00027251052700001511
表示大小为Cd的线性空间。注意,该过程也是顺序不敏感的。因此,输出的更高分辨率的特征图可以通过以下方式得到:
Figure BDA0002725105270000161
其中,MLP是共享的多层感知机,它将
Figure BDA0002725105270000162
和y连接之后的特征映射成Cd维。通过堆叠三个级联特征解码单元,可以获得空间分辨率最精细的N个解码特征
Figure BDA0002725105270000163
Figure BDA0002725105270000164
表示大小为C/8×8H×8W的线性空间。并进一步馈送到共享的协同显著性预测头部件以生成全分辨率的图M(n)。这里,协同显著性预测头部件包含了带有Sigmoid激活函数的1×1卷积层。
6、损失函数
本发明在一个多任务学习框架中联合优化了协同显著性预测和单图显著性预测。给定N个协同显著性图和真图(即
Figure BDA0002725105270000165
Figure BDA0002725105270000166
),以及K个辅助显著性预测和真图(即
Figure BDA0002725105270000167
Figure BDA0002725105270000168
),通过两个二值交叉熵损失函数来构成整个协同显著性目标检测网络的联合目标函数
Figure BDA0002725105270000169
Figure BDA00027251052700001610
其中,
Figure BDA00027251052700001611
Figure BDA00027251052700001612
是协同显著性损失函数,
Figure BDA00027251052700001613
Figure BDA00027251052700001614
是辅助的显著性损失函数。
M(n)代表第n个预测输出的协同显著性图,
Figure BDA00027251052700001615
为给定的第n个协同显著性真图,A(k)为第k个输出的辅助显著性预测,
Figure BDA00027251052700001616
为第k个辅助显著性真图。
图1给出了本发明技术的可视化实例。
第一列为RGB图像,第二列为协同显著性检测结果的真图,第三列为本发明生成的协同显著性结果。从结果可以看出,本发明方法能够完整、准确的提取协同显著性目标,而且能够很好的抑制干扰,如第三幅图像中的苹果,它是单图显著性目标但却不是协同显著性目标。
附图2给出了本发明的整体技术流程图,主要包括共享的特征提取器、在线的图内显著性引导模块、集成和分发模块、群组一致性保持解码和协同显著性预测头部件。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (8)

1.一种协同显著性目标检测方法,其特征在于,具体包括如下步骤:
步骤1:给定一个包含N幅相关图像的图像组
Figure FDA0002725105260000011
设计协同显著性目标检测网络,包括共享的骨干特征提取器、在线的图内显著性引导模块、集成和分发模块、群组一致性保持解码器和显著性预测模块;
步骤2:使用共享的骨干特征提取器来获取图像组
Figure FDA0002725105260000012
的深层特征;
步骤3:基于深层特征,通过在线的图内显著性引导模块生成图内显著性特征;
步骤4:基于图内显著性特征,采用集成和分发模块聚合群组语义信息并自适应地将其分配给不同的个体,以实现协同显著性特征学习;
步骤5:将协同显著性特征送入群组一致性保持解码器和协同显著性预测头部件中来一致性地突出协同显著性目标并生成全分辨率的协同显著性图。
2.如权利要求1所述的协同显著性目标检测方法,其特征在于,步骤2具体包括如下步骤:
将一个包含N幅相关图像的图像组以权值共享的方式馈送到骨干网络中,得到一组深层特征
Figure FDA0002725105260000013
中,所述
Figure FDA0002725105260000014
表示大小为C×H×W的线性空间。
3.如权利要求2所述的协同显著性目标检测方法,其特征在于,步骤3具体包括如下步骤:
利用在线的图内显著性引导模块中的图内显著性预测头部件来在线的推断显著性图,得到在线显著性先验
Figure FDA0002725105260000021
Figure FDA0002725105260000022
表示大小为1×H×W的线性空间,并将其与空间注意力特征融合,得到一组图内显著性特征
Figure FDA0002725105260000023
使得背景冗余得到了有效的抑制;
Figure FDA0002725105260000024
Figure FDA0002725105260000025
其中,
Figure FDA0002725105260000026
表示空间注意力特征,
Figure FDA0002725105260000027
Figure FDA0002725105260000028
分别表示对骨干网络输出特征F(n)计算通道维平均池化和最大池化得到的特征,方括号[]代表通道维度上的串联,f3×3代表卷积核大小为3×3的卷积操作,σ代表Sigmoid激活函数,⊙代表元素级的相乘操作。
4.如权利要求3所述的协同显著性目标检测方法,其特征在于,所述集成和分发模块包括:群组注意力语义集成模块和门控群组分发模块。
5.如权利要求4所述的协同显著性目标检测方法,其特征在于,
群组注意力语义集成模块首先将步骤3得到的每一个图内显著性特征U(n)拆分成B个特征块
Figure FDA0002725105260000029
然后,将图内显著性特征依次连接为
Figure FDA00027251052600000210
通过块级的分组重组策略,使群组特征U转换为
Figure FDA00027251052600000211
其中
Figure FDA00027251052600000212
用于收集来自于所有N个图内显著性特征的第b个特征块的特征;
为了实现顺序不变性,需要首先对整个Sb进行通道级softmax,然后在N个特征块上求和;对每个Sb重复上述操作,获得对应的块级群组特征
Figure FDA0002725105260000031
所述
Figure FDA0002725105260000032
表示大小为D×H×W的线性空间,对群组语义信息进行了统一编码;
将局部和全局关系编码为群组注意力结构;
首先,利用具有不同半径的空洞卷积来整合多感受野特征并捕捉局部上下文信息;
具体地说,先将来自不同空洞卷积层的特征图进行级联,并馈送到1×1卷积层中进行跨通道交互,本过程可表示为:
Figure FDA0002725105260000033
其中,
Figure FDA0002725105260000034
代表了半径为k、卷积核大小3×3的卷积操作,它将会生成D/4维度的特征图,f1×1是用于保持输入通道尺寸的1×1卷积层;
然后,基于注意力的方式对长距离语义依赖关系进行了建模;
对于一个集成特征块
Figure FDA0002725105260000035
通过并行的卷积层生成三个新特征,它们被表示为“查询”、“键”和“值”:
Figure FDA0002725105260000036
其中,fq,fk和fv是三个独立的卷积层,
Figure FDA0002725105260000037
操作将三维张量拉伸,得到输出
Figure FDA0002725105260000038
Figure FDA0002725105260000039
表示大小为D×(H·W)的线性空间;
然后,按照公式(5)构造相应的全局注意力特征
Figure FDA00027251052600000310
Figure FDA0002725105260000041
其中,*表示矩阵乘法,Tr代表矩阵转置,CSM代表了列级的softmax操作,
Figure FDA0002725105260000042
代表了
Figure FDA0002725105260000043
操作的逆运算;
每个块级群组特征Gb被转换为全局注意力特征
Figure FDA0002725105260000044
而不需要权值共享;
然后,对
Figure FDA0002725105260000045
应用1×1卷积进行块融合,得到群组语义信息
Figure FDA0002725105260000046
Figure FDA0002725105260000047
表示大小为C×H×W的线性空间;
所述门控群组分发模块用于自适应地将最有用的群组语义信息分配给每个个体;
具体地说,首先将特征块
Figure FDA0002725105260000048
和群组语义信息G连接起来;
然后应用1×1卷积层进行通道上的降维,产生
Figure FDA0002725105260000049
作为估计器的输入;
然后,按照公式(6)得到概率图
Figure FDA00027251052600000410
Figure FDA00027251052600000411
其中,SE表示Squeeze-and-Excitation映射函数,fp是一个瓶颈卷积层,σ表示Sigmoid激活函数;
通过门控操作得出协同显著性特征X(n)
Figure FDA00027251052600000412
其中,
Figure FDA00027251052600000413
表示哈达玛积。
6.如权利要求5所述的协同显著性目标检测方法,其特征在于,所有图内显著性特征输入均共享门控群组分发模块。
7.如权利要求6所述的协同显著性目标检测方法,其特征在于,步骤5具体包括如下步骤:
所述群组一致性保持解码器由三个级联的特征解码单元组成,通过每个单元,特征分辨率翻倍,而特征通道减半;
在每个单元中,输入的协同显著性特征
Figure FDA0002725105260000051
通过一个1×1卷积和一个2×反卷积变换到
Figure FDA0002725105260000052
其中Cd=C/2,
Figure FDA0002725105260000053
表示大小为Cd×2H×2W的线性空间;
然后,对
Figure FDA0002725105260000054
应用全局平均池化,得到N个向量化表示
Figure FDA0002725105260000055
这些向量化表示进一步排列到矩阵
Figure FDA0002725105260000056
的行中,
Figure FDA0002725105260000057
表示大小为N×Cd的线性空间;
接下来,对Y进行列级的softmax和行级的求和操作,生成更为紧凑的组特征向量
Figure FDA0002725105260000058
Figure FDA0002725105260000059
表示大小为Cd的线性空间;
输出的更高分辨率的特征图通过以下方式得到:
Figure FDA00027251052600000510
其中,X(n)为输入的协同显著性特征,
Figure FDA00027251052600000511
为全局池化的输出向量,y是对Y进行列级的softmax和行级的求和操作的输出结果,MLP是共享的多层感知机,它将
Figure FDA00027251052600000512
和y连接之后的特征映射成Cd维,通过堆叠三个级联特征解码单元,获得空间分辨率最精细的N个解码特征
Figure FDA00027251052600000513
Figure FDA00027251052600000514
表示大小为C/8×8H×8W的线性空间,并进一步馈送到共享的协同显著性预测头部件以生成全分辨率的图M(n);这里,协同显著性预测头部件包含了带有Sigmoid激活函数的1×1卷积层。
8.如权利要求7所述的协同显著性目标检测方法,其特征在于,协同显著性目标检测网络在损失函数的约束下进行训练;
通过两个二值交叉熵损失函数来构成整个协同显著性目标检测网络的联合目标函数
Figure FDA0002725105260000061
Figure FDA0002725105260000062
其中,
Figure FDA0002725105260000063
Figure FDA0002725105260000064
是协同显著性损失函数,
Figure FDA0002725105260000065
Figure FDA0002725105260000066
是辅助的显著性损失函数;
M(n)代表第n个预测输出的协同显著性图,
Figure FDA0002725105260000067
为给定的第n个协同显著性真图,A(k)为第k个输出的辅助显著性预测,
Figure FDA0002725105260000068
为第k个辅助显著性真图。
CN202011100360.0A 2020-10-15 2020-10-15 一种协同显著性目标检测方法 Active CN112348033B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011100360.0A CN112348033B (zh) 2020-10-15 2020-10-15 一种协同显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011100360.0A CN112348033B (zh) 2020-10-15 2020-10-15 一种协同显著性目标检测方法

Publications (2)

Publication Number Publication Date
CN112348033A true CN112348033A (zh) 2021-02-09
CN112348033B CN112348033B (zh) 2024-01-26

Family

ID=74361974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011100360.0A Active CN112348033B (zh) 2020-10-15 2020-10-15 一种协同显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN112348033B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906800A (zh) * 2021-02-26 2021-06-04 上海大学 基于图像组自适应的协同显著性检测方法
CN114743027A (zh) * 2022-04-11 2022-07-12 郑州轻工业大学 弱监督学习引导的协同显著性检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160358035A1 (en) * 2015-06-04 2016-12-08 Omron Corporation Saliency information acquisition device and saliency information acquisition method
US20170308770A1 (en) * 2016-04-26 2017-10-26 Xerox Corporation End-to-end saliency mapping via probability distribution prediction
CN107909079A (zh) * 2017-10-11 2018-04-13 天津大学 一种协同显著性检测方法
CN110084249A (zh) * 2019-04-24 2019-08-02 哈尔滨工业大学 基于金字塔特征注意的图像显著性检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160358035A1 (en) * 2015-06-04 2016-12-08 Omron Corporation Saliency information acquisition device and saliency information acquisition method
US20170308770A1 (en) * 2016-04-26 2017-10-26 Xerox Corporation End-to-end saliency mapping via probability distribution prediction
CN107909079A (zh) * 2017-10-11 2018-04-13 天津大学 一种协同显著性检测方法
CN110084249A (zh) * 2019-04-24 2019-08-02 哈尔滨工业大学 基于金字塔特征注意的图像显著性检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴泽民;王军;胡磊;田畅;曾明勇;杜麟;: "基于卷积神经网络与全局优化的协同显著性检测", 电子与信息学报, no. 12, pages 105 - 113 *
王超;李静;李东民;: "一种协同显著目标自动分割方法", 小型微型计算机系统, no. 04, pages 208 - 213 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906800A (zh) * 2021-02-26 2021-06-04 上海大学 基于图像组自适应的协同显著性检测方法
CN112906800B (zh) * 2021-02-26 2022-07-12 上海大学 基于图像组自适应的协同显著性检测方法
CN114743027A (zh) * 2022-04-11 2022-07-12 郑州轻工业大学 弱监督学习引导的协同显著性检测方法
CN114743027B (zh) * 2022-04-11 2023-01-31 郑州轻工业大学 弱监督学习引导的协同显著性检测方法

Also Published As

Publication number Publication date
CN112348033B (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
CN110322446B (zh) 一种基于相似性空间对齐的域自适应语义分割方法
CN112347859B (zh) 一种光学遥感图像显著性目标检测方法
Ge et al. An attention mechanism based convolutional LSTM network for video action recognition
CN111429885A (zh) 一种将音频片段映射为人脸嘴型关键点的方法
CN112598053B (zh) 基于半监督学习的主动显著性目标检测方法
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN110852256A (zh) 时序动作提名的生成方法、装置、设备及存储介质
Bi et al. Cross-modal hierarchical interaction network for RGB-D salient object detection
CN112232164A (zh) 一种视频分类方法和装置
Zhao et al. JSNet++: Dynamic filters and pointwise correlation for 3D point cloud instance and semantic segmentation
CN114926770B (zh) 视频动作识别方法、装置、设备和计算机可读存储介质
Atienza Fast disparity estimation using dense networks
CN110599443A (zh) 一种使用双向长短期记忆网络的视觉显著性检测方法
CN112991350A (zh) 一种基于模态差异缩减的rgb-t图像语义分割方法
CN112348033A (zh) 一种协同显著性目标检测方法
CN114332573A (zh) 基于注意力机制的多模态信息融合识别方法及系统
CN114266938A (zh) 一种基于多模态信息和全局注意力机制的场景识别方法
CN114743027B (zh) 弱监督学习引导的协同显著性检测方法
CN115049739A (zh) 一种基于边缘检测的双目视觉立体匹配方法
Zou et al. 360° image saliency prediction by embedding self-supervised proxy task
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN113066074A (zh) 一种基于双目视差偏移融合的视觉显著性预测方法
CN116844004A (zh) 一种面向数字孪生场景的点云自动语义化建模方法
Tang et al. Monocular camera-based point-goal navigation by learning depth channel and cross-modality pyramid fusion
CN115731280A (zh) 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant