CN112348033B - 一种协同显著性目标检测方法 - Google Patents
一种协同显著性目标检测方法 Download PDFInfo
- Publication number
- CN112348033B CN112348033B CN202011100360.0A CN202011100360A CN112348033B CN 112348033 B CN112348033 B CN 112348033B CN 202011100360 A CN202011100360 A CN 202011100360A CN 112348033 B CN112348033 B CN 112348033B
- Authority
- CN
- China
- Prior art keywords
- saliency
- group
- feature
- features
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000012423 maintenance Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 26
- 238000009826 distribution Methods 0.000 claims description 20
- 230000010354 integration Effects 0.000 claims description 17
- 230000002195 synergetic effect Effects 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 description 6
- 238000005457 optimization Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 244000141359 Malus pumila Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种协同显著性目标检测方法,具体包括如下步骤:给定一个包含N幅相关图像的图像组;步骤2:使用共享的骨干特征提取器来获取深层特征;步骤3:通过在线的图内显著性引导模块生成图内显著性特征;步骤4:采用集成‑分发结构聚合群组语义特征并自适应地将其分配给不同的个体,以实现协同显著性特征学习;步骤5:将低分辨率的协同显著性特征送入群组一致性保持解码器和协同显著性预测头部件来一致性地突出协同显著性目标并生成全分辨率的协同显著性图。通过本发明提供方法能够生成更加准确、完整的协同显著性图,且能够有效抑制无关干扰的影响,图间一致性保持好。
Description
技术领域
本发明涉及计算机视觉、深度学习领域,具体说是一种协同显著性目标检测方法。
背景技术
人类视觉系统具有天然的注意力机制,这使得人们能够从复杂的场景中快速找到最吸引注意的内容或目标。显著性检测作为计算机视觉的一个分支,致力于使计算机能够自动发现这些显著区域,已经被广泛应用于图像分割、目标检测、图像编辑等研究领域,以及智能拍照、推荐系统、自动驾驶等工程领域,具有重要的研究价值和广阔的市场前景。与人类的协同处理机制一致,协同显著性检测旨在发现包含多个相关图像的图像组中多次出现的显著性目标,可应用于协同分割、图像匹配、协同定位等。与图像显著性检测不同,协同显著性检测模型需要通过图像间约束来考虑图像组中显著目标的共同属性。近年来,深度学习技术的蓬勃发展极大地促进了协同显著性检测任务的性能提升。Zhang等人提出了一个在掩膜引导下的全卷积神经网络分层框架来实现协同显著性目标检测。Hsu等人提出了一种基于图的无监督卷积神经网络来完成协同显著性检测。Zhang等人应用卷积神经网络提取高级语义特征,提出了一种自步多实例学习的协同显著性检测方法。Wei等人提出了一个端到端的全监督协同显著性检测架构。Zheng等人提出一种特征自适应的半监督协同显著性检测框架,将多视角特征选择、图结构优化和协同显著性传播整合在同一网络中进行学习。Wang等人提出了一种融合群组语义信息的鲁棒协同显著性检测方法。Li等人提出了一种递归的协同注意力网络实现协同显著性检测。Zhang等人提出了一种带有注意力图聚类机制的自适应图卷积网络以实现协同显著性检测。
发明人在实现本发明的过程中,发现现有技术中至少存在以下缺点和不足:
(1)RGB协同显著性检测是在图像组中进行检测,学习到的群组语义会随输入图像组的顺序不同而变化,从而导致训练不稳定;
(2)图内显著性和图间关系存在竞争,学习到的群组语义直接与个体特征融合会导致图像间交互过程中的信息冗余;
(3)特征解码时忽略了图像间的一致性,这导致最终的协同显著性检测结果的图间一致性降低。
发明内容
针对现有技术中存在的缺陷,本发明旨在充分学习单图内的显著性目标基础上,有效的挖掘组内对应关系,设计一种两阶段的聚合和分发网络动态的对协同显著性特征进行提取和重新分配,以获得更佳的检测性能。
为达到以上目的,本发明采取的技术方案是:
本发明提供了一种协同显著性目标检测方法,技术路线为:
给定一个包含N幅相关图像的图像组协同显著性目标检测的目标是将显著且反复出现的目标与非显著背景以及那些显著但不反复出现的目标区分开来,并预测相应的协同显著图。
一种协同显著性目标检测方法,具体包括如下步骤:
步骤1:给定一个包含N幅相关图像的图像组设计协同显著性目标检测网络,包括共享的骨干特征提取器、在线的图内显著性引导模块、集成和分发模块、群组一致性保持解码器和显著性预测模块;
步骤2:使用共享的骨干特征提取器来获取图像组的深层特征;
步骤3:基于深层特征,通过在线的图内显著性引导模块生成图内显著性特征;
步骤4:基于图内显著性特征,采用集成和分发模块聚合群组语义信息并自适应地将其分配给不同的个体,以实现协同显著性特征学习;
步骤5:将协同显著性特征送入群组一致性保持解码器和协同显著性预测头部件中来一致性地突出协同显著性目标并生成全分辨率的协同显著性图。
在上述方案的基础上,步骤2具体包括如下步骤:
将一个包含N幅相关图像的图像组以权值共享的方式馈送到骨干网络中,得到一组深层特征中,所述/>表示大小为C×H×W的线性空间。
在上述方案的基础上,步骤3具体包括如下步骤:
利用在线的图内显著性引导模块中的图内显著性预测头部件来在线的推断显著性图,得到在线显著性先验 表示大小为1×H×W的线性空间,并将其与空间注意力特征融合,得到一组图内显著性特征/>使得背景冗余信息得到了有效的抑制;
其中,表示空间注意力特征,/>和/>分别表示对骨干网络输出特征F(n)计算通道维平均池化和最大池化得到的特征,方括号[]代表通道维度上的串联,f3×3代表卷积核大小为3×3的卷积操作,σ代表Sigmoid激活函数,⊙代表元素级的相乘操作。
得益于图内显著性分支的联合优化框架,可以得到可信度更高、更为灵活的图内引导信息。在训练阶段,除了从协同显著性目标检测数据集加载的输入外,还将从单图显著性目标数据集加载的K个辅助样本与图内显著性预测头部件同时馈送到共享的骨干网络,从而生成单图显著性图单图显著性预测和协同显著性预测作为一个多任务学习框架进行联合优化,在提供可靠的显著性先验方面具有更好的灵活性和可扩展性。
在上述方案的基础上,所述集成和分发模块包括:群组注意力语义集成模块和门控群组分发模块;
在上述方案的基础上,步骤4具体包括如下步骤:
本发明设计了块级的特征重组策略,利用群组注意力语义集成模块首先将步骤3得到的每一个图内显著性特征U(n)拆分成B个特征块
然后,将图内显著性特征依次连接为通过块级的分组重组策略,使群组特征U转换为/>其中/>用于收集来自于所有N个图内显著性特征的第b个特征块的特征。
为了实现顺序不变性,需要首先对整个Sb进行通道级softmax,然后在N个特征块上求和。对每个Sb重复上述操作,可以获得对应的块级群组特征所述/>表示大小为D×H×W的线性空间,它们对群组语义信息进行了统一编码。
将局部和全局关系编码为群组注意力结构。
首先利用具有不同半径的空洞卷积来整合多感受野特征并捕捉局部上下文信息。
具体地说,先将来自不同空洞卷积层的特征图进行级联,并馈送到1×1卷积层中进行跨通道交互,本过程可表示为:
其中,代表了半径为k、卷积核大小3×3的卷积操作,它将会生成D/4维度的特征图,f1×1是用于保持输入通道尺寸的1×1卷积层。
然后,基于注意力的方式对长距离语义依赖关系进行了建模。
对于一个集成特征块通过并行的卷积层生成三个新特征,它们可以被表示为“查询”、“键”和“值”:
其中,fq,fk和fv是三个独立的卷积层,操作将三维张量拉伸,得到输出 表示大小为D×(H·W)的线性空间;
然后,可以按照公式(5)构造相应的全局注意力特征
其中,*表示矩阵乘法,Tr代表矩阵转置,CSM代表了列级的softmax操作,代表了/>操作的逆运算。
每个块级群组特征Gb被转换为全局注意力特征而不需要权值共享。
然后,对应用1×1卷积进行块融合,得到群组语义信息/> 表示大小为C×H×W的线性空间。
所述门控群组分发模块用于自适应地将最有用的群组语义信息分配给每个个体。
为此,构造了一个动态学习权重的群组重要性估计器,通过门控机制将群组语义信息与不同的图内显著性特征结合起来。
具体地说,首先将特征块和群组语义信息G连接起来;
然后应用1×1卷积层进行通道上的降维,产生作为估计器的输入;
随后,按照公式(6)得到概率图
其中,SE表示Squeeze-and-Excitation映射函数,fp是一个瓶颈卷积层,σ表示Sigmoid激活函数。
直观来说,将P视为一种概率度量,它决定了群组特征和图内显著特征之间的线性组合权重。
因此,通过门控操作得出协同显著性特征X(n):
其中,表示哈达玛积。要注意的是,
在上述方案的基础上,所有图内显著性特征输入均共享门控群组分发模块。
在上述方案的基础上,步骤5具体包括如下步骤:
使用群组一致性保持解码器来一致地预测全分辨率协同显著性图。
群组一致性保持解码器由三个级联的特征解码单元组成,通过每个单元,特征分辨率翻倍,而特征通道减半。
在每个单元中,输入的协同显著性特征通过一个1×1卷积和一个2×反卷积变换到/>其中Cd=C/2,/>表示大小为Cd×2H×2W的线性空间。
然后,对应用全局平均池化,得到N个向量化表示/>这些向量化表示进一步排列到矩阵/>的行中,/>表示大小为N×Cd的线性空间。
接下来,对Y进行列级的softmax和行级的求和操作,生成更为紧凑的组特征向量 表示大小为Cd的线性空间。注意,该过程也是顺序不敏感的。
因此,输出的更高分辨率的特征图可以通过以下方式得到:
其中,X(n)为输入的协同显著性特征,为全局池化的输出向量,y是对Y进行列级的softmax和行级的求和操作的输出结果,MLP是共享的多层感知机,它将/>和y连接之后的特征映射成Cd维,通过堆叠三个级联特征解码单元,可以获得空间分辨率最精细的N个解码特征/> 表示大小为C/8×8H×8W的线性空间,并进一步馈送到共享的协同显著性预测头部件以生成全分辨率的图M(n)。这里,协同显著性预测头部件包含了带有Sigmoid激活函数的1×1卷积层。
在上述方案的基础上,协同显著性目标检测网络在损失函数的约束下进行训练。
本发明在一个多任务学习框架中联合优化了协同显著性预测和单图显著性预测。
通过两个二值交叉熵损失函数来构成整个协同显著性目标检测网络的联合目标函数
其中, 是协同显著性损失函数,/> 是辅助的显著性损失函数;
M(n)代表第n个预测输出的协同显著性图,为给定的第n个协同显著性真图,A(k)为第k个输出的辅助显著性预测,/>为第k个辅助显著性真图。
本发明的有益效果:
本发明提出了一种协同显著性目标检测方法,该方法能够以在线的方式生成图内显著性引导特征,通过两阶段的集成-分发结构来聚合群组语义特征并自适应地将其分配给不同的个体,以实现协同显著性特征学习。本发明方法能够生成更加准确、完整的协同显著性图,且能够有效抑制无关干扰的影响,图间一致性保持好。
附图说明
本发明有如下附图:
图1给出了本发明提出方法的检测结果。
图2给出本发明提出方法的整体流程图。
具体实施方式
以下结合附图1~2对本发明作进一步详细说明。
本发明提出了一种协同显著性目标检测方法,通过群组语义集成和自适应分发策略,能够更加准确地建模图间关系,进而生成更好的协同显著性检测结果。
1、技术路线
给定一个包含N幅相关图像的图像组协同显著性目标检测的目标是将显著且反复出现的目标与非显著背景以及那些显著但不反复出现的目标区分开来,并预测相应的协同显著图。在给定图像组的情况下,首先使用共享的骨干特征提取器来获取深层特征,并通过在线的图内显著性引导模块生成图内显著性特征,然后将群组注意力语义集成模块和门控群组分发模块集成到一个两阶段的集成-分发结构中,来聚合群组语义特征并自适应地将其分配给不同的个体,以实现协同显著性特征学习。最后,将协同显著性特征送入群组一致性保持解码器和协同显著性预测头部件中来一致性地突出协同显著性目标并生成全分辨率的协同显著性图。
2、在线的图内显著性引导模块
从概念上讲,协同显著性检测任务可以分解为两个关键部分,即显著性和重复性。前者要求目标在视觉上是显著的、容易引起注意的,而后者则约束目标在图像组中是重复多次出现的。但是,此任务面临的挑战是:1)单个图像中的显著性目标可能不会在其他图像中都出现,2)重复的对象不一定在视觉上是显著的,这使得很难学习到将这两个因素结合在一起的统一表示。因此,本发明采用联合学习框架来提供可训练的显著性先验作为指导信息,以此抑制背景冗余。
具体地说,将群组输入以权值共享的方式馈送到骨干网络中,得到一组深层特征中。然后利用在线的图内显著性引导模块中的图内显著性预测头部件来在线的推断显著性图,得到在线显著性先验/> 表示大小为1×H×W的线性空间,并将其与空间注意力特征融合:
其中,表示空间注意力特征,/>和/>分别表示对F(n)计算通道维平均池化和最大池化得到的特征,方括号[]代表通道维度上的串联,f3×3代表卷积核大小为3×3的卷积操作,σ代表Sigmoid激活函数,⊙代表元素级的相乘操作。通过这种方式,得到了一组图内显著性特征/>并且背景的冗余得到了有效的抑制。
得益于图内显著性分支的联合优化框架,可以得到可信度更高、更为灵活的引导信息。在训练阶段,除了从协同显著性目标检测数据集加载的输入外,还将从单图显著性目标数据集加载的K个辅助样本与图内显著性预测头部件同时馈送到共享的骨干网络,从而生成单图显著性图单图显著性和协同显著性预测作为一个多任务学习框架进行联合优化,在提供可靠的显著性先验方面具有更好的灵活性和可扩展性。
3、群组注意力语义集成模块
为了有效地捕获具有判别力、鲁棒的群组关系,本发明设置了三个关键标准:
1)对输入顺序不敏感,这意味着所学习的群组语义特征应对分组图像的输入顺序不敏感;
2)考虑到协同显著性目标可能位于图像中的不同位置,因此需要对空间位置变化鲁棒;
3)兼顾计算效率,特别是在处理大型图像组或高维特征时。基于此,本发明提出了一种计算效率高且对顺序不敏感的群组注意力语义集成模块,该模块能够很好的在组语义上下文中建立协同显著对象的局部和全局联系。
直接串联图内显著性特征来学习群组关系不可避免地会导致较高的计算复杂度和顺序敏感性,本发明通过将通道分组调整为按块分组来设计特征重组策略,该重组策略在块级别重新组合了特征通道。
具体来说,本发明首先将每一个图内显著性特征U(n)拆分成B个特征块然后将图内显著性特征依次连接为/>通过块级的分组重组策略,使连接之后的群组特征U转换为/>其中/>用于收集来自于所有N个图内显著性特征的第b个特征块的特征。
为了实现顺序不变性,需要首先对整个Sb进行通道级softmax,然后在N个特征块上求和。对每个Sb重复上述操作,可以获得对应的块级群组特征所述/>表示大小为D×H×W的线性空间,它们对群组语义信息进行了统一编码。
为了获取更丰富的语义信息,本发明将每个块级群组特征Gb独立处理,然后融合得到群组语义表示。由于Gb只集成了相同位置的图间特征,因此本发明进一步聚合了不同空间位置之间的图间关系。现有的群组集成方法只对局部对应关系进行建模,不能很好地对分散的协同显著性目标的远程依赖关系进行建模,因此本发明将局部和全局关系编码为群组注意力结构。
首先利用具有不同半径的空洞卷积来整合多感受野特征并捕捉局部上下文信息。
具体地说,先将来自不同空洞卷积层的特征图进行级联,并馈送到1×1卷积层中进行跨通道交互,本过程可表示为:
其中,代表了半径为k、卷积核大小3×3的卷积操作,它将会生成D/4维度的特征图,f1×1是用于保持输入通道尺寸的1×1卷积层。事实上,这一步操作建立了不同图像相同位置的关系。
由于协同显著性目标可能出现在不同图像的任何位置,受到自注意力机制的启发,本发明以基于注意力的方式对长距离语义依赖关系进行了建模。
对于一个集成特征块通过并行的卷积层生成三个新特征,它们可以被表示为“查询”、“键”和“值”:
其中,fq,fk和fv是三个独立的卷积层,操作将三维张量拉伸,得到输出 表示大小为D×(H·W)的线性空间;
然后,可以按照如下公式构造相应的全局注意力特征
其中,*表示矩阵乘法,Tr代表矩阵转置,CSM(·)代表了列级的softmax操作,代表了/>操作的逆运算。每个块级群组特征Gb被转换为全局的注意力特征/>而不需要权值共享。然后对/>应用1×1卷积进行块融合,得到群组语义信息/> 表示大小为C×H×W的线性空间。
4、门控群组分发模块
在以往的研究中,学习到的群组语义信息被直接复制,然后与图内显著性特征连接,这意味着分组信息被不同的图像平等地利用。实际上,群组语义信息编码了所有图像之间的关系,对于不同图像的协同显著性预测来说,这可能包括一些信息冗余。
因此,本发明提出了一种门控群组分发模块来自适应地将最有用的组间信息分配给每个个体。为此,本发明构造了一个动态学习权重的群组重要性估计器,通过门控机制将群组语义与不同的图内显著性特征结合起来。
具体地说,首先将和G连接起来,然后应用1×1卷积层进行通道上的降维,产生/>作为估计器的输入。
然后,可以按照如下公式得到概率图
其中,SE表示Squeeze-and-Excitation映射函数,fp是一个瓶颈卷积层。直观来说,将P视为一种概率度量,它决定了群组特征和图内显著特征之间的线性组合权重。因此,可以通过门控操作得出协同显著性特征X(n):
其中,表示哈达玛积。要注意的是,所有图内显著性特征输入均共享门控群组分发模块。
5、群组一致性保持解码器
分层特征提取产生低分辨率的深度特征,这些特征应该被放大以生成全分辨率预测。然而,最常见的基于上采样或反卷积的特征解码器不适用于协同显著性目标检测任务,因为它们忽略了图像间的约束关系,并且在预测过程中可能会削弱图像之间的一致性。因此,本发明提出了一种群组一致性保持解码器来一致地预测全分辨率协同显著性图。
群组一致性保持解码器由三个级联的特征解码单元组成,通过每个单元,特征分辨率翻倍,而特征通道减半。在每个单元中,输入的协同显著性特征通过一个1×1卷积和一个2×反卷积变换到/>其中Cd=C/2,/>表示大小为Cd×2H×2W的线性空间。
然后,对应用全局平均池化,得到N个向量化表示/>这些向量化表示进一步排列到矩阵/>的行中,/>表示大小为N×Cd的线性空间。接下来,对Y进行列级的softmax和行级的求和操作,生成更为紧凑的组特征向量/> 表示大小为Cd的线性空间。注意,该过程也是顺序不敏感的。因此,输出的更高分辨率的特征图可以通过以下方式得到:
其中,MLP是共享的多层感知机,它将和y连接之后的特征映射成Cd维。通过堆叠三个级联特征解码单元,可以获得空间分辨率最精细的N个解码特征/> 表示大小为C/8×8H×8W的线性空间。并进一步馈送到共享的协同显著性预测头部件以生成全分辨率的图M(n)。这里,协同显著性预测头部件包含了带有Sigmoid激活函数的1×1卷积层。
6、损失函数
本发明在一个多任务学习框架中联合优化了协同显著性预测和单图显著性预测。给定N个协同显著性图和真图(即和/>),以及K个辅助显著性预测和真图(即/>和/>),通过两个二值交叉熵损失函数来构成整个协同显著性目标检测网络的联合目标函数/>
其中, 是协同显著性损失函数,/> 是辅助的显著性损失函数。
M(n)代表第n个预测输出的协同显著性图,为给定的第n个协同显著性真图,A(k)为第k个输出的辅助显著性预测,/>为第k个辅助显著性真图。
图1给出了本发明技术的可视化实例。
第一列为RGB图像,第二列为协同显著性检测结果的真图,第三列为本发明生成的协同显著性结果。从结果可以看出,本发明方法能够完整、准确的提取协同显著性目标,而且能够很好的抑制干扰,如第三幅图像中的苹果,它是单图显著性目标但却不是协同显著性目标。
附图2给出了本发明的整体技术流程图,主要包括共享的特征提取器、在线的图内显著性引导模块、集成和分发模块、群组一致性保持解码和协同显著性预测头部件。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (4)
1.一种协同显著性目标检测方法,其特征在于,具体包括如下步骤:
步骤1:给定一个包含N幅相关图像的图像组设计协同显著性目标检测网络,包括共享的骨干特征提取器、在线的图内显著性引导模块、集成和分发模块、群组一致性保持解码器和显著性预测模块;
步骤2:使用共享的骨干特征提取器来获取图像组的深层特征;
步骤3:基于深层特征,通过在线的图内显著性引导模块生成图内显著性特征;
步骤4:基于图内显著性特征,采用集成和分发模块聚合群组语义信息并自适应地将其分配给不同的个体,以实现协同显著性特征学习;
步骤5:将协同显著性特征送入群组一致性保持解码器和协同显著性预测头部件中来一致性地突出协同显著性目标并生成全分辨率的协同显著性图;
所述步骤2具体包括如下步骤:
将一个包含N幅相关图像的图像组以权值共享的方式馈送到骨干网络中,得到一组深层特征中,所述/>表示大小为C×H×W的线性空间;
所述步骤3具体包括如下步骤:
利用在线的图内显著性引导模块中的图内显著性预测头部件来在线的推断显著性图,得到在线显著性先验表示大小为1×H×W的线性空间,并将其与空间注意力特征融合,得到一组图内显著性特征/>使得背景冗余得到了有效的抑制;
其中,表示空间注意力特征,/>和/>分别表示对骨干网络输出特征F(n)计算通道维平均池化和最大池化得到的特征,方括号[]代表通道维度上的串联,f3×3代表卷积核大小为3×3的卷积操作,σ代表Sigmoid激活函数,⊙代表元素级的相乘操作;
所述集成和分发模块包括:群组注意力语义集成模块和门控群组分发模块;
所述群组注意力语义集成模块首先将步骤3得到的每一个图内显著性特征U(n)拆分成B个特征块
然后,将图内显著性特征依次连接为通过块级的分组重组策略,使群组特征U转换为/>其中/>用于收集来自于所有N个图内显著性特征的第b个特征块的特征;
为了实现顺序不变性,需要首先对整个Sb进行通道级softmax,然后在N个特征块上求和;对每个Sb重复上述操作,获得对应的块级群组特征所述/>表示大小为D×H×W的线性空间,对群组语义信息进行了统一编码;
将局部和全局关系编码为群组注意力结构;
首先,利用具有不同半径的空洞卷积来整合多感受野特征并捕捉局部上下文信息;
具体地说,先将来自不同空洞卷积层的特征图进行级联,并馈送到1×1卷积层中进行跨通道交互,本过程可表示为:
其中,代表了半径为k、卷积核大小3×3的卷积操作,它将会生成D/4维度的特征图,f1×1是用于保持输入通道尺寸的1×1卷积层;
然后,基于注意力的方式对长距离语义依赖关系进行了建模;
对于一个集成特征块通过并行的卷积层生成三个新特征,它们被表示为“查询”、“键”和“值”:
其中,fq,fk和fv是三个独立的卷积层,操作将三维张量拉伸,得到输出表示大小为D×(H·W)的线性空间;
然后,按照公式(5)构造相应的全局注意力特征
其中,*表示矩阵乘法,Tr代表矩阵转置,CSM代表了列级的softmax操作,代表了/>操作的逆运算;
每个块级群组特征Gb被转换为全局注意力特征而不需要权值共享;
然后,对应用1×1卷积进行块融合,得到群组语义信息/>表示大小为C×H×W的线性空间;
所述门控群组分发模块用于自适应地将最有用的群组语义信息分配给每个个体;
具体地说,首先将特征块和群组语义信息G连接起来;
然后应用1×1卷积层进行通道上的降维,产生作为估计器的输入;
然后,按照公式(6)得到概率图
其中,SE表示Squeeze-and-Excitation映射函数,fp是一个瓶颈卷积层,σ表示Sigmoid激活函数;
通过门控操作得出协同显著性特征X(n):
其中,表示哈达玛积。
2.如权利要求1所述的协同显著性目标检测方法,其特征在于,所有图内显著性特征输入均共享门控群组分发模块。
3.如权利要求2所述的协同显著性目标检测方法,其特征在于,步骤5具体包括如下步骤:
所述群组一致性保持解码器由三个级联的特征解码单元组成,通过每个单元,特征分辨率翻倍,而特征通道减半;
在每个单元中,输入的协同显著性特征通过一个1×1卷积和一个2×反卷积变换到/>其中Cd=C/2,/>表示大小为Cd×2H×2W的线性空间;
然后,对应用全局平均池化,得到N个向量化表示/>这些向量化表示进一步排列到矩阵/>的行中,/>表示大小为N×Cd的线性空间;
接下来,对Y进行列级的softmax和行级的求和操作,生成更为紧凑的组特征向量表示大小为Cd的线性空间;
输出的更高分辨率的特征图通过以下方式得到:
其中,X(n)为输入的协同显著性特征,为全局池化的输出向量,y是对Y进行列级的softmax和行级的求和操作的输出结果,MLP是共享的多层感知机,它将/>和y连接之后的特征映射成Cd维,通过堆叠三个级联特征解码单元,获得空间分辨率最精细的N个解码特征表示大小为C/8×8H×8W的线性空间,并进一步馈送到共享的协同显著性预测头部件以生成全分辨率的图M(n);这里,协同显著性预测头部件包含了带有Sigmoid激活函数的1×1卷积层。
4.如权利要求3所述的协同显著性目标检测方法,其特征在于,协同显著性目标检测网络在损失函数的约束下进行训练;
通过两个二值交叉熵损失函数来构成整个协同显著性目标检测网络的联合目标函数
其中, 是协同显著性损失函数,/> 是辅助的显著性损失函数;
M(n)代表第n个预测输出的协同显著性图,为给定的第n个协同显著性真图,A(k)为第k个输出的辅助显著性预测,/>为第k个辅助显著性真图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011100360.0A CN112348033B (zh) | 2020-10-15 | 2020-10-15 | 一种协同显著性目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011100360.0A CN112348033B (zh) | 2020-10-15 | 2020-10-15 | 一种协同显著性目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112348033A CN112348033A (zh) | 2021-02-09 |
CN112348033B true CN112348033B (zh) | 2024-01-26 |
Family
ID=74361974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011100360.0A Active CN112348033B (zh) | 2020-10-15 | 2020-10-15 | 一种协同显著性目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112348033B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906800B (zh) * | 2021-02-26 | 2022-07-12 | 上海大学 | 基于图像组自适应的协同显著性检测方法 |
CN114743027B (zh) * | 2022-04-11 | 2023-01-31 | 郑州轻工业大学 | 弱监督学习引导的协同显著性检测方法 |
CN114998615B (zh) * | 2022-04-28 | 2024-08-23 | 南京信息工程大学 | 一种基于深度学习的协同显著性检测方法 |
CN118662720A (zh) * | 2024-08-22 | 2024-09-20 | 吉林大学 | 血液透析患者自体动静脉内瘘监测系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107909079A (zh) * | 2017-10-11 | 2018-04-13 | 天津大学 | 一种协同显著性检测方法 |
CN110084249A (zh) * | 2019-04-24 | 2019-08-02 | 哈尔滨工业大学 | 基于金字塔特征注意的图像显著性检测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106296638A (zh) * | 2015-06-04 | 2017-01-04 | 欧姆龙株式会社 | 显著性信息取得装置以及显著性信息取得方法 |
US9830529B2 (en) * | 2016-04-26 | 2017-11-28 | Xerox Corporation | End-to-end saliency mapping via probability distribution prediction |
-
2020
- 2020-10-15 CN CN202011100360.0A patent/CN112348033B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107909079A (zh) * | 2017-10-11 | 2018-04-13 | 天津大学 | 一种协同显著性检测方法 |
CN110084249A (zh) * | 2019-04-24 | 2019-08-02 | 哈尔滨工业大学 | 基于金字塔特征注意的图像显著性检测方法 |
Non-Patent Citations (2)
Title |
---|
一种协同显著目标自动分割方法;王超;李静;李东民;;小型微型计算机系统(第04期);第208-213页 * |
基于卷积神经网络与全局优化的协同显著性检测;吴泽民;王军;胡磊;田畅;曾明勇;杜麟;;电子与信息学报(第12期);第105-113页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112348033A (zh) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112348033B (zh) | 一种协同显著性目标检测方法 | |
Bi et al. | Cross-modal hierarchical interaction network for RGB-D salient object detection | |
CN111242844B (zh) | 图像处理方法、装置、服务器和存储介质 | |
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN113591770A (zh) | 基于人工智能导盲的多模态融合障碍物检测方法及装置 | |
CN113076957A (zh) | 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 | |
CN111695523B (zh) | 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法 | |
CN112560865B (zh) | 一种室外大场景下点云的语义分割方法 | |
CN110599443A (zh) | 一种使用双向长短期记忆网络的视觉显著性检测方法 | |
CN115578574B (zh) | 一种基于深度学习和拓扑感知的三维点云补全方法 | |
CN117058456A (zh) | 一种基于多相注意力机制的视觉目标跟踪方法 | |
Zhang et al. | Multiscale adaptation fusion networks for depth completion | |
CN116129051A (zh) | 一种基于图和注意力交织的三维人体姿态估计方法及系统 | |
CN116844004A (zh) | 一种面向数字孪生场景的点云自动语义化建模方法 | |
CN115578774A (zh) | 一种基于非局部通道注意力的面部运动单元检测方法 | |
CN115457657A (zh) | 基于bert模型的通道特征交互时间建模行为识别方法 | |
CN115222959A (zh) | 一种轻量化卷积网络与Transformer相结合的人体关键点检测方法 | |
CN118230391A (zh) | 一种基于点云和rgb图像的3d人脸增强识别系统 | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN117275040A (zh) | 一种基于决策网络和细化特征的高效人体姿态估计方法 | |
CN116543338A (zh) | 一种基于注视目标估计的学生课堂行为检测方法 | |
CN111881794B (zh) | 一种视频行为识别方法及系统 | |
CN115331301A (zh) | 一种基于Transformer的6D姿态估计方法 | |
CN111489361B (zh) | 基于孪生网络的深层特征聚合的实时视觉目标跟踪方法 | |
CN114693951A (zh) | 一种基于全局上下文信息探索的rgb-d显著性目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |