CN114743027B - 弱监督学习引导的协同显著性检测方法 - Google Patents

弱监督学习引导的协同显著性检测方法 Download PDF

Info

Publication number
CN114743027B
CN114743027B CN202210375572.2A CN202210375572A CN114743027B CN 114743027 B CN114743027 B CN 114743027B CN 202210375572 A CN202210375572 A CN 202210375572A CN 114743027 B CN114743027 B CN 114743027B
Authority
CN
China
Prior art keywords
network
gcam
group
image
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210375572.2A
Other languages
English (en)
Other versions
CN114743027A (zh
Inventor
钱晓亮
曾银凤
李哲辉
王慰
曾黎
张秋闻
吴青娥
程塨
姚西文
岳伟超
任航丽
刘向龙
马振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University of Light Industry
Original Assignee
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University of Light Industry filed Critical Zhengzhou University of Light Industry
Priority to CN202210375572.2A priority Critical patent/CN114743027B/zh
Publication of CN114743027A publication Critical patent/CN114743027A/zh
Application granted granted Critical
Publication of CN114743027B publication Critical patent/CN114743027B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提出了一种弱监督学习引导的协同显著性检测方法,用以解决现有协同显著性检测方法易受到不相关的显著目标的干扰的技术问题。本发明的步骤为:搭建GCAM网络的架构;搭建主干网络的架构,通过GCAM网络和主干网络构建GWSCoSal模型;利用训练数据对GCAM网络以图像组的公共类别标签作为真值进行弱监督训练;利用训练数据对主干网络进行像素级训练;GCAM网络的弱监督训练和主干网络的像素级训练联合执行,得到训练后的优化GWSCoSal模型。利用优化GWSCoSal模型对协同显著性数据集进行预测,生成预测的协同显著图。本发明在受到相似非公共显著目标干扰的情况下,能够更准确地检测出协同显著目标,操作简单,检测精度较高。

Description

弱监督学习引导的协同显著性检测方法
技术领域
本发明涉及协同显著性检测的技术领域,尤其涉及一种弱监督学习引导的协同显著性检测方法。
背景技术
随着现代科技的飞速发展,社会数字化进程加速推进,人工智能在各领域快速兴起。大量的图像、视频等多媒体数据呈爆发式增长,如何利用现有的计算机技术来有效处理并获取有用信息十分重要。现有的协同显著性检测技术是一种模拟人眼注意力机制的计算机视觉技术。在图像组内,可以利用频繁出现的图形或前景区域来表示图像组的主要内容。该方法不仅能够获取图像或视频中的有效目标信息,还能滤除图像或视频中的冗余信息,降低了算法处理的复杂度,从而实现计算资源的优先分配。
协同显著性检测的目的在于从两幅或多幅相关图像中寻找公共且显著的目标,根据该定义,协同显著目标必须满足两个要求,它们必须在每幅图像中都是显著的且彼此之间具有相似性。因此,这两个要求对应以下两个任务:(1)从单幅图像中获得图内显著性信息(Intra-saliency);(2)从多幅相关图像中挖掘图间显著性信息(Inter-saliency)。现有的协同显著性检测方法可以依据图内和图间显著性信息的不同融合方式大致分为两类:一类是非端到端的方法,该类方法通常利用手工设计的特征来直接挖掘并融合图内和图间显著性信息的线索。但是,这些手工设计的特征并不能为协同显著目标的公共属性提供强有力的表达,极大程度上限制了非端到端方法的检测性能。另一类是端到端的方法,该类方法利用深度学习的方法来挖掘图内和图间显著性信息,获取的深度特征能更好地对图像进行描述,同时,以端到端的方式将图内和图间显著性信息进行结合,有效地提高了协同显著性检测的性能。
协同显著性检测是由图内显著性信息和图间显著性信息两部分组成,目前已经有研究者提出了大量优秀的单幅图像显著性检测方法来挖掘图内显著性信息线索,因此,无论是对非端到端的方法还是端到端的方法,挖掘更优的图间显著性信息的线索是协同显著性检测的关键。到目前为止,无论是非端到端的方法还是端到端的方法都是提取图像组中每幅图像的特征,并计算其特征的相似度,然后,将其作为图间显著性信息。然而,以这种方式获得的图间显著性信息通常容易受到图像中不相关的显著目标的干扰,这些不相关的显著目标常与协同显著目标之间具有相似的外观特征。事实上,协同显著目标与不相关的显著目标之间最关键的区别在于它们属于不同的类别。因此,挖掘公共类别信息对于提取间的显著性信息至关重要。
发明内容
针对现有协同显著性检测方法易受到不相关的显著目标的干扰的技术问题,本发明提出一种弱监督学习引导的协同显著性检测方法,通过弱监督学习引导可以更好的提取一组相关图像的图间显著性信息,得到的协同显著性检测结果更准确。
为了达到上述目的,本发明的技术方案是这样实现的:一种弱监督学习引导的协同显著性检测方法,步骤如下:
步骤一:搭建GCAM网络的架构,将包含有公共类别显著目标的图像组输入GCAM网络,生成每幅图像的组类别激活图GCAM;
步骤二:搭建主干网络的架构,图像组中的每幅图像依次送入主干网络进行处理,主干网络提取的特征与步骤一的组类别激活图GCAM相融合,得到每幅图像的协同显著图;通过GCAM网络和主干网络构建GWSCoSal模型;
步骤三:利用训练数据对GWSCoSal模型的GCAM网络以图像组的公共类别标签作为真值进行弱监督训练;
步骤四:利用训练数据对主干网络进行像素级训练;
步骤五:利用训练数据对GWSCoSal模型的GCAM网络和主干网络以端到端的方式进行联合训练,得到训练后的优化GWSCoSal模型。
步骤六:利用步骤五的优化GWSCoSal模型对现有的协同显著性数据集进行预测,生成预测的协同显著图。
所述GCAM网络包含N个并联的子网络,N个子网络设置一致且模型参数彼此共享;N个子网络的输出进行逐像素相加得到融合特征向量,融合特征向量通过第二全连接层和softmax分类器,获得分类结果为公共类别标签。
所述子网络为ImageNet数据集上预训练好的VGG16网络,子网络包括连接的特征提取部分和第一全连接层,特征提取部分是由5个依次连接的卷积组构成,每个卷积组中分别对应有2、2、3、3、3个尺寸大小一致的卷积层,5个卷积组之间设有最大池化层。
所述步骤一中生成每幅图像的组类别激活图GCAM的方法为:通过第二全连接层FC2的输出结果对子网络的特征提取部分中任意特征层的输出特征矩阵进行求偏导;沿着输入图像各自的子网络反向传播至该特征层,得到该特征层的梯度矩阵并计算其各通道的权重;将各通道权重与该特征层的输出特征矩阵进行逐像素相乘,利用激活函数得到图像组中每幅图像In的组类别激活图GCAM;实现公式为:
Figure BDA0003590260750000021
Figure BDA0003590260750000031
其中,C表示公共类别数;S∈RC是图像组
Figure BDA0003590260750000032
从第二个全连接层FC2中输出的得分向量,N表示图像组中图像的总数,Sc表示公共类别c的得分;An∈RW×H×K表示图像In对应的第n个子网络的最后一个卷积层输出的特征矩阵,W、H和K分别表示特征矩阵An的宽、高以及通道数;Ank∈RW×H表示特征矩阵An的第k个通道;
Figure BDA0003590260750000033
表示特征矩阵Ank中坐标为(i,j)的像素;
Figure BDA0003590260750000034
是公共类别c中特征矩阵Ank的权重;ReLU(·)表示激活函数ReLU;
Figure BDA0003590260750000035
表示公共类别c中图像In的组类别激活图GCAM。
所述N个子网络的输出进行逐像素相加的方法为:
Figure BDA0003590260750000036
其中,F1 1、F2 1
Figure BDA0003590260750000037
分别表示第一个子网络中第一个全连接层
Figure BDA0003590260750000038
第二个子网络中第一个全连接层
Figure BDA0003590260750000039
以及第N个子网络中第一个全连接层
Figure BDA00035902607500000310
的输出结果;
Figure BDA00035902607500000311
表示逐像素相加操作;FF表示融合后的特征向量;
所述GCAM网络一个子网络的结构为:
Figure BDA00035902607500000312
在生成GCAM的过程中,利用第二全连接层输出的结果对卷积层5_3输出的特征矩阵求偏导;沿着输入图像各自的子网络反向传播至卷积5_3层的特征层,得到卷积5_3层的特征层的梯度矩阵并计算其512个通道的权重;将各通道权重与最后一个卷积层的特征层的输出特征矩阵进行逐像素相乘,利用激活函数得到图像组中每幅图像In的组类别激活图GCAM。
所述主干网络基于特征金字塔网络,主干网络包括编码器和解码器,解码器通过侧向连接融合编码器中各层级尺度特征;图像组
Figure BDA0003590260750000041
中的每幅图像In依次被送入主干网络的编码器,编码器输出的特征矩阵与组类别激活图GCAM进行融合,融合后的特征矩阵通过解码器输出每幅图像In的协同显著图。
所述编码器由VGG16网络的特征提取部分构成,即不含最后一个最大池化层、全连接层以及softmax层;解码器由与编码器结构对称的卷积层构成,通过将编码器的输出特征与对应解码器的输入特征进行侧向连接,获取多层次的图像特征信息;侧向连接时,编码器中通道数不一致的特征通过卷积操作得到与解码器通道数一致的特征;在解码器最后一层卷积层的输出中,利用线性插值将输出特征尺寸调整为原始图像尺寸。
所述编码器输出的特征矩阵与组类别激活图GCAM进行融合:
Figure BDA0003590260750000042
其中,
Figure BDA0003590260750000043
表示编码器网络输出的特征矩阵;
Figure BDA0003590260750000044
表示特征矩阵
Figure BDA0003590260750000045
的第k个通道;
Figure BDA0003590260750000046
表示逐像素相乘操作;
Figure BDA0003590260750000047
表示融合后的特征矩阵;
Figure BDA0003590260750000048
表示特征矩阵
Figure BDA0003590260750000049
的第k个通道的矩阵;
所述编码器和解码器的结构为:
Figure BDA00035902607500000410
Figure BDA0003590260750000051
其中,ReLU和Sigmoid均表示激活函数。
所述GCAM网络的弱监督训练的损失函数为CE-loss损失函数:
Figure BDA0003590260750000052
其中,
Figure BDA0003590260750000053
表示在GCAM网络中softmax分类器的分类结果;Y∈RC表示图像组的公共类别标签;CE(·)表示交叉熵函数;
所述主干网络的像素级训练的损失函数LP为:
Figure BDA0003590260750000054
其中,On表示图像组中每幅图像In的预测协同显著图;GTn表示图像In的像素级真值图;LSIoU(·)表示交并比损失;LBCE(·)表示二值交叉熵损失;
所述GWSCoSal模型的总体训练损失函数为:L=LP+λLGWS
其中,λ是用于平衡LGWS和LP之间比例的超参数;
所述训练数据采用现有的DUTS数据集和拼图训练策略,随机选择训练数据中的一组5幅图像分别输入GCAM网络和主干网络;所述GCAM网络的弱监督训练中,将图像组中的5幅图像分别输入至GCAM网络中5个对应的子网络,以图像组的公共类别标签作为真值,将第二个全连接层的输出结果与各子网络的特征提取部分中任意特征层的输出特征矩阵进行求偏导;沿着输入图像各自的子网络反向传播至该特征层,得到该特征层的梯度矩阵并计算其各通道的权重;将各通道权重与该特征层的输出特征矩阵进行逐像素相乘,利用激活函数得到5幅图像对应的组类别激活图GCAM;所述主干网络的像素级训练中,将图像组中的5幅图像依次输入至主干网络的编码器;将编码器的最后一个输出特征与GCAM网络生成的组类别激活图GCAM以逐像素相乘的方式进行融合;将融合的特征输入至主干网络的解码器生成5幅图像的协同显著图。训练时解码器生成的协同显著图,在测试时生成的协同显著图为协同显著性检测结果。
所述步骤六中将现有协同显著性数据集中一组5幅图像分别输入GCAM网络和主干网络,其中,每幅输入图像尺寸统一调整为224×224;在图像组输入GCAM网络进行分类时,选择概率得分为Top-3的公共类别作为公共类别标签,并将选择的概率得分作为前3个公共类别对应生成的组类别激活图GCAM的权重,然后,将该权重与每幅输入图像的前3个公共类别对应生成的组类别激活图GCAM进行逐像素相乘,并将3个相乘后的组类别激活图GCAM进行逐像素取均值,生成每幅输入图像的组类别激活图GCAM;
所述步骤六中预测的图像组
Figure BDA0003590260750000061
的组类别激活图GCAM为:
Figure BDA0003590260750000062
其中,
Figure BDA0003590260750000063
表示图像In中公共类别m的预测GCAM;pm表示图像组
Figure BDA0003590260750000064
中公共类别m的概率得分;
Figure BDA0003590260750000065
表示图像In的预测组类别激活图GCAM;
获得组类别激活图
Figure BDA0003590260750000066
后,将其送入主干网络进行融合,主干网络对图像组中的5幅图像依次进行处理,编码器的输出与对应图像的组类别激活图GCAM进行逐像素相乘,来融合图间显著性信息;通过主干网络的解码器生成预测的协同显著图即协同显著性检测结果。
与现有技术相比,本发明的有益效果:首先,采用一组相关图像的公共类别作为真值,通过弱监督学习的方式构建了一个新的组类别激活图(Group Class ActivationMaps,GCAM)网络,使用图像组的公共类别标签通过弱监督学习对GCAM网络进行训练,以GCAM形式呈现图间显著性信息的线索由经过训练的GCAM网络产生;然后,将训练后的GCAM网络产生的GCAM作为图间显著性信息的线索,GCAM网络只突显图像组中公共类别目标所覆盖的区域;最后,将GCAM网络融合到基于特征金字塔网络(Feature Pyramid Networks,FPN)的主干网络中,由像素级标签训练编码-解码器主干网络;采用端到端的方式同时进行GCAM网络的弱监督训练和主干网络的像素级训练,通过主干网络的解码器输出图像组的协同显著图。本发明在受到相似非公共显著目标干扰的情况下,能够更准确地检测出协同显著目标,操作简单,检测精度较高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程示意图。
图2为图1中GCAM网络的机构示意图。
图3为本发明主干网络的结构图。
图4为本发明与现有方法在Cosal2015数据集上的主观对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种弱监督学习引导的协同显著性检测(Group Weakly SupervisedLearning Induced Co-saliency Detection,GWSCoSal)方法,该方法的GWSCoSal模型包含两个子网络:GCAM网络和编码-解码器主干网络。GWSCoSal模型先使用图像组的公共类别标签,通过弱监督学习对GCAM网络进行训练,以GCAM形式呈现的图间显著性特征的线索由经过训练的GCAM网络产生。然后,图像组的GCAM融合至由像素级标签训练的编码-解码器主干网络中。最后,通过主干网络的解码器输出图像组的协同显著图。其步骤如下:
步骤一:搭建GCAM网络的架构,将包含有相关图像的图像组输入GCAM网络,生成每幅图像的组类别激活图GCAM。
(1)前向传播
输入一组相关图像
Figure BDA0003590260750000071
至GCAM网络,该图像组包含具有公共类别的显著目标,如图2所示,其中N幅图像均是有关香蕉的图像。图像组中的每幅图像In被送入各自对应的子网络,该子网络的结构继承于在ImageNet数据集上预训练好的VGG16网络,其中,VGG16网络的特征提取部分是由5个依次连接的卷积组构成,每个卷积组中分别对应有2、2、3、3、3个尺寸大小一致的卷积层,N个子网络的模型参数彼此共享。5个卷积组之间设有最大池化层,最大池化层是为了增加视觉感受野,使深度学习模型可以提取全局的语义特征,同时可以降低特征的空间维度,减少计算。然后,将N个子网络的输出进行逐像素相加,表达式如下:
Figure BDA0003590260750000072
其中,F1 1、F2 1
Figure BDA0003590260750000073
分别表示第一个子网络中第一个全连接层
Figure BDA0003590260750000074
第二个子网络中第一个全连接层
Figure BDA0003590260750000075
以及第N个子网络中第一个全连接层
Figure BDA0003590260750000076
的输出结果;
Figure BDA0003590260750000077
表示逐像素相加操作;FF表示融合后的特征向量。最后,融合后的特征向量FF依次通过第二个全连接层FC2和softmax分类器以获得最终分类结果。
(2)生成组类别激活图GCAM
图像组中每幅图像In的GCAM获取过程如下:可以通过第二个全连接层FC2的输出结果对VGG16网络的特征提取部分中任意特征层的输出特征矩阵进行求偏导;然后,沿着输入图像各自的子网络反向传播至该特征层,得到该特征层的梯度矩阵并计算其各通道的权重;最后,将各通道权重与该特征层的输出特征矩阵进行逐像素相乘,利用激活函数得到图像组中每幅图像In的组类别激活图GCAM,其公式如下:
Figure BDA0003590260750000081
Figure BDA0003590260750000082
其中,C表示公共类别数;S∈RC是图像组
Figure BDA0003590260750000083
从第二个全连接层FC2中输出的得分向量,如图2所示,Sc表示公共类别c的得分;An∈RW×H×K表示图像In对应的第n个子网络的最后一个卷积层输出的特征矩阵,W、H和K分别表示特征矩阵An的宽、高以及通道数;Ank∈RW×H表示特征矩阵An的第k个通道;
Figure BDA0003590260750000084
表示特征矩阵Ank中坐标为(i,j)的像素;
Figure BDA0003590260750000085
是公共类别c中特征矩阵Ank的权重;ReLU(·)表示激活函数ReLU;
Figure BDA0003590260750000086
表示公共类别c中图像In的组类别激活图GCAM。
很显然,
Figure BDA0003590260750000087
能够只激活公共类别c对应的目标区域,因为它们来源于得分Sc,而该得分是由图像组
Figure BDA0003590260750000088
联合产生。总而言之,
Figure BDA0003590260750000089
可以作为
Figure BDA00035902607500000810
的图间显著性信息的线索。
根据协同显著性检测的任务特征和现有的VGG16模型的特征,对已有的VGG16网络基本框架进行改进和创新,搭建了一个符合协同显著性检测任务的网络,以挖掘图间显著性信息,即GCAM网络,其结构如表1所示。
表1 GCAM网络的结构组成
Figure BDA00035902607500000811
Figure BDA0003590260750000091
本发明构建的GCAM网络由N个VGG16子网络构成,其中,每幅图像对应一个VGG16子网络,每个子网络设置均一致且模型参数彼此共享,上述表格结构以一个VGG16子网络为例,其余子网络结构与之一致,GCAM网络包含N个特征提取部分、N个第一个全连接层FC1、一个第二个全连接层FC2和一个softmax层。对于损失函数,GCAM网络用到的是CE-loss损失函数。VGG16子网络结构的设计思想参考文献[Simonyan K,Zisserman A.Very DeepConvolutional Networks for Large-Scale Image Recognition[J].arXiv preprintarXiv:1409.1556,2014]。通过特征提取部分的多个卷积组可以提取图像中的细节信息,将每个子网络中第一个全连接层
Figure BDA0003590260750000092
Figure BDA0003590260750000093
的输出结果1×1×1000以逐像素相加的方式进行结合,结合之后的结果为1×1×1000,以获取图像组的公共信息。在GCAM网络构建过程中,将最后一个全连接层FC2的输出改为训练数据的类别数,在softmax层输出分类结果后与图像组的公共类别这一真值对比做CE-loss,具体的设置如表1所示。表1中Dropout表示是随机将一部分卷积核的值置零,其目的是防止过拟合。图2中的反向传播方式与卷积神经网络训练时的反向传播方式一样,是求偏导,根据链式法则实现,在本发明中反向传播的作用是求得图像组的GCAM。
在生成GCAM的过程中,利用第二个全连接层FC2输出的概率结果对卷积5_3输出的特征矩阵求偏导;然后,沿着输入图像各自的VGG16子网络反向传播至卷积5_3的特征层,得到卷积5_3特征层的梯度矩阵并计算其512个通道的权重,如公式(2)所示。最后,将各通道权重与卷积5_3特征层的输出特征矩阵进行逐像素相乘,利用激活函数得到图像组中每幅图像In的GCAM,如公式(3)所示。
步骤二:搭建主干网络的架构,图像组中的每幅图像依次送入主干网络进行处理,主干网络提取的特征与步骤一的组类别激活图GCAM相融合,得到每幅图像的协同显著图,将GCAM网络和主干网络联合构建GWSCoSal模型。
采用目前流行的编码器-解码器结构来构建主干网络。如图3所示,特征金字塔网络(FPN)用于构建编码器-解码器网络,其中,解码器部分通过侧向连接融合了编码器中各层级尺度特征。
与GCAM网络类似,主干网络的编码和解码部分都继承自在ImageNet数据集上预训练的VGG16模型,没有全连接层。如图1和图3所示,图像组
Figure BDA0003590260750000101
被送入GCAM网络,得到图像组的组类别激活图
Figure BDA0003590260750000102
同时,图像组
Figure BDA0003590260750000103
中的每幅图像都依次被送入主干网络进行处理,编码器网络输出的特征矩阵通过以下公式与GCAM进行融合:
Figure BDA0003590260750000104
其中,
Figure BDA0003590260750000105
表示编码器网络输出的特征矩阵;
Figure BDA0003590260750000106
表示特征矩阵
Figure BDA0003590260750000107
的第k个通道;
Figure BDA0003590260750000108
表示逐像素相乘操作;
Figure BDA0003590260750000109
表示融合后的特征矩阵;
Figure BDA00035902607500001010
表示特征矩阵
Figure BDA00035902607500001011
的第k个通道的矩阵。最后,特征矩阵
Figure BDA00035902607500001012
通过解码器网络输出图像组中每幅图像In的协同显著图。
根据协同显著性检测的任务特征和现有的FPN网络的特征,对已有的FPN网络的基本框架进行改进,利用VGG16网络来构建FPN网络中的编码器和解码器,搭建了一个符合协同显著性检测任务的网络,以为挖掘图间显著性信息并将其与图内显著性信息进行融合,即编码-解码器的主干网络。
如表2所示,本发明构建的主干网络包括两个部分:编码器和解码器,其中,编码器由VGG16网络的特征提取部分构成,即不含最后一个最大池化层、全连接层以及softmax层;解码器是由与编码器结构对称的卷积层构成,通过将编码器的输出特征与对应解码器的输入特征进行侧向连接,获取多层次的图像特征信息,即编码器卷积4_3的输出与解码器卷积4_1连接,编码器的卷积3_3的输出与解码器的卷积3_1连接,编码器的卷积2_2的输出与解码器的卷积2_1连接,编码器的卷积1_2的输出与解码器的卷积1_1连接,侧向连接时,编码器中通道数不一致的特征将通过卷积操作得到与解码器通道数一致的特征。此外,在解码器最后一层卷积层的输出中,利用线性插值将输出特征尺寸调整为原始图像尺寸。
另外,在图间和图内显著性信息融合过程中,将输入图像对应的尺寸为14×14×1的组类别激活图GCAM与编码器的最后一个卷积层5_3的尺寸为14×14×512的输出特征以逐像素相乘的方式进行融合,如公式(4)所示,然后将融合后的特征输入至解码器,最终输出与原始图像尺寸一致的协同显著图。表2中解码器的上采样是采用线性插值。Sigmoid表示激活函数,在此处的使用与一般卷积神经网络中的激活函数用法一样,是将卷积神经网络的输出输入至激活函数进行运算。
表2编码器-解码器的主干网络的结构组成
Figure BDA0003590260750000111
Figure BDA0003590260750000121
步骤三:利用训练数据对GCAM网络以图像组的公共类别标签作为真值进行弱监督训练。
训练数据采用现有的DUTS数据集和拼图训练策略,随机选择训练数据中的一组5幅图像输入GCAM网络,GCAM网络以图像组的公共类别标签作为真值进行弱监督训练。如图2所示,图像组中的每幅图像In输入至对应的子网络,将每个子网络中第一个全连接层
Figure BDA0003590260750000122
的输出以逐像素点相加的方式进行融合,然后将累加后的特征输入第二个全连接层和softmax层,得到分类结果,从而形成GCAM网络的弱监督训练。在GCAM网络的弱监督训练过程中,通过不断地训练、迭代,GCAM网络参数不断更新,Adam优化器不断优化网络,得到学习率、训练次数和批量大小的参数设置分别为0.0001、400和1。
GCAM网络的弱监督训练损失函数LGWS表达式如下:
Figure BDA0003590260750000123
其中,
Figure BDA0003590260750000124
表示在GCAM网络中softmax分类器的分类结果;Y∈RC表示图像组的公共类别标签;CE(·)表示交叉熵函数。
步骤四:利用训练数据对主干网络进行像素级训练。
与GCAM网络训练数据一致,均采用融合GCAM后现有的DUTS数据集和拼图训练策略对主干网络进行像素级训练。如图3所示,将图像组中的5幅图像依次输入至主干网络的编码器部分;然后,将编码器的最后一个输出特征与GCAM网络生成的GCAM以逐像素相乘的方式进行融合;最后,将融合的特征输入至主干网络的解码器部分生成5幅图像的检测结果。在主干网络的像素级训练过程中,通过不断地训练、迭代,主干网络参数不断更新,Adam优化器不断优化网络,得到学习率、训练次数和批量大小的参数设置分别为0.0001、400和1。主干网络的像素级训练损失函数LP如下:
Figure BDA0003590260750000131
其中,On表示图像组中每幅图像In的预测协同显著图;GTn表示图像In的像素级真值图;LSIoU(·)表示交并比损失(Intersection over Union,IoU);LBCE(·)表示二值交叉熵损失(Binary Cross Entropy,BCE)。
步骤五:利用训练数据对GCAM网络和主干网络以端到端的方式进行联合训练,得到训练后的优化GWSCoSal模型。
在训练阶段,GCAM网络和主干网络以端到端的方式进行联合训练,输入的训练数据均为现有的DUTS数据集和拼图训练策略。在联合训练过程中,通过不断地训练、迭代,GWSCoSal模型参数不断更新,Adam优化器不断优化网络,得到学习率、训练次数和批量大小的参数设置分别为0.0001、400和1。最后,GWSCoSal模型的总体训练损失函数如下:
L=LP+λLGWS (7)
其中,λ是用于平衡LGWS和LP之间比例的超参数。λ的取值一般由实验得出,本发明中该值设置为0.8。
步骤六:利用步骤五的优化GWSCoSal模型对现有的协同显著性数据集进行预测,生成预测的协同显著图。
在预测阶段,利用现有的协同显著性数据集来预测步骤五训练后得到的GWSCoSal模型,实现协同显著性检测。
利用现有的协同显著性数据集(iCoseg和Cosal2015)进行预测,将一组5幅图像分别输入GCAM网络和主干网络,其中,每幅输入图像尺寸统一调整为224×224。在图像组输入GCAM网络进行分类时,选择概率得分为Top-3(即得分为前3名)的公共类别作为公共类别标签,并将选择的概率得分作为前3个公共类别对应生成的GCAM的权重,然后,将该权重与每幅输入图像的前3个公共类别对应生成的组类别激活图GCAM进行逐像素相乘,并将3个相乘后的组类别激活图GCAM进行逐像素取均值,生成每幅输入图像的组类别激活图GCAM,以增强模型的鲁棒性。图像组
Figure BDA0003590260750000132
的GCAM可以在预测阶段通过以下公式获得:
Figure BDA0003590260750000133
其中,
Figure BDA0003590260750000134
表示图像In中公共类别m的预测GCAM;pm表示图像组
Figure BDA0003590260750000135
中公共类别m的概率得分,概率得分pm的值是属于前3个Top-3的;
Figure BDA0003590260750000141
表示图像In的预测GCAM。
在获得组类别激活图
Figure BDA0003590260750000142
后,将其送入主干网络进行融合,同时,主干网络对输入图像组中的5幅图像依次进行处理,主干网络中编码器部分的输出将与对应图像的GCAM进行逐像素相乘,以此来融合图间显著性信息,并通过主干网络的解码器部分生成预测的协同显著图即协同显著性检测结果。对一组含有相同类别的协同显著图像进行检测,相当于完成一次协同显著性检测任务。
本发明的实现的硬件配置:NVIDIA GeForce RTX 2080Ti@11GB×10GPU,512G内存的工作站进行实验,其软件的平台配置:Ubuntu16.04、python3.7、pytorch1.1.0。
此外,为了更好的证明本发明的性能,本发明在现已有的流行的公开数据集Cosal2015进行主观对比。对比的算法一共有12种,分别是CBCS来自于Cluster-based Co-saliency Detection,IPTD来自于Cosaliency Detection Based on IntrasaliencyPrior Transfer and Deep Intersaliency Mining,CODW来自于Detection of Co-salient Objects by Looking Deep and Wide,UMLF来自于A Unified Metric Learning-based Framework for Co-saliency Detection,DARM来自于Co-saliency Detection viaCo-salient Object Discovery and Recovery,GW来自于Deep Group-wise FullyConvolutional Network for Co-saliency Detection with Graph Propagation,CSMG来自于Co-saliency Detection via Mask-guided Fully Convolutional Networks withMulti-scale Label Smoothing,RCAN来自于Detecting Robust Co-saliency withRecurrent Co-attention Neural Network,TSE-GAN来自于Two-stream Encoder GANwith Progressive Training for Co-saliency Detection,GCAGC来自于Adaptive GraphConvolutional Network with Attention Graph Clustering for Co-saliencyDetection,CoEGNet来自于Re-thinking Co-salient Object Detection,GICD来自于Gradient-induced Co-saliency Detection。
如图4所示,本发明所提GWSCoSal方法与12种流行方法在Cosal2015数据集上进行了主观对比,图4中显示的这5组图像分别是瓢虫组、斧头组、香蕉组、飞机组以及圆号组。由于Cosal2015数据集更具挑战性,因此,对其进行主观比较可以更直观地证明GWSCoSal方法的优越性。由图4可知,例如:对于瓢虫组而言,只有GWSCoSal的结果才能在彩色背景干扰的情况下准确、完整地捕捉瓢虫;对于香蕉组而言,GWSCoSal的结果可以准确地捕捉香蕉,更好地提取图间显著性信息的线索,并在抑制不相关的前景目标方面提供最佳性能。与瓢虫组、香蕉组的结果类似,GWSCoSal模型在斧头组、飞机组以及圆号组中的检测结果与人工标注的真值图更接近。
由于不相关的显著目标与公共显著目标之间具有相似的外观特征,因此,协同显著性检测容易受到无关显著目标的干扰。为了解决这一问题,本发明提出了一种弱监督学习引导的协同显著性检测(GWSCoSal)方法,包含多幅相关图像间相似信息的图间显著性信息(Inter-saliency)是协同显著性检测的核心,也是解决上述问题的关键,本发明分析发现,应依据多幅相关图像的公共类别信息来挖掘图间显著性信息。因此,本发明首先采用一组相关图像的公共类别作为真值,通过弱监督学习的方式构建了一个新的组类别激活图(GCAM)网络;然后,将训练后的GCAM网络产生的GCAM作为图间显著性线索,该GCAM只突显图像组中公共类别目标所覆盖的区域;最后,将GCAM融合到基于特征金字塔(FPN)网络的主干网络中;采用端到端的方式同时进行GCAM网络的弱监督训练和主干网络的像素级训练。本发明在受到相似非公共显著目标干扰的情况下,能够更准确地检测出协同显著目标,操作简单,检测精度较高。
本发明包含的GCAM网络在训练阶段利用只包含类别标签的DUTS数据集和拼图训练策略进行弱监督训练,并利用最高的类别得分进行求导和反向传播,以产生具有只激活公共类别目标区域的GCAM;在预测阶段则利用位置类别标签的协同显著性数据集进行测试,采用概率得分为Top-3(前3名)的公共类别作为公共类别标签,并利用该类别得分进行求导和反向传播,以产生图像组的GCAM,从而更好地提取图像组中的图间显著线索。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种弱监督学习引导的协同显著性检测方法,其特征在于,步骤如下:
步骤一:搭建组类别激活图GCAM网络的架构,将包含有公共类别显著目标的图像组输入GCAM网络,生成每幅图像的组类别激活图GCAM;
所述GCAM网络包含N个并联的子网络,N个子网络设置一致且模型参数彼此共享;N个子网络的输出进行逐像素相加得到融合特征向量,融合特征向量通过第二全连接层和softmax分类器,获得分类结果为公共类别标签;
所述步骤一中生成每幅图像的组类别激活图GCAM的方法为:通过第二全连接层FC2的输出结果对子网络的特征提取部分中任意特征层的输出特征矩阵进行求偏导;沿着输入图像各自的子网络反向传播至该特征层,得到该特征层的梯度矩阵并计算其各通道的权重;将各通道权重与该特征层的输出特征矩阵进行逐像素相乘,利用激活函数得到图像组中每幅图像In的组类别激活图GCAM;实现公式为:
Figure FDA0003914645990000011
Figure FDA0003914645990000012
其中,C表示公共类别数;S∈RC是图像组
Figure FDA0003914645990000013
从第二个全连接层FC2中输出的得分向量,N表示图像组中图像的总数,Sc表示公共类别c的得分;An∈RW×H×K表示图像In对应的第n个子网络的最后一个卷积层输出的特征矩阵,W、H和K分别表示特征矩阵An的宽、高以及通道数;Ank∈RW×H表示特征矩阵An的第k个通道;
Figure FDA0003914645990000014
表示特征矩阵Ank中坐标为(i,j)的像素;
Figure FDA0003914645990000015
是公共类别c中特征矩阵Ank的权重;ReLU(·)表示激活函数ReLU;
Figure FDA0003914645990000016
表示公共类别c中图像In的组类别激活图GCAM;
步骤二:搭建主干网络的架构,图像组中的每幅图像依次送入主干网络进行处理,主干网络提取的特征与步骤一的组类别激活图GCAM相融合,得到每幅图像的协同显著图;通过GCAM网络和主干网络构建GWSCoSal模型;
步骤三:利用训练数据对GWSCoSal模型的GCAM网络以图像组的公共类别标签作为真值进行弱监督训练;
步骤四:利用训练数据对主干网络进行像素级训练;
步骤五:利用训练数据对GWSCoSal模型的GCAM网络和主干网络以端到端的方式进行联合训练,得到训练后的优化GWSCoSal模型;
步骤六:利用步骤五的优化GWSCoSal模型对现有的协同显著性数据集进行预测,生成预测的协同显著图。
2.根据权利要求1所述的弱监督学习引导的协同显著性检测方法,其特征在于,所述子网络为ImageNet数据集上预训练好的VGG16网络,子网络包括连接的特征提取部分和第一全连接层,特征提取部分是由5个依次连接的卷积组构成,每个卷积组中分别对应有2、2、3、3、3个尺寸大小一致的卷积层,卷积组之间设有最大池化层。
3.根据权利要求2所述的弱监督学习引导的协同显著性检测方法,其特征在于,所述N个子网络的输出进行逐像素相加的方法为:
Figure FDA0003914645990000021
其中,F1 1、F2 1
Figure FDA0003914645990000022
分别表示第一个子网络中第一个全连接层
Figure FDA0003914645990000023
第二个子网络中第一个全连接层
Figure FDA0003914645990000024
以及第N个子网络中第一个全连接层
Figure FDA0003914645990000025
的输出结果;
Figure FDA0003914645990000026
表示逐像素相加操作;FF表示融合后的特征向量;
所述GCAM网络一个子网络的结构为:
Figure FDA0003914645990000027
在生成GCAM的过程中,利用第二全连接层输出的结果对卷积层5_3输出的特征矩阵求偏导;沿着输入图像各自的子网络反向传播至卷积5_3层的特征层,得到卷积5_3层的特征层的梯度矩阵并计算其512个通道的权重;将各通道权重与最后一个卷积层的特征层的输出特征矩阵进行逐像素相乘,利用激活函数得到图像组中每幅图像In的组类别激活图GCAM。
4.根据权利要求1、2、3中任意一项所述的弱监督学习引导的协同显著性检测方法,其特征在于,所述主干网络基于特征金字塔网络,主干网络包括编码器和解码器,解码器通过侧向连接融合编码器中各层级尺度特征;图像组
Figure FDA0003914645990000031
中的每幅图像In依次被送入主干网络的编码器,编码器输出的特征矩阵与组类别激活图GCAM进行融合,融合后的特征矩阵通过解码器输出每幅图像In的协同显著图。
5.根据权利要求4所述的弱监督学习引导的协同显著性检测方法,其特征在于,所述编码器由VGG16网络的特征提取部分构成,即不含最后一个最大池化层、全连接层以及softmax层;解码器由与编码器结构对称的卷积层构成,通过将编码器的输出特征与对应解码器的输入特征进行侧向连接,获取多层次的图像特征信息;侧向连接时,编码器中通道数不一致的特征通过卷积操作得到与解码器通道数一致的特征;在解码器最后一层卷积层的输出中,利用线性插值将输出特征尺寸调整为原始图像尺寸。
6.根据权利要求5所述的弱监督学习引导的协同显著性检测方法,其特征在于,所述编码器输出的特征矩阵与组类别激活图GCAM进行融合:
Figure FDA0003914645990000032
其中,
Figure FDA0003914645990000033
表示编码器网络输出的特征矩阵;
Figure FDA0003914645990000034
表示特征矩阵
Figure FDA0003914645990000035
的第k个通道;
Figure FDA0003914645990000036
表示逐像素相乘操作;
Figure FDA0003914645990000037
表示融合后的特征矩阵;
Figure FDA0003914645990000038
表示特征矩阵
Figure FDA0003914645990000039
的第k个通道的矩阵;
所述编码器和解码器的结构为:
Figure FDA00039146459900000310
Figure FDA0003914645990000041
其中,ReLU和Sigmoid均表示激活函数。
7.根据权利要求5或6所述的弱监督学习引导的协同显著性检测方法,其特征在于,所述GCAM网络的弱监督训练的损失函数为CE-loss损失函数:
Figure FDA0003914645990000042
其中,
Figure FDA0003914645990000043
表示在GCAM网络中softmax分类器的分类结果;Y∈RC表示图像组的公共类别标签;CE(·)表示交叉熵函数;
所述主干网络的像素级训练的损失函数LP为:
Figure FDA0003914645990000044
其中,On表示图像组中每幅图像In的预测协同显著图;GTn表示图像In的像素级真值图;LSIoU(·)表示交并比损失;LBCE(·)表示二值交叉熵损失;
所述GWSCoSal模型的总体训练损失函数为:L=LP+λLGWS
其中,λ是用于平衡LGWS和LP之间比例的超参数;
所述训练数据采用现有的DUTS数据集和拼图训练策略,随机选择训练数据中的一组5幅图像分别输入GCAM网络和主干网络;所述GCAM网络的弱监督训练中,将图像组中的5幅图像分别输入至GCAM网络中5个对应的子网络,以图像组的公共类别标签作为真值,将第二个全连接层的输出结果与各子网络的特征提取部分中任意特征层的输出特征矩阵进行求偏导;沿着输入图像各自的子网络反向传播至该特征层,得到该特征层的梯度矩阵并计算其各通道的权重;将各通道权重与该特征层的输出特征矩阵进行逐像素相乘,利用激活函数得到5幅图像对应的组类别激活图GCAM;所述主干网络的像素级训练中,将图像组中的5幅图像依次输入至主干网络的编码器;将编码器的最后一个输出特征与GCAM网络生成的组类别激活图GCAM以逐像素相乘的方式进行融合;将融合的特征输入至主干网络的解码器,生成5幅图像的协同显著图。
8.根据权利要求2、3、5或6所述的弱监督学习引导的协同显著性检测方法,其特征在于,所述步骤六中将现有协同显著性数据集中一组5幅图像分别输入GCAM网络和主干网络,其中,每幅输入图像尺寸统一调整为224×224;在图像组输入GCAM网络进行分类时,选择概率得分为Top-3的公共类别作为公共类别标签,并将选择的概率得分作为前3个公共类别对应生成的组类别激活图GCAM的权重,然后,将该权重与每幅输入图像的前3个公共类别对应生成的组类别激活图GCAM进行逐像素相乘,并将3个相乘后的组类别激活图GCAM进行逐像素取均值,生成每幅输入图像的组类别激活图GCAM;
所述步骤六中预测的图像组
Figure FDA0003914645990000051
的组类别激活图GCAM为:
Figure FDA0003914645990000052
其中,
Figure FDA0003914645990000053
表示图像In中公共类别m的预测GCAM;pm表示图像组
Figure FDA0003914645990000054
中公共类别m的概率得分;
Figure FDA0003914645990000055
表示图像In的预测组类别激活图GCAM;
获得组类别激活图
Figure FDA0003914645990000056
后,将其送入主干网络进行融合,主干网络对图像组中的5幅图像依次进行处理,编码器的输出与对应图像的组类别激活图GCAM进行逐像素相乘,来融合图间显著性信息;通过主干网络的解码器生成预测的协同显著图即协同显著性检测结果。
CN202210375572.2A 2022-04-11 2022-04-11 弱监督学习引导的协同显著性检测方法 Active CN114743027B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210375572.2A CN114743027B (zh) 2022-04-11 2022-04-11 弱监督学习引导的协同显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210375572.2A CN114743027B (zh) 2022-04-11 2022-04-11 弱监督学习引导的协同显著性检测方法

Publications (2)

Publication Number Publication Date
CN114743027A CN114743027A (zh) 2022-07-12
CN114743027B true CN114743027B (zh) 2023-01-31

Family

ID=82281418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210375572.2A Active CN114743027B (zh) 2022-04-11 2022-04-11 弱监督学习引导的协同显著性检测方法

Country Status (1)

Country Link
CN (1) CN114743027B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152575B (zh) * 2023-04-18 2023-07-21 之江实验室 基于类激活采样引导的弱监督目标定位方法、装置和介质
CN116994006B (zh) * 2023-09-27 2023-12-08 江苏源驶科技有限公司 一种融合图像显著性信息的协同显著性检测方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8200010B1 (en) * 2007-09-20 2012-06-12 Google Inc. Image segmentation by clustering web images
CN107909079A (zh) * 2017-10-11 2018-04-13 天津大学 一种协同显著性检测方法
CN108550132A (zh) * 2018-03-16 2018-09-18 安徽大学 一种基于全局紧凑先验和全局相似度显著传播的协同显著目标检测方法
CN109255357A (zh) * 2018-08-03 2019-01-22 天津大学 一种rgbd图像协同显著性检测方法
CN109448015A (zh) * 2018-10-30 2019-03-08 河北工业大学 基于显著图融合的图像协同分割方法
CN109472259A (zh) * 2018-10-30 2019-03-15 河北工业大学 基于能量优化的图像协同显著性检测方法
CN111027576A (zh) * 2019-12-26 2020-04-17 郑州轻工业大学 基于协同显著性生成式对抗网络的协同显著性检测方法
CN112348033A (zh) * 2020-10-15 2021-02-09 北京交通大学 一种协同显著性目标检测方法
CN112651940A (zh) * 2020-12-25 2021-04-13 郑州轻工业大学 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN112906800A (zh) * 2021-02-26 2021-06-04 上海大学 基于图像组自适应的协同显著性检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10558750B2 (en) * 2016-11-18 2020-02-11 Salesforce.Com, Inc. Spatial attention model for image captioning

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8200010B1 (en) * 2007-09-20 2012-06-12 Google Inc. Image segmentation by clustering web images
CN107909079A (zh) * 2017-10-11 2018-04-13 天津大学 一种协同显著性检测方法
CN108550132A (zh) * 2018-03-16 2018-09-18 安徽大学 一种基于全局紧凑先验和全局相似度显著传播的协同显著目标检测方法
CN109255357A (zh) * 2018-08-03 2019-01-22 天津大学 一种rgbd图像协同显著性检测方法
CN109448015A (zh) * 2018-10-30 2019-03-08 河北工业大学 基于显著图融合的图像协同分割方法
CN109472259A (zh) * 2018-10-30 2019-03-15 河北工业大学 基于能量优化的图像协同显著性检测方法
CN111027576A (zh) * 2019-12-26 2020-04-17 郑州轻工业大学 基于协同显著性生成式对抗网络的协同显著性检测方法
CN112348033A (zh) * 2020-10-15 2021-02-09 北京交通大学 一种协同显著性目标检测方法
CN112651940A (zh) * 2020-12-25 2021-04-13 郑州轻工业大学 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN112906800A (zh) * 2021-02-26 2021-06-04 上海大学 基于图像组自适应的协同显著性检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Class Activation Mapping-Based Car Saliency Region and Detection for In-Vehicle Surveillance;I. D. Bhaswara et al.;《2019 International Electronics Symposium》;20191118;第349-353页 *
Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization;R. R. Selvaraju et al.;《2017 IEEE International Conference on Computer Vision 》;20171225;第618-626页 *
协同视觉显著性检测方法综述;钱晓亮 等;《电子学报》;20190630;第47卷(第6期);第1353-1365页 *

Also Published As

Publication number Publication date
CN114743027A (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
Baldassarre et al. Deep koalarization: Image colorization using cnns and inception-resnet-v2
Zhou et al. Contextual ensemble network for semantic segmentation
CN109859190B (zh) 一种基于深度学习的目标区域检测方法
Li et al. Building-a-nets: Robust building extraction from high-resolution remote sensing images with adversarial networks
CN107358626B (zh) 一种利用条件生成对抗网络计算视差的方法
CN110210539B (zh) 多级深度特征融合的rgb-t图像显著性目标检测方法
CN114743027B (zh) 弱监督学习引导的协同显著性检测方法
CN107680106A (zh) 一种基于Faster R‑CNN的显著性目标检测方法
Hu et al. Learning hybrid convolutional features for edge detection
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN114049381A (zh) 一种融合多层语义信息的孪生交叉目标跟踪方法
CN111462149A (zh) 一种基于视觉显著性的实例人体解析方法
CN108388901B (zh) 基于空间-语义通道的协同显著目标检测方法
CN114219824A (zh) 基于深度网络的可见光-红外目标跟踪方法及系统
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
Weng et al. A survey on improved GAN based image inpainting
Huang et al. Video frame prediction with dual-stream deep network emphasizing motions and content details
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
Schmeckpeper et al. Object-centric video prediction without annotation
Fu et al. Optimization of distributed convolutional neural network for image labeling on asynchronous GPU model
Sun et al. Information enhanced graph convolutional networks for skeleton-based action recognition
CN113449193A (zh) 基于多分类图像的信息推荐方法及装置
Long et al. SASiamNet: Self-adaptive Siamese Network for change detection of remote sensing image
Wang et al. Cross-layer progressive attention bilinear fusion method for fine-grained visual classification
CN111047571A (zh) 一种具有自适应选择训练过程的图像显著目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant