CN111931787A - 一种基于特征聚合的rgbd显著性检测方法 - Google Patents
一种基于特征聚合的rgbd显著性检测方法 Download PDFInfo
- Publication number
- CN111931787A CN111931787A CN202010710225.1A CN202010710225A CN111931787A CN 111931787 A CN111931787 A CN 111931787A CN 202010710225 A CN202010710225 A CN 202010710225A CN 111931787 A CN111931787 A CN 111931787A
- Authority
- CN
- China
- Prior art keywords
- feature
- network
- module
- feature extraction
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 49
- 238000006116 polymerization reaction Methods 0.000 title claims abstract description 8
- 238000000605 extraction Methods 0.000 claims abstract description 45
- 230000004927 fusion Effects 0.000 claims abstract description 42
- 230000002776 aggregation Effects 0.000 claims abstract description 25
- 238000004220 aggregation Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 23
- 238000011176 pooling Methods 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000005096 rolling process Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000000903 blocking effect Effects 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000116 mitigating effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于特征聚合的RGBD显著性检测方法,首先对输入图像进行预处理;然后构建显著性检测网络;显著性检测网络包括特征提取网络和特征聚合网络。特征提取网络为一对基于ResNet50构建的非对称双流主干网络,分为RGB图像特征提取分支和深度图像特征提取分支。特征聚合网络包括K近邻GNNs、区域增强模块、分级融合模块、分块Non‑local模块。最后训练显著性检测网络,通过训练好的显著性检测网络进行显著性检测;本发明高效地联合推理了2D外观和3D几何信息,充分融合了来自于RGB图像和深度图像这两种不同模态的信息,通过分级融合模块进一步提升了模型的多尺度表达能力,使得粗糙级别的特征和精细级别的特征很好地融合在一起。
Description
技术领域
该基于特征聚合的RGBD显著性检测方法属于计算机视觉领域,特别是利用卷积神经网络来聚合RGB图像和深度图像中所包含的不同模态的特征信息。
背景技术
随着计算机视觉的快速发展和人工智能浪潮的来袭,深度学习技术得到了广泛的应用。利用计算机技术来模拟人眼的注意力机制成为了一个新兴且极具挑战性的研究热点。视觉显著性是指人类在观察某一区域时视野中存在能够引起人类视觉关注的局部区域,该局部区域被称为显著区域。显著性检测主要用于凸显图像或者视频中的显著区域。总体来说,显著性检测广泛应用于图像分割、对象识别、视频编码等领域,开展相关研究工作具有十分重要的实际意义。
目前,已经陆续提出了许多针对RGB图像的显著性检测模型,但是在某些复杂场景中,例如前景和背景相似、光照强度低等,其整体表现仍差强人意。随着传感器技术的不断发展,深度传感器(Microsoft Kinect和Intel RealSense等)采集到的深度信息在一定程度上解决了这一问题。因此,在RGB显著性检测的基础上引入蕴含丰富空间结构信息的深度特征,即RGBD显著性检测,进一步推动了显著性检测任务的发展,提升了显著区域的检测精度。
尽管已有RGBD显著性检测方法取得了令人鼓舞的性能,但在几个关键方面仍有很大的改进空间:1)目前已有的基于深度学习的RGBD显著性检测模型基本上是利用卷积神经网络(CNNs)来进行特征提取,不管是对于RGB图像还是深度图像来说都是如此。毫无疑问,CNNs特别是全卷积神经网络(FCNs)在图像处理领域取得了瞩目的成就,大幅提升了在相关任务上的性能表现,因而得到了极其广泛地应用。但是,众所周知,CNNs更擅长于提取二维外观信息,而缺乏对三维几何信息进行有效表征的能力。不可否认的是,深度图像作为RGB图像的补充,其能够可靠地反映场景中的空间结构,从而更有利于准确地区分显著区域和背景区域。2)RGB图像和深度图像这两种不同的模态存在固有差异,因此很难通过简单的串联将这两种模态进行有效地融合。具体来说,RGB图像反映的主要是颜色、纹理和亮度等外观信息,而深度图像则更多的表达了场景中的空间几何信息,二者截然不同,如果只是采取简单的融合策略可能会导致不兼容问题。3)在风格迥异的众多场景中,往往会存在尺度差异明显的对象,这将极大的考验模型的多尺度表达能力。探索如何在复杂场景下兼顾不同尺度的特征,进而精确定位显著区域具有重要的理论意义。
发明内容
针对现有技术中存在的不足,本发明提供一种基于特征聚合的RGBD显著性检测方法。通过用于RGBD显著性检测的端到端的特征聚合网络模型进行显著性检测。
一种基于特征聚合的RGBD显著性检测方法,步骤如下:
步骤1、对输入图像进行预处理;
通过HHA算法将深度图像由单通道编码为三通道的表示形式。同时,模拟类似于点云的数据结构,将深度信息从2D像素转换成3D点云。
步骤2、构建显著性检测网络;
显著性检测网络包括特征提取网络和特征聚合网络。
所述的特征提取网络为一对基于ResNet50构建的非对称双流主干网络,分为RGB图像特征提取分支和深度图像特征提取分支,分别用于提取RGB图像和深度图像的多级外观和几何特征。通过特征提取网络提取得到多级外观特征和多级几何特征。
所述的特征聚合网络包括K近邻GNNs、区域增强模块、分级融合模块、分块Non-local模块。
构建的K近邻GNNs,分别将点云中的点与对应的双流CNNs输出的特征相关联,并以此作为图模型节点的初始状态。在迭代更新的过程中,每一个节点的状态由其自身的历史状态和相邻节点的状态共同决定。
设计基于注意力机制的区域增强模块,在进行跨模态特征初步融合的同时实现粗略地定位显著区域。区域增强模块可以分别强化显著区域与非显著区域,进而为前景和背景的预测提供可靠的模版。
通过分级融合模块,利用基于池化的结构提升模型的多尺度表达能力。
分级融合模块内部通过并行的不同尺度的池化操作来提取不同尺度的特征,进而与相应级别的初步融合特征进行深度融合。多个分级融合模块实现了较深层高级语义信息和较浅层局部细节信息的逐步融合,使得模型在复杂场景下更具鲁棒性。
特征聚合网络在融合外观特征和几何特征的基础上进一步聚合了来自K近邻GNNs的空间几何特征,并以注意力和多尺度的方式逐步地强化了显著性特征。最后,在真值图的约束下生成高质量的显著性图。
步骤3、训练显著性检测网络,通过训练好的显著性检测网络进行显著性检测;
进一步的,所述的步骤1具体方法如下:
输入图像包括深度图像和RGB图像,采用HHA算法将深度图像由单通道编码为三通道的表示形式,分别表征了水平视差、离地面的高度以及像素局部表面法线与推断的重力方向所成的角度,形成以RGB图像I和深度图像D作为模型输入的图像对。
进一步的,所述的特征提取网络为一对基于ResNet50构建的非对称双流主干网络,分为RGB图像特征提取分支和深度图像特征提取分支,分别用于提取RGB图像和深度图像的多级外观和几何特征。为了实现端到端的训练方式,丢弃特征提取网络最后的全连接层,其中RGB图像特征提取分支保留了5级卷积块,分别实现了2、4、8、16、16倍的下采样,而深度图像特征提取分支保留了3级卷积块,分别实现了2、4、8倍的下采样。通过特征提取网络提取得到多级外观特征和多级几何特征覆盖了低级空间细节和高级语义信息。
进一步的,所述的特征聚合网络采用K近邻图神经网络即K近邻GNNs解决RGBD显著性检测问题。对于给定的深度图像,为了降低计算复杂度和减少内存消耗,进行8倍下采样。利用经HHA算法计算得到的水平视差通道来模拟场景的空间结构,并以此构造有向图,其中将每一个像素视为一个图节点。在有向图构造完后,使用CNNs作为特征提取器计算每一个像素的特征,所述的像素的特征为外观特征,并将获得的外观特征作为相应节点的初始隐层状态
K近邻GNNs只随时间变化更新图中节点的隐层状态,故将更新过程简化为:
其中,向量表示表示在t时刻节点v从它相邻节点集合中收集到的信息,为邻域信息聚合函数,为隐层状态更新函数,定义某一时刻t的其中表示用于聚合每一个节点的邻域信息的多层感知机(MLP)。采用K近邻算法计算节点的特定邻域范围。定义某一时刻t的其中表示用于更新每一个节点的隐层状态的多层感知机(MLP),[·]表示级联操作。在循环T次后,K近邻GNNs输出特征
进一步的,所述的特征聚合网络采用基于注意力机制的区域增强模块,在融合跨模态特征的同时粗略地定位了显著区域。通过相应的区域增强模块对于不同模态的特征和采用按元素相加的方式进行初步融合,然后通过Sigmoid函数将特征值映射到0至1之间。为了突出显著区域,利用最大池化操作进行特征选择;相似地,为了突出非显著区域,在取反的基础上利用最大池化操作进行特征选择,公式如下:
其中,代表最大池化操作,代表Sigmoid函数,+表示按元素相加,-表示按元素取反。通过将前景特征FFG和背景特征FBG进行叠加,获得既突出显著区域又抑制非显著区域的特征注意力模版,并将其与初步融合的特征按元素相乘以生成选择过的注意力特征表示。然而,在特征选择的过程中会造成一定的特征丢失,为此尽可能地保留原始特征,计算公式如下:
进一步的,所述的特征聚合网络共包括5个分级融合模块,依次串联,其中每一个分级融合模块中都包含4个子分支,除了直连分支外,其余3个子分支分别通过均值池化进行2倍、4倍和8倍的下采样,在经过卷积核大小为3×3的卷积层后,执行双线性插值操作,将不同尺度的特征图上采样到输入特征图的大小。然后将4个子分支的特征图以按元素相加的方式进行融合,缓解了上采样的混叠效应。通过双线性插值操作将融合后的特征图上采样到相应的尺寸,再通过一个卷积核大小为3×3、步长为1的卷积层。
所述的分块Non-local模块在尽可能节省内存的情况下最大限度地扩大了感受野。通过分块Non-local模块和区域增强模块的输出进行进一步计算,则第i个分级融合模块的最终输出可以计算为,
其中,i∈{1,2,3,4,5},C3×3(·)代表卷积核大小为3×3的卷积层,+表示按元素相加,表示经过多尺度融合后的表示相应区域增强模块的输出,表示经过j倍上采样的分块Non-local模块的输出。需要注意的是,当i=4时,融入了来自于K近邻GNNs的包含丰富空间几何信息的特征FG,此时相应分级融合模块的输出如下:
其中,FIDG表示充分融合了外观信息和空间信息的混合特征,其可以定义为:
进一步的,所述的步骤3具体方法如下;
特征提取网络的参数使用在ImageNet数据集上预训练的相应模型进行初始化,其余参数进行随机初始化。通过Adam优化器进行优化,并且将动量、权重衰减率和初始学习率分别设为0.9、5e-4和5e-5。将批量大小设为1,总训练周期设为50,采用交叉熵损失以实现收敛,并在44个周期后将学习率除以10。
本发明有益效果如下:
本发明创新性地引入了K近邻图神经网络用于充分挖掘深度图像中所蕴含的空间几何信息。K近邻图神经网络协同卷积神经网络高效地联合推理了2D外观和3D几何信息。基于注意力机制的区域增强模块充分融合了来自于RGB图像和深度图像这两种不同模态的信息,在进行跨模态特征融合的同时实现了粗略地定位显著区域。基于池化的结构的分级融合模块进一步提升了模型的多尺度表达能力,使得粗糙级别的特征和精细级别的特征很好地融合在一起。
附图说明
图1为基于特征聚合的RGBD显著性检测方法的框架图;
图2为区域增强模块示意图;
图3为分级融合模块示意图。
具体实施方式
本发明提出了一种基于特征聚合的RGBD显著性检测方法,下面将结合相关步骤进行详细说明。
我们提出的方法是使用PyTorch工具箱实现的,并在具有NVIDIA GeForce RTX2080Ti GPU和126GB内存的高性能服务器上进行了训练。
一种基于特征聚合的RGBD显著性检测方法,步骤如下:
步骤1、对输入图像进行预处理;
输入图像包括深度图像和RGB图像,采用HHA算法将深度图像由单通道编码为三通道的表示形式,分别表征了水平视差、离地面的高度以及像素局部表面法线与推断的重力方向所成的角度,形成以RGB图像I和深度图像D作为模型输入的图像对。
步骤2、构建显著性检测网络;
如图1所示,显著性检测网络包括特征提取网络和特征聚合网络。
所述的特征提取网络为一对基于ResNet50构建的非对称双流主干网络,分为RGB图像特征提取分支和深度图像特征提取分支,分别用于提取RGB图像和深度图像的多级外观和几何特征。为了实现端到端的训练方式,丢弃特征提取网络最后的全连接层,其中RGB图像特征提取分支保留了5级卷积块,分别实现了2、4、8、16、16倍的下采样,而深度图像特征提取分支保留了3级卷积块,分别实现了2、4、8倍的下采样。通过特征提取网络提取得到多级外观特征和多级几何特征覆盖了低级空间细节和高级语义信息。
所述的特征聚合网络包括K近邻GNNs、区域增强模块、分级融合模块、分块Non-local模块。
考虑到CNNs对三维几何信息并不敏感,采用K近邻图神经网络即K近邻GNNs解决RGBD显著性检测问题。对于给定的深度图像,利用经HHA算法计算得到的水平视差通道来模拟场景的空间结构,并以此构造有向图,其中将每一个像素视为一个图节点。在有向图构造完后,使用CNNs作为特征提取器计算每一个像素的特征,所述的像素的特征为外观特征,并将获得的外观特征作为相应节点的初始隐层状态
进一步的,为了降低计算复杂度和减少内存消耗,将有向图建立在8倍下采样后的特征图之上。
K近邻GNNs只随时间变化更新图中节点的隐层状态,故将更新过程简化为:
其中,向量表示表示在t时刻节点v从它相邻节点集合中收集到的信息,为邻域信息聚合函数,为隐层状态更新函数,定义某一时刻t的其中表示用于聚合每一个节点的邻域信息的多层感知机(MLP)。采用K近邻算法计算节点的特定邻域范围。定义某一时刻t的其中表示用于更新每一个节点的隐层状态的多层感知机(MLP),[·]表示级联操作。在循环T次后,K近邻GNNs输出特征其巧妙地结合了二维外观信息和三维几何信息。
采用基于注意力机制的区域增强模块,在融合跨模态特征的同时粗略地定位了显著区域。通过相应的区域增强模块对于不同模态的特征和采用按元素相加的方式进行初步融合,然后通过Sigmoid函数将特征值映射到0至1之间。为了突出显著区域,利用最大池化操作进行特征选择;相似地,为了突出非显著区域,在取反的基础上利用最大池化操作进行特征选择,公式如下:
其中,代表最大池化操作,代表Sigmoid函数,+表示按元素相加,-表示按元素取反。通过将前景特征FFG和背景特征FBG进行叠加,获得既突出显著区域又抑制非显著区域的特征注意力模版,并将其与初步融合的特征按元素相乘以生成选择过的注意力特征表示。然而,在特征选择的过程中会造成一定的特征丢失,为此尽可能地保留原始特征,计算公式如下:
其中,×表示按元素相乘,则特征图表示相应的区域增强模块的输出,能够有效地定位并突出显著区域。区域增强模块使我们的模型能够产生更加准确的显著性预测结果,这是因为其在强化显著区域的同时对非显著区域进行了有效抑制。
图2为区域增强模块示意图;
当处理多尺度信息时,特征兼容是关键,本方法引入了分级融合模块。基于池化结构的一系列分级融合模块实现了多尺度特征间的兼容,有效提升了模型的多尺度表达能力。特征聚合网络共包括5个分级融合模块,依次串联,其中每一个分级融合模块中都包含4个子分支,除了直连分支外,其余3个子分支分别通过均值池化进行2倍、4倍和8倍的下采样,在经过卷积核大小为3×3的卷积层后,执行双线性插值操作,将不同尺度的特征图上采样到输入特征图的大小。然后将4个子分支的特征图以按元素相加的方式进行融合,缓解了上采样的混叠效应。通过双线性插值操作将融合后的特征图上采样到相应的尺寸,再通过一个卷积核大小为3×3、步长为1的卷积层。
为了充分融合粗糙级别和精细级别的特征,提升模型的鲁棒性,本方法进一步融合了相应级别的浅层局部细节信息和深层高级语义信息。特别地,我们引入了分块Non-local模块,所述的分块Non-local模块在尽可能节省内存的情况下最大限度地扩大了感受野。通过分块Non-local模块和区域增强模块的输出进行进一步计算,则第i个分级融合模块的最终输出可以计算为,
其中,i∈{1,2,3,4,5},C3×3(·)代表卷积核大小为3×3的卷积层,+表示按元素相加,表示经过多尺度融合后的表示相应区域增强模块的输出,表示经过j倍上采样的分块Non-local模块的输出。需要注意的是,当i=4时,融入了来自于K近邻GNNs的包含丰富空间几何信息的特征FG,此时相应分级融合模块的输出如下:
其中,FIDG表示充分融合了外观信息和空间信息的混合特征,其可以定义为:
图3为分级融合模块示意图。
步骤3、训练显著性检测网络,通过训练好的显著性检测网络进行显著性检测;
特征提取网络的参数使用在ImageNet数据集上预训练的相应模型进行初始化,其余参数进行随机初始化。通过Adam优化器进行优化,并且将动量、权重衰减率和初始学习率分别设为0.9、5e-4和5e-5。将批量大小设为1,总训练周期设为50,采用交叉熵损失以实现收敛,并在44个周期后将学习率除以10。
Claims (7)
1.一种基于特征聚合的RGBD显著性检测方法,其特征在于,步骤如下:
步骤1、对输入图像进行预处理;
通过HHA算法将深度图像由单通道编码为三通道的表示形式;同时,模拟类似于点云的数据结构,将深度信息从2D像素转换成3D点云;
步骤2、构建显著性检测网络;
显著性检测网络包括特征提取网络和特征聚合网络;
所述的特征提取网络为一对基于ResNet50构建的非对称双流主干网络,分为RGB图像特征提取分支和深度图像特征提取分支,分别用于提取RGB图像和深度图像的多级外观和几何特征;通过特征提取网络提取得到多级外观特征和多级几何特征;
所述的特征聚合网络包括K近邻GNNs、区域增强模块、分级融合模块、分块Non-local模块;
构建的K近邻GNNs,分别将点云中的点与对应的双流CNNs输出的特征相关联,并以此作为图模型节点的初始状态;在迭代更新的过程中,每一个节点的状态由其自身的历史状态和相邻节点的状态共同决定;
设计基于注意力机制的区域增强模块,在进行跨模态特征初步融合的同时实现粗略地定位显著区域;区域增强模块可以分别强化显著区域与非显著区域,进而为前景和背景的预测提供可靠的模版;
通过分级融合模块,利用基于池化的结构提升模型的多尺度表达能力;
分级融合模块内部通过并行的不同尺度的池化操作来提取不同尺度的特征,进而与相应级别的初步融合特征进行深度融合;多个分级融合模块实现了较深层高级语义信息和较浅层局部细节信息的逐步融合,使得模型在复杂场景下更具鲁棒性;
特征聚合网络在融合外观特征和几何特征的基础上进一步聚合了来自K近邻GNNs的空间几何特征,并以注意力和多尺度的方式逐步地强化了显著性特征;最后,在真值图的约束下生成高质量的显著性图;
步骤3、训练显著性检测网络,通过训练好的显著性检测网络进行显著性检测。
2.根据权利要求1所述的进一步的,所述的一种基于特征聚合的RGBD显著性检测方法,其特征在于,步骤1具体方法如下:
输入图像包括深度图像和RGB图像,采用HHA算法将深度图像由单通道编码为三通道的表示形式,分别表征了水平视差、离地面的高度以及像素局部表面法线与推断的重力方向所成的角度,形成以RGB图像I和深度图像D作为模型输入的图像对。
4.根据权利要求3所述的进一步的,所述的一种基于特征聚合的RGBD显著性检测方法,其特征在于,进一步的,所述的特征聚合网络采用K近邻图神经网络即K近邻GNNs解决RGBD显著性检测问题;对于给定的深度图像,为了降低计算复杂度和减少内存消耗,进行8倍下采样;利用经HHA算法计算得到的水平视差通道来模拟场景的空间结构,并以此构造有向图,其中将每一个像素视为一个图节点;在有向图构造完后,使用CNNs作为特征提取器计算每一个像素的特征,所述的像素的特征为外观特征,并将获得的外观特征作为相应节点的初始隐层状态
K近邻GNNs只随时间变化更新图中节点的隐层状态,故将更新过程简化为:
5.根据权利要求4所述的进一步的,所述的一种基于特征聚合的RGBD显著性检测方法,其特征在于,进一步的,所述的特征聚合网络采用基于注意力机制的区域增强模块,在融合跨模态特征的同时粗略地定位了显著区域;通过相应的区域增强模块对于不同模态的特征和采用按元素相加的方式进行初步融合,然后通过Sigmoid函数将特征值映射到0至1之间;为了突出显著区域,利用最大池化操作进行特征选择;相似地,为了突出非显著区域,在取反的基础上利用最大池化操作进行特征选择,公式如下:
其中,代表最大池化操作,代表Sigmoid函数,+表示按元素相加,-表示按元素取反;通过将前景特征FFG和背景特征FBG进行叠加,获得既突出显著区域又抑制非显著区域的特征注意力模版,并将其与初步融合的特征按元素相乘以生成选择过的注意力特征表示;然而,在特征选择的过程中会造成一定的特征丢失,为此尽可能地保留原始特征,计算公式如下:
6.根据权利要求5所述的进一步的,所述的一种基于特征聚合的RGBD显著性检测方法,其特征在于,进一步的,所述的特征聚合网络共包括5个分级融合模块,依次串联,其中每一个分级融合模块中都包含4个子分支,除了直连分支外,其余3个子分支分别通过均值池化进行2倍、4倍和8倍的下采样,在经过卷积核大小为3×3的卷积层后,执行双线性插值操作,将不同尺度的特征图上采样到输入特征图的大小;然后将4个子分支的特征图以按元素相加的方式进行融合,缓解了上采样的混叠效应;通过双线性插值操作将融合后的特征图上采样到相应的尺寸,再通过一个卷积核大小为3×3、步长为1的卷积层;
所述的分块Non-local模块在尽可能节省内存的情况下最大限度地扩大了感受野;通过分块Non-local模块和区域增强模块的输出进行进一步计算,则第i个分级融合模块的最终输出可以计算为,
其中,i∈{1,2,3,4,5},C3×3(·)代表卷积核大小为3×3的卷积层,+表示按元素相加,表示经过多尺度融合后的 表示相应区域增强模块的输出,表示经过j倍上采样的分块Non-local模块的输出;需要注意的是,当i=4时,融入了来自于K近邻GNNs的包含丰富空间几何信息的特征FG,此时相应分级融合模块的输出如下:
其中,FIDG表示充分融合了外观信息和空间信息的混合特征,其可以定义为:
7.根据权利要求6所述的进一步的,所述的一种基于特征聚合的RGBD显著性检测方法,其特征在于,进一步的,所述的步骤3具体方法如下;
特征提取网络的参数使用在ImageNet数据集上预训练的相应模型进行初始化,其余参数进行随机初始化;通过Adam优化器进行优化,并且将动量、权重衰减率和初始学习率分别设为0.9、5e-4和5e-5;将批量大小设为1,总训练周期设为50,采用交叉熵损失以实现收敛,并在44个周期后将学习率除以10。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010710225.1A CN111931787A (zh) | 2020-07-22 | 2020-07-22 | 一种基于特征聚合的rgbd显著性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010710225.1A CN111931787A (zh) | 2020-07-22 | 2020-07-22 | 一种基于特征聚合的rgbd显著性检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111931787A true CN111931787A (zh) | 2020-11-13 |
Family
ID=73315161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010710225.1A Withdrawn CN111931787A (zh) | 2020-07-22 | 2020-07-22 | 一种基于特征聚合的rgbd显著性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111931787A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112396000A (zh) * | 2020-11-19 | 2021-02-23 | 中山大学 | 一种多模态密集预测的深度信息传输模型的构建方法 |
CN112801015A (zh) * | 2021-02-08 | 2021-05-14 | 华南理工大学 | 一种基于注意力机制的多模态人脸识别方法 |
CN113077491A (zh) * | 2021-04-02 | 2021-07-06 | 安徽大学 | 基于跨模态共享和特定表示形式的rgbt目标跟踪方法 |
CN113362307A (zh) * | 2021-06-07 | 2021-09-07 | 哈尔滨理工大学 | 一种rgb-d图像显著性检测方法 |
CN113379691A (zh) * | 2021-05-31 | 2021-09-10 | 南方医科大学 | 一种基于先验引导的乳腺病灶深度学习分割方法 |
CN113536973A (zh) * | 2021-06-28 | 2021-10-22 | 杭州电子科技大学 | 一种基于显著性的交通标志检测方法 |
CN113536977A (zh) * | 2021-06-28 | 2021-10-22 | 杭州电子科技大学 | 一种面向360度全景图像的显著性目标检测方法 |
CN113628125A (zh) * | 2021-07-06 | 2021-11-09 | 武汉大学 | 基于空间视差先验网络的多幅红外图像增强方法 |
CN113627367A (zh) * | 2021-08-16 | 2021-11-09 | 电子科技大学 | 一种基于多维信息聚合的立体视频显著性检测方法 |
CN114170174A (zh) * | 2021-12-02 | 2022-03-11 | 沈阳工业大学 | 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法 |
CN114663774A (zh) * | 2022-05-24 | 2022-06-24 | 之江实验室 | 一种轻量级的显著性物体检测系统及方法 |
CN114821654A (zh) * | 2022-05-09 | 2022-07-29 | 福州大学 | 一种融合局部与深度的时空图网络的人手检测方法 |
CN115082553A (zh) * | 2022-08-23 | 2022-09-20 | 青岛云智聚智能科技有限公司 | 一种物流包裹位置检测方法及系统 |
CN115601742A (zh) * | 2022-11-21 | 2023-01-13 | 松立控股集团股份有限公司(Cn) | 一种基于图关系排名的尺度敏感车牌检测方法 |
CN115661482A (zh) * | 2022-11-11 | 2023-01-31 | 东北石油大学三亚海洋油气研究院 | 一种基于联合注意力的rgb-t显著目标检测方法 |
-
2020
- 2020-07-22 CN CN202010710225.1A patent/CN111931787A/zh not_active Withdrawn
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112396000A (zh) * | 2020-11-19 | 2021-02-23 | 中山大学 | 一种多模态密集预测的深度信息传输模型的构建方法 |
CN112396000B (zh) * | 2020-11-19 | 2023-09-05 | 中山大学 | 一种多模态密集预测的深度信息传输模型的构建方法 |
CN112801015A (zh) * | 2021-02-08 | 2021-05-14 | 华南理工大学 | 一种基于注意力机制的多模态人脸识别方法 |
CN113077491A (zh) * | 2021-04-02 | 2021-07-06 | 安徽大学 | 基于跨模态共享和特定表示形式的rgbt目标跟踪方法 |
CN113379691A (zh) * | 2021-05-31 | 2021-09-10 | 南方医科大学 | 一种基于先验引导的乳腺病灶深度学习分割方法 |
CN113362307A (zh) * | 2021-06-07 | 2021-09-07 | 哈尔滨理工大学 | 一种rgb-d图像显著性检测方法 |
CN113536973A (zh) * | 2021-06-28 | 2021-10-22 | 杭州电子科技大学 | 一种基于显著性的交通标志检测方法 |
CN113536977A (zh) * | 2021-06-28 | 2021-10-22 | 杭州电子科技大学 | 一种面向360度全景图像的显著性目标检测方法 |
CN113536973B (zh) * | 2021-06-28 | 2023-08-18 | 杭州电子科技大学 | 一种基于显著性的交通标志检测方法 |
CN113536977B (zh) * | 2021-06-28 | 2023-08-18 | 杭州电子科技大学 | 一种面向360度全景图像的显著性目标检测方法 |
CN113628125A (zh) * | 2021-07-06 | 2021-11-09 | 武汉大学 | 基于空间视差先验网络的多幅红外图像增强方法 |
CN113628125B (zh) * | 2021-07-06 | 2023-08-15 | 武汉大学 | 基于空间视差先验网络的多幅红外图像增强方法 |
CN113627367B (zh) * | 2021-08-16 | 2023-04-07 | 电子科技大学 | 一种基于多维信息聚合的立体视频显著性检测方法 |
CN113627367A (zh) * | 2021-08-16 | 2021-11-09 | 电子科技大学 | 一种基于多维信息聚合的立体视频显著性检测方法 |
CN114170174A (zh) * | 2021-12-02 | 2022-03-11 | 沈阳工业大学 | 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法 |
CN114170174B (zh) * | 2021-12-02 | 2024-01-23 | 沈阳工业大学 | 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法 |
CN114821654A (zh) * | 2022-05-09 | 2022-07-29 | 福州大学 | 一种融合局部与深度的时空图网络的人手检测方法 |
CN114663774A (zh) * | 2022-05-24 | 2022-06-24 | 之江实验室 | 一种轻量级的显著性物体检测系统及方法 |
CN115082553A (zh) * | 2022-08-23 | 2022-09-20 | 青岛云智聚智能科技有限公司 | 一种物流包裹位置检测方法及系统 |
CN115661482A (zh) * | 2022-11-11 | 2023-01-31 | 东北石油大学三亚海洋油气研究院 | 一种基于联合注意力的rgb-t显著目标检测方法 |
CN115661482B (zh) * | 2022-11-11 | 2023-07-14 | 东北石油大学三亚海洋油气研究院 | 一种基于联合注意力的rgb-t显著目标检测方法 |
CN115601742A (zh) * | 2022-11-21 | 2023-01-13 | 松立控股集团股份有限公司(Cn) | 一种基于图关系排名的尺度敏感车牌检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931787A (zh) | 一种基于特征聚合的rgbd显著性检测方法 | |
US10353271B2 (en) | Depth estimation method for monocular image based on multi-scale CNN and continuous CRF | |
CN107358626B (zh) | 一种利用条件生成对抗网络计算视差的方法 | |
AU2017324923B2 (en) | Predicting depth from image data using a statistical model | |
Liu et al. | Depth-map completion for large indoor scene reconstruction | |
CN108648161B (zh) | 非对称核卷积神经网络的双目视觉障碍物检测系统及方法 | |
CN113066168B (zh) | 一种多视图立体网络三维重建方法及系统 | |
CN112991413A (zh) | 自监督深度估测方法和系统 | |
Li et al. | Confidence-based large-scale dense multi-view stereo | |
CN111508013B (zh) | 立体匹配方法 | |
CN112348870B (zh) | 一种基于残差融合的显著性目标检测方法 | |
EP3992908A1 (en) | Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching | |
CN114677479A (zh) | 一种基于深度学习的自然景观多视图三维重建方法 | |
CN110889868B (zh) | 一种结合梯度和纹理特征的单目图像深度估计方法 | |
CN116563682A (zh) | 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法 | |
CN115511759A (zh) | 一种基于级联特征交互的点云图像深度补全方法 | |
EP3992909A1 (en) | Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching | |
CN117576402B (zh) | 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法 | |
CN113139431A (zh) | 基于深监督学习的图像显著性目标检测方法 | |
CN117593187A (zh) | 基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法 | |
Haji-Esmaeili et al. | Large-scale monocular depth estimation in the wild | |
Deepa et al. | A deep learning based stereo matching model for autonomous vehicle | |
CN114266900B (zh) | 一种基于动态卷积的单目3d目标检测方法 | |
CN115984583B (zh) | 数据处理方法、装置、计算机设备、存储介质和程序产品 | |
Săftescu et al. | Learning geometrically consistent mesh corrections |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201113 |