CN111931787A - 一种基于特征聚合的rgbd显著性检测方法 - Google Patents

一种基于特征聚合的rgbd显著性检测方法 Download PDF

Info

Publication number
CN111931787A
CN111931787A CN202010710225.1A CN202010710225A CN111931787A CN 111931787 A CN111931787 A CN 111931787A CN 202010710225 A CN202010710225 A CN 202010710225A CN 111931787 A CN111931787 A CN 111931787A
Authority
CN
China
Prior art keywords
feature
network
module
feature extraction
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010710225.1A
Other languages
English (en)
Inventor
颜成钢
温洪发
周晓飞
孙垚棋
张继勇
张勇东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202010710225.1A priority Critical patent/CN111931787A/zh
Publication of CN111931787A publication Critical patent/CN111931787A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于特征聚合的RGBD显著性检测方法,首先对输入图像进行预处理;然后构建显著性检测网络;显著性检测网络包括特征提取网络和特征聚合网络。特征提取网络为一对基于ResNet50构建的非对称双流主干网络,分为RGB图像特征提取分支和深度图像特征提取分支。特征聚合网络包括K近邻GNNs、区域增强模块、分级融合模块、分块Non‑local模块。最后训练显著性检测网络,通过训练好的显著性检测网络进行显著性检测;本发明高效地联合推理了2D外观和3D几何信息,充分融合了来自于RGB图像和深度图像这两种不同模态的信息,通过分级融合模块进一步提升了模型的多尺度表达能力,使得粗糙级别的特征和精细级别的特征很好地融合在一起。

Description

一种基于特征聚合的RGBD显著性检测方法
技术领域
该基于特征聚合的RGBD显著性检测方法属于计算机视觉领域,特别是利用卷积神经网络来聚合RGB图像和深度图像中所包含的不同模态的特征信息。
背景技术
随着计算机视觉的快速发展和人工智能浪潮的来袭,深度学习技术得到了广泛的应用。利用计算机技术来模拟人眼的注意力机制成为了一个新兴且极具挑战性的研究热点。视觉显著性是指人类在观察某一区域时视野中存在能够引起人类视觉关注的局部区域,该局部区域被称为显著区域。显著性检测主要用于凸显图像或者视频中的显著区域。总体来说,显著性检测广泛应用于图像分割、对象识别、视频编码等领域,开展相关研究工作具有十分重要的实际意义。
目前,已经陆续提出了许多针对RGB图像的显著性检测模型,但是在某些复杂场景中,例如前景和背景相似、光照强度低等,其整体表现仍差强人意。随着传感器技术的不断发展,深度传感器(Microsoft Kinect和Intel RealSense等)采集到的深度信息在一定程度上解决了这一问题。因此,在RGB显著性检测的基础上引入蕴含丰富空间结构信息的深度特征,即RGBD显著性检测,进一步推动了显著性检测任务的发展,提升了显著区域的检测精度。
尽管已有RGBD显著性检测方法取得了令人鼓舞的性能,但在几个关键方面仍有很大的改进空间:1)目前已有的基于深度学习的RGBD显著性检测模型基本上是利用卷积神经网络(CNNs)来进行特征提取,不管是对于RGB图像还是深度图像来说都是如此。毫无疑问,CNNs特别是全卷积神经网络(FCNs)在图像处理领域取得了瞩目的成就,大幅提升了在相关任务上的性能表现,因而得到了极其广泛地应用。但是,众所周知,CNNs更擅长于提取二维外观信息,而缺乏对三维几何信息进行有效表征的能力。不可否认的是,深度图像作为RGB图像的补充,其能够可靠地反映场景中的空间结构,从而更有利于准确地区分显著区域和背景区域。2)RGB图像和深度图像这两种不同的模态存在固有差异,因此很难通过简单的串联将这两种模态进行有效地融合。具体来说,RGB图像反映的主要是颜色、纹理和亮度等外观信息,而深度图像则更多的表达了场景中的空间几何信息,二者截然不同,如果只是采取简单的融合策略可能会导致不兼容问题。3)在风格迥异的众多场景中,往往会存在尺度差异明显的对象,这将极大的考验模型的多尺度表达能力。探索如何在复杂场景下兼顾不同尺度的特征,进而精确定位显著区域具有重要的理论意义。
发明内容
针对现有技术中存在的不足,本发明提供一种基于特征聚合的RGBD显著性检测方法。通过用于RGBD显著性检测的端到端的特征聚合网络模型进行显著性检测。
一种基于特征聚合的RGBD显著性检测方法,步骤如下:
步骤1、对输入图像进行预处理;
通过HHA算法将深度图像由单通道编码为三通道的表示形式。同时,模拟类似于点云的数据结构,将深度信息从2D像素转换成3D点云。
步骤2、构建显著性检测网络;
显著性检测网络包括特征提取网络和特征聚合网络。
所述的特征提取网络为一对基于ResNet50构建的非对称双流主干网络,分为RGB图像特征提取分支和深度图像特征提取分支,分别用于提取RGB图像和深度图像的多级外观和几何特征。通过特征提取网络提取得到多级外观特征和多级几何特征。
所述的特征聚合网络包括K近邻GNNs、区域增强模块、分级融合模块、分块Non-local模块。
构建的K近邻GNNs,分别将点云中的点与对应的双流CNNs输出的特征相关联,并以此作为图模型节点的初始状态。在迭代更新的过程中,每一个节点的状态由其自身的历史状态和相邻节点的状态共同决定。
设计基于注意力机制的区域增强模块,在进行跨模态特征初步融合的同时实现粗略地定位显著区域。区域增强模块可以分别强化显著区域与非显著区域,进而为前景和背景的预测提供可靠的模版。
通过分级融合模块,利用基于池化的结构提升模型的多尺度表达能力。
分级融合模块内部通过并行的不同尺度的池化操作来提取不同尺度的特征,进而与相应级别的初步融合特征进行深度融合。多个分级融合模块实现了较深层高级语义信息和较浅层局部细节信息的逐步融合,使得模型在复杂场景下更具鲁棒性。
特征聚合网络在融合外观特征和几何特征的基础上进一步聚合了来自K近邻GNNs的空间几何特征,并以注意力和多尺度的方式逐步地强化了显著性特征。最后,在真值图的约束下生成高质量的显著性图。
步骤3、训练显著性检测网络,通过训练好的显著性检测网络进行显著性检测;
进一步的,所述的步骤1具体方法如下:
输入图像包括深度图像和RGB图像,采用HHA算法将深度图像由单通道编码为三通道的表示形式,分别表征了水平视差、离地面的高度以及像素局部表面法线与推断的重力方向所成的角度,形成以RGB图像I和深度图像D作为模型输入的图像对。
进一步的,所述的特征提取网络为一对基于ResNet50构建的非对称双流主干网络,分为RGB图像特征提取分支和深度图像特征提取分支,分别用于提取RGB图像和深度图像的多级外观和几何特征。为了实现端到端的训练方式,丢弃特征提取网络最后的全连接层,其中RGB图像特征提取分支保留了5级卷积块,分别实现了2、4、8、16、16倍的下采样,而深度图像特征提取分支保留了3级卷积块,分别实现了2、4、8倍的下采样。通过特征提取网络提取得到多级外观特征
Figure BDA0002596263900000031
和多级几何特征
Figure BDA0002596263900000032
覆盖了低级空间细节和高级语义信息。
进一步的,所述的特征聚合网络采用K近邻图神经网络即K近邻GNNs解决RGBD显著性检测问题。对于给定的深度图像,为了降低计算复杂度和减少内存消耗,进行8倍下采样。利用经HHA算法计算得到的水平视差通道来模拟场景的空间结构,并以此构造有向图,其中将每一个像素视为一个图节点。在有向图构造完后,使用CNNs作为特征提取器计算每一个像素的特征,所述的像素的特征为外观特征,并将获得的外观特征作为相应节点的初始隐层状态
Figure BDA0002596263900000033
K近邻GNNs只随时间变化更新图中节点的隐层状态,故将更新过程简化为:
Figure BDA0002596263900000041
其中,向量
Figure BDA0002596263900000042
表示表示在t时刻节点v从它相邻节点集合
Figure BDA0002596263900000043
中收集到的信息,
Figure BDA0002596263900000044
为邻域信息聚合函数,
Figure BDA0002596263900000045
为隐层状态更新函数,定义某一时刻t的
Figure BDA0002596263900000046
其中
Figure BDA0002596263900000047
表示用于聚合每一个节点的邻域信息的多层感知机(MLP)。采用K近邻算法计算节点的特定邻域范围。定义某一时刻t的
Figure BDA0002596263900000048
其中
Figure BDA0002596263900000049
表示用于更新每一个节点的隐层状态的多层感知机(MLP),[·]表示级联操作。在循环T次后,K近邻GNNs输出特征
Figure BDA00025962639000000410
进一步的,所述的特征聚合网络采用基于注意力机制的区域增强模块,在融合跨模态特征的同时粗略地定位了显著区域。通过相应的区域增强模块对于不同模态的特征
Figure BDA00025962639000000411
Figure BDA00025962639000000412
采用按元素相加的方式进行初步融合,然后通过Sigmoid函数将特征值映射到0至1之间。为了突出显著区域,利用最大池化操作进行特征选择;相似地,为了突出非显著区域,在取反的基础上利用最大池化操作进行特征选择,公式如下:
Figure BDA00025962639000000413
其中,
Figure BDA00025962639000000414
代表最大池化操作,
Figure BDA00025962639000000415
代表Sigmoid函数,+表示按元素相加,-表示按元素取反。通过将前景特征FFG和背景特征FBG进行叠加,获得既突出显著区域又抑制非显著区域的特征注意力模版,并将其与初步融合的特征按元素相乘以生成选择过的注意力特征表示。然而,在特征选择的过程中会造成一定的特征丢失,为此尽可能地保留原始特征,计算公式如下:
Figure BDA0002596263900000051
其中,×表示按元素相乘,则特征图
Figure BDA0002596263900000052
表示相应的区域增强模块的输出,能够有效地定位并突出显著区域。
进一步的,所述的特征聚合网络共包括5个分级融合模块,依次串联,其中每一个分级融合模块中都包含4个子分支,除了直连分支外,其余3个子分支分别通过均值池化进行2倍、4倍和8倍的下采样,在经过卷积核大小为3×3的卷积层后,执行双线性插值操作,将不同尺度的特征图上采样到输入特征图的大小。然后将4个子分支的特征图以按元素相加的方式进行融合,缓解了上采样的混叠效应。通过双线性插值操作将融合后的特征图上采样到相应的尺寸,再通过一个卷积核大小为3×3、步长为1的卷积层。
所述的分块Non-local模块在尽可能节省内存的情况下最大限度地扩大了感受野。通过分块Non-local模块和区域增强模块的输出进行进一步计算,则第i个分级融合模块的最终输出可以计算为,
Figure BDA0002596263900000053
其中,i∈{1,2,3,4,5},C3×3(·)代表卷积核大小为3×3的卷积层,+表示按元素相加,
Figure BDA0002596263900000054
表示经过多尺度融合后的
Figure BDA0002596263900000055
表示相应区域增强模块的输出,
Figure BDA0002596263900000056
表示经过j倍上采样的分块Non-local模块的输出。需要注意的是,当i=4时,融入了来自于K近邻GNNs的包含丰富空间几何信息的特征FG,此时相应分级融合模块的输出如下:
Figure BDA0002596263900000061
其中,FIDG表示充分融合了外观信息和空间信息的混合特征,其可以定义为:
Figure BDA0002596263900000062
当i=5时,
Figure BDA0002596263900000063
当i=1时,
Figure BDA0002596263900000064
Figure BDA0002596263900000065
最终,
Figure BDA0002596263900000066
之后是一个1×1卷积层,以获得最终的显著性图。
进一步的,所述的步骤3具体方法如下;
特征提取网络的参数使用在ImageNet数据集上预训练的相应模型进行初始化,其余参数进行随机初始化。通过Adam优化器进行优化,并且将动量、权重衰减率和初始学习率分别设为0.9、5e-4和5e-5。将批量大小设为1,总训练周期设为50,采用交叉熵损失以实现收敛,并在44个周期后将学习率除以10。
本发明有益效果如下:
本发明创新性地引入了K近邻图神经网络用于充分挖掘深度图像中所蕴含的空间几何信息。K近邻图神经网络协同卷积神经网络高效地联合推理了2D外观和3D几何信息。基于注意力机制的区域增强模块充分融合了来自于RGB图像和深度图像这两种不同模态的信息,在进行跨模态特征融合的同时实现了粗略地定位显著区域。基于池化的结构的分级融合模块进一步提升了模型的多尺度表达能力,使得粗糙级别的特征和精细级别的特征很好地融合在一起。
附图说明
图1为基于特征聚合的RGBD显著性检测方法的框架图;
图2为区域增强模块示意图;
图3为分级融合模块示意图。
具体实施方式
本发明提出了一种基于特征聚合的RGBD显著性检测方法,下面将结合相关步骤进行详细说明。
我们提出的方法是使用PyTorch工具箱实现的,并在具有NVIDIA GeForce RTX2080Ti GPU和126GB内存的高性能服务器上进行了训练。
一种基于特征聚合的RGBD显著性检测方法,步骤如下:
步骤1、对输入图像进行预处理;
输入图像包括深度图像和RGB图像,采用HHA算法将深度图像由单通道编码为三通道的表示形式,分别表征了水平视差、离地面的高度以及像素局部表面法线与推断的重力方向所成的角度,形成以RGB图像I和深度图像D作为模型输入的图像对。
步骤2、构建显著性检测网络;
如图1所示,显著性检测网络包括特征提取网络和特征聚合网络。
所述的特征提取网络为一对基于ResNet50构建的非对称双流主干网络,分为RGB图像特征提取分支和深度图像特征提取分支,分别用于提取RGB图像和深度图像的多级外观和几何特征。为了实现端到端的训练方式,丢弃特征提取网络最后的全连接层,其中RGB图像特征提取分支保留了5级卷积块,分别实现了2、4、8、16、16倍的下采样,而深度图像特征提取分支保留了3级卷积块,分别实现了2、4、8倍的下采样。通过特征提取网络提取得到多级外观特征
Figure BDA0002596263900000071
和多级几何特征
Figure BDA0002596263900000072
覆盖了低级空间细节和高级语义信息。
所述的特征聚合网络包括K近邻GNNs、区域增强模块、分级融合模块、分块Non-local模块。
考虑到CNNs对三维几何信息并不敏感,采用K近邻图神经网络即K近邻GNNs解决RGBD显著性检测问题。对于给定的深度图像,利用经HHA算法计算得到的水平视差通道来模拟场景的空间结构,并以此构造有向图,其中将每一个像素视为一个图节点。在有向图构造完后,使用CNNs作为特征提取器计算每一个像素的特征,所述的像素的特征为外观特征,并将获得的外观特征作为相应节点的初始隐层状态
Figure BDA0002596263900000073
进一步的,为了降低计算复杂度和减少内存消耗,将有向图建立在8倍下采样后的特征图之上。
K近邻GNNs只随时间变化更新图中节点的隐层状态,故将更新过程简化为:
Figure BDA0002596263900000081
其中,向量
Figure BDA0002596263900000082
表示表示在t时刻节点v从它相邻节点集合
Figure BDA0002596263900000083
中收集到的信息,
Figure BDA0002596263900000084
为邻域信息聚合函数,
Figure BDA0002596263900000085
为隐层状态更新函数,定义某一时刻t的
Figure BDA0002596263900000086
其中
Figure BDA0002596263900000087
表示用于聚合每一个节点的邻域信息的多层感知机(MLP)。采用K近邻算法计算节点的特定邻域范围。定义某一时刻t的
Figure BDA0002596263900000088
其中
Figure BDA0002596263900000089
表示用于更新每一个节点的隐层状态的多层感知机(MLP),[·]表示级联操作。在循环T次后,K近邻GNNs输出特征
Figure BDA00025962639000000810
其巧妙地结合了二维外观信息和三维几何信息。
采用基于注意力机制的区域增强模块,在融合跨模态特征的同时粗略地定位了显著区域。通过相应的区域增强模块对于不同模态的特征
Figure BDA00025962639000000811
Figure BDA00025962639000000812
采用按元素相加的方式进行初步融合,然后通过Sigmoid函数将特征值映射到0至1之间。为了突出显著区域,利用最大池化操作进行特征选择;相似地,为了突出非显著区域,在取反的基础上利用最大池化操作进行特征选择,公式如下:
Figure BDA00025962639000000813
其中,
Figure BDA00025962639000000814
代表最大池化操作,
Figure BDA00025962639000000815
代表Sigmoid函数,+表示按元素相加,-表示按元素取反。通过将前景特征FFG和背景特征FBG进行叠加,获得既突出显著区域又抑制非显著区域的特征注意力模版,并将其与初步融合的特征按元素相乘以生成选择过的注意力特征表示。然而,在特征选择的过程中会造成一定的特征丢失,为此尽可能地保留原始特征,计算公式如下:
Figure BDA0002596263900000091
其中,×表示按元素相乘,则特征图
Figure BDA0002596263900000092
表示相应的区域增强模块的输出,能够有效地定位并突出显著区域。区域增强模块使我们的模型能够产生更加准确的显著性预测结果,这是因为其在强化显著区域的同时对非显著区域进行了有效抑制。
图2为区域增强模块示意图;
当处理多尺度信息时,特征兼容是关键,本方法引入了分级融合模块。基于池化结构的一系列分级融合模块实现了多尺度特征间的兼容,有效提升了模型的多尺度表达能力。特征聚合网络共包括5个分级融合模块,依次串联,其中每一个分级融合模块中都包含4个子分支,除了直连分支外,其余3个子分支分别通过均值池化进行2倍、4倍和8倍的下采样,在经过卷积核大小为3×3的卷积层后,执行双线性插值操作,将不同尺度的特征图上采样到输入特征图的大小。然后将4个子分支的特征图以按元素相加的方式进行融合,缓解了上采样的混叠效应。通过双线性插值操作将融合后的特征图上采样到相应的尺寸,再通过一个卷积核大小为3×3、步长为1的卷积层。
为了充分融合粗糙级别和精细级别的特征,提升模型的鲁棒性,本方法进一步融合了相应级别的浅层局部细节信息和深层高级语义信息。特别地,我们引入了分块Non-local模块,所述的分块Non-local模块在尽可能节省内存的情况下最大限度地扩大了感受野。通过分块Non-local模块和区域增强模块的输出进行进一步计算,则第i个分级融合模块的最终输出可以计算为,
Figure BDA0002596263900000093
其中,i∈{1,2,3,4,5},C3×3(·)代表卷积核大小为3×3的卷积层,+表示按元素相加,
Figure BDA0002596263900000101
表示经过多尺度融合后的
Figure BDA0002596263900000102
表示相应区域增强模块的输出,
Figure BDA0002596263900000103
表示经过j倍上采样的分块Non-local模块的输出。需要注意的是,当i=4时,融入了来自于K近邻GNNs的包含丰富空间几何信息的特征FG,此时相应分级融合模块的输出如下:
Figure BDA0002596263900000104
其中,FIDG表示充分融合了外观信息和空间信息的混合特征,其可以定义为:
Figure BDA0002596263900000105
当i=5时,
Figure BDA0002596263900000106
当i=1时,
Figure BDA0002596263900000107
Figure BDA0002596263900000108
最终,
Figure BDA0002596263900000109
之后是一个1×1卷积层,以获得最终的显著性图。
图3为分级融合模块示意图。
步骤3、训练显著性检测网络,通过训练好的显著性检测网络进行显著性检测;
特征提取网络的参数使用在ImageNet数据集上预训练的相应模型进行初始化,其余参数进行随机初始化。通过Adam优化器进行优化,并且将动量、权重衰减率和初始学习率分别设为0.9、5e-4和5e-5。将批量大小设为1,总训练周期设为50,采用交叉熵损失以实现收敛,并在44个周期后将学习率除以10。

Claims (7)

1.一种基于特征聚合的RGBD显著性检测方法,其特征在于,步骤如下:
步骤1、对输入图像进行预处理;
通过HHA算法将深度图像由单通道编码为三通道的表示形式;同时,模拟类似于点云的数据结构,将深度信息从2D像素转换成3D点云;
步骤2、构建显著性检测网络;
显著性检测网络包括特征提取网络和特征聚合网络;
所述的特征提取网络为一对基于ResNet50构建的非对称双流主干网络,分为RGB图像特征提取分支和深度图像特征提取分支,分别用于提取RGB图像和深度图像的多级外观和几何特征;通过特征提取网络提取得到多级外观特征和多级几何特征;
所述的特征聚合网络包括K近邻GNNs、区域增强模块、分级融合模块、分块Non-local模块;
构建的K近邻GNNs,分别将点云中的点与对应的双流CNNs输出的特征相关联,并以此作为图模型节点的初始状态;在迭代更新的过程中,每一个节点的状态由其自身的历史状态和相邻节点的状态共同决定;
设计基于注意力机制的区域增强模块,在进行跨模态特征初步融合的同时实现粗略地定位显著区域;区域增强模块可以分别强化显著区域与非显著区域,进而为前景和背景的预测提供可靠的模版;
通过分级融合模块,利用基于池化的结构提升模型的多尺度表达能力;
分级融合模块内部通过并行的不同尺度的池化操作来提取不同尺度的特征,进而与相应级别的初步融合特征进行深度融合;多个分级融合模块实现了较深层高级语义信息和较浅层局部细节信息的逐步融合,使得模型在复杂场景下更具鲁棒性;
特征聚合网络在融合外观特征和几何特征的基础上进一步聚合了来自K近邻GNNs的空间几何特征,并以注意力和多尺度的方式逐步地强化了显著性特征;最后,在真值图的约束下生成高质量的显著性图;
步骤3、训练显著性检测网络,通过训练好的显著性检测网络进行显著性检测。
2.根据权利要求1所述的进一步的,所述的一种基于特征聚合的RGBD显著性检测方法,其特征在于,步骤1具体方法如下:
输入图像包括深度图像和RGB图像,采用HHA算法将深度图像由单通道编码为三通道的表示形式,分别表征了水平视差、离地面的高度以及像素局部表面法线与推断的重力方向所成的角度,形成以RGB图像I和深度图像D作为模型输入的图像对。
3.根据权利要求2所述的进一步的,所述的一种基于特征聚合的RGBD显著性检测方法,其特征在于,进一步的,所述的特征提取网络为一对基于ResNet50构建的非对称双流主干网络,分为RGB图像特征提取分支和深度图像特征提取分支,分别用于提取RGB图像和深度图像的多级外观和几何特征;为了实现端到端的训练方式,丢弃特征提取网络最后的全连接层,其中RGB图像特征提取分支保留了5级卷积块,分别实现了2、4、8、16、16倍的下采样,而深度图像特征提取分支保留了3级卷积块,分别实现了2、4、8倍的下采样;通过特征提取网络提取得到多级外观特征
Figure FDA0002596263890000021
和多级几何特征
Figure FDA0002596263890000022
覆盖了低级空间细节和高级语义信息。
4.根据权利要求3所述的进一步的,所述的一种基于特征聚合的RGBD显著性检测方法,其特征在于,进一步的,所述的特征聚合网络采用K近邻图神经网络即K近邻GNNs解决RGBD显著性检测问题;对于给定的深度图像,为了降低计算复杂度和减少内存消耗,进行8倍下采样;利用经HHA算法计算得到的水平视差通道来模拟场景的空间结构,并以此构造有向图,其中将每一个像素视为一个图节点;在有向图构造完后,使用CNNs作为特征提取器计算每一个像素的特征,所述的像素的特征为外观特征,并将获得的外观特征作为相应节点的初始隐层状态
Figure FDA0002596263890000023
K近邻GNNs只随时间变化更新图中节点的隐层状态,故将更新过程简化为:
Figure FDA0002596263890000031
其中,向量
Figure FDA0002596263890000032
表示表示在t时刻节点v从它相邻节点集合
Figure FDA0002596263890000033
中收集到的信息,
Figure FDA0002596263890000034
为邻域信息聚合函数,
Figure FDA0002596263890000035
为隐层状态更新函数,定义某一时刻t的
Figure FDA0002596263890000036
其中
Figure FDA0002596263890000037
表示用于聚合每一个节点的邻域信息的多层感知机(MLP);采用K近邻算法计算节点的特定邻域范围;定义某一时刻t的
Figure FDA0002596263890000038
其中
Figure FDA0002596263890000039
表示用于更新每一个节点的隐层状态的多层感知机(MLP),[·]表示级联操作;在循环T次后,K近邻GNNs输出特征
Figure FDA00025962638900000310
5.根据权利要求4所述的进一步的,所述的一种基于特征聚合的RGBD显著性检测方法,其特征在于,进一步的,所述的特征聚合网络采用基于注意力机制的区域增强模块,在融合跨模态特征的同时粗略地定位了显著区域;通过相应的区域增强模块对于不同模态的特征
Figure FDA00025962638900000311
Figure FDA00025962638900000312
采用按元素相加的方式进行初步融合,然后通过Sigmoid函数将特征值映射到0至1之间;为了突出显著区域,利用最大池化操作进行特征选择;相似地,为了突出非显著区域,在取反的基础上利用最大池化操作进行特征选择,公式如下:
Figure FDA00025962638900000313
其中,
Figure FDA00025962638900000314
代表最大池化操作,
Figure FDA00025962638900000315
代表Sigmoid函数,+表示按元素相加,-表示按元素取反;通过将前景特征FFG和背景特征FBG进行叠加,获得既突出显著区域又抑制非显著区域的特征注意力模版,并将其与初步融合的特征按元素相乘以生成选择过的注意力特征表示;然而,在特征选择的过程中会造成一定的特征丢失,为此尽可能地保留原始特征,计算公式如下:
Figure FDA0002596263890000041
其中,×表示按元素相乘,则特征图
Figure FDA0002596263890000042
表示相应的区域增强模块的输出,能够有效地定位并突出显著区域。
6.根据权利要求5所述的进一步的,所述的一种基于特征聚合的RGBD显著性检测方法,其特征在于,进一步的,所述的特征聚合网络共包括5个分级融合模块,依次串联,其中每一个分级融合模块中都包含4个子分支,除了直连分支外,其余3个子分支分别通过均值池化进行2倍、4倍和8倍的下采样,在经过卷积核大小为3×3的卷积层后,执行双线性插值操作,将不同尺度的特征图上采样到输入特征图的大小;然后将4个子分支的特征图以按元素相加的方式进行融合,缓解了上采样的混叠效应;通过双线性插值操作将融合后的特征图上采样到相应的尺寸,再通过一个卷积核大小为3×3、步长为1的卷积层;
所述的分块Non-local模块在尽可能节省内存的情况下最大限度地扩大了感受野;通过分块Non-local模块和区域增强模块的输出进行进一步计算,则第i个分级融合模块的最终输出可以计算为,
Figure FDA0002596263890000043
其中,i∈{1,2,3,4,5},C3×3(·)代表卷积核大小为3×3的卷积层,+表示按元素相加,
Figure FDA0002596263890000044
表示经过多尺度融合后的
Figure FDA0002596263890000045
Figure FDA0002596263890000046
表示相应区域增强模块的输出,
Figure FDA0002596263890000047
表示经过j倍上采样的分块Non-local模块的输出;需要注意的是,当i=4时,融入了来自于K近邻GNNs的包含丰富空间几何信息的特征FG,此时相应分级融合模块的输出如下:
Figure FDA0002596263890000051
其中,FIDG表示充分融合了外观信息和空间信息的混合特征,其可以定义为:
Figure FDA0002596263890000052
当i=5时,
Figure FDA0002596263890000053
当i=1时,
Figure FDA0002596263890000054
Figure FDA0002596263890000055
最终,
Figure FDA0002596263890000056
之后是一个1×1卷积层,以获得最终的显著性图。
7.根据权利要求6所述的进一步的,所述的一种基于特征聚合的RGBD显著性检测方法,其特征在于,进一步的,所述的步骤3具体方法如下;
特征提取网络的参数使用在ImageNet数据集上预训练的相应模型进行初始化,其余参数进行随机初始化;通过Adam优化器进行优化,并且将动量、权重衰减率和初始学习率分别设为0.9、5e-4和5e-5;将批量大小设为1,总训练周期设为50,采用交叉熵损失以实现收敛,并在44个周期后将学习率除以10。
CN202010710225.1A 2020-07-22 2020-07-22 一种基于特征聚合的rgbd显著性检测方法 Withdrawn CN111931787A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010710225.1A CN111931787A (zh) 2020-07-22 2020-07-22 一种基于特征聚合的rgbd显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010710225.1A CN111931787A (zh) 2020-07-22 2020-07-22 一种基于特征聚合的rgbd显著性检测方法

Publications (1)

Publication Number Publication Date
CN111931787A true CN111931787A (zh) 2020-11-13

Family

ID=73315161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010710225.1A Withdrawn CN111931787A (zh) 2020-07-22 2020-07-22 一种基于特征聚合的rgbd显著性检测方法

Country Status (1)

Country Link
CN (1) CN111931787A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112396000A (zh) * 2020-11-19 2021-02-23 中山大学 一种多模态密集预测的深度信息传输模型的构建方法
CN112801015A (zh) * 2021-02-08 2021-05-14 华南理工大学 一种基于注意力机制的多模态人脸识别方法
CN113077491A (zh) * 2021-04-02 2021-07-06 安徽大学 基于跨模态共享和特定表示形式的rgbt目标跟踪方法
CN113362307A (zh) * 2021-06-07 2021-09-07 哈尔滨理工大学 一种rgb-d图像显著性检测方法
CN113379691A (zh) * 2021-05-31 2021-09-10 南方医科大学 一种基于先验引导的乳腺病灶深度学习分割方法
CN113536973A (zh) * 2021-06-28 2021-10-22 杭州电子科技大学 一种基于显著性的交通标志检测方法
CN113536977A (zh) * 2021-06-28 2021-10-22 杭州电子科技大学 一种面向360度全景图像的显著性目标检测方法
CN113628125A (zh) * 2021-07-06 2021-11-09 武汉大学 基于空间视差先验网络的多幅红外图像增强方法
CN113627367A (zh) * 2021-08-16 2021-11-09 电子科技大学 一种基于多维信息聚合的立体视频显著性检测方法
CN114170174A (zh) * 2021-12-02 2022-03-11 沈阳工业大学 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法
CN114663774A (zh) * 2022-05-24 2022-06-24 之江实验室 一种轻量级的显著性物体检测系统及方法
CN114821654A (zh) * 2022-05-09 2022-07-29 福州大学 一种融合局部与深度的时空图网络的人手检测方法
CN115082553A (zh) * 2022-08-23 2022-09-20 青岛云智聚智能科技有限公司 一种物流包裹位置检测方法及系统
CN115601742A (zh) * 2022-11-21 2023-01-13 松立控股集团股份有限公司(Cn) 一种基于图关系排名的尺度敏感车牌检测方法
CN115661482A (zh) * 2022-11-11 2023-01-31 东北石油大学三亚海洋油气研究院 一种基于联合注意力的rgb-t显著目标检测方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112396000A (zh) * 2020-11-19 2021-02-23 中山大学 一种多模态密集预测的深度信息传输模型的构建方法
CN112396000B (zh) * 2020-11-19 2023-09-05 中山大学 一种多模态密集预测的深度信息传输模型的构建方法
CN112801015A (zh) * 2021-02-08 2021-05-14 华南理工大学 一种基于注意力机制的多模态人脸识别方法
CN113077491A (zh) * 2021-04-02 2021-07-06 安徽大学 基于跨模态共享和特定表示形式的rgbt目标跟踪方法
CN113379691A (zh) * 2021-05-31 2021-09-10 南方医科大学 一种基于先验引导的乳腺病灶深度学习分割方法
CN113362307A (zh) * 2021-06-07 2021-09-07 哈尔滨理工大学 一种rgb-d图像显著性检测方法
CN113536973A (zh) * 2021-06-28 2021-10-22 杭州电子科技大学 一种基于显著性的交通标志检测方法
CN113536977A (zh) * 2021-06-28 2021-10-22 杭州电子科技大学 一种面向360度全景图像的显著性目标检测方法
CN113536973B (zh) * 2021-06-28 2023-08-18 杭州电子科技大学 一种基于显著性的交通标志检测方法
CN113536977B (zh) * 2021-06-28 2023-08-18 杭州电子科技大学 一种面向360度全景图像的显著性目标检测方法
CN113628125A (zh) * 2021-07-06 2021-11-09 武汉大学 基于空间视差先验网络的多幅红外图像增强方法
CN113628125B (zh) * 2021-07-06 2023-08-15 武汉大学 基于空间视差先验网络的多幅红外图像增强方法
CN113627367B (zh) * 2021-08-16 2023-04-07 电子科技大学 一种基于多维信息聚合的立体视频显著性检测方法
CN113627367A (zh) * 2021-08-16 2021-11-09 电子科技大学 一种基于多维信息聚合的立体视频显著性检测方法
CN114170174A (zh) * 2021-12-02 2022-03-11 沈阳工业大学 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法
CN114170174B (zh) * 2021-12-02 2024-01-23 沈阳工业大学 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法
CN114821654A (zh) * 2022-05-09 2022-07-29 福州大学 一种融合局部与深度的时空图网络的人手检测方法
CN114663774A (zh) * 2022-05-24 2022-06-24 之江实验室 一种轻量级的显著性物体检测系统及方法
CN115082553A (zh) * 2022-08-23 2022-09-20 青岛云智聚智能科技有限公司 一种物流包裹位置检测方法及系统
CN115661482A (zh) * 2022-11-11 2023-01-31 东北石油大学三亚海洋油气研究院 一种基于联合注意力的rgb-t显著目标检测方法
CN115661482B (zh) * 2022-11-11 2023-07-14 东北石油大学三亚海洋油气研究院 一种基于联合注意力的rgb-t显著目标检测方法
CN115601742A (zh) * 2022-11-21 2023-01-13 松立控股集团股份有限公司(Cn) 一种基于图关系排名的尺度敏感车牌检测方法

Similar Documents

Publication Publication Date Title
CN111931787A (zh) 一种基于特征聚合的rgbd显著性检测方法
US10353271B2 (en) Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
CN107358626B (zh) 一种利用条件生成对抗网络计算视差的方法
AU2017324923B2 (en) Predicting depth from image data using a statistical model
Liu et al. Depth-map completion for large indoor scene reconstruction
CN108648161B (zh) 非对称核卷积神经网络的双目视觉障碍物检测系统及方法
CN113066168B (zh) 一种多视图立体网络三维重建方法及系统
CN112991413A (zh) 自监督深度估测方法和系统
Li et al. Confidence-based large-scale dense multi-view stereo
CN111508013B (zh) 立体匹配方法
CN112348870B (zh) 一种基于残差融合的显著性目标检测方法
EP3992908A1 (en) Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching
CN114677479A (zh) 一种基于深度学习的自然景观多视图三维重建方法
CN110889868B (zh) 一种结合梯度和纹理特征的单目图像深度估计方法
CN116563682A (zh) 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法
CN115511759A (zh) 一种基于级联特征交互的点云图像深度补全方法
EP3992909A1 (en) Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching
CN117576402B (zh) 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法
CN113139431A (zh) 基于深监督学习的图像显著性目标检测方法
CN117593187A (zh) 基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法
Haji-Esmaeili et al. Large-scale monocular depth estimation in the wild
Deepa et al. A deep learning based stereo matching model for autonomous vehicle
CN114266900B (zh) 一种基于动态卷积的单目3d目标检测方法
CN115984583B (zh) 数据处理方法、装置、计算机设备、存储介质和程序产品
Săftescu et al. Learning geometrically consistent mesh corrections

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20201113