CN112749712B - 一种基于3d卷积神经网络的rgbd显著性物体检测方法 - Google Patents
一种基于3d卷积神经网络的rgbd显著性物体检测方法 Download PDFInfo
- Publication number
- CN112749712B CN112749712B CN202110090130.9A CN202110090130A CN112749712B CN 112749712 B CN112749712 B CN 112749712B CN 202110090130 A CN202110090130 A CN 202110090130A CN 112749712 B CN112749712 B CN 112749712B
- Authority
- CN
- China
- Prior art keywords
- neural network
- convolutional neural
- layer
- object detection
- time dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于3D卷积神经网络的RGBD显著性物体检测方法,步骤包括,获取待检测图片的RGB图和深度图,并将深度图转换为三通道,将三通道的RGB图和深度图在时间维度进行串联,输出带时间维度的4D张量,将4D张量输入3D卷积神经网络中的3D编码器,输出一系列侧通路层次化特征,该3D编码器为一个在时间维度膨胀后的残差网络;3D卷积神经网络中的3D解码器接收层次化特征,对其进行压缩、递归解码、激励,最终输出RGBD显著性物体检测结果,递归解码时所述一系列侧通路层次化特征在时间维度进行串联。本发明利用3D卷积构建具有预融合功能的编码器,同时利用3D卷积构建具有融合功能的解码器,同时利用二者的融合能力充分融合跨模态特征提高检测性能。
Description
技术领域
本发明涉及图像处理与计算机视觉技术领域,特别涉及一种基于3D卷积神经网络的RGBD显著性物体检测方法。
背景技术
显著性物体检测(Salient object detection,SOD)旨在模仿人的视觉系统,在场景中检测吸引人眼注意力的物体。显著性物体检测具有广泛的应用场景,如物体分割与识别、视频检测与处理、内容相关的图像与视频压缩,目标跟踪等。迄今为止,虽然显著性物体检测技术因深度学习的发展取得了长足的进步,但单一模态的SOD仍然在很多场景下面临挑战,例如极其相似的前景与背景、复杂的前景或背景等。RGBD——即输入为单张RGB彩色图像及其对应的场景深度(Depth)图的多模态显著性物体检测技术一定程度上能克服上述问题,因此最近受到较多关注与研究。
如图2所示,目前现有RGBD显著性检测神经网络模型可以分为三类,第一类模型双流网络使用了CNN卷积神经网络从RGB和深度图中分别单独提取特征,在解码器中完成两种模态的特征融合,为了实现有效的跨模态融合,需要精心设计复杂或特殊的模块进行同时融合和解码。第二类模型孪生网络利用了共享权值的孪生网络作为编码器来对RGB和深度图进行特征提取,但是因为编码阶段没有融合操作,仍带来了类似于模型一的提取结果。例如公开号为CN111242173的一种基于孪生网络的RGBD显著性物体检测方法中,公开了孪生网络和解码器结构的“孪生网络-解码器”神经网络。第三类模型输入融合网络采用了“输入融合策略”,在将RGB和深度图输入编码器之前在通道维度对其进行串联,然后输入一个CNN卷积神经网络的编码器,在这种情况下,输入到解码器的所有成分都是已经融合的特征,编码器完成了主要的融合操作,这使得解码器无法进行显式的跨模态融合。上述几种模型虽然都采用了编码器-解码器结构,但只在编码器或者解码器阶段之一进行特征融合,而并没有同时利用二者的融合能力,而特征提取和融合对于编码器-解码器结构的RGBD显著性物体检测的神经网络来说至关重要,跨模态特征融合不够充分,将导致最终显著性检测结果不够精确。
发明内容
针对上述只在编码器或者解码器阶段之一进行特征融合,而并没用同时利用二者的融合能力,跨模态特征融合不够充分,而导致最终显著性检测结果不够精确的问题,本发明提出一种基于3D卷积神经网络的RGBD显著性物体检测方法,将深度信息Depth作为RGB的另一个“时间状态”,利用3D卷积构建具有预融合功能的编码器,同时利用3D卷积构建具有进一步深度融合功能的解码器,通过3D编码器和解码器构建的3D卷积神经网络来整合两种模态的信息,充分利用3D卷积可自动集成大量特征信息的优势来提高检测性能。
为了实现上述发明目的,本发明提供了以下技术方案:
一种基于3D卷积神经网络的RGBD显著性物体检测方法,包括以下步骤:
S1,获取待检测图片的RGB图和深度图,并将所述深度图转换为三通道;
S2,将三通道的RGB图和三通道的深度图,在时间维度进行串联,输出维度为T×H×W×C的4D张量,其中T、H、W、C分别表示时间、高、宽、通道维的维数;
S3,将所述4D张量输入3D卷积神经网络中的3D编码器,输出一系列侧通路层次化特征;所述3D编码器为一个在时间维度膨胀后的残差网络;所述在时间维度膨胀后的残差网络是将标准残差网络中所有2D卷积层替换为3D卷积层得到的,并且所述残差网络的卷积核在时间维度维数为3;并且,对于3D编码器中所有卷积核在进行3D卷积时,在时间维度对参数零填充和步长进行设置,以使得输出的时间维度维数为2;
S4,所述3D编码器输出的一系列侧通路层次化特征输入3D卷积神经网络中的3D解码器,所述3D解码器用于对所述一系列侧通路层次化特征进行压缩、递归解码、激励,输出RGBD显著性物体检测结果,所述递归解码过程中,所述一系列侧通路层次化特征在时间维度进行串联。
所述一系列侧通路层次化特征为fi,其中下标i对应不同的层次,i越大表示层次越深,i越小表示层次越浅,f0表示所得到的最浅层的特征,fn表示所得到的最深层的特征;各fi均为4D张量,且在时间维度维数均为2。
进一步的,所述3D解码器包括压缩模块、递归解码模块、激励层,
所述3D解码器接收到3D编码器输出的一系列侧通路层次化特征fi后,3D解码器的压缩模块对层次化特征进行压缩,利用2D卷积将各fi的通道维数压缩到一个统一值,然后输出压缩后的特征fi到递归解码模块,所述统一值小于或等于各fi的通道维数中最小的通道维数;
所述递归解码模块接收压缩模块的输出值,将压缩后的特征fi递归解码,解码后,输出特征F0给激励层;
所述激励层接收递归解码模块输出的特征F0,再使用卷积运算得到通道数为1的激励,接Sigmoid层后得到最终[0,1]区间的预测结果图。
进一步的,所述递归解码模块按如下计算公式将压缩后的特征fi递归解码,输出特征F0:
其中表示第i层次得到的中间特征,而Fi表示第i层次解码后的特征,DB为下采样模块,UB为上采样模块,DB和UB用于将不同层次的特征维度与第i层的特征fi的维度进行对齐,TConcat表示在时间维度进行串联,CMA为输出与输入张量维度相同的注意力模块,该模块利用注意力机制对特征进行增强,TR则表示对时间维度进行3D卷积降维操作,用于将时间维度维数降为1;
进一步的,所述下采样模块,由1×3×3的3D卷积层、BatchNorm层、ReLU层依次构成。
进一步的,所述上采样模块,由双线性上采样层、1×3×3的3D卷积层、BatchNorm层、ReLU层依次构成。
作为本发明的优选方案,预先对所述3D卷积神经网络进行训练和参数优化,具体步骤包括:
S5,准备训练所用的训练图片,图片包括RGB图,深度图,相应的期望显著性图;
S6,将S5所述深度图转换为三通道,并将三通道的RGB图和三通道的深度图,在时间维度进行串联,输出维度为T×H×W×C的4D张量,其中T、H、W、C分别表示时间、高、宽、通道维的维数;
S7,将所述4D张量输入所述3D卷积神经网络,输出RGBD显著性物体检测结果;将显著性物体检测结果与所述期望显著性图带入二项交叉熵损失函数计算误差,进行误差反向传播,对3D卷积神经网络参数进行优化。
作为本发明的优选方案,所述标准残差网络ResNet包括ResNet-50结构和ResNet-101结构。
基于本发明的相同构思,还提出了一种基于3D卷积神经网络的RGBD显著性物体检测装置,包括至少一个处理器,以及与至少一个处理器通信连接的存储器;存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述任一项所述的方法。
与现有技术相比,本发明的有益效果:
1、本发明提出一种基于3D卷积神经网络的RGBD显著性物体检测方法,利用3D卷积网络构建具有预融合功能的编码器,同时也利用3D卷积网络构建具有融合功能的解码器,因此编码器与解码器均具有融合功能,充分利用了3D卷积提高图片检测性能,使显著性物体检测的结果更加精确。
2、利用了3D卷积可自动集成大量特征信息的特点,能更加有效地融合RGB图和深度图的特征而无需人工设计复杂的跨模态特征融合模块来融合RGB和深度特征。
附图说明:
图1为一种基于3D卷积神经网络的RGBD显著性物体检测方法的流程图;
图2为现有RGB-D显著性检测神经网络模型和本发明3D卷积神经网络模型示意图;
图3为3D卷积神经网络的3D编码器中3D卷积过程示意图;
图4为所述3D卷积神经网络的网络结构示意图;
图5为本发明所述3D编码器输出的不同的层次化特征效果图;
图6为本发明的方法和14种现有方法的显著性检测结果对比图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
实施例1
一种基于3D卷积神经网络的RGBD显著性物体检测方法,具体包括如下步骤:
步骤一,获取对3D卷积神经网络进行训练的训练图片,图片包括RGB图、深度图、相应的期望显著性图;将训练图片中的深度图转换为三通道,并将三通道的RGB图和三通道的深度图,在时间维度进行串联,形成维度为T×H×W×C的4D张量,其中T、H、W、C分别表示时间、高、宽、通道维的维数,且T等于2,C等于3;在时间维度进行串联可以理解为,将三通道的RGB图H×W×C和三通道的深度图H×W×C堆叠,作为同一张图片在时间维度的扩充;
步骤二,构建3D卷积神经网络,所述3D卷积神经网络包括由3D卷积构建的3D编码器和由3D卷积构建的3D解码器,所述3D编码器的输出作为所述3D解码器的输入。
在本实施例中,3D编码器部分基于常见的ResNet-50网络结构,为在时间维度膨胀(Inflated)后的残差网络ResNet-50,即将文献《Deep Residual Learning for ImageRecognition》中提出的标准残差网络ResNet-50中所有3×3的2D卷积层替换为3×3×3的3D卷积层,即3D编码器中所有3×3×3的卷积层的卷积核在时间维度维数为3,在进行3D卷积时在时间维度的参数零填充padding设置为1、步长stride设置为1,,3D卷积层与时间维度维数为2的4D张量T×H×W×C进行卷积计算时,输出时间维度维数为2的4D张量。而现有技术中,图2所示输入融合网络中的卷积层为2D卷积层,与不带时间维度的3D张量H×W×C进行卷积计算时,输出3D张量。
本实施例3D卷积层时间维度的计算过程示意图如图3所示,等价于如下公式:
RO=w2*Ri+w3*Di
DO=w1*Ri+w2*Di
其中w1、w2、w3分别表示3D卷积核的三个时间权重切片。Ri和Di分别表示输入RGB特征切片和深度特征切片,即图3中的RGBi和Depthi,RO和DO分别表示输出RGB特征切片和深度特征切片,即图3中的RGBo和Deptho;*是2D卷积操作。可以看出,3D卷积的内部融合属性有助于RGB和深度信息的融合,在经过3D卷积层时,RGB和深度线索是相互增强的。因此,使用连续的3D卷积可以实现渐进融合。具体来说,在上述公式中,RGB和深度线索通过共享权w2来保存,同时通过可学习权w1/w3来增强彼此。这既实现了一定的模态感知个性,也实现了跨模态融合,即所述“预融合”功能。
如图4所示,3D编码器接收三通道RGB图和三通道深度图在时间维度进行串联后形成的4D张量,经上述卷积层处理后输出一系列侧通路层次化特征fi,其中下标i对应不同的层次,i越大表示层次越深,i越小表示层次越浅,f0为所得到的最浅层的特征,fn表示所得到的最深层的特征;各fi均为4D张量,且在时间维的维数均为2;本实施例残差网络ResNet-50中的残差模块数量为5,共5个层次,故i的取值范围为0-4;如图5所示,为了使预融合的影响在视觉上更加明显,将不匹配的RGB和深度图像输入编码器,可以明显地看见两种模态的信息在不同层次的特征图中的融合效果。
3D解码器包括压缩模块、递归解码模块、激励层。
所述压缩模块接收3D编码器输出的层次化特征并对其进行压缩,利用2D卷积将各fi的通道维数压缩到一个统一值,然后输出压缩后的特征fi到递归解码模块,所述统一值小于或等于各fi的通道维数中最小的通道维数,如32或64等,用于简化后续的解码操作并节约计算量;
所述递归解码模块接收压缩模块的输出值,将压缩后的特征fi按如下步骤进行递归解码输出F0:
S8,将最深层次输出的解码后的特征设为最深层次的压缩后的特征;本实施例将最深层次第4层输出的解码后的特征F4的值设为最深层次第4层的压缩后的特征f4;
S9,从次深层次开始逐渐融合层次较浅的压缩后的特征和较深层次输出的解码后的特征,得到一个迭代的最终的解码特征,具体操作包括:
对上一个较深层次输出的解码后的特征使用上采样模块进行上采样编码,对比本层次更浅的所有层次的压缩后的特征均使用下采样模块进行下采样编码,用于将较深层次输出的解码后的特征和更浅的所有层次的压缩后的特征的维度与本层的特征维度对齐,然后将对齐后的各层次特征值进行时间维度的串联,即融合操作,输出一个本层次的中间特征,将中间特征用注意力机制对特征进行增强,然后进行时间降维操作,得到本层次解码后的特征,将其输入给下一个较浅层次;下一个较浅层次同样执行S9步骤;
例如当i等于3,对第3层进行特征融合时,先对上一个较深层次输出的解码后的特征即F4使用上采样模块进行上采样编码,对比本层次更浅的所有层次的压缩后的特征即f0、f1、f2均使用下采样模块进行下采样编码,用于将较深层次输出的解码后的特征F4和更浅的所有层次的压缩后的特征f0、f1、f2的维度与本层的特征f3维度对齐,然后将对齐后的各层次特征值F4、f0、f1、f2、f3进行时间维度的串联,即融合操作,输出一个中间特征将中间特征用注意力机制对特征进行增强,然后进行时间降维操作,得到本层次解码后的特征F3,将F3输入给下一个较浅层次即第2层;
S10,最浅层次第0层因为没有比其更浅层的层次,上一个较深层次即第1层输出的解码后的特征F1使用上采样模块进行上采样编码后,因此将本层次的压缩后的特征f0与上采样编码后的特征值F1进行时间维度的串联,即融合操作,输出一个中间特征将中间特征用注意力机制对特征进行增强,然后进行时间降维操作,得到本层次解码后的特征F0,作为最终的解码特征输出。
上述步骤可以用如下公式来表示:
再次参考图4,其中DB表示下采样模块,由1×3×3的3D卷积层/3D Conv、BatchNorm层/BN层、ReLU层依次构成;和现有技术中其连接将信息从低分辨率层次(深层次)传输到高分辨率层次(浅层次)不同,如图4中指示DB过程的向下的箭头所示,DB模块将从高到低分辨率的层次特征的下采样流融合起来,利用3D卷积的聚合能力,将丰富的特征信息从高分辨率层次(浅层次)传输到低分辨率层次(深层次),丰富了深层次特征的表现,这种与现有技术相反的反向传输方法可称为RBPP,使用RBPP的3D解码器的另一个优点是其计算和存储效率更高。
UB表示上采样模块,由双线性上采样层Unsample、1×3×3的3D卷积层/3D Conv、BatchNorm层/BN层、ReLU层依次构成,对某一层解码后的特征输出进行上采样编码。DB和UB将不同层次的特征维度与fi的维度进行对齐。
CMA为文献《Squeeze-and-excitation Networks》中提出的通道注意力模块,输出与输入张量维度相同,该模块利用注意力机制对特征进行增强。
TConcat表示在时间维度进行串联,TR则表示对时间维度进行3D卷积降维操作,用于将时间维度维数降为1。表示第i层次得到的中间特征,而Fi表示第i层次解码后的特征。上述公式进行递归运算时,首先需要将Fn的值设为等于fn,n的值为所述残差网络中最深的层次;在计算F0时不再需要对f0进行下采样。
解码后,输出特征F0给激励层;
所述激励层接收递归解码模块输出的特征F0,再使用(1×1×1,1)的卷积运算得到通道数为1的激励,接Sigmoid层后得到最终[0,1]区间的预测结果图。
步骤三,将步骤一所述张量输入步骤二中构建的3D卷积神经网络,输出RGBD显著性物体检测结果;将显著性物体检测结果与期望显著性图带入二项交叉熵损失函数计算误差,并进行误差反向传播,对3D卷积神经网络参数进行优化。
实施例2
本实施例利用实施例1训练好的3D卷积神经网络,通过图像缩放,将待检测图片的高H和宽W设置为352,输入该待检测图片的RGB图和深度图,得到显著性物体检测结果,如图1所示,具体步骤包括:
步骤一,获取待检测图片的RGB图和深度图,并将深度图转换为三通道;其中将单通道深度图转换为三通道时采用通道复制的方式;
步骤二,将三通道的RGB图和三通道的深度图,在时间维度进行串联,形成维度为T×H×W×C的4D张量,其中T等于2、C等于3;本实施例中,所得4D张量维度为2×352×352×3;
步骤三,将上述4D张量输入所述3D卷积神经网络中的3D编码器。同实施例1,该3D编码器残差网络ResNet-50一共具有5个残差模块,表示为res0~res4,分别对应文献《DeepResidual Learning for Image Recognition》中的conv1,conv2_x,conv3_x,conv4_x,conv5_x;3D编码器接收步骤二所述4D张量,输出5个层次的特征f0~f4,本实施例输出f0~f4张量的维度分别为2×176×176×64,2×88×88×256,2×44×44×512,2×22×22×1024,2×11×11×2048。
步骤四,将步骤三输出的5个层次化特征输入3D解码器,得到预测结果。具体步骤如下:
S11,首先压缩模块进行特征压缩,利用2D卷积将各fi的通道维数压缩到一个统一值,本实施例中统一值设为32,用于简化后续的解码操作并节约计算量。经过降维后,f0~f4张量的维度分别为2×176×176×32,2×88×88×32,2×44×44×32,2×22×22×32,2×11×11×32。
S12,将S11所述压缩后的特征fi带入如下公式进行递归解码:
具体地,本实施例中进行递归解码时i∈{3,2,1,0},且F4=f4。递归解码模块将压缩后的特征fi如实施例1中的方法按上述公式递归解码后,输出特征F0给激励层;
S13,激励层接收递归解码模块输出的特征F0,由(1×1×1,1)的卷积得到通道数为1的激励,接Sigmoid层后得到最终[0,1]区间的预测结果图。
本实施例中,由F0得到的结果图空间分辨率与f0相同,为176×176,最后再通过图像缩放调整至原图分辨率。
利用本方法得到的显著性物体检测结果与其他常见方法的效果对比如图6所示,其中,AFNet/CTMF/PCF/MMCI/CPFP/D3Net/DMRA/SSF/A2dele/JLDCF/UCNet/CoNet/cmMS/DANet为现有的14种SOTA深度学习RGBD显著性物体检测模型,本实施例得到的RGBD显著性检测结果和14种现有方法的结果相比更加准确。
本文所述的一个或多个实施方案涉及计算机存储产品,所述计算机存储产品具有用于执行各种计算机实现的操作的指令或计算机代码的非暂时性计算机可读介质(也可称为非暂时性处理器可读介质)。计算机可读介质(或处理器可读介质)在其本身不包括暂时传播信号(例如,在诸如空间或电缆的传输介质上承载信息的传播电磁波)的意义上是非暂时性的。介质和计算机代码(也可称为代码或算法)可以是为特定目的而设计和构造的那些代码或算法。非暂时性计算机可读存储介质的实例包括但不限于:磁性介质,诸如硬盘、软盘和磁带;光学介质,诸如压缩盘/数字视频盘(CD/DVD)、压缩盘只读存储器(CD-ROM)和全息装置;磁光存储介质,诸如光盘;载波信号处理模块;以及专门被配置用于存储和执行程序代码的硬件装置,诸如专用集成电路(ASIC)、可编程逻辑装置(PLD)、只读存储器(ROM)以及随机存取存储器(RAM)装置。本文所述的其他实施方案涉及计算机程序产品,所述计算机程序产品可包括例如本文所公开的指令和/或计算机代码。
本文所述的一个或多个实施方案和/或方法可由软件(在硬件上执行)、硬件或其组合来执行。硬件模块可包括例如通用处理器(或微处理器或做控制器)、现场可编程门阵列(FPGA)和/或专用集成电路(ASIC)。软件模块(在硬件上执行)可用多种软件语言(例如计算机代码)表达,包括C、C++、Ruby、Visual和/或其他面向对象、过程或其他编程语言和开发工具。计算机代码的实例包括但不限于做代码或做指令、诸如由编译器产生的机器指令、用于产生网页服务的代码以及包含由使用解释器的计算机执行的更高级指令的文件。计算机代码的其他实例包括但不限于控制信号、加密的代码和压缩的代码。虽然上文已经描述各种实施方案,但应了解,所述实施方案仅以举例的方式而不是以限制性的方式来呈现。虽然如上所述的方法指示某些事件以一定顺序发生,但是某些事件的排序可变化。另外,某些事件在可能的情况下可在并行过程中同时执行,以及如上所述依序执行。
Claims (9)
1.一种基于3D卷积神经网络的RGBD显著性物体检测方法,其特征在于,包括以下步骤:
S1,获取待检测图片的RGB图和深度图,并将所述深度图转换为三通道;
S2,将三通道的RGB图和三通道的深度图,在时间维度进行串联,输出维度为T×H×W×C的4D张量,其中T、H、W、C分别表示时间、高、宽、通道维的维数;
S3,将所述4D张量输入3D卷积神经网络中的3D编码器,输出一系列侧通路层次化特征;所述3D编码器为一个在时间维度膨胀后的残差网络;所述在时间维度膨胀后的残差网络是将标准残差网络中所有2D卷积层替换为3D卷积层得到的,并且所述残差网络的卷积核在时间维度维数为3;并且,对于3D编码器中所有卷积核在进行3D卷积时,在时间维度对参数零填充和步长进行设置,以使得输出的时间维度维数为2;
S4,所述3D编码器输出的一系列侧通路层次化特征输入3D卷积神经网络中的3D解码器,所述3D解码器用于对所述一系列侧通路层次化特征进行压缩、递归解码、激励,输出RGBD显著性物体检测结果,所述递归解码过程中,所述一系列侧通路层次化特征在时间维度进行串联。
2.如权利要求1所述的一种基于3D卷积神经网络的RGBD显著性物体检测方法,其特征在于,所述一系列侧通路层次化特征为fi,其中下标i对应不同的层次,i越大表示层次越深,i越小表示层次越浅,f0表示所得到的最浅层的特征,fn表示所得到的最深层的特征;各fi均为4D张量,且在时间维度维数均为2。
3.如权利要求2所述的一种基于3D卷积神经网络的RGBD显著性物体检测方法,其特征在于,所述3D解码器包括压缩模块、递归解码模块、激励层,
所述3D解码器接收到3D编码器输出的一系列侧通路层次化特征fi后,3D解码器的压缩模块对层次化特征进行压缩,利用2D卷积将各fi的通道维数压缩到一个统一值,然后输出压缩后的特征fi到递归解码模块,所述统一值小于或等于各fi的通道维数中最小的通道维数;
所述递归解码模块接收压缩模块的输出值,将压缩后的特征fi递归解码,解码后,输出特征F0给激励层;
所述激励层接收递归解码模块输出的特征F0,再使用卷积运算得到通道数为1的激励,接Sigmoid层后得到最终[0,1]区间的预测结果图。
4.如权利要求3所述的一种基于3D卷积神经网络的RGBD显著性物体检测方法,其特征在于,所述递归解码模块按如下计算公式将压缩后的特征fi递归解码,输出特征F0:
其中表示第i层次得到的中间特征,而Fi表示第i层次解码后的特征,DB为下采样模块,UB为上采样模块,DB和UB用于将不同层次的特征维度与第i层的特征fi的维度进行对齐,TConcat表示在时间维度进行串联,CMA为输出与输入张量维度相同的注意力模块,该模块利用注意力机制对特征进行增强,TR则表示对时间维度进行3D卷积降维操作,用于将时间维度维数降为1;
5.如权利要求4所述的一种基于3D卷积神经网络的RGBD显著性物体检测方法,其特征在于,所述下采样模块,由1×3×3的3D卷积层、BatchNorm层、ReLU层依次构成。
6.如权利要求4所述的一种基于3D卷积神经网络的RGBD显著性物体检测方法,其特征在于,所述上采样模块,由双线性上采样层、1×3×3的3D卷积层、BatchNorm层、ReLU层依次构成。
7.如权利要求1所述的一种基于3D卷积神经网络的RGBD显著性物体检测方法,其特征在于,预先对所述3D卷积神经网络进行训练和参数优化,具体步骤包括:
S5,准备训练所用的训练图片,图片包括RGB图,深度图,相应的期望显著性图;
S6,将S5所述深度图转换为三通道,并将三通道的RGB图和三通道的深度图,在时间维度进行串联,输出维度为T×H×W×C的4D张量,其中T、H、W、C分别表示时间、高、宽、通道维的维数;
S7,将所述4D张量输入所述3D卷积神经网络,输出RGBD显著性物体检测结果;将显著性物体检测结果与所述期望显著性图带入二项交叉熵损失函数计算误差,进行误差反向传播,对3D卷积神经网络参数进行优化。
8.如权利要求1所述的一种基于3D卷积神经网络的RGBD显著性物体检测方法,其特征在于,所述标准残差网络ResNet包括ResNet-50结构和ResNet-101结构。
9.一种基于3D卷积神经网络的RGBD显著性物体检测装置,其特征在于,包括至少一个处理器,以及与至少一个处理器通信连接的存储器;存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110090130.9A CN112749712B (zh) | 2021-01-22 | 2021-01-22 | 一种基于3d卷积神经网络的rgbd显著性物体检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110090130.9A CN112749712B (zh) | 2021-01-22 | 2021-01-22 | 一种基于3d卷积神经网络的rgbd显著性物体检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112749712A CN112749712A (zh) | 2021-05-04 |
CN112749712B true CN112749712B (zh) | 2022-04-12 |
Family
ID=75652970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110090130.9A Active CN112749712B (zh) | 2021-01-22 | 2021-01-22 | 一种基于3d卷积神经网络的rgbd显著性物体检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112749712B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744306B (zh) * | 2021-06-08 | 2023-07-21 | 电子科技大学 | 基于时序内容感知注意力机制的视频目标分割方法 |
CN114937154B (zh) * | 2022-06-02 | 2024-04-26 | 中南大学 | 一种基于递归解码器的显著性检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109978786A (zh) * | 2019-03-22 | 2019-07-05 | 北京工业大学 | 一种基于卷积神经网络的Kinect深度图修复方法 |
CN110263813A (zh) * | 2019-05-27 | 2019-09-20 | 浙江科技学院 | 一种基于残差网络和深度信息融合的显著性检测方法 |
CN111488815A (zh) * | 2020-04-07 | 2020-08-04 | 中山大学 | 基于图卷积网络和长短时记忆网络的篮球比赛进球事件预测方法 |
CN111881731A (zh) * | 2020-05-19 | 2020-11-03 | 广东国链科技股份有限公司 | 基于人体骨架的行为识别方法、系统、装置及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10839543B2 (en) * | 2019-02-26 | 2020-11-17 | Baidu Usa Llc | Systems and methods for depth estimation using convolutional spatial propagation networks |
-
2021
- 2021-01-22 CN CN202110090130.9A patent/CN112749712B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109978786A (zh) * | 2019-03-22 | 2019-07-05 | 北京工业大学 | 一种基于卷积神经网络的Kinect深度图修复方法 |
CN110263813A (zh) * | 2019-05-27 | 2019-09-20 | 浙江科技学院 | 一种基于残差网络和深度信息融合的显著性检测方法 |
CN111488815A (zh) * | 2020-04-07 | 2020-08-04 | 中山大学 | 基于图卷积网络和长短时记忆网络的篮球比赛进球事件预测方法 |
CN111881731A (zh) * | 2020-05-19 | 2020-11-03 | 广东国链科技股份有限公司 | 基于人体骨架的行为识别方法、系统、装置及介质 |
Non-Patent Citations (4)
Title |
---|
A Single Stream Network for Robust and Real-time RGB-D Salient Object Detection;Xiaoqi Zhao 等;《arXiv》;20200715;1-17 * |
Siamese Network for RGB-D Salient Object Detection and Beyond;Keren Fu 等;《JOURNAL OF LATEX CLASS FILES》;20150830;第14卷(第8期);1-16 * |
聋哑人手语识别关键技术研究;梁智杰;《中国优秀博硕士学位论文全文数据库(博士) 社会科学Ⅱ辑》;20200115(第1期);H127-5 * |
融合宽残差和长短时记忆网络的动态手势识别研究;梁智杰 等;《计算机应用研究》;20191231;第36卷(第12期);3846-3852 * |
Also Published As
Publication number | Publication date |
---|---|
CN112749712A (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210150747A1 (en) | Depth image generation method and device | |
CN110175986B (zh) | 一种基于卷积神经网络的立体图像视觉显著性检测方法 | |
CN111242173B (zh) | 一种基于孪生网络的rgbd显著物体检测方法 | |
CN113888744A (zh) | 一种基于Transformer视觉上采样模块的图像语义分割方法 | |
CN111260560B (zh) | 一种融合注意力机制的多帧视频超分辨率方法 | |
CN112749712B (zh) | 一种基于3d卷积神经网络的rgbd显著性物体检测方法 | |
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN112396607A (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN111294614B (zh) | 用于数字图像、音频或视频数据处理的方法和设备 | |
CN112149662A (zh) | 一种基于扩张卷积块的多模态融合显著性检测方法 | |
CN117197624A (zh) | 一种基于注意力机制的红外-可见光图像融合方法 | |
CN115631513A (zh) | 基于Transformer的多尺度行人重识别方法 | |
CN113538229B (zh) | 基于特征循环融合的多帧红外图像超分辨率方法和系统 | |
CN114359041A (zh) | 一种光场图像空间超分辨率重建方法 | |
CN113393434A (zh) | 一种基于非对称双流网络架构的rgb-d显著性检测方法 | |
CN117314808A (zh) | 一种结合Transformer与CNN双编码器的红外与可见光图像融合方法 | |
CN117541505A (zh) | 基于跨层注意力特征交互和多尺度通道注意力的去雾方法 | |
CN113066074A (zh) | 一种基于双目视差偏移融合的视觉显著性预测方法 | |
CN116523757A (zh) | 基于生成对抗网络的光场图像超分辨率模型及其训练方法 | |
CN116993987A (zh) | 一种基于轻量级神经网络模型的图像语义分割方法及系统 | |
WO2023185284A1 (zh) | 视频处理方法和装置 | |
CN116310375A (zh) | 基于视觉注意力机制的盲图像质量评估方法 | |
CN116188652A (zh) | 一种基于双尺度循环生成对抗的人脸灰度图像着色方法 | |
CN113205503B (zh) | 一种卫星海岸带影像质量评价方法 | |
CN115311145A (zh) | 图像处理方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |