CN111723822B - 一种基于多层次融合的rgbd图像显著性检测方法及系统 - Google Patents

一种基于多层次融合的rgbd图像显著性检测方法及系统 Download PDF

Info

Publication number
CN111723822B
CN111723822B CN202010570806.XA CN202010570806A CN111723822B CN 111723822 B CN111723822 B CN 111723822B CN 202010570806 A CN202010570806 A CN 202010570806A CN 111723822 B CN111723822 B CN 111723822B
Authority
CN
China
Prior art keywords
layer
image
map
representing
saliency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010570806.XA
Other languages
English (en)
Other versions
CN111723822A (zh
Inventor
牛玉贞
张宇杰
龙观潮
刘文犀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202010570806.XA priority Critical patent/CN111723822B/zh
Publication of CN111723822A publication Critical patent/CN111723822A/zh
Application granted granted Critical
Publication of CN111723822B publication Critical patent/CN111723822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Abstract

本发明涉及一种基于多层次融合的RGBD图像显著性检测方法及系统,包括:步骤S1:进行数据增强,同时对彩色图像以及对应的深度图和人工标注图进行处理;步骤S2:设计多层次卷积神经网络结构,提取并融合深度图与彩色图像特征,融合多层次的特征,得到各个层次预测的显著性图Sk;步骤S3:设计一个融合优化模块,然后融合各个层次的显著性图Sk,得到最终的显著性图Sfinal;步骤S4:通过求解最小化损失函数,学习到RGBD图像显著性检测模型的最优参数,得到训练好的RGBD图像显著性检测模型;步骤S5:最后,将RGBD图像输入训练好的模型,计算得到输入图像的显著性检测结果,即显著性图。本发明解决了RGBD图像显著性检测边缘粗糙问题,能显著提升RGBD图像显著性检测的性能。

Description

一种基于多层次融合的RGBD图像显著性检测方法及系统
技术领域
本发明涉及图像处理以及计算机视觉领域,特别是一种基于多层次融合的RGBD图像显著性检测方法及系统。
背景技术
显著性目标检测在计算机视觉领域已经被广泛研究了几十年。它的目的是通过对输入图像中最重要或最突出的目标像素的精确分割来建模人类视觉系统的注意机制。它可以应用于很多领域,如目标识别,目标检测,分割,图像质量评估,视觉跟踪。随着最近深度学习技术的成功,显著性检测也得到了显著的提高。虽然对单个彩色图像的显著目标检测性能有所提高,但对背景杂乱的图像如何鲁棒地产生令人满意的结果仍然是一个挑战。因此,与标准RGB相机相比,利用额外的深度信息从RGBD相机中寻求补偿是合理的。因此,它们能够为确定突出目标的任务提供重要的补充。
在深度卷积神经网络(CNN)的背景下,提出了将彩色图像与深度图直接融合的方法。由于深度CNNs的能力,与基于RGB的基准相比,它们在几个公共基准上获得了明显的改进。
这些方法大致分成三类:一些方法直接将深度图当作额外的通道的输入单支流网络,另外是分别将彩色图和深度图输入双流网络再在后端融合,除此之外就是多层次融合彩色图特征和深度图特征。
但是,利用已有的方法从RGBD图像中检测突出目标时,还存在一些不足之处。特别指出,现有方法中颜色和深度融合的方式不是最优的,因此交叉模态融合过程中的冲突可能会降低性能。此外,从最先进的RGBD摄像机捕获的深度图仍然是有噪声的,特别是在物体的边界附近。
发明内容
有鉴于此,本发明的目的是提供一种基于多层次融合的RGBD图像显著性检测方法及系统,可以在一定程度上缓解上述问题,提高RGBD图像显著性检测的性能。
本发明采用以下方案实现:一种基于多层次融合的RGBD图像显著性检测方法及系统,包括以下步骤:
步骤S1:进行RGBD图像数据增强,同时对彩色图像以及对应的深度图和人工标注图进行处理,增加训练数据的多样性;
步骤S2:设计多层次卷积神经网络结构,提取并融合深度图与彩色图像特征,融合多层次的特征,得到各个层次预测的显著性图Sk
步骤S3:设计一个融合优化模块,然后融合各个层次的显著性图Sk,得到最终的显著性图Sfinal
步骤S4:通过求解最小化损失函数,学习到RGBD图像显著性检测模型的最优参数,得到训练好的RGBD图像显著性检测模型;
步骤S5:最后,将RGBD图像输入训练好的RGBD图像显著性检测模型,通过模型计算得到输入图像的显著性检测结果,即显著性图。
进一步地,所述步骤S1的具体内容为:
步骤S11:提供一数据集,并对数据集中的每一张RGBD图像中的彩色图像、深度图和其对应的显著性图的人工标注图一同进行缩放,用以使计算设备能够承担神经网络的计算量;
步骤S12:对数据集中的每一张彩色图像、深度图和其对应的显著性图的人工标注图一同进行随机裁剪操作,用以增加数据的多样性;
步骤S13:对数据集中的彩色图像随机地加入一些噪声,防止模型过拟合;
步骤S14:对数据集中的彩色图像、深度图以及显著性图的人工标注图同时随机地水平翻转,增加数据样本;
步骤S15:对数据集中的彩色图像和深度图进行归一化,突显图像前景特征。
进一步地,所述步骤S2具体包括以下步骤:
步骤S21:设计一种多层次卷积神经网络结构,网络由两个VGG16网络构成:分别输入彩色图像和深度图;
步骤S22:该多层次网络结构使用VGG16中的5个卷积层和一个池化层Conv1,Conv2,Conv3,Conv4,Conv5,Pool5提取各个层次的特征,分别为第1,2,...,6层特征;其中一个VGG16网络的输入是彩色图像,得到的是彩色图像特征,另一个VGG16网络的输入是深度图,得到的是深度图特征;然后,在每个层次将颜色特征和深度特征拼接起来,公式如下:
Figure BDA0002549161560000031
其中Xk fusion表示第k层将彩色图特征和深度图特征拼接的特征,Xk rgb表示第k层的彩色图特征,Xk depth表示第k层的深度图特征,
Figure BDA0002549161560000032
表示拼接操作;然后经过跨模态特征采样模块(Cross-modal Feature Sampling,CFS)将两种特征融合起来;
所述CFS模块通过输入的特征经过全局平均池化和全局方差池化以及两个全连接层来估计两种特征各个通道的权重,公式如下:
Figure BDA0002549161560000041
其中,Wk表示第k层融合特征各个通道上的权重,wavg,wvar分别表示全局平均池化分支和全局平均方差池化分支上的可训练参数,wk avg表示拼接特征
Figure BDA0002549161560000042
经过全局平均池化层和全连接层学习到的各个通道上的权重,wk var表示拼接特征
Figure BDA0002549161560000043
经过全局方差池化层和全连接层学习到的各个通道上的权重;
最后经过卷积核为1的卷积核将融合的特征进行降维减少参数量;公式如下:
Figure BDA0002549161560000044
Figure BDA0002549161560000045
表示逐像素点乘,Conv1×1代表卷积核大小为1的卷积,Xk′表示降维后的特征;
步骤S23:为了各个层次能够得到更加良好的显著性图,降维后的Xi′特征会经过3层卷积层进行空间上的转化将这一系列的卷积操作定义为Fst,则有:
Hk=Fst(Xk′)
Hk表示第k层经过空间转化后的特征;
为了获得更加精细的显著性图,将深层的特征通过密集连接的方式整合到浅层,与浅层特征结合来获得更加精确的语义;整合后的特征经过降维再被用来预测各个层次的显著性图Sk(k=1...6)。具体公式如下:
Figure BDA0002549161560000051
Figure BDA0002549161560000052
Figure BDA0002549161560000053
其中,
Figure BDA0002549161560000054
表示从第t层到第6层连续拼接,Ht代表第t层经过空间转化后的特征,Fup表示上采样,Hk′表示第k层特征经过深层特征密集聚合后的特征,Hk out表示第k层特征Hk′经过降维并放缩到与输入图像块相同尺寸后的特征,该特征是输出显著性图前的特征,σ表示Sigmoid激活函数,Sk代表第k层输出的显著性图。
进一步地,所述步骤S3的具体内容为:
将这个融合优化模块定义为Ffrm,此模块是一个编码器和解码器结构,由前面各层的显著性图融合计算得到最终的显著性图,具体的公式如下:
Sfinal=Ffrm(Sk;k=1…6)
k表示第k层,Sfinal表示最终的显著性图,Sk表示第k层输出的显著性图,Ffrm表示一个编码器和解码器结构的融合模块。
进一步地,所述步骤S4具体包括以下步骤:
步骤541:使用各种损失函数作为约束,优化RGBD图像显著性检测模型,具体的公式如下:
Figure BDA0002549161560000055
其中,
Figure BDA0002549161560000056
表示最终训练的损失函数,其中∑表示求和,k∈{1,…,6},
Figure BDA0002549161560000061
是作用在第k层上的边缘损失,
Figure BDA0002549161560000062
是作用在最终的显著性图上的约束形状相似性的损失函数,
Figure BDA0002549161560000063
是分别作用在第k层和最终的显著性图的交叉熵损失函数;上面的
Figure BDA0002549161560000064
具体计算公式如下:
Figure BDA0002549161560000065
Figure BDA0002549161560000066
Figure BDA0002549161560000067
Figure BDA0002549161560000068
其中,ΔY,ΔSk分别表示输入的显著性图真值图求导后的图和计算的第k层的显著性图Sk求导后的图,Sfinal表示最终融合得到的显著性图,log表示log函数,Y表示输入的显著性图的人工标注图,[i,j]表示图像的第i行和第j列像素,Y[i,j],Sk[i,j],ΔY[i,j],ΔSk[i,j],Sfinal[i,j]分别表示图像Y,Sk,ΔY,ΔSk和Sfinal的第i行和第j列像素处的值;
步骤S42:以批次为单位重复进行上述的步骤S2到S4步骤,直至收敛到阈值或者达到迭代次数到阈值,保存网络参数,完成网络训练。
进一步地,本发明还提供一种基于多层次融合的RGBD图像显著性检测系统,包括存储器、处理器以及存储于存储器上并能够在处理器上运行的计算机程序,当处理器运行该计算机程序时,能够实现如上文所述的方法。
与现有技术相比,本发明具有以下有益效果:
本发明设计了一种多层次融合RGBD图像显著目标检测的交叉模态融合网络,该网络由具有交叉模态特征采样模块的两流网络和多尺度显著性地图聚合模块组成。同时考虑到深度特征与颜色特征的差异,设计一种可以估计深度特征与颜色特征融合时的权重模块CFS,再者考虑到多个尺度上的显著性图语义丰富程度不一,他们的融合不应该是简单的线性关系,本发明还设计了一个融合优化模块。因此本发明能更好的检测RGBD图像中显著性物体的边缘部分,并且在进行复杂背景RGBD图像的显著性检测时具有更大的优势。
附图说明
图1为本发明实施例的流程图。
图2为本发明实施例的中基于多层次融合的RGBD图像显著性检测模型的结构图。
图3为本发明实施例的中跨模态特征采样模块流程图。
图4为本发明实施例的中空间转化模块结构图。
图5为本发明实施例的中特征聚合流程图。
图6为本发明实施例的中融合优化模块结构图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供一种基于多层次融合的RGBD图像显著性检测方法,包括以下步骤:
步骤S1:进行RGBD图像数据增强,用以通过数据增强强化模型的鲁棒性,同时对彩色图像以及对应的深度图和人工标注图进行处理,增加训练数据的多样性;
步骤S2::设计多层次卷积神经网络结构,提取并融合深度图与彩色图像特征,融合多层次的特征,得到各个层次预测的显著性图Sk
步骤S3:设计一个融合优化模块,然后融合各个层次的显著性图Sk,得到最终的显著性图Sfinal
步骤S4:通过求解最小化损失函数,学习到RGBD图像显著性检测模型的最优参数,得到训练好的RGBD图像显著性检测模型;
步骤S5:最后,将RGBD图像输入训练好的RGBD图像显著性检测模型,通过模型计算得到输入图像的显著性检测结果,即显著性图。
在本实施例中,所述步骤S1的具体内容为:
步骤S11:提供一数据集,并对数据集中的每一张RGBD图像中的彩色图像、深度图和其对应的显著性图的人工标注图一同进行缩放,用以使计算设备能够承担神经网络的计算量;
步骤S12:对数据集中的每一张彩色图像、深度图和其对应的显著性图的人工标注图一同进行随机裁剪操作,用以增加数据的多样性;
步骤S13:对数据集中的彩色图像随机地加入一些噪声,防止模型过拟合;
步骤S14:对数据集中的彩色图像、深度图以及显著性图的人工标注图同时随机地水平翻转,增加数据样本;
步骤S15:对数据集中的彩色图像和深度图进行归一化,突显图像前景特征。
在本实施例中,所述步骤S2具体包括以下步骤:
步骤S21:如图2所示,设计一种多层次卷积神经网络结构,网络由两个VGG16网络构成:分别输入彩色图像和深度图;
步骤S22:该多层次网络结构使用VGG16中的5个卷积层和一个池化层Conv1,Conv2,Conv3,Conv4,Conv5,Pool5提取各个层次的特征,分别为第1,2,...,6层特征;其中一个VGG16网络的输入是彩色图像,得到的是彩色图像特征,另一个VGG16网络的输入是深度图,得到的是深度图特征;然后,在每个层次将颜色特征和深度特征拼接起来,公式如下:
Figure BDA0002549161560000091
其中Xk fusion表示第k层将彩色图特征和深度图特征拼接的特征,Xk rgb表示第k层的彩色图特征,Xk depth表示第k层的深度图特征,
Figure BDA0002549161560000092
表示拼接操作;然后经过跨模态特征采样模块(Cross-modal Feature Sampling,CFS)如图3所示,将两种特征融合起来;
所述CFS模块通过输入的特征经过全局平均池化和全局方差池化以及两个全连接层来估计两种特征各个通道的权重,公式如下:
Figure BDA0002549161560000101
其中,Wk表示第k层融合特征各个通道上的权重,wavg,wvar分别表示全局平均池化分支和全局平均方差池化分支上的可训练参数,wk avg表示拼接特征
Figure BDA0002549161560000102
经过全局平均池化层和全连接层学习到的各个通道上的权重,wk var表示拼接特征
Figure BDA0002549161560000103
经过全局方差池化层和全连接层学习到的各个通道上的权重;
最后经过卷积核为1的卷积核将融合的特征进行降维减少参数量;公式如下:
Figure BDA0002549161560000104
Figure BDA0002549161560000105
表示逐像素点乘,Conv1×1代表卷积核大小为1的卷积,Xk′表示降维后的特征;
步骤S23:为了各个层次能够得到更加良好的显著性图,降维后的Xi′特征会经过3层卷积层进行空间上的转化如图4所示将这一系列的卷积操作定义为Fst,则有:
Hk=Fst(Xk′)
Hk表示第k层经过空间转化后的特征;
为了获得更加精细的显著性图,如图5所示,将深层的特征通过密集连接的方式整合到浅层,与浅层特征结合来获得更加精确的语义;整合后的特征经过降维再被用来预测各个层次的显著性图Sk(k=1...6)。具体公式如下:
Figure BDA0002549161560000111
Figure BDA0002549161560000112
Figure BDA0002549161560000113
其中,
Figure BDA0002549161560000114
表示从第t层到第6层连续拼接,Ht代表第t层经过空间转化后的特征,Fup表示上采样,Hk′表示第k层特征经过深层特征密集聚合后的特征,Hk out表示第k层特征Hk′经过降维并放缩到与输入图像块相同尺寸后的特征,该特征是输出显著性图前的特征,σ表示Sigmoid激活函数,Sk代表第k层输出的显著性图。
在本实施例中,所述步骤S3的具体内容为:
将这个融合优化模块如图6所示定义为Ffrm,此模块是一个编码器和解码器结构,由前面各层的显著性图融合计算得到最终的显著性图,具体的公式如下:
Sfinal=Ffrm(Sk;k=1…6)
k表示第k层,Sfinal表示最终的显著性图,Sk表示第k层输出的显著性图,Ffrm表示一个编码器和解码器结构的融合模块。
在本实施例中,所述步骤S4具体包括以下步骤:
步骤S41:使用各种损失函数作为约束,优化RGBD图像显著性检测模型,具体的公式如下:
Figure BDA0002549161560000115
其中,
Figure BDA0002549161560000116
表示最终训练的损失函数,其中∑表示求和,k∈{1,…,6},
Figure BDA0002549161560000121
是作用在第k层上的边缘损失,
Figure BDA0002549161560000122
是作用在最终的显著性图上的约束形状相似性的损失函数,
Figure BDA0002549161560000123
是分别作用在第k层和最终的显著性图的交叉熵损失函数;上面的
Figure BDA0002549161560000124
具体计算公式如下:
Figure BDA0002549161560000125
Figure BDA0002549161560000126
Figure BDA0002549161560000127
Figure BDA0002549161560000128
其中,ΔY,ΔSk分别表示输入的显著性图真值图求导后的图和计算的第k层的显著性图Sk求导后的图,Sfinal表示最终融合得到的显著性图,log表示log函数,Y表示输入的显著性图的人工标注图,[i,j]表示图像的第i行和第j列像素,Y[i,j],Sk[i,j],ΔY[i,j],ΔSk[i,j],Sfinal[i,j]分别表示图像Y,Sk,ΔY,ΔSk和Sfinal的第i行和第j列像素处的值;
步骤S42:以批次为单位重复进行上述的步骤S2到S4步骤,直至收敛到阈值或者达到迭代次数到阈值,保存网络参数,完成网络训练。
较佳的,本实施例还提供一种基于多层次融合的RGBD图像显著性检测系统,包括存储器、处理器以及存储于存储器上并能够在处理器上运行的计算机程序,当处理器运行该计算机程序时,能够实现如上文所述的方法。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (3)

1.一种基于多层次融合的RGBD图像显著性检测方法,其特征在于:包括以下步骤:
步骤S1:进行RGBD图像数据增强,同时对彩色图像以及对应的深度图和人工标注图进行处理,增加训练数据的多样性;
步骤S2:设计多层次卷积神经网络结构,提取并融合深度图与彩色图像特征,融合多层次的特征,得到各个层次预测的显著性图Sk
步骤S3:设计一个融合优化模块,然后融合各个层次的显著性图Sk,得到最终的显著性图Sfinal
步骤S4:通过求解最小化损失函数,学习到RGBD图像显著性检测模型的最优参数,得到训练好的RGBD图像显著性检测模型;
步骤S5:最后,将RGBD图像输入训练好的RGBD图像显著性检测模型,通过模型计算得到输入图像的显著性检测结果,即显著性图;
所述步骤S2具体包括以下步骤:
步骤S21:设计一种多层次卷积神经网络结构,网络由两个VGG16网络构成:分别输入彩色图像和深度图;
步骤S22:多层次网络结构使用VGG16中的5个卷积层和一个池化层Conv1,Conv2,Conv3,Conv4,Conv5,Pool5提取各个层次的特征,分别为第1,2,...,6层特征;其中一个VGG16网络的输入是彩色图像,得到的是彩色图像特征,另一个VGG16网络的输入是深度图,得到的是深度图特征;然后,在每个层次将颜色特征和深度特征拼接起来,公式如下:
Figure FDA0003595090150000011
其中Xk fusion表示第k层将彩色图特征和深度图特征拼接的特征,Xk rgb表示第k层的彩色图特征,Xk depth表示第k层的深度图特征,
Figure FDA0003595090150000021
表示拼接操作;然后经过跨模态特征采样模块将两种特征融合起来;
CFS模块通过输入的特征经过全局平均池化和全局方差池化以及两个全连接层来估计两种特征各个通道的权重,公式如下:
Figure FDA0003595090150000022
其中,wk表示第k层融合特征各个通道上的权重,wavg,wvar分别表示全局平均池化分支和全局平均方差池化分支上的可训练参数,wk avg表示拼接特征
Figure FDA0003595090150000023
经过全局平均池化层和全连接层学习到的各个通道上的权重,wk var表示拼接特征
Figure FDA0003595090150000024
经过全局方差池化层和全连接层学习到的各个通道上的权重;
最后经过卷积核为1的卷积核将融合的特征进行降维减少参数量;公式如下:
Figure FDA0003595090150000025
Figure FDA0003595090150000026
表示逐像素点乘,Conv1×1代表卷积核大小为1的卷积,Xk′表示降维后的特征;
步骤S23:降维后的Xi′特征会经过3层卷积层进行空间上的转化将这一系列的卷积操作定义为Fst,则有:
Hk=Fst(Xk′)
Hk表示第k层经过空间转化后的特征;
将深层的特征通过密集连接的方式整合到浅层,与浅层特征结合来获得更加精确的语义;整合后的特征经过降维再被用来预测各个层次的显著性图Sk(k=1...6);具体公式如下:
Figure FDA0003595090150000031
Figure FDA0003595090150000032
Figure FDA0003595090150000033
其中,
Figure FDA0003595090150000034
表示从第t层到第6层连续拼接,Ht代表第t层经过空间转化后的特征,Fup表示上采样,Hk′表示第k层特征经过深层特征密集聚合后的特征,Hk out表示第k层特征Hk′经过降维并缩放 到与输入图像块相同尺寸后的特征,该特征是输出显著性图前的特征,σ表示Sigmoid激活函数,Sk代表第k层输出的显著性图;
所述步骤S3的具体内容为:
将这个融合优化模块定义为Ffrm,此模块是一个编码器和解码器结构,由前面各层的显著性图融合计算得到最终的显著性图,具体的公式如下:
Sfinal=Ffrm(Sk;k=1…6)
k表示第k层,Sfinal表示最终的显著性图,Sk表示第k层输出的显著性图,Ffrm表示一个编码器和解码器结构的融合模块;
所述步骤S4具体包括以下步骤:
步骤S41:使用各种损失函数作为约束,优化RGBD图像显著性检测模型,具体的公式如下:
Figure FDA0003595090150000035
其中,
Figure FDA0003595090150000036
表示最终训练的损失函数,其中∑表示求和,k∈{1,…,6},
Figure FDA0003595090150000037
是作用在第k层上的边缘损失,
Figure FDA0003595090150000038
是作用在最终的显著性图上的约束形状相似性的损失函数,
Figure FDA0003595090150000039
是分别作用在第k层和最终的显著性图的交叉熵损失函数;上面的
Figure FDA00035950901500000310
具体计算公式如下:
Figure FDA0003595090150000041
Figure FDA0003595090150000042
Figure FDA0003595090150000043
Figure FDA0003595090150000044
其中,ΔY,ΔSk分别表示输入的显著性图真值图求导后的图和计算的第k层的显著性图Sk求导后的图,Sfinal表示最终融合得到的显著性图,log表示log函数,Y表示输入的显著性图的人工标注图,[i,j]表示图像的第i行和第j列像素,Y[i,j],Sk[i,j],ΔY[i,j],ΔSk[i,j],Sfinal[i,j]分别表示图像Y,Sk,ΔY,ΔSk和Sfinal的第i行和第j列像素处的值;
步骤S42:以批次为单位重复进行上述的步骤S2到S4步骤,直至收敛到阈值或者达到迭代次数到阈值,保存网络参数,完成网络训练,得到训练好的RGBD图像显著性检测模型。
2.根据权利要求1所述的一种基于多层次融合的RGBD图像显著性检测方法,其特征在于:所述步骤S1的具体内容为:
步骤S11:提供一数据集,并对数据集中的每一张RGBD图像中的彩色图像、深度图和其对应的显著性图的人工标注图一同进行缩放,用以使计算设备能够承担神经网络的计算量;
步骤S12:对数据集中的每一张彩色图像、深度图和其对应的显著性图的人工标注图一同进行随机裁剪操作,用以增加数据的多样性;
步骤S13:对数据集中的彩色图像随机地加入一些噪声;
步骤S14:对数据集中的彩色图像、深度图以及显著性图的人工标注图同时随机地水平翻转,增加数据样本;
步骤S15:对数据集中的彩色图像和深度图进行归一化。
3.一种基于多层次融合的RGBD图像显著性检测系统,其特征在于,包括存储器、处理器以及存储于存储器上并能够在处理器上运行的计算机程序,当处理器运行该计算机程序时,实现如权利要求1-2任一项所述的方法步骤。
CN202010570806.XA 2020-06-20 2020-06-20 一种基于多层次融合的rgbd图像显著性检测方法及系统 Active CN111723822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010570806.XA CN111723822B (zh) 2020-06-20 2020-06-20 一种基于多层次融合的rgbd图像显著性检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010570806.XA CN111723822B (zh) 2020-06-20 2020-06-20 一种基于多层次融合的rgbd图像显著性检测方法及系统

Publications (2)

Publication Number Publication Date
CN111723822A CN111723822A (zh) 2020-09-29
CN111723822B true CN111723822B (zh) 2022-06-14

Family

ID=72569698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010570806.XA Active CN111723822B (zh) 2020-06-20 2020-06-20 一种基于多层次融合的rgbd图像显著性检测方法及系统

Country Status (1)

Country Link
CN (1) CN111723822B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528899B (zh) * 2020-12-17 2022-04-12 南开大学 基于隐含深度信息恢复的图像显著性物体检测方法及系统
CN113112464B (zh) * 2021-03-31 2022-06-21 四川大学 基于跨模态交流编码器的rgbd显著性物体检测方法及系统
CN113343822B (zh) * 2021-05-31 2022-08-19 合肥工业大学 一种基于3d卷积的光场显著性目标检测方法
CN113627367B (zh) * 2021-08-16 2023-04-07 电子科技大学 一种基于多维信息聚合的立体视频显著性检测方法
CN115909182B (zh) * 2022-08-09 2023-08-08 哈尔滨市科佳通用机电股份有限公司 一种动车组闸片磨损故障图像识别方法
CN116485728A (zh) * 2023-04-03 2023-07-25 东北石油大学 抽油杆表面缺陷检测方法及装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409435A (zh) * 2018-11-01 2019-03-01 上海大学 一种基于卷积神经网络的深度感知显著性检测方法
CN111242173A (zh) * 2019-12-31 2020-06-05 四川大学 一种基于孪生网络的rgbd显著物体检测方法
CN111242138A (zh) * 2020-01-11 2020-06-05 杭州电子科技大学 一种基于多尺度特征融合的rgbd显著性检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10503999B2 (en) * 2015-03-24 2019-12-10 Hrl Laboratories, Llc System for detecting salient objects in images

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409435A (zh) * 2018-11-01 2019-03-01 上海大学 一种基于卷积神经网络的深度感知显著性检测方法
CN111242173A (zh) * 2019-12-31 2020-06-05 四川大学 一种基于孪生网络的rgbd显著物体检测方法
CN111242138A (zh) * 2020-01-11 2020-06-05 杭州电子科技大学 一种基于多尺度特征融合的rgbd显著性检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Boundary-Aware RGBD Salient Object Detection With Cross-Modal Feature Sampling;Yuzhen Niu et al.;《IEEE Transactions on Image Processing》;20200815;第29卷;第9496-9507页 *
Multi-Modal Weights Sharing and Hierarchical Feature Fusion for RGBD Salient Object Detection;Fen Xiao et al.;《IEEE Access》;20200204;第8卷;第26602-26611页 *
多对象图像数据集建立及显著性检测算法评估;郑斌 等;《计算机应用》;20150910;第35卷(第09期);第2624-2628页 *

Also Published As

Publication number Publication date
CN111723822A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN111723822B (zh) 一种基于多层次融合的rgbd图像显著性检测方法及系统
CN112132156B (zh) 多深度特征融合的图像显著性目标检测方法及系统
CN111950453B (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN107229904B (zh) 一种基于深度学习的目标检测与识别方法
WO2021043168A1 (zh) 行人再识别网络的训练方法、行人再识别方法和装置
CN111507378A (zh) 训练图像处理模型的方法和装置
CN111402130B (zh) 数据处理方法和数据处理装置
EP4099220A1 (en) Processing apparatus, method and storage medium
CN111160375A (zh) 三维关键点预测及深度学习模型训练方法、装置及设备
US20230177641A1 (en) Neural network training method, image processing method, and apparatus
CN114565655B (zh) 一种基于金字塔分割注意力的深度估计方法及装置
CN109903339B (zh) 一种基于多维融合特征的视频群体人物定位检测方法
CN114049512A (zh) 模型蒸馏方法、目标检测方法、装置及电子设备
CN109871792B (zh) 行人检测方法和装置
CN111931641A (zh) 基于权重多样性正则化的行人重识别方法及其应用
CN114764856A (zh) 图像语义分割方法和图像语义分割装置
CN113505634A (zh) 一种双流解码跨任务交互网络的光学遥感图像显著目标检测方法
CN110135435B (zh) 一种基于广度学习系统的显著性检测方法及装置
CN117522923A (zh) 融合多模态特征的目标跟踪系统及方法
CN116721398A (zh) 一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法
CN117079095A (zh) 基于深度学习的高空抛物检测方法、系统、介质和设备
CN116452472A (zh) 基于语义知识引导的低照度图像增强方法
CN115619827A (zh) 基于Transformer和时空记忆的多目标跟踪方法
WO2021189321A1 (zh) 一种图像处理方法和装置
CN114708173A (zh) 图像融合方法、计算机程序产品、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant