CN110458178A - 多模态多拼接的rgb-d显著性目标检测方法 - Google Patents

多模态多拼接的rgb-d显著性目标检测方法 Download PDF

Info

Publication number
CN110458178A
CN110458178A CN201910740104.9A CN201910740104A CN110458178A CN 110458178 A CN110458178 A CN 110458178A CN 201910740104 A CN201910740104 A CN 201910740104A CN 110458178 A CN110458178 A CN 110458178A
Authority
CN
China
Prior art keywords
image
layer
output
rgb
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910740104.9A
Other languages
English (en)
Other versions
CN110458178B (zh
Inventor
周武杰
潘思佳
雷景生
钱亚冠
何成
李颜娥
王海江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Science and Technology ZUST
Original Assignee
Zhejiang University of Science and Technology ZUST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Science and Technology ZUST filed Critical Zhejiang University of Science and Technology ZUST
Priority to CN201910740104.9A priority Critical patent/CN110458178B/zh
Publication of CN110458178A publication Critical patent/CN110458178A/zh
Application granted granted Critical
Publication of CN110458178B publication Critical patent/CN110458178B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多模态多拼接的RGB‑D显著性目标检测方法。本发明采用ResNet50对RGB图像和经过处理的三通道深度图像进行预训练,并且从预训练中提取特征信息相互交叉结合,这是在现有方法中基本没有运用过的;在后期设计的模型中又运用到ResNet模块训练,使得训练信息前后相匹配;模型中还设计了一个采用卷积与Denseblock结合的新型模块即细节关联模块,充分结合了卷积和DenseNet的优点,使得预测结果十分优秀。本发明方法得到的真实场景图像的显著性检测结果非常好,表明利用本发明方法来获取真实场景图像对应的预测显著性检测图像是可行性且有效。

Description

多模态多拼接的RGB-D显著性目标检测方法
技术领域
本发明属于人眼显著性目标检测方法,尤其涉及一种多模态多拼接的RGB-D显著性目标检测方法。
背景技术
计算机视觉最主要的目的就是利用机器去仿人进行事务操作,使机器去模仿人眼,代替人眼去检测和跟踪,实现智能化发展,这是一个非常重要和热门的研究领域。而显著性目标检测是计算机视觉的一个重要组成部分,随着计算机视觉领域的不断发展,社会迫切的需要效率更高,准确度更好的模型。
现在主要的显著性检测分为两类:注视预测和显著性目标检测。前者是预测人类在观看自然场景时的若干注视点,后者是准确提取感兴趣的对象。而显著性目标检测就是识别出图像中的突出目标,识别的结果越是接近人眼测试结果,准确率就越高。它其实就是一个二值分割的问题,要提取的是整个显著目标区域。视觉显著性可以帮助人类快速的过滤掉不重要的信息,更好的理解视觉场景。
在显著性检测发展的期间,各种方法层出不穷,例如利用了图像的颜色特征、位置信息、纹理特征等。一些传统方法更是采用中心先验、边缘先验、语义先验等。但是由于图像中的颜色场景非常复杂,对象和背景之间没有明显的对比时,这些模型经常会失败,光是靠这些特征很难分辨相近似的物体。经研究发现加入深度信息可以很好的解决这个问题,深度信息对于区分背景颜色相近的物体是很有用的,在三维环境中深度信息对人类视觉系统至关重要。因此RGB与深度相结合的方法能够很好的弥补双方的优缺点。目前,深度学习方法在计算机视觉领域十分受欢迎,发展也非常迅速。这主要是由于深度信息加入在图像处理与计算机视觉领域中效果显著,并且深度信息很容易被深度相机获取,因此被广泛应用在模型中。可见利用深度视图和RGB视图定位图像中的突出目标的方法已经十分受关注了。
发明内容
为了解决背景技术中的问题,本发明提供了一种多模态多拼接的RGB-D显著性目标检测方法,经过模型处理之后得到的显著图与目标图相似率高,模型结构新颖。
本发明采用的技术方案如下:
本发明包括以下步骤:
步骤1-1:选取Q幅彩色真实目标图像、每幅彩色真实目标图像对应的深度图像和每幅彩色真实目标图像对应的真实显著性图像构成训练集;
步骤1-2:构建卷积神经网络;
步骤1-3:将训练集输入卷积神经网络进行训练,训练过程中,每次迭代训练处理得到每幅彩色真实目标图像的显著性检测预测图,计算每幅显著性检测预测图与对应的真实显著性图像构成的损失函数值,损失函数采用二分类交叉熵获得;
步骤1-4:不断迭代训练重复共V次,共得到Q×V个损失函数值,然后从Q×V个损失函数值中找出值最小的损失函数值,接着将值最小的损失函数值对应的权值矢量和偏置项作为卷积神经网络的最优权值矢量和最优偏置项,从而完成卷积神经网络的训练;
步骤1-5:利用训练后获得的卷积神经网络对待显著性检测的彩色真实目标图像进行预测处理,将待显著性检测的彩色真实目标图像及其对应的深度图像输入训练后获得的卷积神经网络,输出获得对应的预测显著性检测图像,实现图像的显著性目标检测。
所述步骤1-2中,卷积神经网络包括输入层、隐层和输出层,输入层包括RGB图像输入层和深度图像输入层,隐层包括前处理模块、中间处理模块和后处理模块,前处理模块包括RGB图前处理模块和深度图前处理模块,中间处理模块包括RGB图中间处理模块和深度图中间处理模块;RGB图输入层和深度图输入层分别输入RGB图前处理模块和深度图前处理模块;
RGB图前处理模块包括四个彩色图神经网络块、一个彩色卷积层、三个彩色反卷积层和两个级联层;第一个彩色图神经网络块依次经第二个彩色图神经网络块、第三个彩色图神经网络块输出至第四个彩色图神经网络块,第一个彩色图神经网络块经第一个彩色卷积层的输出和第二个彩色图神经网络经第一个彩色反卷积层的输出通过图像拼接Concatence方式融合后输入第一个级联层,第三个彩色图神经网络块经第二个彩色反卷积层的输出和第四个彩色图神经网络块经第三个彩色反卷积层的输出通过图像拼接Concatence方式融合后输入第二个级联层;
深度图前处理模块包括四个深度图神经网络块、一个深度卷积层、三个深度反卷积层和两个级联层;第一个深度图神经网络块依次经第二个深度图神经网络块、第三个深度图神经网络块输出至第四个深度图神经网络块,第一个深度图神经网络块经第一个深度卷积层的输出和第二个深度图神经网络块经第一个深度反卷积层的输出通过图像拼接Concatence方式融合后输入第三个级联层,第三个深度图神经网络块经第二个深度反卷积层的输出和第四个深度图神经网络块经第三个深度反卷积层的输出通过图像拼接Concatence方式融合后输入第四个级联层;
RGB图中间处理模块包括两个混合神经网络块、RGB图细节关联模块和两个过渡用卷积层,两个混合神经网络块分别为第一个和第二个混合神经网络块,两个过渡用卷积层分别为第一个和第二个过渡用卷积层,RGB图细节关联模块主要由五个混合卷积层和一个第一网络模块组成,五个混合卷积层分别为第一个、第二个、第三个、第四个和第五个混合卷积层;第一个级联层和第三个级联层共同输入第一个混合神经网络块,第一个混合神经网络块依次经第二个混合神经网络块、第一个混合卷积层、第一网络模块输入第二个混合卷积层,第一个混合卷积层依次经第三个混合卷积层、第四个混合卷积层输入第五个混合卷积层;第五个混合卷积层的输出和第二个混合卷积层的输出融合后作为RGB图细节关联模块的输出;
深度图中间处理模块包括两个混合神经网络块、深度图细节关联模块和两个过渡用卷积层,两个混合神经网络块分别为第三个和第四个混合神经网络块,两个过渡用卷积层分别为第三个和第四个过渡用卷积层,深度图细节关联模块主要由五个混合卷积层和一个第二网络模块组成,五个混合卷积层分别为第六个、第七个、第八个、第九个和第十个混合卷积层;第二个级联层和第四个级联层共同输入第三个混合神经网络块,第三个混合神经网络块依次经第四个混合神经网络块、第六个混合卷积层、第二网络模块输入第七个混合卷积层,第六个混合卷积层依次经第八个混合卷积层、第九个混合卷积层输入第十个混合卷积层;第七个混合卷积层的输出和第十个混合卷积层的输出融合后作为深度图细节关联模块的输出;
隐层中的后处理模块包括依次相连的第一个反卷积层、第二个反卷积层和第三个反卷积层,RGB图细节关联模块的输出和深度图细节关联模块的输出融合后输入第一个反卷积层,第二个混合神经网络块经第一个过渡用卷积层的输出和第四个混合神经网络块经第三个过渡用卷积层的输出共同输入第一个反卷积层,第一个混合神经网络块经第二个过渡用卷积层的输出和第三个混合神经网络块经第四个过渡用卷积层的输出共同输入第二个反卷积层,第三个反卷积层经输出层输出。
所述RGB图前处理模块中的第一个、第二个、第三个、第四个彩色图神经网络块按顺序对应ResNet50中的4个模块,深度图前处理模块中的第一个、第二个、第三个、第四个深度图神经网络块按顺序对应ResNet50中的4个模块。
所述第一网络模块和第二网络模块均采用DenseNet网络的Denseblock。
RGB图像输入层的输入为经过图像大小处理的RGB图像,训练时彩色真实目标图像作为RGB图像输入;深度图像输入层的输入为经过图像大小处理的深度图像,训练时输入彩色真实目标图像对应的深度图像,深度图像经自身级联转变为三通道图像输入隐层即输入深度图前处理模块。
RGB图像输入层和深度图像输入层输入的图像都是由原始图像经过大小处理的,目的是为了匹配ResNet网络。
本发明的有益效果:
1)本发明使用ResNet50对RGB图和深度图分别进行预训练(将深度图变成三通道输入),然后分别提取RGB图和深度图经ResNet50中4个模块的不同结果,并将RGB图和深度图的结果进行Concatence方式相互拼接,再传入后期的模型中,这是在现有方法中基本没有运用过的。在后期设计的模型中(4个混合神经网络块)又运用到ResNet模块训练,使得训练信息前后相匹配。
2)本发明的网络模块采用DenseNet里的DenseBlock块,并基于此设计了一个新的模块即细节关联模块,这样提取了DenseNet的优点与卷积进行结合,使得本发明方法的检测结果更为细致。
3)本发明方法采用新颖的模型架构,在与当今最先进的方法对比中,都取得了很优秀的结果。
附图说明
图1为本发明方法的总体实现框图。
图2a为一幅RGB图像。
图2b为图2a的深度图像。
图3a为图2a的真实显著性检测图像。
图3b为图2a与图2b经过本发明所得到的显著性检测预测图。
图4a为本发明在Recall评价上的结果。
图4b为本发明在ROC上的结果。
图4c为本发明在MAE上的结果。
具体实施方式
以下结合附图和实施例对本发明作进一步详细描述。
本发明提出的一种多模态多拼接的RGB-D显著性目标检测方法,其总体实现框图如图1所示,其包括训练阶段、验证阶段和测试阶段两个过程,所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅的彩色真实目标图像和相对应的深度图像,以及每幅彩色真实目标图像对应的真实显著性图像,并构成训练集;将训练集中的第q幅原始的物体图像记为{Iq(i,j)},深度图像记为{Dq(i,j)},将训练集中与{Iq(i,j)}对应的真实显著性图像记为其中,彩色真实目标图像为RGB彩色图像,深度图为二值的灰度图,Q为正整数,Q≥200,如取Q=367,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,如取W=512、H=512,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;在此,彩色真实目标图像直接选用数据库NJU2000训练集中的1588幅图像。
步骤1_2:构建如图1所示的卷积神经网络:卷积神经网络包括输入层、隐层和输出层;卷积神经网络包括输入层、隐层和输出层,输入层包括RGB图像输入层和深度图像输入层,隐层包括前处理模块、中间处理模块和后处理模块,前处理模块包括RGB图前处理模块和深度图前处理模块,中间处理模块包括RGB图中间处理模块和深度图中间处理模块;RGB图输入层和深度图输入层分别输入RGB图前处理模块和深度图前处理模块。
对于RGB图像输入层,输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H。
对于深度图像输入层,输入端接收一幅原始输入深度图像,输入端的输出端输出原始深度图像经过自身叠加两个通道变成三通道的深度图像,将三通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H。
RGB图前处理模块包括四个彩色图神经网络块、一个彩色卷积层、三个彩色反卷积层和两个级联层;第一个彩色图神经网络块依次经第二个彩色图神经网络块、第三个彩色图神经网络块输出至第四个彩色图神经网络块,第一个彩色图神经网络块经第一个彩色卷积层的输出和第二个彩色图神经网络经第一个彩色反卷积层的输出通过图像拼接Concatence方式融合后输入第一个级联层,第三个彩色图神经网络块经第二个彩色反卷积层的输出和第四个彩色图神经网络块经第三个彩色反卷积层的输出通过图像拼接Concatence方式融合后输入第二个级联层;
对于第1个彩色图像神经网络块、第2个彩色图像神经网络、第3个彩色图像神经网络、第4个彩色图像神经网络,按顺序对应ResNet50中的4个模块,采用了预训练的方法,利用pytorch自带的ResNet50的网络和其权重,对输入图像做预训练,并且在预训练过程中固定了权重。
经过第1个彩色图像神经网络块后输出为256幅特征图,将256幅的特征图构成的集合记为P1,输出记为P1p,P1p中每幅特征图的宽度为高度为经过第2个彩色图像神经网络块后输出为512幅特征图,将512幅的特征图构成的集合记为P2,输出记为P2p,P2p中每幅特征图的宽度为高度为经过第3个彩色图像神经网络块后输出为1024幅特征图,将1024幅的特征图构成的集合记为P3,输出记为P3p,P3p中每幅特征图的宽度为高度为经过第4个彩色图像神经网络块后输出为2048幅特征图,将2048幅的特征图构成的集合记为P4,输出记为P4p,P4p每幅特征图的宽度为高度为
对于第1个彩色卷积层,由一个卷积组成,卷积核大小为3×3,卷积核个数为32,补零参数为1,步长为1,输出为32幅特征图,将32幅特征图构成的集合记为PC1
对于第1个彩色反卷积层,由一个反卷积组成,卷积核大小为2×2,卷积核个数为32,补零参数为0,步长为2,输出为32幅特征图,将32幅特征图构成的集合记为PC2。对于第2个彩色反卷积层,依次设置为:第一反卷积层、第一归一化,第一激活层、第二反卷积层、第二归一化。第一反卷积层的卷积核大小为2×2,卷积核个数为512,补零参数为0,步长为2。第一归一化的参数为512。第二反卷积层的卷积核大小为2×2,卷积核个数为32,补零参数为0,步长为2。第二归一化参数为32。总输出为32幅特征图,将32幅特征图构成的集合记为PC3。对于第3个彩色反卷积层,依次设置为:第一反卷积层、第一归一化,第一激活层、第二反卷积层、第二归一化、第二激活层、第三反卷积层、第三归一化。第一反卷积层的卷积核大小为2×2,卷积核个数为1024,补零参数为0,步长为2。第一归一化的参数为1024。第二反卷积层的卷积核大小为2×2,卷积核个数为512,补零参数为0,步长为2。第二归一化参数为512。第三反卷积层的卷积核大小为2×2,卷积核个数为32,补零参数为0,步长为2。第三归一化参数为32。总输出为32幅特征图,将32幅特征图构成的集合记为PC4
深度图前处理模块包括四个深度图神经网络块、一个深度卷积层、三个深度反卷积层和两个级联层;第一个深度图神经网络块依次经第二个深度图神经网络块、第三个深度图神经网络块输出至第四个深度图神经网络块,第一个深度图神经网络块经第一个深度卷积层的输出和第二个深度图神经网络块经第一个深度反卷积层的输出通过图像拼接Concatence方式融合后输入第三个级联层,第三个深度图神经网络块经第二个深度反卷积层的输出和第四个深度图神经网络块经第三个深度反卷积层的输出通过图像拼接Concatence方式融合后输入第四个级联层;
对于第1个深度图像神经网络、第2个深度图像神经网络、第3个深度图像神经网络、第4个深度图像神经网络,对应的是ResNet50中的4个模块,采用了预训练的方法,利用pytorch自带的ResNet50的网络和其权重,对输入图像做预训练,并且在预训练过程中固定了权重。
经过第1个深度图像神经网络块后输出为256幅特征图,将256幅的特征图构成的集合记为DP1,输出记为DP1p,DP1p中每幅特征图的宽度为高度为经过第2个深度图像神经网络块后输出为512幅特征图,将512幅的特征图构成的集合记为DP2,输出记为DP2p,DP2p中每幅特征图的宽度为高度为经过第3个深度图像神经网络块后输出为1024幅特征图,将1024幅的特征图构成的集合记为DP3,输出记为DP3,DP3中每幅特征图的宽度为高度为经过第4个深度图像神经网络块后输出为2048幅特征图,将2048幅的特征图构成的集合记为DP4,输出记为DP4,DP4中每幅特征图的宽度为高度为
对于第1个深度卷积层,由一个卷积组成,卷积核大小为3×3,卷积核个数为32,补零参数为1,步长为1,输出为32幅特征图,将32幅特征图构成的集合记为DC1
对于第1个深度反卷积层,由一个反卷积组成,卷积核大小为2×2,卷积核个数为32,补零参数为0,步长为2,输出为32幅特征图,将32幅特征图构成的集合记为DC2。对于第2个深度反卷积层,依次设置为:第一反卷积层、第一归一化,第一激活层、第二反卷积层、第二归一化。第一反卷积层的卷积核大小为2×2,卷积核个数为512,补零参数为0,步长为2。第一归一化的参数为512。第二反卷积层的卷积核大小为2×2,卷积核个数为32,补零参数为0,步长为2。第二归一化参数为32。总输出为32幅特征图,将32幅特征图构成的集合记为DC3。对于第3个深度反卷积层,依次设置为:第一反卷积层、第一归一化,第一激活层、第二反卷积层、第二归一化、第二激活层、第三反卷积层、第三归一化。第一反卷积层的卷积核大小为2×2,卷积核个数为1024,补零参数为0,步长为2。第一归一化的参数为1024。第二反卷积层的卷积核大小为2×2,卷积核个数为512,补零参数为0,步长为2。第二归一化参数为512。第三反卷积层的卷积核大小为2×2,卷积核个数为32,补零参数为0,步长为2。第三归一化参数为32。总输出为32幅特征图,将32幅特征图构成的集合记为DC4
对于第1个级联层,第1个级联层的输入端接收PC1中的所有特征图和PC2中的所有特征图,第1个级联层通过现有的Concatence方式连接PC1和PC2得到集合U1,第1个级联层的输出端输出U1;其中,U1中包含的特征图的总幅数为64(32+32=64),U1中的每幅特征图的宽度为高度为对于第2个级联层,第2个级联层的输入端接收PC3中的所有特征图和PC4中的所有特征图,第1个级联层通过现有的Concatence方式连接PC3和PC4得到集合U2,第2个级联层的输出端输出U2;其中,U2中包含的特征图的总幅数为64(32+32=64),U2中的每幅特征图的宽度为高度为对于第3个级联层,第3个级联层的输入端接收DC1中的所有特征图和DC2中的所有特征图,第1个级联层通过现有的Concatence方式连接DC1和DC2得到集合U3,第3个级联层的输出端输出U3;其中,U2中包含的特征图的总幅数为64(32+32=64),U3中的每幅特征图的宽度为高度为对于第4个级联层,第4个级联层的输入端接收DC3中的所有特征图和DC4中的所有特征图,第1个级联层通过现有的Concatence方式连接DC3和DC4得到集合U4,第4个级联层的输出端输出U4;其中,U2中包含的特征图的总幅数为64(32+32=64),U4中的每幅特征图的宽度为高度为
RGB图中间处理模块包括两个混合神经网络块、RGB图细节关联模块和两个过渡用卷积层,两个混合神经网络块分别为第一个和第二个混合神经网络块,两个过渡用卷积层分别为第一个和第二个过渡用卷积层,RGB图细节关联模块主要由五个混合卷积层和一个第一网络模块组成,五个混合卷积层分别为第一个、第二个、第三个、第四个和第五个混合卷积层;第一个级联层和第三个级联层共同输入第一个混合神经网络块,第一个混合神经网络块依次经第二个混合神经网络块、第一个混合卷积层、第一网络模块输入第二个混合卷积层,第一个混合卷积层依次经第三个混合卷积层、第四个混合卷积层输入第五个混合卷积层;第五个混合卷积层的输出和第二个混合卷积层的输出融合后作为RGB图细节关联模块的输出;
对于第1个混合神经网络块,第1个混合神经网络块与第1个彩色图神经网络块是完全相同的,输入为U1和U3之和,输出为256幅特征图,得到集合C1,每幅特征图的宽度为高度为对于第2个混合神经网络块,第2个混合神经网络块与第2个彩色图神经网络块是完全相同的,输出为512幅特征图,得到集合C2,每幅特征图的宽度为高度为
对于第1个混合卷积层,由一个卷积组成,卷积核大小为5×5,卷积核个数为512,补零参数为2,步长为1,输出为512幅特征图。对于第2个混合卷积层,由一个卷积组成,卷积核大小为5×5,卷积核个数为512,补零参数为2,步长为1,输出为256幅特征图,将256幅特征图构成的集合记为QC1。对于第3个混合卷积层,由一个卷积层、一个归一化、一个激活层组成,卷积核大小为3×3,卷积核个数为512,补零参数为1,步长为1。归一化参数为512。激活层采用激活函数PReLU。输出为512幅特征图。对于第4个混合卷积层,由一个卷积层、一个归一化、一个激活层组成,卷积核大小为3×3,卷积核个数为256,补零参数为1,步长为1。归一化参数为256。激活层采用激活函数PReLU。输出为256幅特征图。对于第5个混合卷积层,由一个卷积层、一个归一化组成,卷积核大小为3×3,卷积核个数为256,补零参数为1,步长为1。归一化参数为256。输出为256幅特征图,集合记为Q1
深度图中间处理模块包括两个混合神经网络块、深度图细节关联模块和两个过渡用卷积层,两个混合神经网络块分别为第三个和第四个混合神经网络块,两个过渡用卷积层分别为第三个和第四个过渡用卷积层,深度图细节关联模块主要由五个混合卷积层和一个第二网络模块组成,五个混合卷积层分别为第六个、第七个、第八个、第九个和第十个混合卷积层;第二个级联层和第四个级联层共同输入第三个混合神经网络块,第三个混合神经网络块依次经第四个混合神经网络块、第六个混合卷积层、第二网络模块输入第七个混合卷积层,第六个混合卷积层依次经第八个混合卷积层、第九个混合卷积层输入第十个混合卷积层;第七个混合卷积层的输出和第十个混合卷积层的输出融合后作为深度图细节关联模块的输出;
对于第3个混合神经网络块,第3个混合神经网络块与第1个深度图神经网络块是完全相同的,输入为U2和U4之和,输出为256幅特征图,得到集合C3,每幅特征图的宽度为高度为对于第4个混合神经网络块,第4个混合神经网络块与第2个深度图神经网络块是完全相同的,输出为256幅特征图,得到集合C4,每幅特征图的宽度为高度为
对于第1个网络模块,采用的是DenseNet网络的Denseblock。其中参数设置为:层数为6,大小为4,增加级数为4,输出为536幅特征图。
对于第6个混合卷积层,由一个卷积组成,卷积核大小为5×5,卷积核个数为512,补零参数为2,步长为1,输出为512幅特征图。对于第7个混合卷积层,由一个卷积组成,卷积核大小为5×5,卷积核个数为512,补零参数为2,步长为1,输出为256幅特征图,将256幅特征图构成的集合记为QC2。对于第8个混合卷积层,由一个卷积层、一个归一化、一个激活层组成,卷积核大小为3×3,卷积核个数为512,补零参数为1,步长为1。归一化参数为512。激活层采用激活函数PReLU。输出为512幅特征图。对于第9个混合卷积层,由一个卷积层、一个归一化、一个激活层组成,卷积核大小为3×3,卷积核个数为256,补零参数为1,步长为1。归一化参数为256。激活层采用激活函数PReLU。输出为256幅特征图。对于第10个混合卷积层,由一个卷积层、一个归一化组成,卷积核大小为3×3,卷积核个数为256,补零参数为1,步长为1。归一化参数为256。输出为256幅特征图,集合记为Q2
对于第1个过渡用的卷积层,输入为C2,由一个卷积组成,卷积核大小为3×3,卷积核个数为256,补零参数为1,步长为1。输出为256幅特征图,集合记为W1。对于第2个过渡用的卷积层,输入为C1,由一个卷积组成,卷积核大小为3×3,卷积核个数为64,补零参数为1,步长为1。输出为64幅特征图,集合记为W2
对于第2个网络模块,采用的是DenseNet网络的Denseblock。其中参数设置为:层数为6,大小为4,增加级数为4,输出为536幅特征图。
对于第3个过渡用的卷积层,输入为C1,由一个卷积组成,卷积核大小为3×3,卷积核个数为256,补零参数为1,步长为1。输出为256幅特征图,集合记为W3。对于第4个过渡用的卷积层,输入为C1,由一个卷积组成,卷积核大小为3×3,卷积核个数为64,补零参数为1,步长为1。输出为64幅特征图,集合记为W4
隐层中的后处理模块包括依次相连的第一个反卷积层、第二个反卷积层和第三个反卷积层,RGB图细节关联模块的输出和深度图细节关联模块的输出融合后输入第一个反卷积层,第二个混合神经网络块经第一个过渡用卷积层的输出和第四个混合神经网络块经第三个过渡用卷积层的输出共同输入第一个反卷积层,第一个混合神经网络块经第二个过渡用卷积层的输出和第三个混合神经网络块经第四个过渡用卷积层的输出共同输入第二个反卷积层,第三个反卷积层经输出层输出。
对于第1个反卷积层,输入为Q1、Q2、QC1、QC2、W1和W2。由一个反卷积组成,卷积核大小为2×2,卷积核个数为64,补零参数为0,步长为2。输出为64幅特征图,集合记为O,每幅特征图的宽度为高度为对于第2个反卷积层,输入为O、W2和W4。由一个反卷积和Dropout正则化组成,卷积核大小为2×2,卷积核个数为32,补零参数为0,步长为2。Dropout正则化采用默认参数。输出为32幅特征图,每幅特征图的宽度为高度为对于第3个反卷积层,由一个反卷积和Dropout正则化组成,卷积核大小为2×2,卷积核个数为32,补零参数为0,步长为2。Dropout正则化采用默认参数。
输出为32幅特征图,每幅特征图的宽度为W、高度为H。
步骤1_3:将训练集中的每幅原始的彩色真实目标图像转换尺寸变为224×224作为原始RGB输入图像(如图2a),将训练集中的每幅原始的彩色真实目标图像对应的深度图像转换尺寸变为224×224并且转变为三通道图像作为深度输入图像(如图2b),输入到ResNet50中进行预训练,预训练后再把相应特征图输入到模型中训练。得到训练集中的每幅彩色真实目标图像对应的显著性检测预测图,将{Iq(i,j)}对应的显著性检测预测图构成的集合记为
步骤1_4:计算训练集中的每幅原始的彩色真实目标图像对应的显著性检测预测图(如图3b)构成的集合与对应的真实显著性检测图像(如图3a)处理成的对应尺寸大小的编码图像构成的集合之间的损失函数值,将之间的损失函数值记为采用二分类交叉熵获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=100。
所述的测试阶段过程的具体步骤为:
步骤2_1:令表示待显著性检测的彩色真实目标图像,表示待显著性检测的真实物体对应的深度图像;其中,1≤i′≤W′,1≤j′≤H′,W′表示的宽度,H′表示的高度,表示中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值。
步骤2_2:将的R通道分量、G通道分量和B通道分量以及经过转变的的三通道分量输入到ResNet50中进行预训练,再把结果提出输入到训练模型中,并利用Wbest和bbest进行预测,得到对应的预测显著性检测图像,记为其中,表示中坐标位置为(i′,j′)的像素点的像素值。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学习库Pytorch4.0.1搭建多尺度残差卷积神经网络的架构。采用真实物体图像数据库NJU2000测试集来分析利用本发明方法预测得到的真实场景图像(取397幅真实物体图像)的显著性检测效果如何。这里,利用评估显著性检测方法的3个常用客观参量作为评价指标,即类准确率召回率曲线(Precision Recall Curve)、工作特征曲线(ROC)、平均绝对误差(Mean Absolute Error,MAE)来评价预测显著性检测图像的检测性能。
利用本发明方法对真实场景图像数据库NJU2000测试集中的每幅真实场景图像进行预测,得到每幅真实场景图像对应的预测显著性检测图像,反映本发明方法的显著性检测效果的准确率召回率曲线(PRCurve)(如图4a)、工作特征曲线(ROC)(如图4b)、平均绝对误差(MAE)(如图4c)。由图可知,按本发明方法得到的真实场景图像的显著性检测结果非常好,表明利用本发明方法来获取真实场景图像对应的预测显著性检测图像是可行性且有效。

Claims (5)

1.一种基于多模态多拼接的RGB-D显著性目标检测方法,其特征在于,包括以下步骤:
步骤1-1:选取Q幅彩色真实目标图像、每幅彩色真实目标图像对应的深度图像和每幅彩色真实目标图像对应的真实显著性图像构成训练集;
步骤1-2:构建卷积神经网络;
步骤1-3:将训练集输入卷积神经网络进行训练,训练过程中,每次迭代训练处理得到每幅彩色真实目标图像的显著性检测预测图,计算每幅显著性检测预测图与对应的真实显著性图像构成的损失函数值,损失函数采用二分类交叉熵获得;
步骤1-4:不断迭代训练重复共V次,共得到Q×V个损失函数值,然后从Q×V个损失函数值中找出值最小的损失函数值,接着将值最小的损失函数值对应的权值矢量和偏置项作为卷积神经网络的最优权值矢量和最优偏置项,从而完成卷积神经网络的训练;
步骤1-5:利用训练后获得的卷积神经网络对待显著性检测的彩色真实目标图像进行预测处理,将待显著性检测的彩色真实目标图像及其对应的深度图像输入训练后获得的卷积神经网络,输出获得对应的预测显著性检测图像,实现图像的显著性目标检测。
2.根据权利要求1所述的一种基于多模态多拼接的RGB-D显著性目标检测方法,其特征在于:所述步骤1-2中,卷积神经网络包括输入层、隐层和输出层,输入层包括RGB图像输入层和深度图像输入层,隐层包括前处理模块、中间处理模块和后处理模块,前处理模块包括RGB图前处理模块和深度图前处理模块,中间处理模块包括RGB图中间处理模块和深度图中间处理模块;RGB图输入层和深度图输入层分别输入RGB图前处理模块和深度图前处理模块;
RGB图前处理模块包括四个彩色图神经网络块、一个彩色卷积层、三个彩色反卷积层和两个级联层;第一个彩色图神经网络块依次经第二个彩色图神经网络块、第三个彩色图神经网络块输出至第四个彩色图神经网络块,第一个彩色图神经网络块经第一个彩色卷积层的输出和第二个彩色图神经网络经第一个彩色反卷积层的输出通过图像拼接Concatence方式融合后输入第一个级联层,第三个彩色图神经网络块经第二个彩色反卷积层的输出和第四个彩色图神经网络块经第三个彩色反卷积层的输出通过图像拼接Concatence方式融合后输入第二个级联层;
深度图前处理模块包括四个深度图神经网络块、一个深度卷积层、三个深度反卷积层和两个级联层;第一个深度图神经网络块依次经第二个深度图神经网络块、第三个深度图神经网络块输出至第四个深度图神经网络块,第一个深度图神经网络块经第一个深度卷积层的输出和第二个深度图神经网络块经第一个深度反卷积层的输出通过图像拼接ConCatence方式融合后输入第三个级联层,第三个深度图神经网络块经第二个深度反卷积层的输出和第四个深度图神经网络块经第三个深度反卷积层的输出通过图像拼接Concatence方式融合后输入第四个级联层;
RGB图中间处理模块包括两个混合神经网络块、RGB图细节关联模块和两个过渡用卷积层,两个混合神经网络块分别为第一个和第二个混合神经网络块,两个过渡用卷积层分别为第一个和第二个过渡用卷积层,RGB图细节关联模块主要由五个混合卷积层和一个第一网络模块组成,五个混合卷积层分别为第一个、第二个、第三个、第四个和第五个混合卷积层;第一个级联层和第三个级联层共同输入第一个混合神经网络块,第一个混合神经网络块依次经第二个混合神经网络块、第一个混合卷积层、第一网络模块输入第二个混合卷积层,第一个混合卷积层依次经第三个混合卷积层、第四个混合卷积层输入第五个混合卷积层;第五个混合卷积层的输出和第二个混合卷积层的输出融合后作为RGB图细节关联模块的输出;
深度图中间处理模块包括两个混合神经网络块、深度图细节关联模块和两个过渡用卷积层,两个混合神经网络块分别为第三个和第四个混合神经网络块,两个过渡用卷积层分别为第三个和第四个过渡用卷积层,深度图细节关联模块主要由五个混合卷积层和一个第二网络模块组成,五个混合卷积层分别为第六个、第七个、第八个、第九个和第十个混合卷积层;第二个级联层和第四个级联层共同输入第三个混合神经网络块,第三个混合神经网络块依次经第四个混合神经网络块、第六个混合卷积层、第二网络模块输入第七个混合卷积层,第六个混合卷积层依次经第八个混合卷积层、第九个混合卷积层输入第十个混合卷积层;第七个混合卷积层的输出和第十个混合卷积层的输出融合后作为深度图细节关联模块的输出;
隐层中的后处理模块包括依次相连的第一个反卷积层、第二个反卷积层和第三个反卷积层,RGB图细节关联模块的输出和深度图细节关联模块的输出融合后输入第一个反卷积层,第二个混合神经网络块经第一个过渡用卷积层的输出和第四个混合神经网络块经第三个过渡用卷积层的输出共同输入第一个反卷积层,第一个混合神经网络块经第二个过渡用卷积层的输出和第三个混合神经网络块经第四个过渡用卷积层的输出共同输入第二个反卷积层,第三个反卷积层经输出层输出。
3.根据权利要求2所述的一种基于多模态多拼接的RGB-D显著性目标检测方法,其特征在于:所述RGB图前处理模块中的第一个、第二个、第三个、第四个彩色图神经网络块按顺序对应ResNet50中的4个模块,深度图前处理模块中的第一个、第二个、第三个、第四个深度图神经网络块按顺序对应ResNet50中的4个模块。
4.根据权利要求2所述的一种基于多模态多拼接的RGB-D显著性目标检测方法,其特征在于:所述第一网络模块和第二网络模块均采用DenseNet网络的Dense块。
5.根据权利要求2所述的一种基于多模态多拼接的RGB-D显著性目标检测方法,其特征在于:RGB图像输入层的输入为经过图像大小处理的RGB图像,训练时彩色真实目标图像作为RGB图像输入;深度图像输入层的输入为经过图像大小处理的深度图像,训练时输入彩色真实目标图像对应的深度图像,深度图像经自身级联转变为三通道图像输入隐层即输入深度图前处理模块。
CN201910740104.9A 2019-08-12 2019-08-12 多模态多拼接的rgb-d显著性目标检测方法 Active CN110458178B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910740104.9A CN110458178B (zh) 2019-08-12 2019-08-12 多模态多拼接的rgb-d显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910740104.9A CN110458178B (zh) 2019-08-12 2019-08-12 多模态多拼接的rgb-d显著性目标检测方法

Publications (2)

Publication Number Publication Date
CN110458178A true CN110458178A (zh) 2019-11-15
CN110458178B CN110458178B (zh) 2023-09-22

Family

ID=68485970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910740104.9A Active CN110458178B (zh) 2019-08-12 2019-08-12 多模态多拼接的rgb-d显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN110458178B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242173A (zh) * 2019-12-31 2020-06-05 四川大学 一种基于孪生网络的rgbd显著物体检测方法
CN111428602A (zh) * 2020-03-18 2020-07-17 浙江科技学院 卷积神经网络边缘辅助增强的双目显著性图像检测方法
CN111582316A (zh) * 2020-04-10 2020-08-25 天津大学 一种rgb-d显著性目标检测方法
CN112464831A (zh) * 2020-12-01 2021-03-09 马上消费金融股份有限公司 视频分类方法、视频分类模型的训练方法及相关设备
CN112651406A (zh) * 2020-12-18 2021-04-13 浙江大学 一种深度感知和多模态自动融合的rgb-d显著性目标检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019015344A1 (zh) * 2017-07-21 2019-01-24 北京大学深圳研究生院 基于中心暗通道先验信息的图像显著性物体检测方法
CN109409435A (zh) * 2018-11-01 2019-03-01 上海大学 一种基于卷积神经网络的深度感知显著性检测方法
CN109598268A (zh) * 2018-11-23 2019-04-09 安徽大学 一种基于单流深度网络的rgb-d显著目标检测方法
CN109635822A (zh) * 2018-12-07 2019-04-16 浙江科技学院 基于深度学习编码译码网络的立体图像视觉显著提取方法
CN109712105A (zh) * 2018-12-24 2019-05-03 浙江大学 一种结合彩色和深度信息的图像显著目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019015344A1 (zh) * 2017-07-21 2019-01-24 北京大学深圳研究生院 基于中心暗通道先验信息的图像显著性物体检测方法
CN109409435A (zh) * 2018-11-01 2019-03-01 上海大学 一种基于卷积神经网络的深度感知显著性检测方法
CN109598268A (zh) * 2018-11-23 2019-04-09 安徽大学 一种基于单流深度网络的rgb-d显著目标检测方法
CN109635822A (zh) * 2018-12-07 2019-04-16 浙江科技学院 基于深度学习编码译码网络的立体图像视觉显著提取方法
CN109712105A (zh) * 2018-12-24 2019-05-03 浙江大学 一种结合彩色和深度信息的图像显著目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAIBO XU ET AL: "RETRACTED: An iterative propagation based co-saliency framework for RGBD images" *
王松涛: "基于特征融合的RGB-D图像视觉显著性检测方法研究" *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242173A (zh) * 2019-12-31 2020-06-05 四川大学 一种基于孪生网络的rgbd显著物体检测方法
CN111242173B (zh) * 2019-12-31 2021-03-02 四川大学 一种基于孪生网络的rgbd显著物体检测方法
CN111428602A (zh) * 2020-03-18 2020-07-17 浙江科技学院 卷积神经网络边缘辅助增强的双目显著性图像检测方法
CN111582316A (zh) * 2020-04-10 2020-08-25 天津大学 一种rgb-d显著性目标检测方法
CN111582316B (zh) * 2020-04-10 2022-06-28 天津大学 一种rgb-d显著性目标检测方法
CN112464831A (zh) * 2020-12-01 2021-03-09 马上消费金融股份有限公司 视频分类方法、视频分类模型的训练方法及相关设备
CN112464831B (zh) * 2020-12-01 2021-07-30 马上消费金融股份有限公司 视频分类方法、视频分类模型的训练方法及相关设备
CN112651406A (zh) * 2020-12-18 2021-04-13 浙江大学 一种深度感知和多模态自动融合的rgb-d显著性目标检测方法
CN112651406B (zh) * 2020-12-18 2022-08-09 浙江大学 一种深度感知和多模态自动融合的rgb-d显著性目标检测方法

Also Published As

Publication number Publication date
CN110458178B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
CN110458178A (zh) 多模态多拼接的rgb-d显著性目标检测方法
CN108537743B (zh) 一种基于生成对抗网络的面部图像增强方法
CN106683048B (zh) 一种图像超分辨率方法及设备
CN106874956B (zh) 图像分类卷积神经网络结构的构建方法
CN107844795B (zh) 基于主成分分析的卷积神经网络特征提取方法
CN111612807B (zh) 一种基于尺度和边缘信息的小目标图像分割方法
CN105825235B (zh) 一种基于多特征图深度学习的图像识别方法
CN105046277B (zh) 特征显著性在图像质量评价中的鲁棒机理研究方法
CN109543502A (zh) 一种基于深度多尺度神经网络的语义分割方法
CN108288035A (zh) 基于深度学习的多通道图像特征融合的人体动作识别方法
CN110298266A (zh) 基于多尺度感受野特征融合的深度神经网络目标检测方法
CN104537647B (zh) 一种目标检测方法及装置
CN110414670A (zh) 一种基于全卷积神经网络的图像拼接篡改定位方法
CN108510012A (zh) 一种基于多尺度特征图的目标快速检测方法
CN110263813A (zh) 一种基于残差网络和深度信息融合的显著性检测方法
CN107833183A (zh) 一种基于多任务深度神经网络的卫星图像同时超分辨和着色的方法
CN107742107A (zh) 人脸图像分类方法、装置及服务器
CN107527337A (zh) 一种基于深度学习的视频对象移除篡改检测方法
CN112686894B (zh) 基于生成式对抗网络的fpcb板缺陷检测方法及装置
CN110175986A (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN109344845A (zh) 一种基于Triplet深度神经网络结构的特征匹配方法
CN111311702B (zh) 一种基于BlockGAN的图像生成和识别模块及方法
CN109214298A (zh) 一种基于深度卷积网络的亚洲女性颜值评分模型方法
CN108710916A (zh) 图片分类的方法及装置
CN112288627A (zh) 一种面向识别的低分辨率人脸图像超分辨率方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant