CN111310767A - 一种基于边界增强的显著性检测方法 - Google Patents

一种基于边界增强的显著性检测方法 Download PDF

Info

Publication number
CN111310767A
CN111310767A CN202010047944.XA CN202010047944A CN111310767A CN 111310767 A CN111310767 A CN 111310767A CN 202010047944 A CN202010047944 A CN 202010047944A CN 111310767 A CN111310767 A CN 111310767A
Authority
CN
China
Prior art keywords
layer
output
neural network
input
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010047944.XA
Other languages
English (en)
Inventor
周武杰
吴君委
黄思远
雷景生
王海江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Zhejiang University of Science and Technology ZUST
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN202010047944.XA priority Critical patent/CN111310767A/zh
Publication of CN111310767A publication Critical patent/CN111310767A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于边界增强的显著性检测方法。其在训练阶段构建卷积神经网络,输入层包括RGB图输入层和深度图输入层,隐层包括5个RGB图神经网络块、3个深度图神经网络块、5个上采样块、1个均值最大最小滤波模块、1个最大最小滤波模块,输出层包括显著性输出层和显著性边界输出层;将训练集中的RGB图和深度图输入到卷积神经网络进行训练,得到显著性检测预测图;通过计算显著性检测预测图与真实显著性检测图像之间的损失函数值以及显著性边缘预测图与真实显著性边缘图之间的损失函数值,得到卷积神经网络训练模型;将待显著性检测的RGB图输入卷积神经网络训练得到预测显著性检测图像。本发明的显著性检测效率和准确率都很高。

Description

一种基于边界增强的显著性检测方法
技术领域
本发明涉及一种视觉显著性检测技术,尤其是涉及一种基于边界增强的显著性检测方法。
背景技术
视觉显著性可以帮助人类快速地过滤掉不重要的信息,让人们的注意力更加集中在有意义的区域,从而能更好地理解眼前的场景。随着计算机视觉领域的快速发展,人们希望电脑也能拥有和人类相同的能力,即在理解和分析复杂的场景时,电脑可以更加针对性地处理有用的信息,从而能更大的降低算法的复杂度,并且排除杂波的干扰。在传统做法中,研究人员根据观察到的各种先验知识对显著性对象检测算法进行建模,生成显著性图。这些先验知识包括对比度、中心先验、边缘先验、语义先验等。然而,在复杂的场景中,传统做法往往不够准确,这是因为这些观察往往局限于低级别的特征(例如:颜色和对比度等),所以不能准确反映出显著性对象本质的共同点。
近年来,卷积神经网络已广泛运用于计算机视觉的各个领域,许多困难的视觉问题都获得了重大的进展。不同于传统做法,深度卷积神经网络能够从大量的训练样本中建模并自动的端到端(end-to-end)地学习到更为本质的特性,从而有效地避免了传统人工建模和设计特征的弊端。最近, 3D传感器的有效应用更加丰富了数据库,人们不但可以获得彩色图片,而且可以获取彩色图片的深度信息。深度信息在现实3D场景中是人眼视觉系统中很重要的一环,这是在之前的传统做法中所完全忽略掉的一条重要的信息,因此现在最重要的任务就是如何建立模型从而有效地利用好深度信息。
在RGB-D数据库中采用深度学习的显著性检测方法,直接进行像素级别端到端的显著性检测,只需要将训练集中的图像输入进模型框架中训练,得到权重与模型,即可在测试集进行预测。目前,基于RGB-D数据库的深度学习显著性检测模型主要用的结构为编码-译码架构,在如何利用深度信息的方法上有三种:第一种方法就是直接将深度信息与彩色图信息叠加为一个四维的输入信息或在编码过程中将彩色图信息和深度信息进行相加或者叠加,这类方法称为前融合;第二种方法则是将在编码过程中对应的彩色图信息和深度信息利用跳层(skip connection)的方式相加或者叠加到对应的译码过程中,这类称为后融合;第三种方法则是分别利用彩色图信息和深度信息进行显著性预测,将最后的结果融合。上述第一种方法,由于彩色图信息和深度信息的分布有较大差异,因此直接在编码过程中加入深度信息会在一定程度上添加了噪声。上述第三种方法,分别利用深度信息和彩色图信息进行显著性预测,但是如果深度信息和彩色图信息的预测结果都不准确时,那么最终的融合结果也是相对不够精确的。上述第二种方法不仅避免了在编码阶段直接利用深度信息带来的噪声,而且在网络模型的不断优化中能够充分学习到彩色图信息和深度信息的互补关系,但是大量的后融合操作大大增加了计算量和网络模型的复杂程度。参考最近发表的显著性检测方案,Rethinking RGB-D Salient Object Detection:Models,Datasets,and Large-Scale Benchmarks(重新思考RGB-D显著目标检测:模型、数据集和大规模基准),以下简称为RRSD,RRSD对深度图进行一种删选的操作,挑选较优的深度图将其与彩色图进行叠加为一个四维的输入,从而进行显著性检测,该方法实现了去除不良的深度信息从而提升最终的显著性监测结果。由于RRSD并没有学习到深度信息和彩色图形之间的互补关系,而且直接将深度信息和彩色图信息叠加这种操作必然不是最优的。
发明内容
为了解决背景技术中的问题,本发明提供了一种基于边界增强的显著性检测方法,其通过高效地利用深度信息和彩色图信息,从而提升了显著性检测准确率和效率。
本发明方法构建的卷积神经网络,实现了端到端的显著性物体检测,易于训练,方便快捷;使用训练集中的彩色真实物体图像和对应的深度图像输入到卷积神经网络中进行训练,得到卷积神经网络训练模型;再将待显著性检测的彩色真实物体图像和对应的深度图像输入到卷积神经网络训练模型中,预测得到彩色真实物体图像对应的预测显著性检测图像。
本发明采用的技术方案包括以下步骤:
步骤1)选取Q幅含有真实物体的原始RGB图以及每幅原始RGB图对应的深度图、真实显著性检测图和真实显著性边界图,并构成训练集;
步骤2)构建卷积神经网络,卷积神经网络包含输入层、隐层、输出层;
步骤3)将训练集中的每幅原始RGB图以及对应的深度图输入到卷积神经网络中进行训练,从输出层输出得到显著性检测预测图以及显著性边界预测图,计算真实显著性检测图和对应的显著性检测预测图之间的损失函数值并记为第一损失函数值,计算真实显著性边界图和对应的显著性边界预测图之间的损失函数值并记为第二损失函数值,将第一损失函数值和第二损失函数值相加得到总损失函数值;
步骤4)重复执行步骤3)共V次,共得到Q×V个总损失函数值,然后从Q×V个总损失函数值中找出值最小的总损失函数值,接着将值最小的总损失函数值对应的权值矢量和偏置项作为卷积神经网络的最优权值矢量和最优偏置项,从而完成卷积神经网络的训练;
步骤5):将待显著性检测的RGB图像以及对应的深度图像输入到训练好的信息融合卷积神经网络中,输出得到对应的预测显著性检测图像和显著性边界预测图像。
所述卷积神经网络的输入层包括RGB图输入层和深度图输入层,隐层包括深度图处理模块、RGB图处理模块和后处理模块,输出层包括依次连接的显著性输出层、第一最大最小滤波模块和显著性边界输出层。
RGB图输入层包括依次连接的五个RGB图神经网络块;深度图处理模块包括一个第一均值最大最小滤波模块和三个深度图神经网络块,第一均值最大最小滤波模块的输出分别输入第一个深度图神经网络块、第二个深度图神经网络块、第三个深度图神经网络块;第一个深度图神经网络块的输出和第二个RGB图神经网络块的输出相乘后再与第二个RGB图神经网络块的输出相加作为第三个RGB图神经网络块的输入,第二个深度图神经网络块的输出和第三个RGB图神经网络块的输出相乘后再与第三个RGB 图神经网络块的输出相加作为第四个RGB图神经网络块的输入,第三个深度图神经网络块的输出和第四个RGB图神经网络块的输出相乘后再与第四个RGB图神经网络块的输出相加作为第五个RGB图神经网络块的输入。
后处理模块包括五个依次连接的上采样块,第一个上采样块的输入为第五个RGB图神经网络块的输出,第一个上采样块的输出与第五个RGB 图神经网络块的输入相加后作为第二个上采样块的输入,第二个上采样块的输出与第四个RGB图神经网络块的输入相加后作为第三个上采样块的输入,第三个上采样块的输出与第三个RGB图神经网络块的输入相加后作为第四个上采样块的输入,第四个上采样块的输出与第二个RGB图神经网络块的输入相加后作为第五个上采样块的输入,第五个上采样块的输出作为显著性输出层的输入。
深度图输入层的输出作为第一均值最大最小滤波模块的输入,RGB图输入层的输出作为第一个RGB图神经网络块的输入。
第一个RGB图神经网络块包括依次连接的两个卷积块,第二个RGB 图神经网络块包括依次连接的最大池化层和两个卷积块,第三个RGB图神经网络块、第四个RGB图神经网络块和第五个RGB图神经网络块均包括依次连接的最大池化层和三个卷积块。
每个深度图神经网络块均包括依次连接的下采样层和边界权重模块;每个边界权重模块包括一个最大池化层、一个均值池化层和两个卷积层,每个边界权重模块的输入分别输入最大池化层、均值池化层和第一个卷积层,最大池化层和均值池化层的输出进行通道叠加后输入第二个卷积层,第一个卷积层和第二个卷积层的输出相加后作为每个边界权重模块的输出。
每个上采样块包括依次连接的三个卷积块和一个上采样层。
第一均值最大最小滤波模块包括两个最大池化层,第一均值最大最小滤波模块的输入直接输入第一均值最大最小滤波模块中第一个最大池化层,第一均值最大最小滤波模块的输入乘以-1后输入第一均值最大最小滤波模块中第二个最大池化层,将两个最大池化层的输出相加后得到的特征图除以该特征图中的最大值得到第一均值最大最小滤波模块的输出。
第一最大最小滤波模块包括两个最大池化层,第一最大最小滤波模块的输入直接输入第一最大最小滤波模块中第一个最大池化层,第一最大最小滤波模块的输入乘以-1输入第一最大最小滤波模块中第二个最大池化层,将两个最大池化层的输出相加后得到第一最大最小滤波模块的输出。
每个卷积块包括依次连接的卷积层、批标准化层和激活层;第一个上采样块中三个卷积块对应的三个卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为2,扩张参数为2;第二个上采样块中三个卷积块对应的三个卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为4,扩张参数为4;第三个上采样块中三个卷积块对应的三个卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为6,扩张参数为 6;第四个上采样块中三个卷积块对应的三个卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为8,扩张参数为8;第五个上采样块中三个卷积块对应的三个卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为10,扩张参数为10。
第一均值最大最小滤波模块和第一最大最小滤波模块中的两个最大池化层的尺寸均为3,步长均为1,补零参数均为1;每个边界权重模块中的两个卷积层大小均为1×1,第一个边界权重模块、第二个边界权重模块、第三个边界权重模块中卷积层的卷积核个数分别为128、256、512;每个边界权重模块中的最大池化层和均值池化层的尺寸均为3,步长均为1,补零参数均为1。
所述RGB图输入层的输入端接收RGB图像,深度图输入层的输入端接收RGB图像对应的深度图像;输出层的输出为显著性输出层输出的显著性检测图像和显著性边界输出层输出的显著性边界图像。
本发明的有益效果:
1)本发明方法在构造卷积神经网络的时候利用了扩张卷积,因此能够在不增加参数量的同时获得更大的感受野,同时能够提升最终的显著性检测效果。
2)本发明方法在利用深度信息的时候,创新性地利用最大最小滤波模块提取了边界信息,继而将边界信息作为一种边界的权重信息添加到高维的彩色图信息中,这样能够让卷积神经网络训练模型训练的时候能够更加关注到边界信息的提取,从而提升最终的检测效果。
3)本发明额外增加了对显著物体边界的监督,通过对显著性物体的监督,能够指导卷积神经网络训练模型逐步地构建显著性检测预测图,通过对显著性物体边界的监督,从而使得模型能够逐步优化显著性边界的预测图,继而提升最终的显著性检测结果。
附图说明
图1-a为本发明方法的显著性检测效果的类准确率召回率曲线;
图1-b为本发明方法的显著性检测效果的平均绝对误差;
图1-c为本发明方法的显著性检测效果的F度量值;
图2为发明方法的总体实现框图;
图3-a为最大最小滤波模块的方案图;
图3-b为边界权重模块模型图;
图4a为第1幅原始的真实物体图像;
图4b为第1幅原始的真实物体图像的深度图;
图4c为利用本发明方法对图4a所示的原始的真实物体图像进行预测,得到的预测显著性检测图像;
图5a为第2幅原始的真实物体图像;
图5b为第2幅原始的真实物体图像的深度图;
图5c为利用本发明方法对图5a所示的原始的物体图像进行预测,得到的预测显著性检测图像;
图6a为第3幅原始的真实物体图像;
图6b为第3幅原始的真实物体图像的深度图;
图6c为利用本发明方法对图6a所示的原始的真实物体图像进行预测,得到的预测显著性检测图像;
图7a为第4幅原始的真实物体图像;
图7b为第4幅原始的真实物体图像的深度图;
图7c为利用本发明方法对图7a所示的原始的真实物体图像进行预测,得到的预测显著性检测图像。
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述。
本发明提出的一种基于卷积神经网络的显著性检测方法,其总体实现框图如图2所示,其包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的彩色真实物体图像及每幅原始的彩色真实物体图像对应的深度图像和真实显著性检测标签图像,并构成训练集,将训练集中的第q幅原始的彩色真实物体图像及其对应的深度图像和真实显著性检测标签图像对应记为{Iq(i,j)}、 {Dq(i,j)}、{Gq(i,j)};然后利用最大最小滤波模块对训练集中的每幅真实显著性检测标签图像进行边界提取,得到训练集中每幅真是显著性检测标签图像的显著性边界图,将{Gq(i,j)}的显著性边界图记为{Bq(i,j)};其中,Q为正整数,q为正整数,q的初始值为1,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}、{Dq(i,j)}、{Gq(i,j)}的宽度,H表示 {Iq(i,j)}、{Dq(i,j)}、{Gq(i,j)}的高度,{Iq(i,j)}为RGB彩色图像,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,{Dq(i,j)}为单通道的深度图像,Dq(i,j)表示{Dq(i,j)}中坐标位置为(i,j)的像素点的像素值,Gq(i,j)表示{Gq(i,j)}中坐标位置为(i,j)的像素点的像素值,Bq(i,j)表示{Bq(i,j)}中坐标为(i,j)的像素点的像素值;
步骤1_2:构建卷积神经网络:如图2所示,该卷积神经网络包含输入层、隐层、输出层,输入层包括RGB图输入层和深度图输入层,隐层包括5个RGB图神经网络块、 3个深度图神经网络块、3个边界融合层、4个融合层、5个上采样块、1个第一均值最大最小滤波模块、1个第一最大最小滤波模块、输出层包括1个显著性输出层和1个显著性边界输出层;
对于RGB图输入层,其输入端接收一幅训练用RGB彩色图像的R通道分量、G通道分量和B通道分量,其输出端输出训练用RGB彩色图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求训练用RGB彩色图像的宽度为W且高度为H;
对于深度图输入层,其输入端接收RGB图输入层的输入端接收的训练用RGB彩色图像对应的训练用深度图像,其输出端输出训练用深度图像给隐层;其中,训练用深度图像的宽度为W且高度为H;
对于第一均值最大最小滤波模块,其输入端接收深度图输入层的输出端输出的训练用深度图像,其输出端输出1幅宽度为W且高度为H的特征图,将输出特征图记为DE1
对于第1个深度图神经网络块,其输入端接收DE1中的所有特征图,其输出端输出128幅宽度为
Figure RE-GDA0002474444830000081
且高度为
Figure RE-GDA0002474444830000082
的特征图,将输出的所有特征图构成的集合记为DE2
对于第2个深度图神经网络块,其输入端接收DE1中的所有特征图,其输出端输出256幅宽度为
Figure RE-GDA0002474444830000083
且高度为
Figure RE-GDA0002474444830000084
的特征图,将输出的所有特征图构成的集合记为DE3
对于第3个深度图神经网络块,其输入端接收DE1中的所有特征图,其输出端输出512幅宽度为
Figure RE-GDA0002474444830000085
且高度为
Figure RE-GDA0002474444830000086
的特征图,将输出的所有特征图构成的集合记为DE4
对于第1个RGB图神经网络块,其输入端接收RGB图输入层的输出端输出的训练用RGB彩色图像的R通道分量、G通道分量和B通道分量,其输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为E1
对于第2个RGB图神经网络块,其输入端接收E1中的所有特征图,其输出端输出128幅宽度为
Figure RE-GDA0002474444830000087
且高度为
Figure RE-GDA0002474444830000088
的特征图,将输出的所有特征图构成的集合记为E2
对于第一个边界融合层,其输入端接收E2和DE2中的所有特征图,将E2和DE2进行对应位置相乘操作,再和E2进行对应位置相加操作,其输出端输出128幅宽度为
Figure RE-GDA0002474444830000089
且高度为
Figure RE-GDA00024744448300000810
的特征图,将输出的所有特征图构成的集合记为EB2
对于第3个RGB图神经网络块,其输入端接收EB2中的所有特征图,其输出端输出256幅宽度为
Figure RE-GDA00024744448300000811
且高度为
Figure RE-GDA00024744448300000812
的特征图,将输出的所有特征图构成的集合记为E3
对于第二个边界融合层,其输入端接收E3和DE3中的所有特征图,将E3和DE3进行对应位置相乘操作,再和E3进行对应位置相加操作,其输出端输出256幅宽度为
Figure RE-GDA0002474444830000091
且高度为
Figure RE-GDA0002474444830000092
的特征图,将输出的所有特征图构成的集合记为EB3
对于第4个RGB图神经网络块,其输入端接收EB3中的所有特征图,其输出端输出512幅宽度为
Figure RE-GDA0002474444830000093
且高度为
Figure RE-GDA0002474444830000094
的特征图,将输出的所有特征图构成的集合记为E4
对于第三个边界融合层,其输入端接收E4和DE4中的所有特征图,将E4和DE4进行对应位置相乘操作,再和E4进行对应位置相加操作,其输出端输出512幅宽度为
Figure RE-GDA0002474444830000095
且高度为
Figure RE-GDA0002474444830000096
的特征图,将输出的所有特征图构成的集合记为EB4
对于第5个RGB图神经网络块,其输入端接收EB4中的所有特征图,其输出端输出512幅宽度为
Figure RE-GDA0002474444830000097
且高度为
Figure RE-GDA0002474444830000098
的特征图,将输出的所有特征图构成的集合记为E5
对于第1个上采样块,其输入端接收E5中的所有特征图,其输出端输出512幅宽度为
Figure RE-GDA0002474444830000099
且高度为
Figure RE-GDA00024744448300000910
的特征图,将输出的所有特征图构成的集合记为U1
对于第一个融合层,其输入端接收U1和EB4中的所有特征图,进行对应位置相加操作,其输出端输出512幅宽度为
Figure RE-GDA00024744448300000911
且高度为
Figure RE-GDA00024744448300000912
的特征图,将输出的所有特征图构成的集合记为UP1
对于第2个上采样块,其输入端接收UP1中的所有特征图,其输出端输出256幅宽度为
Figure RE-GDA00024744448300000913
且高度为
Figure RE-GDA00024744448300000914
的特征图,将输出的所有特征图构成的集合记为U2
对于第二个融合层,其输入端接收U2和EB3中的所有特征图,进行对应位置相加操作,其输出端输出256幅宽度为
Figure RE-GDA00024744448300000915
且高度为
Figure RE-GDA00024744448300000916
的特征图,将输出的所有特征图构成的集合记为UP2
对于第3个上采样块,其输入端接收UP2中的所有特征图,其输出端输出128幅宽度为
Figure RE-GDA0002474444830000101
且高度为
Figure RE-GDA0002474444830000102
的特征图,将输出的所有特征图构成的集合记为U3
对于第三个融合层,其输入端接收U3和EB2中的所有特征图,进行对应位置相加操作,其输出端输出128幅宽度为
Figure RE-GDA0002474444830000103
且高度为
Figure RE-GDA0002474444830000104
的特征图,将输出的所有特征图构成的集合记为UP3
对于第4个上采样块,其输入端接收UP3中的所有特征图,其输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为U4
对于第四个融合层,其输入端接收U4和E1中的所有特征图,进行对应位置相加操作,其输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为UP4
对于第5个上采样块,其输入端接收UP4中的所有特征图,其输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为U5
对于第一个显著性输出层,其输入端接收U5中的所有特征图,其输出端输出1幅宽度为W且高度为H的特征图,将该特征图记为Out1,Out1则为显著性检测预测图;
对于第一个最大最小滤波模块,其输入端接收Out1中的所有特征图,其输出端输出 1幅宽度为W且高度为H的特征图,将该特征图记为Bout1,Bout1则为显著性边界预测图。
步骤1_3:将训练集中的每幅原始的彩色真实物体图像作为训练用RGB彩色图像,将训练集中的每幅原始的彩色真实物体图像对应的深度图像作为训练用深度图像,输入到步骤1_3构建的卷积神经网络中进行训练,得到训练集中的每幅原始的彩色真实物体图像对应的1幅显著性检测预测图和1幅显著性边界预测图,将{Iq(i,j)}对应的1幅显著性检测预测图记为
Figure RE-GDA0002474444830000111
将{Iq(i,j)}对应的1幅显著性边界预测图记为
Figure RE-GDA0002474444830000112
步骤1_4:将训练集中的每幅原始的真实彩色物体图像对应的显著性检测预测图记做
Figure RE-GDA0002474444830000113
将与之对应的真实显著性边界图记做
Figure RE-GDA0002474444830000114
分别计算
Figure RE-GDA0002474444830000115
Figure RE-GDA0002474444830000116
以及
Figure RE-GDA0002474444830000117
Figure RE-GDA0002474444830000118
之间的损失函数值,将
Figure RE-GDA0002474444830000119
Figure RE-GDA00024744448300001110
之间的损失函数值记为
Figure RE-GDA00024744448300001111
采用分类交叉熵(categorical crossentropy)获得,将
Figure RE-GDA00024744448300001112
Figure RE-GDA00024744448300001113
之间的损失函数值记为
Figure RE-GDA00024744448300001114
采用Dice loss获得,将
Figure RE-GDA00024744448300001115
Figure RE-GDA00024744448300001116
相加得到最终的损失函数值;
步骤1_5:重复执行步骤1_3至步骤1_4共V次,得到卷积神经网络训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure RE-GDA00024744448300001117
表示待显著性检测的彩色真实物体图像,将
Figure RE-GDA00024744448300001118
对应的深度图像记为
Figure RE-GDA00024744448300001119
其中,1≤i'≤W',1≤j'≤H',W'表示
Figure RE-GDA00024744448300001120
Figure RE-GDA00024744448300001121
的宽度,H'表示
Figure RE-GDA00024744448300001122
Figure RE-GDA00024744448300001123
的高度,
Figure RE-GDA00024744448300001124
表示
Figure RE-GDA00024744448300001125
中坐标位置为 (i',j')的像素点的像素值,
Figure RE-GDA00024744448300001126
表示
Figure RE-GDA00024744448300001127
中坐标位置为(i',j')的像素点的像素值;
步骤2_2:将
Figure RE-GDA00024744448300001128
的R通道分量、G通道分量和B通道分量以及
Figure RE-GDA00024744448300001129
输入到卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到
Figure RE-GDA00024744448300001130
对应的显著性检测预测图像和显著性边界预测图像,将尺寸大小与
Figure RE-GDA00024744448300001131
的尺寸大小一致的显著性检测预测图像作为
Figure RE-GDA0002474444830000121
对应的最终显著性检测预测图像,并记为
Figure RE-GDA0002474444830000122
其中,
Figure RE-GDA0002474444830000123
表示
Figure RE-GDA0002474444830000124
中坐标位置为(i',j')的像素点的像素值。
所述的步骤1_1中,{Gq(i,j)}的显著性边界图{Bq(i,j)}的获取过程为:
步骤1_1a:将{Gq(i,j)}中当前待处理的像素点定义为当前像素点;
步骤1_1b:利用3×3的滑动窗口对当前像素点进行操作,用当前滑动窗口中最大的值减去最小值得到当前像素点的最终结果值;
步骤1_1c:将{Gq(i,j)}中下一个待处理像素点作为当前像素点,然后返回步骤1_1b 继续执行,直至{Gq(i,j)}中的所有像素点处理完毕;
所述的步骤1_2中,第1个RGB图神经网络块,其由依次设置的VGG-16bn中的第一卷积层、第一批标准化层、第一激活层、第二卷积层、第二批标准化层、第二激活层组成,第一卷积层的输入端为其所在的神经网络块的输入端,第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有特征图,第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图,第二激活层的输出端为其所在的神经网络块的输出端;其中,第一卷积层和第二卷积层的卷积核大小均为 3×3、卷积核个数均为64、补零参数均为1,第一激活层和第二激活层的激活方式均为“Relu”,第一批标准化层、第二批标准化层、第一激活层、第二激活层各自的输出端输出64幅特征图;
第2个RGB图神经网络块,其由依次设置的VGG-16bn中的第一最大池化层、第三卷积层、第三批标准化层、第三激活层、第四卷积层、第四批标准化层、第四激活层组成,第一最大池化层的输入端为其所在的神经网络块的输入端,第三卷积层的输入端接收第一最大池化层的输出端输出的所有特征图,第三批标准化层的输入端接收第三卷积层的输出端输出的所有特征图,第三激活层的输入端接收第三批标准化层的输出端输出的所有特征图,第四卷积层的输入端接收第三激活层的输出端输出的所有特征图,第四批标准化层的输入端接收第四卷积层的输出端输出的所有特征图,第四激活层的输入端接收第四批标准化层的输出端输出的所有特征图,第四激活层的输出端为其所在的神经网络块的输出端;其中,第一最大池化层的池化尺寸pool_size为2、步长stride为2,第三卷积层和第四卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为 1,第三激活层和第四激活层的激活方式均为“Relu”,第三批标准化层、第四批标准化层、第三激活层、第四激活层各自的输出端输出128幅特征图;
第3个RGB图神经网络块,其由依次设置的VGG-16bn中的第二最大池化层、第五卷积层、第五批标准化层、第五激活层、第六卷积层、第六批标准化层、第六激活层、第七卷积层、第七批标准化层、第七激活层组成,第二最大池化层的输入端为其所在的神经网络块的输入端,第五卷积层的输入端接收第二最大池化层的输出端输出的所有特征图,第五批标准化层的输入端接收第五卷积层的输出端输出的所有特征图,第五激活层的输入端接收第五批标准化层的输出端输出的所有特征图,第六卷积层的输入端接收第五激活层的输出端输出的所有特征图,第六批标准化层的输入端接收第六卷积层的输出端输出的所有特征图,第六激活层的输入端接收第六批标准化层的输出端输出的所有特征图,第七卷积层的输入端接收第六激活层的输出端输出的所有特征图,第七批标准化层的输入端接收第七卷积层的输出端输出的所有特征图,第七激活层的输入端接收第七批标准化层的输出端输出的所有特征图,第七激活层的输出端为其所在的神经网络块的输出端;其中,第二最大池化层的池化尺寸为2、步长为2,第五卷积层和第六卷积层和第七卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为1,第五激活层和第六激活层和第七激活层的激活方式均为“Relu”,第五批标准化层、第六批标准化层、第七批标准化层、第五激活层、第六激活层和第七激活层各自的输出端输出256 幅特征图;
第4个RGB图神经网络块,其由依次设置的VGG-16bn中的第三最大池化层、第八卷积层、第八批标准化层、第八激活层、第九卷积层、第九批标准化层、第九激活层、第十卷积层、第十批标准化层、第十激活层组成,第三最大池化层的输入端为其所在的神经网络块的输入端,第八卷积层的输入端接收第三最大池化层的输出端输出的所有特征图,第八批标准化层的输入端接收第八卷积层的输出端输出的所有特征图,第八激活层的输入端接收第八批标准化层的输出端输出的所有特征图,第九卷积层的输入端接收第八激活层的输出端输出的所有特征图,第九批标准化层的输入端接收第九卷积层的输出端输出的所有特征图,第九激活层的输入端接收第九批标准化层的输出端输出的所有特征图,第十卷积层的输入端接收第九激活层的输出端输出的所有特征图,第十批标准化层的输入端接收第十卷积层的输出端输出的所有特征图,第十激活层的输入端接收第十批标准化层的输出端输出的所有特征图,第十激活层的输出端为其所在的神经网络块的输出端;其中,第三最大池化层的池化尺寸为2,步长为2,第八卷积层和第九卷积层和第十卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为1,第八激活层和第九激活层和第十激活层的激活方式均为“Relu”,第八批标准化层、第九批标准化层、第十批标准化层、第八激活层、第九激活层和第十激活层各自的输出端输出512幅特征图;
第5个RGB图神经网络块其由依次设置的VGG-16bn中的第四最大池化层、第十一卷积层、第十一批标准化层、第十一激活层、第十二卷积层、第十二批标准化层、第十二激活层、第十三卷积层、第十三批标准化层、第十三激活层组成,第四最大池化层的输入端为其所在的神经网络块的输入端,第十一卷积层的输入端接收第四最大池化层的输出端输出的所有特征图,第十一批标准化层的输入端接收第十一卷积层的输出端输出的所有特征图,第十一激活层的输入端接收第十一批标准化层的输出端输出的所有特征图,第十二卷积层的输入端接收第十一激活层的输出端输出的所有特征图,第十二批标准化层的输入端接收第十二卷积层的输出端输出的所有特征图,第十二激活层的输入端接收第十二批标准化层的输出端输出的所有特征图,第十三卷积层的输入端接收第十二激活层的输出端输出的所有特征图,第十三批标准化层的输入端接收第十三卷积层的输出端输出的所有特征图,第十三激活层的输入端接收第十三批标准化层的输出端输出的所有特征图,第十三激活层的输出端为其所在的神经网络块的输出端;其中,第四最大池化层的池化尺寸为2,步长为2,第十一卷积层和第十二卷积层和第十三卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为1,第十一激活层和第十二激活层和第十三激活层的激活方式均为“Relu”,第十一批标准化层、第十二批标准化层、第十三批标准化层、第十一激活层、第十二激活层和第十三激活层各自的输出端输出512 幅特征图。
第一个深度图神经网络块其由依次设置的第1下采样层和第一边界权重模块组成,第1下采样层的输入端为其所在的神经网络块的输入端,第一边界权重模块的输入端接收第1下采样层的输出端输出的所有特征图,第一边界权重模块的输出端为其所在的神经网络块的输出端。其中,第1下采样层的缩小系数为2,采用的方法为最近邻差值;如图3-b所示,第一边界权重模块其由第七最大池化层和第八均值池化层以及第十三和第十四卷积层组成,第十三卷积层和第七最大池化层和第八均值层为其所在神经网络块的输入端,将第十三和第十四卷积层的输出端的特征图进行相加操作的结果作为该神经网络块的输出,其中第十三和十四卷积核大小均为1×1、卷积核个数为128,第七最大池化层和第八均值池化层的尺寸为3,步长为1,补零参数为1,其中的C表示将特征图进行通道叠加的操作,+表示将特征图对应位置相加的操作。
第二个深度图神经网络块其由依次设置的第2下采样层和第二边界权重模块组成,第2下采样层的输入端为其所在的神经网络块的输入端,第二边界权重模块的输入端接收第2下采样层的输出端输出的所有特征图,第二边界权重模块的输出端为其所在的神经网络块的输出端。其中,第2下采样层的缩小系数为4,采用的方法为最近邻差值。对于第二边界权重模块其由第九最大池化层和第十均值池化层以及第十五和第十六卷积层组成,第十五卷积层和第九最大池化层和第十均值层为其所在神经网络块的输入端,将第十五和第十六卷积层的输出端的特征图进行相加操作的结果作为该神经网络块的输出,其中第十五和十六卷积核大小均为1×1、卷积核个数为256,第九最大池化层和第十均值池化层的尺寸为3,步长为1,补零参数为1,其中的C表示将特征图进行通道叠加的操作,+表示将特征图对应位置相加的操作。
第三个深度图神经网络块其由依次设置的第3下采样层和第三边界权重模块组成,第3下采样层的输入端为其所在的神经网络块的输入端,第三边界权重模块的输入端接收第3下采样层的输出端输出的所有特征图,第三边界权重模块的输出端为其所在的神经网络块的输出端。其中,第3下采样层的缩小系数为8,采用的方法为最近邻差值。第三边界权重模块其由第十一最大池化层和第十二均值池化层以及第十七和第十八卷积层组成,第十七卷积层和第十一最大池化层和第十二均值层为其所在神经网络块的输入端,将第十七和第十八卷积层的输出端的特征图进行相加操作的结果作为该神经网络块的输出,其中第十七和十八卷积核大小均为1×1、卷积核个数为512,第十一最大池化层和第十二均值池化层的尺寸为3,步长为1,补零参数为1,其中的C表示将特征图进行通道叠加的操作,+表示将特征图对应位置相加的操作。
对于第1个上采样块,其由依次设置的第十七卷积层,第十七批标准化层、第十七激活层、第十八卷积层,第十八批标准化层、第十八激活层、第十九卷积层,第十九批标准化层、第十九激活层和第一个上采样层组成;第十七卷积层的输入端为其所在的融合神经网络块的输入端,第十七批标准化层的输入端接收第十七卷积层的输出端输出的所有特征图,第十七激活层的输入端接收第十七批标准化层的输出端输出的所有特征图,第十八卷积层的输入端接收第十七激活层的输出端输出的所有特征图,第十八批标准化层的输入端接收第十八卷积层的输出端输出的所有特征图,第十八激活层的输入端接收第十八批标准化层的输出端输出的所有特征图,第十九卷积层的输入端接收第十八激活层的输出端输出的所有特征图,第十九批标准化层的输入端接收第十九卷积层的输出端输出的所有特征图,第十九激活层的输入端接收第十九批标准化层的输出端输出的所有特征图,第一个上采样层的输入端接收第十九激活层的输出端输出的所有特征图,第一个上采样层的输出端为其所在的神经网络块的输出端;其中,第十七卷积层和第十八卷积层和第十九卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为 2,扩张参数为2,第十七激活层和第十八激活层和第十九激活层的激活方式均为“Relu”,第十七批标准化层、第十八批标准化层、第十九批标准化层、第十七激活层、第十八激活层、第十九激活层和第一采样层各自的输出端输出512幅特征图,第一采样层的放大系数为2,采用的方法为双线性差值。
对于第2个上采样块,其由依次设置的第二十卷积层,第二十批标准化层、第二十激活层、第二十一卷积层,第二十一批标准化层、第二十一激活层、第二十二卷积层,第二十二批标准化层、第二十二激活层和第二上采样层组成;第二十卷积层的输入端为其所在的融合神经网络块的输入端,第二十批标准化层的输入端接收第二十卷积层的输出端输出的所有特征图,第二十激活层的输入端接收第二十批标准化层的输出端输出的所有特征图,第二十一卷积层的输入端接收第二十激活层的输出端输出的所有特征图,第二十一批标准化层的输入端接收第二十一卷积层的输出端输出的所有特征图,第二十一激活层的输入端接收第二十一批标准化层的输出端输出的所有特征图,第二十二卷积层的输入端接收第二十一激活层的输出端输出的所有特征图,第二十二批标准化层的输入端接收第二十二卷积层的输出端输出的所有特征图,第二十二激活层的输入端接收第二十二批标准化层的输出端输出的所有特征图,第二个上采样层的输入端接收第二十二激活层的输出端输出的所有特征图,第二个上采样层的输出端为其所在的神经网络块的输出端;其中,第二十卷积层和第二十一卷积层和第二十二卷积层的卷积核大小均为 3×3、卷积核个数均为256、补零参数均为4,扩张参数为4,第二十激活层和第二十一激活层和第二十二激活层的激活方式均为“Relu”,第二十批标准化层、第二十一批标准化层、第二十二批标准化层、第二十激活层、第二十一激活层、第二十二激活层和第二上采样层各自的输出端输出256幅特征图,第二采样层的放大系数为2,采用的方法为双线性差值。
对于第3个上采样块,其由依次设置的第二十三卷积层,第二十三批标准化层、第二十三激活层、第二十四卷积层,第二十四批标准化层、第二十四激活层、第二十五卷积层,第二十五批标准化层、第二十五激活层组成;第二十三卷积层的输入端为其所在的融合神经网络块的输入端,第二十三批标准化层的输入端接收第二十三卷积层的输出端输出的所有特征图,第二十三激活层的输入端接收第二十三批标准化层的输出端输出的所有特征图,第二十四卷积层的输入端接收第二十三激活层的输出端输出的所有特征图,第二十四批标准化层的输入端接收第二十四卷积层的输出端输出的所有特征图,第二十四激活层的输入端接收第二十四批标准化层的输出端输出的所有特征图,第二十五卷积层的输入端接收第二十四激活层的输出端输出的所有特征图,第二十五批标准化层的输入端接收第二十五卷积层的输出端输出的所有特征图,第二十五激活层的输入端接收第二十五批标准化层的输出端输出的所有特征图,第三个上采样层的输入端接收第二十五激活层的输出端输出的所有特征图,第三个上采样层的输出端为其所在的神经网络块的输出端;其中,第二十三卷积层和第二十四卷积层和第二十五卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为6,扩张参数为6,第二十三激活层和第二十四激活层和第二十五激活层的激活方式均为“Relu”,第二十三批标准化层、第二十四批标准化层、第二十五批标准化层、第二十三激活层、第二十四激活层、第二十五激活层和第三上采样层各自的输出端输出128幅特征图,第三采样层的放大系数为2,采用的方法为双线性差值。
对于第4个上采样块,其由依次设置的第二十六卷积层,第二十六批标准化层、第二十六激活层、第二十七卷积层,第二十七批标准化层、第二十七激活层、第二十八卷积层,第二十八批标准化层、第二十八激活层和第四上采样层组成;第二十六卷积层的输入端为其所在的融合神经网络块的输入端,第二十六批标准化层的输入端接收第二十六卷积层的输出端输出的所有特征图,第二十六激活层的输入端接收第二十六批标准化层的输出端输出的所有特征图,第二十七卷积层的输入端接收第二十六激活层的输出端输出的所有特征图,第二十七批标准化层的输入端接收第二十七卷积层的输出端输出的所有特征图,第二十七激活层的输入端接收第二十七批标准化层的输出端输出的所有特征图,第二十八卷积层的输入端接收第二十七激活层的输出端输出的所有特征图,第二十八批标准化层的输入端接收第二十八卷积层的输出端输出的所有特征图,第二十八激活层的输入端接收第二十八批标准化层的输出端输出的所有特征图,第四个上采样层的输入端接收第二十八激活层的输出端输出的所有特征图,第四个上采样层的输出端为其所在的神经网络块的输出端;其中,第二十六卷积层和第二十七卷积层和第二十八卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为8,扩张参数为8,第二十六激活层和第二十七激活层和第二十八激活层的激活方式均为“Relu”,第二十六批标准化层、第二十七批标准化层、第二十八批标准化层、第二十六激活层、第二十七激活层、第二十八激活层和第四上采样层各自的输出端输出64幅特征图,第三采样层的放大系数为2,采用的方法为双线性差值。
对于第5个上采样块,其由依次设置的第二十九卷积层,第二十九批标准化层、第二十九激活层、第三十卷积层,第三十批标准化层、第三十激活层、第三十一卷积层,第三十一批标准化层、第三十一激活层组成;第二十九卷积层的输入端为其所在的融合神经网络块的输入端,第二十九批标准化层的输入端接收第二十九卷积层的输出端输出的所有特征图,第二十九激活层的输入端接收第二十九批标准化层的输出端输出的所有特征图,第三十卷积层的输入端接收第二十九激活层的输出端输出的所有特征图,第三十批标准化层的输入端接收第三十卷积层的输出端输出的所有特征图,第三十激活层的输入端接收第三十批标准化层的输出端输出的所有特征图,第三十一卷积层的输入端接收第三十激活层的输出端输出的所有特征图,第三十一批标准化层的输入端接收第三十一卷积层的输出端输出的所有特征图,第三十一激活层的输入端接收第三十一批标准化层的输出端输出的所有特征图,第三十一激活层的输出端为其所在的神经网络块的输出端;其中,第二十九卷积层和第三十卷积层和第三十一卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为10,扩张参数为10,第二十九激活层和第三十激活层和第三十一激活层的激活方式均为“Relu”,第二十九批标准化层、第三十批标准化层、第三十一批标准化层、第二十九激活层、第三十激活层和第三十一激活层各自的输出端输出64幅特征图。
所述的步骤1_2中,如图3-a所示,第一个均值最大最小滤波模块,其由第五最大池化层和第六最大池化层组成,第五最大池化层的输入端和第六最大池化层的输入端为均值最大最小滤波模块的输入端,第一个均值最大最小滤波模块的输出端为其所在神经网络块的输出端;其中第一均值最大最小滤波模块的输出端输出1幅特征图,两个最大池化层的尺寸均为3,步长均为1,补零参数均为1。对于第一均值最大最小滤波,其计算过程是将输入的特征图直接输入其中一个最大池化层,再将输入的特征图乘以-1输入到另一个最大池化层,再将两个最大池化层的结果相加,最后除以相加获得的特征图中的最大值,将此特征图作为最终的输出。
对于第一个最大最小滤波,其由平行放置的两个最大池化层组成,其中两个最大池化尺寸均为3,步长均为1,补零参数均为1。其计算过程是将输入的特征图直接输入其中一个最大池化层,再将输入的特征图乘以-1输入到另一个最大池化层,再将两个最大池化层的结果相加作为输出。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学习库Pytorch1.0.1构建本发明方法提出的卷积神经网络的架构。采用真实物体图像数据库NJU2K测试集,来分析利用本发明方法预测得到的彩色真实物体图像(取397幅真实物体图像)的显著性检测效果如何。这里,利用评估显著性检测方法的3个常用客观参量作为评价指标,即类准确率召回率曲线(Precision RecallCurve)、平均绝对误差(Mean Absolute Error,MAE)、F度量值(F-Measure)来评价预测显著性检测图像的检测性能。
利用本发明方法对真实物体图像数据库NJU2K测试集中的每幅彩色真实物体图像进行预测,得到每幅彩色真实物体图像对应的预测显著性检测图像。反映本发明方法的显著性检测效果的类准确率召回率曲线(PR Curve)如图1-a所示,反映本发明方法的显著性检测效果的平均绝对误差(MAE)如图1-b所示,值为0.066,反映本发明方法的显著性检测效果的F度量值(F-Measure)如图1-c所示,值为0.846。
图4a给出了同一场景的第1幅原始的彩色真实物体图像,图4b给出了图4a对应的深度图像,图4c给出了利用本发明方法对图4a进行预测得到的预测显著性检测图像;图5a给出了同一场景的第2幅原始的彩色真实物体图像,图5b给出了图5a对应的深度图像,图5c给出了利用本发明方法对图5a进行预测得到的预测显著性检测图像;图 6a给出了同一场景的第3幅原始的彩色真实物体图像,图6b给出了图6a对应的深度图像,图6c给出了利用本发明方法对图6a进行预测得到的预测显著性检测图像;图7a 给出了同一场景的第4幅原始的彩色真实物体图像,图7b给出了图7a对应的深度图像,图7c给出了利用本发明方法对图7a进行预测得到的预测显著性检测图像。对比图4a 和4c,对比图5a和图5c,对比图6a和图6c,对比图7a和图7c,可以看出利用本发明方法得到的预测显著性检测图像的检测精度较高。

Claims (6)

1.一种基于边界增强的显著性检测方法,其特征在于,包括以下步骤:
步骤1)选取Q幅含有真实物体的原始RGB图以及每幅原始RGB图对应的深度图、真实显著性检测图和真实显著性边界图,并构成训练集;
步骤2)构建卷积神经网络,卷积神经网络包含输入层、隐层、输出层;
步骤3)将训练集中的每幅原始RGB图以及对应的深度图输入到卷积神经网络中进行训练,从输出层输出得到显著性检测预测图以及显著性边界预测图,计算真实显著性检测图和对应的显著性检测预测图之间的损失函数值并记为第一损失函数值,计算真实显著性边界图和对应的显著性边界预测图之间的损失函数值并记为第二损失函数值,将第一损失函数值和第二损失函数值相加得到总损失函数值;
步骤4)重复执行步骤3)共V次,共得到Q×V个总损失函数值,然后从Q×V个总损失函数值中找出值最小的总损失函数值,接着将值最小的总损失函数值对应的权值矢量和偏置项作为卷积神经网络的最优权值矢量和最优偏置项,从而完成卷积神经网络的训练;
步骤5):将待显著性检测的RGB图像以及对应的深度图像输入到训练好的信息融合卷积神经网络中,输出得到对应的预测显著性检测图像和显著性边界预测图像。
2.根据权利要求1所述的一种基于边界增强的显著性检测方法,其特征在于,所述卷积神经网络的输入层包括RGB图输入层和深度图输入层,隐层包括深度图处理模块、RGB图处理模块和后处理模块,输出层包括依次连接的显著性输出层、第一最大最小滤波模块和显著性边界输出层;
RGB图输入层包括依次连接的五个RGB图神经网络块;深度图处理模块包括一个第一均值最大最小滤波模块和三个深度图神经网络块,第一均值最大最小滤波模块的输出分别输入第一个深度图神经网络块、第二个深度图神经网络块、第三个深度图神经网络块;第一个深度图神经网络块的输出和第二个RGB图神经网络块的输出相乘后再与第二个RGB图神经网络块的输出相加作为第三个RGB图神经网络块的输入,第二个深度图神经网络块的输出和第三个RGB图神经网络块的输出相乘后再与第三个RGB图神经网络块的输出相加作为第四个RGB图神经网络块的输入,第三个深度图神经网络块的输出和第四个RGB图神经网络块的输出相乘后再与第四个RGB图神经网络块的输出相加作为第五个RGB图神经网络块的输入;
后处理模块包括五个依次连接的上采样块,第一个上采样块的输入为第五个RGB图神经网络块的输出,第一个上采样块的输出与第五个RGB图神经网络块的输入相加后作为第二个上采样块的输入,第二个上采样块的输出与第四个RGB图神经网络块的输入相加后作为第三个上采样块的输入,第三个上采样块的输出与第三个RGB图神经网络块的输入相加后作为第四个上采样块的输入,第四个上采样块的输出与第二个RGB图神经网络块的输入相加后作为第五个上采样块的输入,第五个上采样块的输出作为显著性输出层的输入;
深度图输入层的输出作为第一均值最大最小滤波模块的输入,RGB图输入层的输出作为第一个RGB图神经网络块的输入。
3.根据权利要求1所述的一种基于边界增强的显著性检测方法,其特征在于,第一个RGB图神经网络块包括依次连接的两个卷积块,第二个RGB图神经网络块包括依次连接的最大池化层和两个卷积块,第三个RGB图神经网络块、第四个RGB图神经网络块和第五个RGB图神经网络块均包括依次连接的最大池化层和三个卷积块;
每个深度图神经网络块均包括依次连接的下采样层和边界权重模块;每个边界权重模块包括一个最大池化层、一个均值池化层和两个卷积层,每个边界权重模块的输入分别输入最大池化层、均值池化层和第一个卷积层,最大池化层和均值池化层的输出进行通道叠加后输入第二个卷积层,第一个卷积层和第二个卷积层的输出相加后作为每个边界权重模块的输出;
每个上采样块包括依次连接的三个卷积块和一个上采样层;
第一均值最大最小滤波模块包括两个最大池化层,第一均值最大最小滤波模块的输入直接输入第一均值最大最小滤波模块中第一个最大池化层,第一均值最大最小滤波模块的输入乘以-1后输入第一均值最大最小滤波模块中第二个最大池化层,将两个最大池化层的输出相加后得到的特征图除以该特征图中的最大值得到第一均值最大最小滤波模块的输出;
第一最大最小滤波模块包括两个最大池化层,第一最大最小滤波模块的输入直接输入第一最大最小滤波模块中第一个最大池化层,第一最大最小滤波模块的输入乘以-1输入第一最大最小滤波模块中第二个最大池化层,将两个最大池化层的输出相加后得到第一最大最小滤波模块的输出。
4.根据权利要求3所述的一种基于边界增强的显著性检测方法,其特征在于,每个卷积块包括依次连接的卷积层、批标准化层和激活层;第一个上采样块中三个卷积块对应的三个卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为2,扩张参数为2;第二个上采样块中三个卷积块对应的三个卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为4,扩张参数为4;第三个上采样块中三个卷积块对应的三个卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为6,扩张参数为6;第四个上采样块中三个卷积块对应的三个卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为8,扩张参数为8;第五个上采样块中三个卷积块对应的三个卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为10,扩张参数为10。
5.根据权利要求3所述的一种基于边界增强的显著性检测方法,其特征在于,第一均值最大最小滤波模块和第一最大最小滤波模块中的两个最大池化层的尺寸均为3,步长均为1,补零参数均为1;每个边界权重模块中的两个卷积层大小均为1×1,第一个边界权重模块、第二个边界权重模块、第三个边界权重模块中卷积层的卷积核个数分别为128、256、512;每个边界权重模块中的最大池化层和均值池化层的尺寸均为3,步长均为1,补零参数均为1。
6.根据权利要求2所述的一种基于边界增强的显著性检测方法,其特征在于,所述RGB图输入层的输入端接收RGB图像,深度图输入层的输入端接收RGB图像对应的深度图像;输出层的输出为显著性输出层输出的显著性检测图像和显著性边界输出层输出的显著性边界图像。
CN202010047944.XA 2020-01-16 2020-01-16 一种基于边界增强的显著性检测方法 Pending CN111310767A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010047944.XA CN111310767A (zh) 2020-01-16 2020-01-16 一种基于边界增强的显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010047944.XA CN111310767A (zh) 2020-01-16 2020-01-16 一种基于边界增强的显著性检测方法

Publications (1)

Publication Number Publication Date
CN111310767A true CN111310767A (zh) 2020-06-19

Family

ID=71148322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010047944.XA Pending CN111310767A (zh) 2020-01-16 2020-01-16 一种基于边界增强的显著性检测方法

Country Status (1)

Country Link
CN (1) CN111310767A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112241765A (zh) * 2020-10-26 2021-01-19 三亚中科遥感研究所 一种基于多尺度卷积和注意力机制的图像分类模型及方法
CN113344949A (zh) * 2021-07-14 2021-09-03 青岛云智聚智能科技有限公司 一种基于rgb图像的包裹检测方法、系统、介质及终端
CN113505800A (zh) * 2021-06-30 2021-10-15 深圳市慧鲤科技有限公司 图像处理方法及其模型的训练方法和装置、设备、介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112241765A (zh) * 2020-10-26 2021-01-19 三亚中科遥感研究所 一种基于多尺度卷积和注意力机制的图像分类模型及方法
CN112241765B (zh) * 2020-10-26 2024-04-26 三亚中科遥感研究所 一种基于多尺度卷积和注意力机制的图像分类模型及方法
CN113505800A (zh) * 2021-06-30 2021-10-15 深圳市慧鲤科技有限公司 图像处理方法及其模型的训练方法和装置、设备、介质
CN113344949A (zh) * 2021-07-14 2021-09-03 青岛云智聚智能科技有限公司 一种基于rgb图像的包裹检测方法、系统、介质及终端

Similar Documents

Publication Publication Date Title
CN110188685B (zh) 一种基于双注意力多尺度级联网络的目标计数方法及系统
CN110263813B (zh) 一种基于残差网络和深度信息融合的显著性检测方法
CN110246148B (zh) 多模态的深度信息融合和注意力学习的显著性检测方法
CN111582316B (zh) 一种rgb-d显著性目标检测方法
CN108664981B (zh) 显著图像提取方法及装置
CN112597985B (zh) 一种基于多尺度特征融合的人群计数方法
CN111462013B (zh) 一种基于结构化残差学习的单图去雨方法
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN111310767A (zh) 一种基于边界增强的显著性检测方法
CN112861729B (zh) 一种基于伪深度图引导的实时深度补全方法
CN109636721B (zh) 基于对抗学习和注意力机制的视频超分辨率方法
CN111445432A (zh) 一种基于信息融合卷积神经网络的图像显著性检测方法
CN113139904B (zh) 一种图像盲超分辨率方法及系统
CN110009700B (zh) 基于rgb图和梯度图的卷积神经网络视觉深度估计方法
CN110570402B (zh) 基于边界感知神经网络的双目显著物体检测方法
CN110782458A (zh) 一种非对称编码网络的物体图像3d语义预测分割方法
CN114494015A (zh) 基于盲超分辨率网络的图像重建方法
CN113870124A (zh) 基于弱监督的双网络互激励学习阴影去除方法
CN113538402B (zh) 一种基于密度估计的人群计数方法及系统
CN112529908B (zh) 一种基于级联卷积网络的数字病理图像分割方法及其模型
CN112700426A (zh) 一种复杂环境下的显著性物体检测方法
CN112232358A (zh) 一种跨模态增强并改善损失函数的显著性检测方法
CN117408924A (zh) 一种基于多重语义特征融合网络的低光照图像增强方法
CN108596831B (zh) 一种基于AdaBoost实例回归的超分辨率重建方法
CN114529794B (zh) 一种红外与可见光图像融合方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination