CN112115919A - 一种三输入的rgb-d显著性目标检测算法 - Google Patents

一种三输入的rgb-d显著性目标检测算法 Download PDF

Info

Publication number
CN112115919A
CN112115919A CN202011053394.9A CN202011053394A CN112115919A CN 112115919 A CN112115919 A CN 112115919A CN 202011053394 A CN202011053394 A CN 202011053394A CN 112115919 A CN112115919 A CN 112115919A
Authority
CN
China
Prior art keywords
layer
input
output
operation unit
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011053394.9A
Other languages
English (en)
Inventor
周武杰
潘思佳
林鑫杨
甘兴利
雷景生
强芳芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Zhejiang University of Science and Technology ZUST
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN202011053394.9A priority Critical patent/CN112115919A/zh
Publication of CN112115919A publication Critical patent/CN112115919A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种三输入的RGB‑D显著性目标检测算法,应用于计算机视觉技术领域。针对不同类型的图片使用了不同框架的预训练操作,并且从预训练中提取特征信息。在传统的RGB‑D双流模型的基础上增加了一条由RGB信息和深度信息拼接而成的彩色深度信息线路。融合了彩色信息和深度信息,有效的减少了信息损耗。本发明还设计了一个新型融合模块,融合了多层次的信息特征。在模型输出的地方,本发明又设计了四个不同尺度的输出,总体损失为四个输出的损失之和,这种方法既保护了低级特征的信息又维护了高级特征信息。

Description

一种三输入的RGB-D显著性目标检测算法
技术领域
本发明涉及计算机视觉技术领域,尤其是涉及一种三输入的RGB-D显著性目标检测算法。
背景技术
显著性目标检测是图像处理的一个分支,也是计算机视觉的一个领域。从广义上说,计算机视觉就是赋予机器自然视觉能力的学科。自然视觉能力就是指生物视觉系统体现的视觉能力。实际上,计算机视觉本质上就是研究视觉感知问题。核心问题就是研究如何对输入的图像信息进行组织,对物体和场景进行识别,进而对图像内容给予解释。
近几十年来,计算机视觉一直是人们越来越感兴趣和严格研究的课题。计算机视觉也越来越善于从图像中识别模式。甚至在各个领域都发挥了巨大作用,随着人工智能与计算机视觉技术的惊人成就在不同行业越来越普遍,计算机视觉的未来似乎充满了希望和难以想象的结果。而本文涉及到的显著性目标检测就是其中的一个分类,但也发挥着巨大的作用。
人类的大脑和视觉系统能够在一个场景中快速定位区域,从背景中脱颖而出。显著性目标检测的目的是模拟人类视觉系统,检测最吸引人视觉注意的像素或区域。也就是识别视觉上感兴趣的、符合人类感知的目标区域。它在许多计算机视觉任务中是必不可少的,包括对象感知图像重定向、上下文感知图像编辑、图像裁剪、交互式图像分割和识别。尽管已经取得了相当大的进展,但它仍然是一个具有挑战性的任务,需要有效的方法来处理真实世界的场景。
经过多年的探索与发展,深度图像的出现让显著性目标检测有了更进一步发展的可能。深度图像具有彩色图像没有的深度信息,深度信息需要从深度图中提取,深度信息经过提取可以显著的提高目标检测的效率。现有的RGB-D模型分为三种:一种是将深度信息作为模型的一条线路进行检测;另一种是将深度信息作为辅助信息输入到模型中;还有一种是将深度图作为直接使用深度数据作为网络输入的第四通道。而本发明将第三种和第一种结合,以达到数据的原始性和一致性。
发明内容
有鉴于此,本发明提供了一种三输入的RGB-D显著性目标检测算法。
为了实现上述目的,本发明采用如下技术方案:
本发明提出的一种三输入的RGB-D显著性目标检测算法,具体步骤如下:
选取Q幅的彩色真实目标图像和相对应的深度图像,还有彩色深度图像,以及每幅彩色真实目标图像对应的显著性图像,并构成训练集;
构建卷积神经网络;
将训练集中的每幅原始的彩色真实目标图像转换尺寸变为224×224作为原始RGB输入图像,输入到Res2Net50中进行预训练;
模型一共有四个输出,每个输出都进行计算训练集中的每幅原始的彩色真实目标图像对应的显著性检测预测图构成的集合与对应的真实显著性检测图像处理成的对应尺寸大小的编码图像构成的集合之间的损失函数值,采用带权重的交叉熵损失函数获得,四个输出各有一个损失结果;最后总损失为四个输出损失相加;
重复进行预训练和损失结果的计算,得到卷积神经网络分类训练模型,在损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项。
进一步,所述卷积神经网络包括输入层、隐层和输出层;所述隐层包括彩色深度神经网络块、深度神经网络块、深度扩张卷积层、彩色神经网络块、彩色扩张卷积层、融合模块、上采样层、相乘操作、相加操作、拼接操作、输出层;所述输入层包括彩色深度图像输入层、深度图像输入层和RGB图像输入层。
进一步,所述彩色深度图像输入层,输入端接收一幅彩色图像和深度图像拼接而成的四通道图像,将四通道分量给隐层,其中,要求出入层的输入端接收的原始输入图像的宽度为W、高度为H;所述深度图像输入层,输入端接收一幅原始输入深度图像,输出端的输出端输出原始深度图像经过自身叠加两个通道变成三通道的深度图像,将三通道分量给隐层,其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H;所述RGB图像输入层,输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层,其中,要求出入层的输入端接收的原始输入图像的宽度为W、高度为H。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明方法的总体实现框图。
图2附图为第1个融合模块实现图。
图3附图为第2个融合模块实现图。
图4附图为第3个融合模块实现图。
图5附图为第4个融合模块实现图。
图6a附图为一幅RGB图像。
图6b附图为图6a的深度图像。
图7a附图为图6a的真实显著性检测图像。
图7b附图为图6a与图6b经过本发明所得到的显著图像。
图8附图为本发明在Recall评价上的结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种三输入的RGB-D显著性目标检测算法,其总体实现框图如图1所示,其包括训练阶段、验证阶段和测试阶段三个过程,所述的训练阶段过程的具体步骤如下:
选取Q幅彩色真实目标图像和相对应的深度图像,还有彩色深度图像,以及每幅彩色真实目标图像对应的显著性图像,并构成训练集,将训练集中的第q幅原始的物体图像记为{Iq(i,j)},深度图像记为{Dq(i,j)},将训练集中与{Iq(i,j)}对应的真实显著性图像记为
Figure BDA0002710202230000041
其中,彩色真实目标图像为RGB彩色图像,深度图为二值的灰度图,彩色深度图像为RGB彩色图像和相对应的二值灰度图所拼接而成的4通道图像,Q为正整数,Q≥200,如取Q=1588,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,如取W=512、H=512,{Iq(i,j)}表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,
Figure BDA0002710202230000042
表示
Figure BDA0002710202230000043
中坐标位置为(i,j)的像素点的像素值;在此,彩色真实目标图像直接选用数据库NJU2000训练集中的1588幅图像。
构建卷积神经网络:卷积神经网络包括输入层、隐层和输出层;隐层包括依次设置的第1个彩色深度神经网络块、第2个彩色深度神经网络块、第3个彩色深度神经网络块、第4个彩色深度神经网络块、第1个深度神经网络块、第2个深度神经网络块、第3个深度神经网络块、第4个深度神经网络块、第5个深度神经网络块、第1个深度扩张卷积层、第2个深度扩张卷积层、第3个深度扩张卷积层、第4个深度扩张卷积层、第1个彩色神经网络块、第2个彩色神经网络块、第3个彩色神经网络块、第4个彩色神经网络块、第1个彩色扩张卷积层、第2个彩色扩张卷积层、第3个彩色扩张卷积层、第4个彩色扩张卷积层、第1个融合模块、第2个融合模块、第3个融合模块、第4个融合模块、第1个上采样层、第2个上采样层、第3个上采样层、第4个上采样层、第1个相乘操作、第2个相乘操作、第3个相乘操作、第4个相乘操作、第5个相乘操作、第6个相乘操作、第7个相乘操作、第8个相乘操作、第1个相加操作、第2个相加操作、第3个相加操作、第4个相加操作、第5个相加操作、第6个相加操作、第7个相加操作、第1个拼接操作、第2个拼接操作、第3个拼接操作、第1个输出层、第2个输出层、第3个输出层。
对于彩色深度图像输入层,输入端接收一幅彩色图像和深度图像拼接而成的四通道图像,将四通道分量给隐层;其中,要求出入层的输入端接收的原始输入图像的宽度为W、高度为H。
对于第1个彩色深度神经网络块、第2个彩色深度神经网络块、第3个彩色深度神经网络块、第4个彩色深度神经网络块,按顺序对应DenseNet中的4个模块,采用了预训练的方法,利用pytorch自带的DenseNet的网络和其权重,对输入图像做预训练。
经过第1个彩色深度图像神经网络块后输出为256幅特征图,输出记为L1,L1中每幅特征图的宽度为
Figure BDA0002710202230000051
高度为
Figure BDA0002710202230000052
经过第2个彩色深度图像神经网络块后输出为512幅特征图,输出记为L2,L2中每幅特征图的宽度为
Figure BDA0002710202230000061
高度为
Figure BDA0002710202230000062
经过第3个彩色深度图像神经网络块后输出为1024幅特征图,输出记为L3,L3中每幅特征图的宽度为
Figure BDA0002710202230000063
高度为
Figure BDA0002710202230000064
经过第4个彩色深度图像神经网络块后输出为2048幅特征图,输出记为L4,L4每幅特征图的宽度为
Figure BDA0002710202230000065
高度为
Figure BDA0002710202230000066
对于深度图像输入层,输入端接收一幅原始输入深度图像,输入端的输出端输出原始深度图像经过自身叠加两个通道变成三通道的深度图像,将三通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H。
对于第1个深度神经网络块、第2个深度神经网络块、第3个深度神经网络块、第4个深度神经网络块、第5个深度神经网络块,对应的是VGG16中的5个模块,采用了预训练的方法,利用pytorch自带的VGG16的网络和其权重,对输入图像做预训练。
经过第1个深度神经网络块后输出为64幅特征图,将64幅的特征图构成的集合记为DP1,输出记为DP1p,DP1p中每幅特征图的宽度为
Figure BDA00027102022300000613
高度为
Figure BDA00027102022300000614
经过第2个深度神经网络块后输出为128幅特征图,将128幅的特征图构成的集合记为DP2,输出记为DP2p,DP2p中每幅特征图的宽度为
Figure BDA0002710202230000067
高度为
Figure BDA0002710202230000068
经过第3个深度神经网络块后输出为256幅特征图,将256幅的特征图构成的集合记为DP3p,输出记为DP3p,DP3p中每幅特征图的宽度为
Figure BDA0002710202230000069
高度为
Figure BDA00027102022300000610
经过第4个深度图像神经网络块后输出为512幅特征图,将512幅的特征图构成的集合记为DP4P,输出记为DP4P,DP4P中每幅特征图的宽度为
Figure BDA00027102022300000611
高度为
Figure BDA00027102022300000612
经过第5个深度神经网络块后输出为512幅特征图,将512幅的特征图构成的集合记为DP5p,输出记为DP5p,DP5p中每幅特征图的宽度为
Figure BDA0002710202230000071
高度为
Figure BDA0002710202230000072
对于RGB图像输入层,输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求出入层的输入端接收的原始输入图像的宽度为W、高度为H。
对于第1个彩色神经网络块、第2个彩色神经网络块、第3个彩色神经网络块、第4个彩色神经网络块,按顺序对应Res2Net50中的4个模块,采用了预训练的方法,利用最新发表的Res2Net50网络和其权重,对输入图像做预训练。
经过第1个彩色神经网络块后输出为256幅特征图,将256幅的特征图构成的集合记为D1,输出记为D1,D1中每幅特征图的宽度为
Figure BDA0002710202230000073
高度为
Figure BDA0002710202230000074
经过第2个彩色神经网络块后输出为512幅特征图,将512幅的特征图构成的集合记为D2,输出记为D2,D2中每幅特征图的宽度为
Figure BDA0002710202230000075
高度为
Figure BDA0002710202230000076
经过第3个彩色神经网络块后输出为1024幅特征图,将1024幅的特征图构成的集合记为D3,输出记为D3,D3中每幅特征图的宽度为
Figure BDA0002710202230000077
高度为
Figure BDA0002710202230000078
经过第4个彩色神经网络块后输出为2048幅特征图,将2048幅的特征图构成的集合记为D4,输出记为D4,D4中每幅特征图的宽度为
Figure BDA0002710202230000079
高度为
Figure BDA00027102022300000710
对于第1个深度扩张卷积层,第一扩张卷积层、第一归一化,第一激活层。第一扩张卷积层的卷积核大小为3×3,卷积核个数为256,补零参数为6,步长为1,膨胀率为6。第一归一化的参数为256。第一激活层用的激活函数是ReLU。总输出为128幅特征图,将128幅特征图构成的集合记为G1。
对于第2个深度扩张卷积层,第一扩张卷积层、第一归一化,第一激活层。第一扩张卷积层的卷积核大小为3×3,卷积核个数为512,补零参数为4,步长为1,膨胀率为4。第一归一化的参数为512。第一激活层用的激活函数是ReLU。总输出为512幅特征图,将512幅特征图构成的集合记为G2。
对于第3个深度扩张卷积层,第一扩张卷积层、第一归一化,第一激活层。第一扩张卷积层的卷积核大小为3×3,卷积核个数为1024,补零参数为2,步长为1,膨胀率为2。第一归一化的参数为1024。第一激活层用的激活函数是ReLU。总输出为1024幅特征图,将1024幅特征图构成的集合记为G3。
对于第4个深度扩张卷积层,第一扩张卷积层、第一归一化,第一激活层。第一扩张卷积层的卷积核大小为3×3,卷积核个数为2048,补零参数为1,步长为1,膨胀率为1。第一归一化的参数为2048。第一激活层用的激活函数是ReLU。总输出为2048幅特征图,将2048幅特征图构成的集合记为G4。
对于第1个彩色扩张卷积层,第一扩张卷积层、第一归一化,第一激活层。第一扩张卷积层的卷积核大小为3×3,卷积核个数为256,补零参数为6,步长为1,膨胀率为6。第一归一化的参数为256。第一激活层用的激活函数是ReLU。总输出为256幅特征图,将256幅特征图构成的集合记为Q1。
对于第2个彩色扩张卷积层,第一扩张卷积层、第一归一化,第一激活层。第一扩张卷积层的卷积核大小为3×3,卷积核个数为512,补零参数为4,步长为1,膨胀率为4。第一归一化的参数为512。第一激活层用的激活函数是ReLU。总输出为512幅特征图,将512幅特征图构成的集合记为Q2。
对于第3个彩色扩张卷积层,第一扩张卷积层、第一归一化,第一激活层。第一扩张卷积层的卷积核大小为3×3,卷积核个数为1024,补零参数为2,步长为1,膨胀率为2。第一归一化的参数为1024。第一激活层用的激活函数是ReLU。总输出为1024幅特征图,将1024幅特征图构成的集合记为Q3。
对于第4个彩色扩张卷积层,第一扩张卷积层、第一归一化,第一激活层。第一扩张卷积层的卷积核大小为3×3,卷积核个数为2048,补零参数为1,步长为1,膨胀率为1。第一归一化的参数为2048。第一激活层用的激活函数是ReLU。总输出为2048幅特征图,将2048幅特征图构成的集合记为Q4。
对于第1个混合卷积层,第一卷积层、第一归一化,第一激活层。第一卷积层的卷积核大小为3×3,卷积核个数为64,补零参数为1,步长为1。第一归一化的参数为64。第一激活层用的激活函数是ReLU。总输出为64幅特征图,将64幅特征图构成的集合记为R1。
对于第2个混合卷积层,第一卷积层、第一归一化,第一激活层。第一卷积层的卷积核大小为3×3,卷积核个数为64,补零参数为1,步长为1。第一归一化的参数为64。第一激活层用的激活函数是ReLU。总输出为64幅特征图,将64幅特征图构成的集合记为R2。
对于第3个混合卷积层,第一卷积层、第一归一化,第一激活层。第一卷积层的卷积核大小为3×3,卷积核个数为64,补零参数为1,步长为1。第一归一化的参数为64。第一激活层用的激活函数是ReLU。总输出为64幅特征图,将64幅特征图构成的集合记为R3。
对于第4个混合卷积层,第一卷积层、第一归一化,第一激活层。第一卷积层的卷积核大小为3×3,卷积核个数为64,补零参数为1,步长为1。第一归一化的参数为64。第一激活层用的激活函数是ReLU。总输出为64幅特征图,将64幅特征图构成的集合记为R4。
对于第1个拼接卷积层,第一卷积层、第一归一化,第一激活层。第一卷积层的卷积核大小为3×3,卷积核个数为258,补零参数为1,步长为1。第一归一化的参数为258。第一激活层用的激活函数是ReLU。总输出为258幅特征图,将258幅特征图构成的集合记为W1。
对于第2个拼接卷积层,第一卷积层、第一归一化,第一激活层。第一卷积层的卷积核大小为3×3,卷积核个数为514,补零参数为1,步长为1。第一归一化的参数为514。第一激活层用的激活函数是ReLU。总输出为514幅特征图,将514幅特征图构成的集合记为W2。
对于第3个拼接卷积层,第一卷积层、第一归一化,第一激活层。第一卷积层的卷积核大小为3×3,卷积核个数为1026,补零参数为1,步长为1。第一归一化的参数为1026。第一激活层用的激活函数是ReLU。总输出为1026幅特征图,将1026幅特征图构成的集合记为W3。
对于第4个拼接卷积层,第一卷积层、第一归一化,第一激活层。第一卷积层的卷积核大小为3×3,卷积核个数为2048,补零参数为1,步长为1。第一归一化的参数为2048。第一激活层用的激活函数是ReLU。总输出为2048幅特征图,将2048幅特征图构成的集合记为W4。
对于第1个细化卷积层,第一卷积层、第一归一化,第一激活层。第一卷积层的卷积核大小为3×3,卷积核个数为128,补零参数为1,步长为1。第一归一化的参数为128。第一激活层用的激活函数是ReLU。总输出为128幅特征图,将128幅特征图构成的集合记为Z1。
对于第2个细化卷积层,第一卷积层、第一归一化,第一激活层。第一卷积层的卷积核大小为3×3,卷积核个数为256,补零参数为1,步长为1。第一归一化的参数为256。第一激活层用的激活函数是ReLU。总输出为256幅特征图,将256幅特征图构成的集合记为Z2。
对于第3个细化卷积层,第一卷积层、第一归一化,第一激活层。第一卷积层的卷积核大小为3×3,卷积核个数为512,补零参数为1,步长为1。第一归一化的参数为512。第一激活层用的激活函数是ReLU。总输出为512幅特征图,将512幅特征图构成的集合记为Z3。
对于第4个细化卷积层,第一卷积层、第一归一化,第一激活层。第一卷积层的卷积核大小为3×3,卷积核个数为512,补零参数为1,步长为1。第一归一化的参数为512。第一激活层用的激活函数是ReLU。总输出为512幅特征图,将512幅特征图构成的集合记为Z4。
对于第1个融合扩张卷积层,第一扩张卷积层、第一归一化,第一激活层。第一扩张卷积层的卷积核大小为3×3,卷积核个数为64,补零参数为2,步长为1,膨胀率为2。第一归一化的参数为64。第一激活层用的激活函数是ReLU。总输出为64幅特征图,将64幅特征图构成的集合记为P1。
对于第2个融合扩张卷积层,第一扩张卷积层、第一归一化,第一激活层。第一扩张卷积层的卷积核大小为3×3,卷积核个数为64,补零参数为2,步长为1,膨胀率为2。第一归一化的参数为64。第一激活层用的激活函数是ReLU。总输出为64幅特征图,将64幅特征图构成的集合记为P2。
对于第3个融合扩张卷积层,第一扩张卷积层、第一归一化,第一激活层。第一扩张卷积层的卷积核大小为3×3,卷积核个数为64,补零参数为2,步长为1,膨胀率为2。第一归一化的参数为64。第一激活层用的激活函数是ReLU。总输出为64幅特征图,将64幅特征图构成的集合记为P3。
对于第4个融合扩张卷积层,第一扩张卷积层、第一归一化,第一激活层。第一扩张卷积层的卷积核大小为3×3,卷积核个数为64,补零参数为2,步长为1,膨胀率为2。第一归一化的参数为64。第一激活层用的激活函数是ReLU。总输出为64幅特征图,将64幅特征图构成的集合记为P4。
对于第1个输出卷积层,第一卷积层、第一归一化,第一激活层。第一卷积层的卷积核大小为3×3,卷积核个数为2,补零参数为1,步长为1。第一归一化的参数为2。第一激活层用的激活函数是ReLU。总输出为2幅特征图,将2幅特征图构成的集合记为H1。
对于第2个输出卷积层,第一卷积层、第一归一化,第一激活层。第一卷积层的卷积核大小为3×3,卷积核个数为2,补零参数为1,步长为1。第一归一化的参数为2。第一激活层用的激活函数是ReLU。总输出为2幅特征图,将2幅特征图构成的集合记为H2。
对于第3个输出卷积层,第一卷积层、第一归一化,第一激活层。第一卷积层的卷积核大小为3×3,卷积核个数为2,补零参数为1,步长为1。第一归一化的参数为2。第一激活层用的激活函数是ReLU。总输出为2幅特征图,将2幅特征图构成的集合记为H3。
对于第4个输出卷积层,第一卷积层、第一归一化,第一激活层。第一卷积层的卷积核大小为3×3,卷积核个数为2,补零参数为1,步长为1。第一归一化的参数为2。第一激活层用的激活函数是ReLU。总输出为2幅特征图,将2幅特征图构成的集合记为H4。
对于第1个上采样层,由一个双线性插值组成,设置输出特征图宽度为W、高度为H,此操作不改变特征图数。
对于第2个上采样层,由一个双线性插值组成,设置输出特征图宽度为
Figure BDA0002710202230000123
高度为
Figure BDA0002710202230000121
此操作不改变特征图数,输出记为K1。
对于第3个上采样层,由一个双线性插值组成,设置输出特征图宽度为
Figure BDA0002710202230000122
高度为
Figure BDA0002710202230000124
此操作不改变特征图数,输出记为K2。
对于第4个上采样层,由一个双线性插值组成,设置输出特征图宽度为
Figure BDA0002710202230000125
高度为
Figure BDA0002710202230000126
此操作不改变特征图数,输出记为K3。
对于第1个融合模块,如图2所示,输出为2幅特征图,输出记为T1。
对于第2个融合模块,如图3所示,输出为2幅特征图,输出记为T2。
对于第3个融合模块,如图4所示,输出为2幅特征图,输出记为T3。
对于第4个融合模块,如图5所示,输出为2幅特征图,输出记为T4。
对于第1个相乘操作,将G1和Q1相乘,输出为256幅特征图,将256幅特征图构成的集合记为GQ1。
对于第2个相乘操作,将G2和Q2相乘,输出为512幅特征图,将512幅特征图构成的集合记为GQ2。
对于第3个相乘操作,将G3和Q3相乘,输出为1024幅特征图,将1024幅特征图构成的集合记为GQ3。
对于第4个相乘操作,将G4和Q4相乘,输出为2048幅特征图,将2048幅特征图构成的集合记为GQ4。
对于第5个相乘操作,将W1和Z1相乘,输出为128幅特征图,将128幅特征图构成的集合记为WZ1。
对于第6个相乘操作,将W2和Z2相乘,输出为256幅特征图,将256幅特征图构成的集合记为WZ2。
对于第7个相乘操作,将W3和Z3相乘,输出为512幅特征图,将512幅特征图构成的集合记为WZ3。
对于第8个相乘操作,将W4和Z4相乘,输出为512幅特征图,将512幅特征图构成的集合记为WZ4。
对于第1个相加操作,将T1和K1相加,输出为2幅特征图,将2幅特征图构成的集合记为TK1。
对于第2个相加操作,将T2和K2相加,输出为2幅特征图,将2幅特征图构成的集合记为TK2。
对于第3个相加操作,将T3和K3相加,输出为2幅特征图,将2幅特征图构成的集合记为TK3。
对于第4个相加操作,将P1和R1相加,输出为64幅特征图。
对于第5个相加操作,将P2和R2相加,输出为64幅特征图。
对于第6个相加操作,将P3和R3相加,输出为64幅特征图。
对于第7个相加操作,将P4和R4相加,输出为64幅特征图。
对于第1个级联层,第1个级联层的输入端接收GQ1、K1中的所有特征图,第1个级联层通过现有的concatence方式连接GQ1、K1得到集合C1,第1个级联层的输出端输出C1;其中,C1中包含的特征图的总幅数为258,C1中的每幅特征图的宽度和高度不变。
对于第2个级联层,第2个级联层的输入端接收GQ2、K2中的所有特征图,第1个级联层通过现有的concatence方式连接GQ2、K2得到集合C2,第1个级联层的输出端输出C2;其中,C2中包含的特征图的总幅数为514,C2中的每幅特征图的宽度和高度不变。
对于第3个级联层,第3个级联层的输入端接收GQ3、K3中的所有特征图,第1个级联层通过现有的concatence方式连接GQ3、K3得到集合C3,第3个级联层的输出端输出C3;其中,C3中包含的特征图的总幅数为1026,C3中的每幅特征图的宽度和高度不变。
步骤1_3:将训练集中的每幅原始的彩色真实目标图像转换尺寸变为224×224作为原始RGB输入图像,输入到Res2Net50中进行预训练,将训练集中的每幅原始的彩色真实目标图像对应的深度图像转换尺寸变为224×224并且转变为三通道图像作为深度输入图像,输入到VGG16中进行预训练,将训练集中每幅原始的彩色真实目标图像和其对应的深度图像拼接而成的4通道图像作为彩色深度输入图像,输入到DenseNet中进行预训练,预训练后再把相应特征图输入到模型中训练。得到训练集中的每幅彩色真实目标图像对应的显著性检测预测图,将{Iq(i,j)}对应的显著性检测预测图构成的集合记为
Figure BDA0002710202230000141
步骤1_4:模型一共有四个输出,每个输出都进行计算训练集中的每幅原始的彩色真实目标图像对应的显著性检测预测图构成的集合与对应的真实显著性检测图像处理成的对应尺寸大小的编码图像构成的集合之间的损失函数值,采用带权重的交叉熵损失函数获得,四个输出各有一个损失结果。最后总损失为四个输出损失相加。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为对应记为wbest和bbest;其中,V>1,在本实施例中V=100。
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure BDA0002710202230000151
表示待显著性检测的彩色真实目标图像,
Figure BDA0002710202230000152
表示待显著性检测的真实物体对应的深度图像,
Figure BDA0002710202230000153
表示待显著性检测的彩色深度图像;其中,1≤i′≤W′,1≤j′≤H′,W′表示
Figure BDA0002710202230000154
的宽度,H′表示
Figure BDA0002710202230000155
的高度,
Figure BDA0002710202230000156
表示
Figure BDA0002710202230000157
中坐标位置为(i,j)的像素点的像素值,
Figure BDA0002710202230000158
表示
Figure BDA0002710202230000159
中坐标位置为(i,j)的像素点的像素值。
步骤2_2:将
Figure BDA00027102022300001510
的R通道分量、G通道分量和B通道分量输入到Res2Net50中进行预训练,将
Figure BDA00027102022300001511
的三通道分量输入到VGG16中进行预训练,将
Figure BDA00027102022300001512
的四通道分量输入到DenseNet中进行预训练,再把结果提出输入到训练模型中,并利用wbest和bbest进行预测,得到
Figure BDA00027102022300001513
对应的预测显著性检测图像,记为
Figure BDA00027102022300001514
其中,
Figure BDA00027102022300001515
表示
Figure BDA00027102022300001516
中坐标位置为(i′,j′)的像素点的像素值。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学习库Pytorch4.0.1搭建多尺度残差卷积神经网络的架构。采用真实物体图像数据库NJU2000测试集来分析利用本发明方法预测得到的真实场景图像(取397幅真实物体图像)的显著性检测效果如何。这里,利用评估显著性检测方法的3个常用客观参量作为评价指标,即类准确率召回率曲线(PrecisionRecallCurve)来评价预测显著性检测图像的检测性能。
利用本发明方法对真实场景图像数据库NJU2000测试集中的每幅真实场景图像进行预测,得到每幅真实场景图像对应的预测显著性检测图像,反映本发明方法的显著性检测效果的准确率召回率曲线(PRCurve)(图8)。由图可知,按本发明方法得到的真实场景图像的显著性检测结果非常耗,表明利用本发明方法来获取真实场景图像对应的预测显著性检测图像是可行性且有效的。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种三输入的RGB-D显著性目标检测算法,优点在于:
1)本发明针对不同输入使用不同的框架来进行预训练。Res2Net50对RGB图进行预训练,用VGG16对变成三通道的深度图进行预训练,用DenseNet对RGB图像和深度图像的拼接图像进行预训练。
2)本发明一共有三个输入,一个是RGB图像输入,一个是深度图像输入,还有一个是将RGB图像和深度图像拼接成4通道的输入。
3)本发明用巧妙的设计了一个融合模块来融合各种不同的信息,并取得了很优秀的成果。
4)本发明方法采用新颖的模型架构,在与当今最先进的方法对比中,都取得了很优秀的结果。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种基于三输入的RGB-D显著性目标检测算法,其特征在于,包括以下步骤:
选取Q幅彩色真实目标图像和相对应的深度图像,彩色深度图像,以及每幅彩色真实目标图像对应的显著性图像,并构成训练集;
构建卷积神经网络;
将训练集中的每幅原始的彩色真实目标图像转换尺寸变为224×224作为原始RGB输入图像,输入到Res2Net50中进行预训练;
模型一共有四个输出,每个输出都进行计算训练集中的每幅原始的彩色真实目标图像对应的显著性检测预测图构成的集合与对应的真实显著性检测图像处理成的对应尺寸大小的编码图像构成的集合之间的损失函数值,采用带权重的交叉熵损失函数获得,四个输出各有一个损失结果;最后总损失为四个输出损失相加;
重复进行预训练和损失结果的计算,得到卷积神经网络分类训练模型,在损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项。
2.根据权利要求1所述的基于三输入的RGB-D显著性目标检测算法,其特征在于,所述卷积神经网络包括输入层、隐层和输出层;所述输入层包括RGBD图像输入层、深度图像输入层和彩色图像输入层;所述输出层包括第1个输出层、第2个输出层、第3个输出层和第4个输出层;所述隐层包含第1个融合模块、第2个融合模块、第3个融合模块和第4个融合模块;所述输入层输入的RGBD图像、深度图像和彩色图像分别通过对应的隐层进行处理,并从输出层输出。
3.根据权利要求2所述的基于三输入的RGB-D显著性目标检测算法,其特征在于,所述第1个融合模块包括:第1个拼接操作单元、第1个拼接卷积层、第1个细化卷积层、第1混合卷积层,第5个相乘操作单元、第1个融合扩张卷积层、第4个相加操作单元和第1个输出卷积层;
所述第1个拼接操作单元的输出输入到所述第1个拼接卷积层,所述第1个拼接卷积层和所述第1个细化卷积层输入到所述第5个相乘操作单元,所述第5个相乘操作单元输出信号输入到所述第1个融合扩张卷积层,经过所述第1个融合扩张卷积层的信号输入到所述第4个相加操作单元,所述第1个混合卷积层的输出信号输入到所述第4个相加操作单元,所述第4个相加操作单元的输出信号输入到所述第1个输出卷积层。
4.根据权利要求2所述的基于三输入的RGB-D显著性目标检测算法,其特征在于,所述第2个融合模块包括:第2个拼接操作单元、第2个拼接卷积层、第2个细化卷积层、第2混合卷积层,第6个相乘操作单元、第2个融合扩张卷积层、第5个相加操作单元和第2个输出卷积层;
所述第2个拼接操作单元的输出输入到所述第2个拼接卷积层,所述第2个拼接卷积层和所述第2个细化卷积层输入到所述第6个相乘操作单元,所述第6个相乘操作单元输出信号输入到所述第2个融合扩张卷积层,经过所述第2个融合扩张卷积层的信号输入到所述第5个相加操作单元,所述第2个混合卷积层的输出信号输入到所述第5个相加操作单元,所述第5个相加操作单元的输出信号输入到所述第2个输出卷积层。
5.根据权利要求2所述的基于三输入的RGB-D显著性目标检测算法,其特征在于,所述第3个融合模块包括:第3个拼接操作单元、第3个拼接卷积层、第3个细化卷积层、第3混合卷积层,第7个相乘操作单元、第3个融合扩张卷积层、第6个相加操作单元和第3个输出卷积层;
所述第3个拼接操作单元的输出输入到所述第3个拼接卷积层,所述第3个拼接卷积层和所述第3个细化卷积层输入到所述第7个相乘操作单元,所述第7个相乘操作单元输出信号输入到所述第3个融合扩张卷积层,经过所述第3个所述融合扩张卷积层的信号输入到所述第6个相加操作单元,所述第3个混合卷积层的输出信号输入到所述第6个相加操作单元,所述第6个相加操作单元的输出信号输入到所述第3个输出卷积层。
6.根据权利要求2所述的基于三输入的RGB-D显著性目标检测算法,其特征在于,所述第4个融合模块包括:第4个拼接卷积层、第4个细化卷积层、第4混合卷积层,第8个相乘操作单元、第4个融合扩张卷积层、第7个相加操作单元和第4个输出卷积层;
所述第4个拼接卷积层和所述第4个细化卷积层输入到所述第8个相乘操作单元,所述第8个相乘操作单元输出信号输入到所述第4个融合扩张卷积层,经过所述第4个所述融合扩张卷积层的信号输入到所述第7个相加操作单元,所述第4个混合卷积层的输出信号输入到所述第7个相加操作单元,所述第7个相加操作单元的输出信号输入到所述第4个输出卷积层。
CN202011053394.9A 2020-09-29 2020-09-29 一种三输入的rgb-d显著性目标检测算法 Pending CN112115919A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011053394.9A CN112115919A (zh) 2020-09-29 2020-09-29 一种三输入的rgb-d显著性目标检测算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011053394.9A CN112115919A (zh) 2020-09-29 2020-09-29 一种三输入的rgb-d显著性目标检测算法

Publications (1)

Publication Number Publication Date
CN112115919A true CN112115919A (zh) 2020-12-22

Family

ID=73798684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011053394.9A Pending CN112115919A (zh) 2020-09-29 2020-09-29 一种三输入的rgb-d显著性目标检测算法

Country Status (1)

Country Link
CN (1) CN112115919A (zh)

Similar Documents

Publication Publication Date Title
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN102859535B (zh) 从预先计算的尺度空间产生Daisy描述符
CN111754438B (zh) 基于多分支门控融合的水下图像复原模型及其复原方法
CN112396607A (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN111563418A (zh) 一种基于注意力机制的非对称多模态融合显著性检测方法
CN110059728B (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN110619638A (zh) 一种基于卷积块注意模块的多模态融合显著性检测方法
CN110458178B (zh) 多模态多拼接的rgb-d显著性目标检测方法
CN111860138A (zh) 基于全融合网络的三维点云语义分割方法及系统
CN110705566B (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN110570402B (zh) 基于边界感知神经网络的双目显著物体检测方法
CN116309648A (zh) 一种基于多注意力融合的医学图像分割模型构建方法
CN113192073A (zh) 基于交叉融合网络的服装语义分割方法
CN112991350A (zh) 一种基于模态差异缩减的rgb-t图像语义分割方法
CN109447897B (zh) 一种真实场景图像合成方法及系统
CN115908772A (zh) 一种基于Transformer和融合注意力机制的目标检测方法及系统
CN115439694A (zh) 一种基于深度学习的高精度点云补全方法及装置
CN114387190B (zh) 一种基于复杂环境下的自适应图像增强方法及系统
CN110580726B (zh) 基于动态卷积网络的自然场景下人脸素描生成模型及方法
CN117893858A (zh) 一种融合多层级多尺度与边界信息的图像篡改定位方法
CN111753859B (zh) 样本生成方法、装置及设备
CN115035402B (zh) 一种用于土地覆盖分类问题的多级特征聚合系统及方法
KR101937585B1 (ko) 깊이 영상 생성을 위한 비용 집합 장치 및 방법과 이에 대한 기록 매체
CN112115919A (zh) 一种三输入的rgb-d显著性目标检测算法
CN114973424A (zh) 特征提取模型训练、手部动作识别方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination