CN112700426A - 一种复杂环境下的显著性物体检测方法 - Google Patents
一种复杂环境下的显著性物体检测方法 Download PDFInfo
- Publication number
- CN112700426A CN112700426A CN202110018586.4A CN202110018586A CN112700426A CN 112700426 A CN112700426 A CN 112700426A CN 202110018586 A CN202110018586 A CN 202110018586A CN 112700426 A CN112700426 A CN 112700426A
- Authority
- CN
- China
- Prior art keywords
- block
- convolution
- feature maps
- input end
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种复杂环境下的显著性物体检测方法,其在训练阶段构建卷积神经网络,它包括输入层、编码部分、解码部分和输出层,输入层包括RGB图输入层和热力图输入层,编码部分包括10个神经网络块,解码部分包括5个交叉模态融合块、5个双边反转融合块、1个多尺度一致性融合块;将训练集中的每对原始3D图像的RGB图像及对应的热力图像输入到卷积神经网络中进行训练,输出每对原始3D图像对应的显著性预测图像;通过多次迭代并计算显著性预测图像与对应的标签图像之间的损失函数值,获取卷积神经网络训练模型的最优权值矢量和最优偏置项;测试时利用最优权值矢量和最优偏置项进行预测,预测得到显著性预测图像;优点是其显著性检测精度高。
Description
技术领域
本发明涉及一种深度学习的视觉图像显著性检测方法,尤其是涉及一种复杂环境下的显著性物体检测方法。
背景技术
随着深度学习在计算机领域的快速发展,图像的显著性检测已成为越来越受关注的研究领域。显著性物体检测(Salient Object Detection,SOD)旨在将视觉上最独特的对象与输入图像区分开来,它是许多图像处理和计算机视觉任务(例如人脸识别、视频压缩、图像编辑、语义分割等)中的一个有效的预处理步骤。传统的显著性物体检测方法的效果差,并且受到手工制作的相关特征的限制,随着卷积神经网络的兴起,显著性物体检测得到了极大的发展。前几年的显著性物体检测方法都是利用彩色图像进行显著性检测,随着深度传感器的发展,获取深度信息变得越来越方便,进而利用彩色信息与深度信息来对显著性进行检测,有效地提高了图像像素级检测任务的精度。
现有的基于卷积神经网络的显著性物体检测方法一般都是编码-解码架构,编码过程通过多层卷积和池化逐渐减少分辨率、增加感受野、获得更多的语义信息;解码过程逐渐恢复分辨率,获得最终预测图。关于编码-解码架构,主要分为三种:第一种为前期融合,采用的方法是先将彩色信息和深度信息相加或者相叠加,再一起输入到编码-解码中;第二种为中期融合,在编码和解码之间加入相加和叠加操作;第三种为晚期融合,采用的方法是分别将彩色信息和深度信息输入到编码-解码中,在最终输出时进行相加或相叠加操作。虽然近年来图像显著性检测取得了很大的进展,但是图像显著性检测在复杂和具有挑战性的场景中仍然是一项具有挑战性的任务,例如低照度、背景杂乱以及恶劣天气(雨、雾霾、烟雾等)场景。大多数这些因素都是由可见光谱的缺点引入的,最近,集成RGB图像和热力图像已被证明是有效的移动对象检测和跟踪方法,这激励着人们通过利用RGB图像和热力图像的互补好处在具有挑战性的场景中执行稳健的图像显著性检测。现有的利用RGB图像和热力图像的双流显著性物体检测方法也采用编码-解码结构,首先提取每个模态中的多层次特征,然后利用注意力机制、膨胀卷积等操作构造融合模块将两个模态中提取的多层次特征结合起来进行显著目标检测,但是这类双流显著性物体检测方法的检测性能有待进一步提高。
发明内容
本发明所要解决的技术问题是提供一种复杂环境下的显著性物体检测方法,其显著性检测精度更高。
本发明解决上述技术问题所采用的技术方案为:一种复杂环境下的显著性物体检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N对原始3D图像及每对原始3D图像对应的真实显著检测图像,并获取每对原始3D图像对应的热力图像,将第k对原始3D图像的RGB图像记为将第k对原始3D图像对应的热力图像记为将第k对原始3D图像对应的真实显著检测图像作为标签图像,并记为然后将所有原始3D图像的RGB图像及对应的热力图像和对应的标签图像构成训练集;其中,N为正整数,N≥200,k为正整数,1≤k≤N,1≤x≤W,1≤y≤H,W表示原始3D图像及其RGB图像、对应的热力图像、对应的标签图像的宽度,H表示原始3D图像及其RGB图像、对应的热力图像、对应的标签图像的高度,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;
步骤1_2:构建端到端的卷积神经网络:该卷积神经网络包括输入层、编码部分、解码部分和输出层,输入层包括RGB图输入层和热力图输入层,编码部分包括10个神经网络块,解码部分包括5个交叉模态融合块、5个双边反转融合块、1个多尺度一致性融合块;
对于RGB图输入层,其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给编码部分;其中,原始RGB图像的宽度为W且高度为H;
对于热力图输入层,其输入端接收一幅原始热力图像的R通道分量、G通道分量和B通道分量,其输出端输出原始热力图像的R通道分量、G通道分量和B通道分量给编码部分;其中,原始热力图像的宽度为W且高度为H;
对于编码部分,第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块依次连接构成RGB信息编码流,第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块、第10个神经网络块依次连接构成热力信息编码流;第1个神经网络块的输入端接收RGB图输入层的输出端输出的原始RGB图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S1,S1中的每幅特征图的宽度为且高度为第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S2,S2中的每幅特征图的宽度为且高度为第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S3,S3中的每幅特征图的宽度为且高度为第4个神经网络块的输入端接收S3中的所有特征图,第4个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S4,S4中的每幅特征图的宽度为且高度为第5个神经网络块的输入端接收S4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S5,S5中的每幅特征图的宽度为且高度为第6个神经网络块的输入端接收热力图输入层的输出端输出的原始热力图像的R通道分量、G通道分量和B通道分量,第6个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S6,S6中的每幅特征图的宽度为且高度为第7个神经网络块的输入端接收S6中的所有特征图,第7个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S7,S7中的每幅特征图的宽度为且高度为第8个神经网络块的输入端接收S7中的所有特征图,第8个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S8,S8中的每幅特征图的宽度为且高度为第9个神经网络块的输入端接收S8中的所有特征图,第9个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S9,S9中的每幅特征图的宽度为且高度为第10个神经网络块的输入端接收S9中的所有特征图,第10个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S10,S10中的每幅特征图的宽度为且高度为编码部分提供S1、S2、S3、S4、S5、S6、S7、S8、S9、S10中的所有特征图给解码部分;
对于解码部分,第1个交叉模态融合块的第一输入端接收S1中的所有特征图,第1个交叉模态融合块的第二输入端接收S6中的所有特征图,第1个交叉模态融合块的输出端输出64幅特征图,将这64幅特征图构成的集合记为F1,F1中的每幅特征图的宽度为且高度为第2个交叉模态融合块的第一输入端接收S2中的所有特征图,第2个交叉模态融合块的第二输入端接收S7中的所有特征图,第2个交叉模态融合块的输出端输出64幅特征图,将这64幅特征图构成的集合记为F2,F2中的每幅特征图的宽度为且高度为第3个交叉模态融合块的第一输入端接收S3中的所有特征图,第3个交叉模态融合块的第二输入端接收S8中的所有特征图,第3个交叉模态融合块的输出端输出128幅特征图,将这128幅特征图构成的集合记为F3,F3中的每幅特征图的宽度为且高度为第4个交叉模态融合块的第一输入端接收S4中的所有特征图,第4个交叉模态融合块的第二输入端接收S9中的所有特征图,第4个交叉模态融合块的输出端输出256幅特征图,将这256幅特征图构成的集合记为F4,F4中的每幅特征图的宽度为且高度为第5个交叉模态融合块的第一输入端接收S5中的所有特征图,第5个交叉模态融合块的第二输入端接收S10中的所有特征图,第5个交叉模态融合块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F5,F5中的每幅特征图的宽度为且高度为第1个双边反转融合块的输入端接收F5中的所有特征图,第1个双边反转融合块的输出端输出512幅特征图,将这512幅特征图构成的集合记为A1,A1中的每幅特征图的宽度为且高度为第2个双边反转融合块的第一输入端接收F4中的所有特征图,第2个双边反转融合块的第二输入端接收A1中的所有特征图,第2个双边反转融合块的输出端输出256幅特征图,将这256幅特征图构成的集合记为A2,A2中的每幅特征图的宽度为且高度为第3个双边反转融合块的第一输入端接收F3中的所有特征图,第3个双边反转融合块的第二输入端接收A2中的所有特征图,第3个双边反转融合块的输出端输出128幅特征图,将这128幅特征图构成的集合记为A3,A3中的每幅特征图的宽度为且高度为第4个双边反转融合块的第一输入端接收F2中的所有特征图,第4个双边反转融合块的第二输入端接收A3中的所有特征图,第4个双边反转融合块的输出端输出64幅特征图,将这64幅特征图构成的集合记为A4,A4中的每幅特征图的宽度为且高度为第5个双边反转融合块的第一输入端接收F1中的所有特征图,第5个双边反转融合块的第二输入端接收A4中的所有特征图,第5个双边反转融合块的输出端输出64幅特征图,将这64幅特征图构成的集合记为A5,A5中的每幅特征图的宽度为且高度为多尺度一致性融合块的第一输入端接收A1中的所有特征图,多尺度一致性融合块的第二输入端接收A2中的所有特征图,多尺度一致性融合块的第三输入端接收A3中的所有特征图,多尺度一致性融合块的第四输入端接收A4中的所有特征图,多尺度一致性融合块的第五输入端接收A5中的所有特征图,多尺度一致性融合块的输出端输出160幅特征图,将这160幅特征图构成的集合记为Y,Y中的每幅特征图的宽度为W且高度为H;解码部分提供Y中的所有特征图给输出层;
对于输出层,其输入端接收Y中的所有特征图,其输出端输出1幅宽度为W且高度为H的特征图,作为显著性检测图;
步骤1_3:将训练集中的每对原始3D图像的RGB图像作为原始RGB图像,并将训练集中的每对原始3D图像对应的热力图像作为原始热力图像,输入到卷积神经网络中进行训练,输出训练集中的每对原始3D图像对应的显著性预测图像,将第k对原始3D图像对应的显著性预测图像记为其中,表示中坐标位置为(x,y)的像素点的像素值;
步骤1_5:重复执行步骤1_3和步骤1_4共Num次,训练得到卷积神经网络训练模型,并共得到N×Num个损失函数值;然后从N×Num个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值相应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项;其中,Num≥50;
所述的测试阶段过程的具体步骤为:
步骤2_1:对于任意一对待显著性物体检测的3D图像,获取该3D图像对应的热力图像;然后将该3D图像的RGB图像作为原始RGB图像,并将该3D图像对应的热力图像作为原始热力图像,输入到卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,预测得到该3D图像对应的显著性预测图像。
所述的步骤1_2中,5个交叉模态融合块的结构相同,其由第1个卷积块至第16个卷积块、1个自适应最大池化层、1个自适应平均池化层组成,第1个卷积块的输入端为其所在的交叉模态融合块的第一输入端,第2个卷积块的输入端为其所在的交叉模态融合块的第二输入端,第3个卷积块的输入端接收第1个卷积块的输出端输出的所有特征图,对第1个卷积块的输出端输出的所有特征图和第3个卷积块的输出端输出的所有特征图进行第1次对应元素相加操作,并将第1次对应元素相加操作后得到的所有特征图构成的集合记为Add1,第4个卷积块的输入端接收Add1中的所有特征图,对第1个卷积块的输出端输出的所有特征图、第3个卷积块的输出端输出的所有特征图、第4个卷积块的输出端输出的所有特征图进行第2次对应元素相加操作,并将第2次对应元素相加操作后得到的所有特征图构成的集合记为Add2,第5个卷积块的输入端接收Add2中的所有特征图,对第1个卷积块的输出端输出的所有特征图、第3个卷积块的输出端输出的所有特征图、第4个卷积块的输出端输出的所有特征图、第5个卷积块的输出端输出的所有特征图进行第3次对应元素相加操作,并将第3次对应元素相加操作后得到的所有特征图构成的集合记为Add3,第6个卷积块的输入端接收Add3中的所有特征图,对第3个卷积块的输出端输出的所有特征图、第4个卷积块的输出端输出的所有特征图、第5个卷积块的输出端输出的所有特征图、第6个卷积块的输出端输出的所有特征图进行第1次通道数叠加操作,并将第1次通道数叠加操作后得到的所有特征图构成的集合记为CS1,第7个卷积块的输入端接收第2个卷积块的输出端输出的所有特征图,对第2个卷积块的输出端输出的所有特征图和第7个卷积块的输出端输出的所有特征图进行第4次对应元素相加操作,并将第4次对应元素相加操作后得到的所有特征图构成的集合记为Add4,第8个卷积块的输入端接收Add4中的所有特征图,对第2个卷积块的输出端输出的所有特征图、第7个卷积块的输出端输出的所有特征图、第8个卷积块的输出端输出的所有特征图进行第5次对应元素相加操作,并将第5次对应元素相加操作后得到的所有特征图构成的集合记为Add5,第9个卷积块的输入端接收Add5中的所有特征图,对第2个卷积块的输出端输出的所有特征图、第7个卷积块的输出端输出的所有特征图、第8个卷积块的输出端输出的所有特征图、第9个卷积块的输出端输出的所有特征图进行第6次对应元素相加操作,并将第6次对应元素相加操作后得到的所有特征图构成的集合记为Add6,第10个卷积块的输入端接收Add6中的所有特征图,对第7个卷积块的输出端输出的所有特征图、第8个卷积块的输出端输出的所有特征图、第9个卷积块的输出端输出的所有特征图、第10个卷积块的输出端输出的所有特征图进行第2次通道数叠加操作,并将第2次通道数叠加操作后得到的所有特征图构成的集合记为CS2,对CS1中的所有特征图和CS2中的所有特征图进行第1次对应元素相乘操作,并将第1次对应元素相乘操作后得到的所有特征图构成的集合记为Ride1,第14个卷积块的输入端接收Ride1中的所有特征图,对CS1中的所有特征图和第14个卷积块的输出端输出的所有特征图进行第7次对应元素相加操作,并将第7次对应元素相加操作后得到的所有特征图构成的集合记为Add7,对CS2中的所有特征图和第14个卷积块的输出端输出的所有特征图进行第8次对应元素相加操作,并将第8次对应元素相加操作后得到的所有特征图构成的集合记为Add8,对第1个卷积块的输出端输出的所有特征图和第2个卷积块的输出端输出的所有特征图进行第3次通道数叠加操作,并将第3次通道数叠加操作后得到的所有特征图构成的集合记为CS3,第11个卷积块的输入端接收CS3中的所有特征图,自适应最大池化层的输入端接收第11个卷积块的输出端输出的所有特征图,自适应平均池化层的输入端接收第11个卷积块的输出端输出的所有特征图,第12个卷积块的输入端接收自适应最大池化层的输出端输出的所有特征图,第13个卷积块的输入端接收自适应平均池化层的输出端输出的所有特征图,对第12个卷积块的输出端输出的所有特征图和第13个卷积块的输出端输出的所有特征图进行第9次对应元素相加操作,并将第9次对应元素相加操作后得到的所有特征图构成的集合记为Add9,对Add9中的所有特征图经过一个“Sigmoid”激活函数后得到的所有特征图和第11个卷积块的输出端输出的所有特征图进行第2次对应元素相乘操作,并将第2次对应元素相乘操作后得到的所有特征图构成的集合记为Ride2,对Add7中的所有特征图、Add8中的所有特征图、Ride2中的所有特征图进行第4次通道数叠加操作,并将第4次通道数叠加操作后得到的所有特征图构成的集合记为CS4,第15个卷积块的输入端接收CS4中的所有特征图,对第15个卷积块的输出端输出的所有特征图经过一个“torch.mean”函数后得到的所有特征图和第15个卷积块的输出端输出的所有特征图经过一个“torch.max”函数后得到的所有特征图进行第5次通道数叠加操作,并将第5次通道数叠加操作后得到的所有特征图构成的集合记为CS5,第16个卷积块的输入端接收CS5中的所有特征图,对第16个卷积块的输出端输出的所有特征图经过一个“Sigmoid”激活函数后得到的所有特征图和第15个卷积块的输出端输出的所有特征图进行第3次对应元素相乘操作,并将第3次对应元素相乘操作后得到的所有特征图构成的集合记为Ride3,将Ride3中的所有特征图作为所在的交叉模态融合块的输出端输出的所有特征图。
第1个卷积块包括依次连接的第一卷积层和第一激活层,第一卷积层的输入端作为第1个卷积块的输入端,第一激活层的输出端作为第1个卷积块的输出端,第2个卷积块包括依次连接的第二卷积层和第二激活层,第二卷积层的输入端作为第2个卷积块的输入端,第二激活层的输出端作为第2个卷积块的输出端,第3个卷积块包括依次连接的第三卷积层、第三激活层、第四卷积层、第四激活层,第三卷积层的输入端作为第3个卷积块的输入端,第四激活层的输出端作为第3个卷积块的输出端,第4个卷积块包括依次连接的第五卷积层、第五激活层、第六卷积层、第六激活层,第五卷积层的输入端作为第4个卷积块的输入端,第六激活层的输出端作为第4个卷积块的输出端,第5个卷积块包括依次连接的第七卷积层、第七激活层、第八卷积层、第八激活层,第七卷积层的输入端作为第5个卷积块的输入端,第八激活层的输出端作为第5个卷积块的输出端,第6个卷积块包括依次连接的第九卷积层、第九激活层、第十卷积层、第十激活层,第九卷积层的输入端作为第6个卷积块的输入端,第十激活层的输出端作为第6个卷积块的输出端,第7个卷积块包括依次连接的第十一卷积层、第十一激活层、第十二卷积层、第十二激活层,第十一卷积层的输入端作为第7个卷积块的输入端,第十二激活层的输出端作为第7个卷积块的输出端,第8个卷积块包括依次连接的第十三卷积层、第十三激活层、第十四卷积层、第十四激活层,第十三卷积层的输入端作为第8个卷积块的输入端,第十四激活层的输出端作为第8个卷积块的输出端,第9个卷积块包括依次连接的第十五卷积层、第十五激活层、第十六卷积层、第十六激活层,第十五卷积层的输入端作为第9个卷积块的输入端,第十六激活层的输出端作为第9个卷积块的输出端,第10个卷积块包括依次连接的第十七卷积层、第十七激活层、第十八卷积层、第十八激活层,第十七卷积层的输入端作为第10个卷积块的输入端,第十八激活层的输出端作为第10个卷积块的输出端,第11个卷积块包括依次连接的第十九卷积层、第十九激活层,第十九卷积层的输入端作为第11个卷积块的输入端,第十九激活层的输出端作为第11个卷积块的输出端,第12个卷积块包括依次连接的第二十卷积层、第二十激活层、第二十一卷积层、第二十一激活层,第二十卷积层的输入端作为第12个卷积块的输入端,第二十一激活层的输出端作为第12个卷积块的输出端,第13个卷积块包括依次连接的第二十二卷积层、第二十二激活层、第二十三卷积层、第二十三激活层,第二十二卷积层的输入端作为第13个卷积块的输入端,第二十三激活层的输出端作为第13个卷积块的输出端,第14个卷积块包括依次连接的第二十四卷积层、第二十四激活层,第二十四卷积层的输入端作为第14个卷积块的输入端,第二十四激活层的输出端作为第14个卷积块的输出端,第15个卷积块包括依次连接的第二十五卷积层、第二十五激活层,第二十五卷积层的输入端作为第15个卷积块的输入端,第二十五激活层的输出端作为第15个卷积块的输出端,第16个卷积块包括依次连接的第二十六卷积层、第二十六激活层,第二十六卷积层的输入端作为第16个卷积块的输入端,第二十六激活层的输出端作为第16个卷积块的输出端;其中,5个交叉模态融合块各自的第一输入端的输入通道数和第二输入端的输入通道数相等,设定第j个交叉模态融合块的第一输入端的输入通道数和第二输入端的输入通道数均为nj,j=1,2,3,4,5,n1=64,n2=64,n3=128,n4=256,n5=512,第j个交叉模态融合块中的第一卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为1,第j个交叉模态融合块中的第二卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为1,第j个交叉模态融合块中的第三卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第四卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为1,第j个交叉模态融合块中的第五卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第六卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为2、膨胀率为2,第j个交叉模态融合块中的第七卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第八卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为4、膨胀率为4,第j个交叉模态融合块中的第九卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第十卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为6、膨胀率为6,第j个交叉模态融合块中的第十一卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第十二卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为1,第j个交叉模态融合块中的第十三卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第十四卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为2、膨胀率为2,第j个交叉模态融合块中的第十五卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第十六卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为4、膨胀率为4,第j个交叉模态融合块中的第十七卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第十八卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为6、膨胀率为6,第j个交叉模态融合块中的第十九卷积层的卷积核大小为1×1、卷积核个数为nj、步长为1、补零参数的值为0,第j个交叉模态融合块中的第二十卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第二十一卷积层的卷积核大小为1×1、卷积核个数为nj、步长为1、补零参数的值为0,第j个交叉模态融合块中的第二十二卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第二十三卷积层的卷积核大小为1×1、卷积核个数为nj、步长为1、补零参数的值为0,第j个交叉模态融合块中的第二十四卷积层的卷积核大小为1×1、卷积核个数为nj、步长为1、补零参数的值为0,第j个交叉模态融合块中的第二十五卷积层的卷积核大小为1×1、卷积核个数为nj、步长为1、补零参数的值为0,第j个交叉模态融合块中的第二十六卷积层的卷积核大小为7×7、卷积核个数为1、步长为1、补零参数的值为3,第j个交叉模态融合块中的自适应最大池化层和自适应平均池化层的指定输出图片尺寸为1×1,5个交叉模态融合块中的第一激活层至第二十六激活层的激活方式都为“Relu”。
所述的步骤1_2中,第1个双边反转融合块由第17个卷积块和第18个卷积块组成,对像素值全为1的图像与第1个双边反转融合块的输入端接收的每幅特征图进行第1次对应元素相减操作,并将第1次对应元素相减操作后得到的所有特征图构成的集合记为Sub1,对Sub1中的所有特征图经过一个“Sigmoid”激活函数后得到的所有特征图和第1个双边反转融合块的输入端接收的所有特征图进行第4次对应元素相乘操作,并将第4次对应元素相乘操作后得到的所有特征图构成的集合记为Ride4,第17个卷积块的输入端接收Ride4中的所有特征图,对第17个卷积块的输出端输出的所有特征图和第1个双边反转融合块的输入端接收的所有特征图进行第6次通道数叠加操作,并将第6次通道数叠加操作后得到的所有特征图构成的集合记为CS6,第18个卷积块的输入端接收CS6中的所有特征图,第18个卷积块的输出端作为第1个双边反转融合块的输出端;其中,像素值全为1的图像的宽度为且高度为第1次对应元素相减操作时是像素值全为1的图像减去第1个双边反转融合块的输入端接收的每幅特征图。
所述的步骤1_2中,第2个双边反转融合块至第5个双边反转融合块的结构相同,其由第1个上采样层、第19个卷积块、第20个卷积块、第21个卷积块组成,第1个上采样层的输入端作为其所在的双边反转融合块的第二输入端,第19个卷积块的输入端接收第1个上采样层的输出端输出的所有特征图,对像素值全为1的图像与第19个卷积块的输出端输出的每幅特征图进行第2次对应元素相减操作,并将第2次对应元素相减操作后得到的所有特征图构成的集合记为Sub2,对Sub2中的所有特征图经过一个“Sigmoid”激活函数后得到的所有特征图和所在的双边反转融合块的第一输入端接收的所有特征图进行第5次对应元素相乘操作,并将第5次对应元素相乘操作后得到的所有特征图构成的集合记为Ride5,第20个卷积块的输入端接收Ride5中的所有特征图,对第20个卷积块的输出端输出的所有特征图和所在的双边反转融合块的第一输入端接收的所有特征图进行第7次通道数叠加操作,并将第7次通道数叠加操作后得到的所有特征图构成的集合记为CS7,第21个卷积块的输入端接收CS7中的所有特征图,第21个卷积块的输出端作为其所在的双边反转融合块的输出端;其中,像素值全为1的图像的宽度和高度对应与第19个卷积块的输出端输出的特征图的宽度和高度一致,第2次对应元素相减操作时是像素值全为1的图像减去第19个卷积块的输出端输出的每幅特征图,第2个双边反转融合块至第5个双边反转融合块中的第1个上采样层的放大倍数为2、插值方法为双线性插值。
第17个卷积块包括依次连接的第二十七卷积层和第二十七激活层,第二十七卷积层的输入端作为第17个卷积块的输入端,第二十七激活层的输出端作为第17个卷积块的输出端,第18个卷积块包括依次连接的第二十八卷积层和第二十八激活层,第二十八卷积层的输入端作为第18个卷积块的输入端,第二十八激活层的输出端作为第18个卷积块的输出端,第19个卷积块包括依次连接的第二十九卷积层和第二十九激活层,第二十九卷积层的输入端作为第19个卷积块的输入端,第二十九激活层的输出端作为第19个卷积块的输出端,第20个卷积块包括依次连接的第三十卷积层和第三十激活层,第三十卷积层的输入端作为第20个卷积块的输入端,第三十激活层的输出端作为第20个卷积块的输出端,第21个卷积块包括依次连接的第三十一卷积层和第三十一激活层,第三十一卷积层的输入端作为第21个卷积块的输入端,第三十一激活层的输出端作为第21个卷积块的输出端;其中,第1个双边反转融合块的输入端的输入通道数为512,第二十七个卷积层的卷积核大小为3×3、卷积核个数为512、步长为1、补零参数的值为0,第二十八个卷积层的卷积核大小为3×3、卷积核个数为512、步长为1、补零参数的值为0,设定第i个双边反转融合块的第一输入端的输入通道数为m1i、第二输入端的输入通道数为m2i,i=2,3,4,5,m12=256,m22=512,m13=128,m23=256,m14=64,m24=128,m15=64,m25=64,第i个双边反转融合块中的第二十九个卷积层的卷积核大小为3×3、卷积核个数为m1i、步长为1、补零参数的值为0,第i个双边反转融合块中的第三十个卷积层的卷积核大小为3×3、卷积核个数为m1i、步长为1、补零参数的值为0,第i个双边反转融合块中的第三十一个卷积层的卷积核大小为3×3、卷积核个数为m1i、步长为1、补零参数的值为0,5个双边反转融合块中的第二十七激活层至第三十一激活层的激活方式都为“Relu”。
所述的步骤1_2中,多尺度一致性融合块由5个融合块组成,5个融合块的结构相同,融合块由第22个卷积块、第23个卷积块、第24个卷积块、第25个卷积块、第26个卷积块、第2个上采样层、第3个上采样层、第4个上采样层、第5个上采样层、第6个上采样层组成,第1个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端与多尺度一致性融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端一一对应连接,第1个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端对应接收A1中的所有特征图、A2中的所有特征图、A3中的所有特征图、A4中的所有特征图、A5中的所有特征图,第2个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端与多尺度一致性融合块的第二输入端、第一输入端、第三输入端、第四输入端、第五输入端一一对应连接,第2个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端对应接收A2中的所有特征图、A1中的所有特征图、A3中的所有特征图、A4中的所有特征图、A5中的所有特征图,第3个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端与多尺度一致性融合块的第三输入端、第一输入端、第二输入端、第四输入端、第五输入端一一对应连接,第3个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端对应接收A3中的所有特征图、A1中的所有特征图、A2中的所有特征图、A4中的所有特征图、A5中的所有特征图,第4个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端与多尺度一致性融合块的第四输入端、第一输入端、第二输入端、第三输入端、第五输入端一一对应连接,第4个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端对应接收A4中的所有特征图、A1中的所有特征图、A2中的所有特征图、A3中的所有特征图、A5中的所有特征图,第5个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端与多尺度一致性融合块的第五输入端、第一输入端、第二输入端、第三输入端、第四输入端一一对应连接,第5个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端对应接收A5中的所有特征图、A1中的所有特征图、A2中的所有特征图、A3中的所有特征图、A4中的所有特征图,第22个卷积块的输入端为其所在的融合块的第一输入端,第23个卷积块的输入端为其所在的融合块的第二输入端,第24个卷积块的输入端为其所在的融合块的第三输入端,第25个卷积块的输入端为其所在的融合块的第四输入端,第26个卷积块的输入端为其所在的融合块的第五输入端,第2个上采样层的输入端接收第23个卷积块的输出端输出的所有特征图,第3个上采样层的输入端接收第24个卷积块的输出端输出的所有特征图,第4个上采样层的输入端接收第25个卷积块的输出端输出的所有特征图,第5个上采样层的输入端接收第26个卷积块的输出端输出的所有特征图,对第2个上采样层的输出端输出的所有特征图、第3个上采样层的输出端输出的所有特征图、第4个上采样层的输出端输出的所有特征图、第5个上采样层的输出端输出的所有特征图进行第10次对应元素相加操作,并将第10次对应元素相加操作后得到的所有特征图构成的集合记为Add10,对第22个卷积块的输出端输出的所有特征图和Add10中的所有特征图进行第6次对应元素相乘操作,并将第6次对应元素相乘操作后得到的所有特征图构成的集合记为Ride6,对第22个卷积块的输出端输出的所有特征图和Ride6中的所有特征图进行第11次对应元素相加操作,并将第11次对应元素相加操作后得到的所有特征图构成的集合记为Add11,第6个上采样层的输入端接收Add11中的所有特征图经过一个“Sigmoid”激活函数后得到的所有特征图,第6个上采样层的输出端为其所在的融合块的输出端,将第1个融合块的输出端输出的所有特征图构成的集合记为Y1,将第2个融合块的输出端输出的所有特征图构成的集合记为Y2,将第3个融合块的输出端输出的所有特征图构成的集合记为Y3,将第4个融合块的输出端输出的所有特征图构成的集合记为Y4,将第5个融合块的输出端输出的所有特征图构成的集合记为Y5,对Y1中的所有特征图、Y2中的所有特征图、Y3中的所有特征图、Y4中的所有特征图、Y5中的所有特征图进行第8次通道数叠加操作,第8次通道数叠加操作后得到的所有特征图构成的集合即为Y;其中,第1个融合块中的第2个上采样层、第3个上采样层、第4个上采样层、第5个上采样层、第6个上采样层各自的放大倍数对应为32,第2个融合块中的第2个上采样层、第3个上采样层、第4个上采样层、第5个上采样层、第6个上采样层各自的放大倍数对应为2、16,第3个融合块中的第2个上采样层、第3个上采样层、第4个上采样层、第5个上采样层、第6个上采样层各自的放大倍数对应为4、2、8,第4个融合块中的第2个上采样层、第3个上采样层、第4个上采样层、第5个上采样层、第6个上采样层各自的放大倍数对应为8、4、2、4,第5个融合块中的第2个上采样层、第3个上采样层、第4个上采样层、第5个上采样层、第6个上采样层各自的放大倍数对应为16、8、4、2、2,第1个融合块至第5个融合块中的第2个上采样层、第3个上采样层、第4个上采样层、第5个上采样层、第6个上采样层各自的插值方法为双线性插值。
第22个卷积块包括依次连接的第三十二卷积层和第三十二激活层,第三十二卷积层的输入端为第22个卷积块的输入端,第三十二激活层的输出端为第22个卷积块的输出端,第23个卷积块包括依次连接的第三十三卷积层和第三十三激活层,第三十三卷积层的输入端为第23个卷积块的输入端,第三十三激活层的输出端为第23个卷积块的输出端,第24个卷积块包括依次连接的第三十四卷积层和第三十四激活层,第三十四卷积层的输入端为第24个卷积块的输入端,第三十四激活层的输出端为第24个卷积块的输出端,第25个卷积块包括依次连接的第三十五卷积层和第三十五激活层,第三十五卷积层的输入端为第25个卷积块的输入端,第三十五激活层的输出端为第25个卷积块的输出端,第26个卷积块包括依次连接的第三十六卷积层和第三十六激活层,第三十六卷积层的输入端为第26个卷积块的输入端,第三十六激活层的输出端为第26个卷积块的输出端;其中,第1个融合块至第5个融合块中的第三十二个卷积层至第三十六卷积层的卷积核大小均为3×3、卷积核个数均为32、步长均为1、补零参数的值均为0,第1个融合块至第5个融合块中的第三十二激活层到第三十六激活层的激活方式都为“Relu”。
所述的步骤1_2中,输出层包括输出卷积层,输出卷积层的输入端为输出层的输入端,输出卷积层的输出端为输出层的输出端;其中,输出卷积层的卷积核大小为3×3、卷积核个数为1、步长为1。
与现有技术相比,本发明的优点在于:
1)本发明方法构建的卷积神经网络是一种双流端到端的卷积神经网络体系结构,RGB图像和热力图像两个模态的信息流有效交互融合,并利用前景和背景信息,充分捕捉显著物体,使得训练得到的卷积神经网络训练模型的显著性检测精度更高。
2)本发明方法构建的卷积神经网络中设计了交叉模态融合块,它将两个模态对应尺寸的特征图充分且有效地融合,从而使得训练得到的卷积神经网络训练模型能够有效地检测出复杂环境下的显著对象。
3)本发明方法构建的卷积神经网络中设计了双边反转融合块,它将交叉模态融合块提取的融合信息进行前景和背景的双边融合,有利于显著物体边界信息的充分提取,从而使得训练得到的卷积神经网络训练模型能够有效地检测出复杂环境下的显著对象。
4)本发明方法构建的卷积神经网络中设计了多尺度一致性融合块,它将多尺度的特征图进行一致性融合,使得不同尺寸的特征图都能从其他尺寸的特征图中得到互补信息,从而使得训练得到的卷积神经网络训练模型能够有效地检测出复杂环境下的显著对象。
附图说明
图1为本发明方法构建的卷积神经网络的组成结构示意图;
图2为本发明方法构建的卷积神经网络中的5个交叉模态融合块的组成结构示意图;
图3为本发明方法构建的卷积神经网络中的第1个双边反转融合块的组成结构示意图;
图4为本发明方法构建的卷积神经网络中的第2个双边反转融合块至第5个双边反转融合块的组成结构示意图;
图5为本发明方法构建的卷积神经网络中的多尺度一致性融合块中的5个融合块的组成结构示意图;
图6a为待显著性物体检测的第1对3D图像的RGB图像;
图6b为待显著性物体检测的第1对3D图像对应的热力图像;
图6c为利用本发明方法对图6a和图6b进行处理得到的显著性预测图像;
图6d为待显著性物体检测的第1对3D图像对应的标签图像;
图7a为待显著性物体检测的第2对3D图像的RGB图像;
图7b为待显著性物体检测的第2对3D图像对应的热力图像;
图7c为利用本发明方法对图7a和图7b进行处理得到的显著性预测图像;
图7d为待显著性物体检测的第2对3D图像对应的标签图像;
图8a为待显著性物体检测的第3对3D图像的RGB图像;
图8b为待显著性物体检测的第3对3D图像对应的热力图像;
图8c为利用本发明方法对图8a和图8b进行处理得到的显著性预测图像;
图8d为待显著性物体检测的第3对3D图像对应的标签图像;
图9a为待显著性物体检测的第4对3D图像的RGB图像;
图9b为待显著性物体检测的第4对3D图像对应的热力图像;
图9c为利用本发明方法对图9a和图9b进行处理得到的显著性预测图像;
图9d为待显著性物体检测的第4对3D图像对应的标签图像;
图10a为利用本发明方法对VT821数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图;
图10b为利用本发明方法对VT1000数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图;
图10c为利用本发明方法对VT5000数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种复杂环境下的显著性物体检测方法,其包括训练阶段和测试阶段两个过程。
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N对原始3D图像及每对原始3D图像对应的真实显著检测图像,并获取每对原始3D图像对应的热力图像(Thermal图像),将第k对原始3D图像的RGB图像记为将第k对原始3D图像对应的热力图像记为将第k对原始3D图像对应的真实显著检测图像作为标签图像,并记为然后将所有原始3D图像的RGB图像及对应的热力图像和对应的标签图像构成训练集;其中,N为正整数,N≥200,如取N=2500,k为正整数,1≤k≤N,1≤x≤W,1≤y≤H,W表示原始3D图像及其RGB图像、对应的热力图像、对应的标签图像的宽度,H表示原始3D图像及其RGB图像、对应的热力图像、对应的标签图像的高度,在本实施例中W和H均为224,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值。
步骤1_2:构建端到端的卷积神经网络:如图1所示,该卷积神经网络包括输入层、编码部分、解码部分和输出层,输入层包括RGB图输入层和热力图输入层,编码部分包括10个神经网络块,解码部分包括5个交叉模态融合块、5个双边反转融合块、1个多尺度一致性融合块。
对于RGB图输入层,其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给编码部分;其中,原始RGB图像的宽度为W且高度为H。
对于热力图输入层,其输入端接收一幅原始热力图像的R通道分量、G通道分量和B通道分量,其输出端输出原始热力图像的R通道分量、G通道分量和B通道分量给编码部分;其中,原始热力图像的宽度为W且高度为H。
对于编码部分,第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块依次连接构成RGB信息编码流,第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块、第10个神经网络块依次连接构成热力信息编码流;第1个神经网络块的输入端接收RGB图输入层的输出端输出的原始RGB图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S1,S1中的每幅特征图的宽度为且高度为第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S2,S2中的每幅特征图的宽度为且高度为第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S3,S3中的每幅特征图的宽度为且高度为第4个神经网络块的输入端接收S3中的所有特征图,第4个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S4,S4中的每幅特征图的宽度为且高度为第5个神经网络块的输入端接收S4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S5,S5中的每幅特征图的宽度为且高度为第6个神经网络块的输入端接收热力图输入层的输出端输出的原始热力图像的R通道分量、G通道分量和B通道分量,第6个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S6,S6中的每幅特征图的宽度为且高度为第7个神经网络块的输入端接收S6中的所有特征图,第7个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S7,S7中的每幅特征图的宽度为且高度为第8个神经网络块的输入端接收S7中的所有特征图,第8个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S8,S8中的每幅特征图的宽度为且高度为第9个神经网络块的输入端接收S8中的所有特征图,第9个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S9,S9中的每幅特征图的宽度为且高度为第10个神经网络块的输入端接收S9中的所有特征图,第10个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S10,S10中的每幅特征图的宽度为且高度为编码部分提供S1、S2、S3、S4、S5、S6、S7、S8、S9、S10中的所有特征图给解码部分。
对于解码部分,第1个交叉模态融合块的第一输入端接收S1中的所有特征图,第1个交叉模态融合块的第二输入端接收S6中的所有特征图,第1个交叉模态融合块的输出端输出64幅特征图,将这64幅特征图构成的集合记为F1,F1中的每幅特征图的宽度为且高度为第2个交叉模态融合块的第一输入端接收S2中的所有特征图,第2个交叉模态融合块的第二输入端接收S7中的所有特征图,第2个交叉模态融合块的输出端输出64幅特征图,将这64幅特征图构成的集合记为F2,F2中的每幅特征图的宽度为且高度为第3个交叉模态融合块的第一输入端接收S3中的所有特征图,第3个交叉模态融合块的第二输入端接收S8中的所有特征图,第3个交叉模态融合块的输出端输出128幅特征图,将这128幅特征图构成的集合记为F3,F3中的每幅特征图的宽度为且高度为第4个交叉模态融合块的第一输入端接收S4中的所有特征图,第4个交叉模态融合块的第二输入端接收S9中的所有特征图,第4个交叉模态融合块的输出端输出256幅特征图,将这256幅特征图构成的集合记为F4,F4中的每幅特征图的宽度为且高度为第5个交叉模态融合块的第一输入端接收S5中的所有特征图,第5个交叉模态融合块的第二输入端接收S10中的所有特征图,第5个交叉模态融合块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F5,F5中的每幅特征图的宽度为且高度为第1个双边反转融合块的输入端接收F5中的所有特征图,第1个双边反转融合块的输出端输出512幅特征图,将这512幅特征图构成的集合记为A1,A1中的每幅特征图的宽度为且高度为第2个双边反转融合块的第一输入端接收F4中的所有特征图,第2个双边反转融合块的第二输入端接收A1中的所有特征图,第2个双边反转融合块的输出端输出256幅特征图,将这256幅特征图构成的集合记为A2,A2中的每幅特征图的宽度为且高度为第3个双边反转融合块的第一输入端接收F3中的所有特征图,第3个双边反转融合块的第二输入端接收A2中的所有特征图,第3个双边反转融合块的输出端输出128幅特征图,将这128幅特征图构成的集合记为A3,A3中的每幅特征图的宽度为且高度为第4个双边反转融合块的第一输入端接收F2中的所有特征图,第4个双边反转融合块的第二输入端接收A3中的所有特征图,第4个双边反转融合块的输出端输出64幅特征图,将这64幅特征图构成的集合记为A4,A4中的每幅特征图的宽度为且高度为第5个双边反转融合块的第一输入端接收F1中的所有特征图,第5个双边反转融合块的第二输入端接收A4中的所有特征图,第5个双边反转融合块的输出端输出64幅特征图,将这64幅特征图构成的集合记为A5,A5中的每幅特征图的宽度为且高度为多尺度一致性融合块的第一输入端接收A1中的所有特征图,多尺度一致性融合块的第二输入端接收A2中的所有特征图,多尺度一致性融合块的第三输入端接收A3中的所有特征图,多尺度一致性融合块的第四输入端接收A4中的所有特征图,多尺度一致性融合块的第五输入端接收A5中的所有特征图,多尺度一致性融合块的输出端输出160幅特征图,将这160幅特征图构成的集合记为Y,Y中的每幅特征图的宽度为W且高度为H;解码部分提供Y中的所有特征图给输出层。
对于输出层,其输入端接收Y中的所有特征图,其输出端输出1幅宽度为W且高度为H的特征图,作为显著性检测图。
步骤1_3:将训练集中的每对原始3D图像的RGB图像作为原始RGB图像,并将训练集中的每对原始3D图像对应的热力图像作为原始热力图像,输入到卷积神经网络中进行训练,输出训练集中的每对原始3D图像对应的显著性预测图像,将第k对原始3D图像对应的显著性预测图像记为其中,表示中坐标位置为(x,y)的像素点的像素值。
步骤1_5:重复执行步骤1_3和步骤1_4共Num次,训练得到卷积神经网络训练模型,并共得到N×Num个损失函数值;然后从N×Num个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值相应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项;其中,Num≥50,在本实施例中取Num=100。
所述的测试阶段过程的具体步骤为:
步骤2_1:对于任意一对待显著性物体检测的3D图像,获取该3D图像对应的热力图像;然后将该3D图像的RGB图像作为原始RGB图像,并将该3D图像对应的热力图像作为原始热力图像,输入到卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,预测得到该3D图像对应的显著性预测图像。
在本实施例中,10个神经网络块的结构采用现有的ResNet-34模型,将ResNet-34模型划分为5个块,分别作为第1个神经网络块至第5个神经网络块的结构,同时也分别作为第6个神经网络块至第10个神经网络块的结构,即第1个神经网络块的结构与第6个神经网络块的结构相同,第2个神经网络块的结构与第7个神经网络块的结构相同,依次类推。
在本实施例中,步骤1_2中,5个交叉模态融合块的结构相同,如图2所示,其由第1个卷积块至第16个卷积块、1个自适应最大池化层、1个自适应平均池化层组成,第1个卷积块的输入端为其所在的交叉模态融合块的第一输入端,第2个卷积块的输入端为其所在的交叉模态融合块的第二输入端,第3个卷积块的输入端接收第1个卷积块的输出端输出的所有特征图,对第1个卷积块的输出端输出的所有特征图和第3个卷积块的输出端输出的所有特征图进行第1次对应元素相加操作,并将第1次对应元素相加操作后得到的所有特征图构成的集合记为Add1,第4个卷积块的输入端接收Add1中的所有特征图,对第1个卷积块的输出端输出的所有特征图、第3个卷积块的输出端输出的所有特征图、第4个卷积块的输出端输出的所有特征图进行第2次对应元素相加操作,并将第2次对应元素相加操作后得到的所有特征图构成的集合记为Add2,第5个卷积块的输入端接收Add2中的所有特征图,对第1个卷积块的输出端输出的所有特征图、第3个卷积块的输出端输出的所有特征图、第4个卷积块的输出端输出的所有特征图、第5个卷积块的输出端输出的所有特征图进行第3次对应元素相加操作,并将第3次对应元素相加操作后得到的所有特征图构成的集合记为Add3,第6个卷积块的输入端接收Add3中的所有特征图,对第3个卷积块的输出端输出的所有特征图、第4个卷积块的输出端输出的所有特征图、第5个卷积块的输出端输出的所有特征图、第6个卷积块的输出端输出的所有特征图进行第1次通道数叠加操作,并将第1次通道数叠加操作后得到的所有特征图构成的集合记为CS1,第7个卷积块的输入端接收第2个卷积块的输出端输出的所有特征图,对第2个卷积块的输出端输出的所有特征图和第7个卷积块的输出端输出的所有特征图进行第4次对应元素相加操作,并将第4次对应元素相加操作后得到的所有特征图构成的集合记为Add4,第8个卷积块的输入端接收Add4中的所有特征图,对第2个卷积块的输出端输出的所有特征图、第7个卷积块的输出端输出的所有特征图、第8个卷积块的输出端输出的所有特征图进行第5次对应元素相加操作,并将第5次对应元素相加操作后得到的所有特征图构成的集合记为Add5,第9个卷积块的输入端接收Add5中的所有特征图,对第2个卷积块的输出端输出的所有特征图、第7个卷积块的输出端输出的所有特征图、第8个卷积块的输出端输出的所有特征图、第9个卷积块的输出端输出的所有特征图进行第6次对应元素相加操作,并将第6次对应元素相加操作后得到的所有特征图构成的集合记为Add6,第10个卷积块的输入端接收Add6中的所有特征图,对第7个卷积块的输出端输出的所有特征图、第8个卷积块的输出端输出的所有特征图、第9个卷积块的输出端输出的所有特征图、第10个卷积块的输出端输出的所有特征图进行第2次通道数叠加操作,并将第2次通道数叠加操作后得到的所有特征图构成的集合记为CS2,对CS1中的所有特征图和CS2中的所有特征图进行第1次对应元素相乘操作,并将第1次对应元素相乘操作后得到的所有特征图构成的集合记为Ride1,第14个卷积块的输入端接收Ride1中的所有特征图,对CS1中的所有特征图和第14个卷积块的输出端输出的所有特征图进行第7次对应元素相加操作,并将第7次对应元素相加操作后得到的所有特征图构成的集合记为Add7,对CS2中的所有特征图和第14个卷积块的输出端输出的所有特征图进行第8次对应元素相加操作,并将第8次对应元素相加操作后得到的所有特征图构成的集合记为Add8,对第1个卷积块的输出端输出的所有特征图和第2个卷积块的输出端输出的所有特征图进行第3次通道数叠加操作,并将第3次通道数叠加操作后得到的所有特征图构成的集合记为CS3,第11个卷积块的输入端接收CS3中的所有特征图,自适应最大池化层的输入端接收第11个卷积块的输出端输出的所有特征图,自适应平均池化层的输入端接收第11个卷积块的输出端输出的所有特征图,第12个卷积块的输入端接收自适应最大池化层的输出端输出的所有特征图,第13个卷积块的输入端接收自适应平均池化层的输出端输出的所有特征图,对第12个卷积块的输出端输出的所有特征图和第13个卷积块的输出端输出的所有特征图进行第9次对应元素相加操作,并将第9次对应元素相加操作后得到的所有特征图构成的集合记为Add9,对Add9中的所有特征图经过一个“Sigmoid”激活函数后得到的所有特征图和第11个卷积块的输出端输出的所有特征图进行第2次对应元素相乘操作,并将第2次对应元素相乘操作后得到的所有特征图构成的集合记为Ride2,对Add7中的所有特征图、Add8中的所有特征图、Ride2中的所有特征图进行第4次通道数叠加操作,并将第4次通道数叠加操作后得到的所有特征图构成的集合记为CS4,第15个卷积块的输入端接收CS4中的所有特征图,对第15个卷积块的输出端输出的所有特征图经过一个“torch.mean”函数后得到的所有特征图和第15个卷积块的输出端输出的所有特征图经过一个“torch.max”函数后得到的所有特征图进行第5次通道数叠加操作,并将第5次通道数叠加操作后得到的所有特征图构成的集合记为CS5,第16个卷积块的输入端接收CS5中的所有特征图,对第16个卷积块的输出端输出的所有特征图经过一个“Sigmoid”激活函数后得到的所有特征图和第15个卷积块的输出端输出的所有特征图进行第3次对应元素相乘操作,并将第3次对应元素相乘操作后得到的所有特征图构成的集合记为Ride3,将Ride3中的所有特征图作为所在的交叉模态融合块的输出端输出的所有特征图。在此,对应元素相加操作、通道数叠加操作、对应元素相乘操作均为现有技术;“Sigmoid”激活函数、“torch.mean”函数、“torch.max”函数均为现有的函数,“torch.mean”函数按通道取平均得到1个通道的特征图“torch.max”函数按通道取最大得到1个通道的特征图。图2中的+表示对应元素相加操作,C表示通道数叠加操作,×表示对应元素相乘操作,σ表示“Sigmoid”激活函数。
在本实施例中,第1个卷积块包括依次连接的第一卷积层和第一激活层,第一卷积层的输入端作为第1个卷积块的输入端,第一激活层的输出端作为第1个卷积块的输出端,第2个卷积块包括依次连接的第二卷积层和第二激活层,第二卷积层的输入端作为第2个卷积块的输入端,第二激活层的输出端作为第2个卷积块的输出端,第3个卷积块包括依次连接的第三卷积层、第三激活层、第四卷积层、第四激活层,第三卷积层的输入端作为第3个卷积块的输入端,第四激活层的输出端作为第3个卷积块的输出端,第4个卷积块包括依次连接的第五卷积层、第五激活层、第六卷积层、第六激活层,第五卷积层的输入端作为第4个卷积块的输入端,第六激活层的输出端作为第4个卷积块的输出端,第5个卷积块包括依次连接的第七卷积层、第七激活层、第八卷积层、第八激活层,第七卷积层的输入端作为第5个卷积块的输入端,第八激活层的输出端作为第5个卷积块的输出端,第6个卷积块包括依次连接的第九卷积层、第九激活层、第十卷积层、第十激活层,第九卷积层的输入端作为第6个卷积块的输入端,第十激活层的输出端作为第6个卷积块的输出端,第7个卷积块包括依次连接的第十一卷积层、第十一激活层、第十二卷积层、第十二激活层,第十一卷积层的输入端作为第7个卷积块的输入端,第十二激活层的输出端作为第7个卷积块的输出端,第8个卷积块包括依次连接的第十三卷积层、第十三激活层、第十四卷积层、第十四激活层,第十三卷积层的输入端作为第8个卷积块的输入端,第十四激活层的输出端作为第8个卷积块的输出端,第9个卷积块包括依次连接的第十五卷积层、第十五激活层、第十六卷积层、第十六激活层,第十五卷积层的输入端作为第9个卷积块的输入端,第十六激活层的输出端作为第9个卷积块的输出端,第10个卷积块包括依次连接的第十七卷积层、第十七激活层、第十八卷积层、第十八激活层,第十七卷积层的输入端作为第10个卷积块的输入端,第十八激活层的输出端作为第10个卷积块的输出端,第11个卷积块包括依次连接的第十九卷积层、第十九激活层,第十九卷积层的输入端作为第11个卷积块的输入端,第十九激活层的输出端作为第11个卷积块的输出端,第12个卷积块包括依次连接的第二十卷积层、第二十激活层、第二十一卷积层、第二十一激活层,第二十卷积层的输入端作为第12个卷积块的输入端,第二十一激活层的输出端作为第12个卷积块的输出端,第13个卷积块包括依次连接的第二十二卷积层、第二十二激活层、第二十三卷积层、第二十三激活层,第二十二卷积层的输入端作为第13个卷积块的输入端,第二十三激活层的输出端作为第13个卷积块的输出端,第14个卷积块包括依次连接的第二十四卷积层、第二十四激活层,第二十四卷积层的输入端作为第14个卷积块的输入端,第二十四激活层的输出端作为第14个卷积块的输出端,第15个卷积块包括依次连接的第二十五卷积层、第二十五激活层,第二十五卷积层的输入端作为第15个卷积块的输入端,第二十五激活层的输出端作为第15个卷积块的输出端,第16个卷积块包括依次连接的第二十六卷积层、第二十六激活层,第二十六卷积层的输入端作为第16个卷积块的输入端,第二十六激活层的输出端作为第16个卷积块的输出端;其中,5个交叉模态融合块各自的第一输入端的输入通道数和第二输入端的输入通道数相等,设定第j个交叉模态融合块的第一输入端的输入通道数和第二输入端的输入通道数均为nj,j=1,2,3,4,5,n1=64,n2=64,n3=128,n4=256,n5=512,第j个交叉模态融合块中的第一卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为1,第j个交叉模态融合块中的第二卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为1,第j个交叉模态融合块中的第三卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第四卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为1,第j个交叉模态融合块中的第五卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第六卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为2、膨胀率为2,第j个交叉模态融合块中的第七卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第八卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为4、膨胀率为4,第j个交叉模态融合块中的第九卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第十卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为6、膨胀率为6,第j个交叉模态融合块中的第十一卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第十二卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为1,第j个交叉模态融合块中的第十三卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第十四卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为2、膨胀率为2,第j个交叉模态融合块中的第十五卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第十六卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为4、膨胀率为4,第j个交叉模态融合块中的第十七卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第十八卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为6、膨胀率为6,第j个交叉模态融合块中的第十九卷积层的卷积核大小为1×1、卷积核个数为nj、步长为1、补零参数的值为0,第j个交叉模态融合块中的第二十卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第二十一卷积层的卷积核大小为1×1、卷积核个数为nj、步长为1、补零参数的值为0,第j个交叉模态融合块中的第二十二卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第二十三卷积层的卷积核大小为1×1、卷积核个数为nj、步长为1、补零参数的值为0,第j个交叉模态融合块中的第二十四卷积层的卷积核大小为1×1、卷积核个数为nj、步长为1、补零参数的值为0,第j个交叉模态融合块中的第二十五卷积层的卷积核大小为1×1、卷积核个数为nj、步长为1、补零参数的值为0,第j个交叉模态融合块中的第二十六卷积层的卷积核大小为7×7、卷积核个数为1、步长为1、补零参数的值为3,第j个交叉模态融合块中的自适应最大池化层和自适应平均池化层的指定输出图片尺寸为1×1(即自适应最大池化层和自适应平均池化层各自的输出端输出的特征图的尺寸为1×1),5个交叉模态融合块中的第一激活层至第二十六激活层的激活方式都为“Relu”。
在本实施例中,步骤1_2中,如图3所示,第1个双边反转融合块由第17个卷积块和第18个卷积块组成,对像素值全为1的图像与第1个双边反转融合块的输入端接收的每幅特征图进行第1次对应元素相减操作,并将第1次对应元素相减操作后得到的所有特征图构成的集合记为Sub1,对Sub1中的所有特征图经过一个“Sigmoid”激活函数后得到的所有特征图和第1个双边反转融合块的输入端接收的所有特征图进行第4次对应元素相乘操作,并将第4次对应元素相乘操作后得到的所有特征图构成的集合记为Ride4,第17个卷积块的输入端接收Ride4中的所有特征图,对第17个卷积块的输出端输出的所有特征图和第1个双边反转融合块的输入端接收的所有特征图进行第6次通道数叠加操作,并将第6次通道数叠加操作后得到的所有特征图构成的集合记为CS6,第18个卷积块的输入端接收CS6中的所有特征图,第18个卷积块的输出端作为第1个双边反转融合块的输出端;其中,像素值全为1的图像的宽度为且高度为第1次对应元素相减操作时是像素值全为1的图像减去第1个双边反转融合块的输入端接收的每幅特征图。在此,对应元素相减操作、对应元素相乘操作、通道数叠加操作均为现有技术;“Sigmoid”激活函数为现有的函数。图3中的-表示对应元素相减操作,×表示对应元素相乘操作,C表示通道数叠加操作,σ表示“Sigmoid”激活函数。
在本实施例中,步骤1_2中,第2个双边反转融合块至第5个双边反转融合块的结构相同,如图4所示,其由第1个上采样层、第19个卷积块、第20个卷积块、第21个卷积块组成,第1个上采样层的输入端作为其所在的双边反转融合块的第二输入端,第19个卷积块的输入端接收第1个上采样层的输出端输出的所有特征图,对像素值全为1的图像与第19个卷积块的输出端输出的每幅特征图进行第2次对应元素相减操作,并将第2次对应元素相减操作后得到的所有特征图构成的集合记为Sub2,对Sub2中的所有特征图经过一个“Sigmoid”激活函数后得到的所有特征图和所在的双边反转融合块的第一输入端接收的所有特征图进行第5次对应元素相乘操作,并将第5次对应元素相乘操作后得到的所有特征图构成的集合记为Ride5,第20个卷积块的输入端接收Ride5中的所有特征图,对第20个卷积块的输出端输出的所有特征图和所在的双边反转融合块的第一输入端接收的所有特征图进行第7次通道数叠加操作,并将第7次通道数叠加操作后得到的所有特征图构成的集合记为CS7,第21个卷积块的输入端接收CS7中的所有特征图,第21个卷积块的输出端作为其所在的双边反转融合块的输出端;其中,像素值全为1的图像的宽度和高度对应与第19个卷积块的输出端输出的特征图的宽度和高度一致,第2次对应元素相减操作时是像素值全为1的图像减去第19个卷积块的输出端输出的每幅特征图,第2个双边反转融合块至第5个双边反转融合块中的第1个上采样层的放大倍数为2、插值方法为双线性插值。在此,对应元素相减操作、对应元素相乘操作、通道数叠加操作均为现有技术;“Sigmoid”激活函数为现有的函数。图4中的-表示对应元素相减操作,×表示对应元素相乘操作,C表示通道数叠加操作,σ表示“Sigmoid”激活函数。
在本实施例中,第17个卷积块包括依次连接的第二十七卷积层和第二十七激活层,第二十七卷积层的输入端作为第17个卷积块的输入端,第二十七激活层的输出端作为第17个卷积块的输出端,第18个卷积块包括依次连接的第二十八卷积层和第二十八激活层,第二十八卷积层的输入端作为第18个卷积块的输入端,第二十八激活层的输出端作为第18个卷积块的输出端,第19个卷积块包括依次连接的第二十九卷积层和第二十九激活层,第二十九卷积层的输入端作为第19个卷积块的输入端,第二十九激活层的输出端作为第19个卷积块的输出端,第20个卷积块包括依次连接的第三十卷积层和第三十激活层,第三十卷积层的输入端作为第20个卷积块的输入端,第三十激活层的输出端作为第20个卷积块的输出端,第21个卷积块包括依次连接的第三十一卷积层和第三十一激活层,第三十一卷积层的输入端作为第21个卷积块的输入端,第三十一激活层的输出端作为第21个卷积块的输出端;其中,第1个双边反转融合块的输入端的输入通道数为512,第二十七个卷积层的卷积核大小为3×3、卷积核个数为512、步长为1、补零参数的值为0,第二十八个卷积层的卷积核大小为3×3、卷积核个数为512、步长为1、补零参数的值为0,设定第i个双边反转融合块的第一输入端的输入通道数为m1i、第二输入端的输入通道数为m2i,i=2,3,4,5,m12=256,m22=512,m13=128,m23=256,m14=64,m24=128,m15=64,m25=64,第i个双边反转融合块中的第二十九个卷积层的卷积核大小为3×3、卷积核个数为m1i、步长为1、补零参数的值为0,第i个双边反转融合块中的第三十个卷积层的卷积核大小为3×3、卷积核个数为m1i、步长为1、补零参数的值为0,第i个双边反转融合块中的第三十一个卷积层的卷积核大小为3×3、卷积核个数为m1i、步长为1、补零参数的值为0,5个双边反转融合块中的第二十七激活层至第三十一激活层的激活方式都为“Relu”。
在本实施例中,步骤1_2中,多尺度一致性融合块由5个融合块组成,5个融合块的结构相同,如图5所示,融合块由第22个卷积块、第23个卷积块、第24个卷积块、第25个卷积块、第26个卷积块、第2个上采样层、第3个上采样层、第4个上采样层、第5个上采样层、第6个上采样层组成,第1个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端与多尺度一致性融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端一一对应连接,第1个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端对应接收A1中的所有特征图、A2中的所有特征图、A3中的所有特征图、A4中的所有特征图、A5中的所有特征图,第2个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端与多尺度一致性融合块的第二输入端、第一输入端、第三输入端、第四输入端、第五输入端一一对应连接,第2个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端对应接收A2中的所有特征图、A1中的所有特征图、A3中的所有特征图、A4中的所有特征图、A5中的所有特征图,第3个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端与多尺度一致性融合块的第三输入端、第一输入端、第二输入端、第四输入端、第五输入端一一对应连接,第3个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端对应接收A3中的所有特征图、A1中的所有特征图、A2中的所有特征图、A4中的所有特征图、A5中的所有特征图,第4个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端与多尺度一致性融合块的第四输入端、第一输入端、第二输入端、第三输入端、第五输入端一一对应连接,第4个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端对应接收A4中的所有特征图、A1中的所有特征图、A2中的所有特征图、A3中的所有特征图、A5中的所有特征图,第5个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端与多尺度一致性融合块的第五输入端、第一输入端、第二输入端、第三输入端、第四输入端一一对应连接,第5个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端对应接收A5中的所有特征图、A1中的所有特征图、A2中的所有特征图、A3中的所有特征图、A4中的所有特征图,第22个卷积块的输入端为其所在的融合块的第一输入端,第23个卷积块的输入端为其所在的融合块的第二输入端,第24个卷积块的输入端为其所在的融合块的第三输入端,第25个卷积块的输入端为其所在的融合块的第四输入端,第26个卷积块的输入端为其所在的融合块的第五输入端,第2个上采样层的输入端接收第23个卷积块的输出端输出的所有特征图,第3个上采样层的输入端接收第24个卷积块的输出端输出的所有特征图,第4个上采样层的输入端接收第25个卷积块的输出端输出的所有特征图,第5个上采样层的输入端接收第26个卷积块的输出端输出的所有特征图,对第2个上采样层的输出端输出的所有特征图、第3个上采样层的输出端输出的所有特征图、第4个上采样层的输出端输出的所有特征图、第5个上采样层的输出端输出的所有特征图进行第10次对应元素相加操作,并将第10次对应元素相加操作后得到的所有特征图构成的集合记为Add10,对第22个卷积块的输出端输出的所有特征图和Add10中的所有特征图进行第6次对应元素相乘操作,并将第6次对应元素相乘操作后得到的所有特征图构成的集合记为Ride6,对第22个卷积块的输出端输出的所有特征图和Ride6中的所有特征图进行第11次对应元素相加操作,并将第11次对应元素相加操作后得到的所有特征图构成的集合记为Add11,第6个上采样层的输入端接收Add11中的所有特征图经过一个“Sigmoid”激活函数后得到的所有特征图,第6个上采样层的输出端为其所在的融合块的输出端,将第1个融合块的输出端输出的所有特征图构成的集合记为Y1,将第2个融合块的输出端输出的所有特征图构成的集合记为Y2,将第3个融合块的输出端输出的所有特征图构成的集合记为Y3,将第4个融合块的输出端输出的所有特征图构成的集合记为Y4,将第5个融合块的输出端输出的所有特征图构成的集合记为Y5,对Y1中的所有特征图、Y2中的所有特征图、Y3中的所有特征图、Y4中的所有特征图、Y5中的所有特征图进行第8次通道数叠加操作,第8次通道数叠加操作后得到的所有特征图构成的集合即为Y;其中,第1个融合块中的第2个上采样层、第3个上采样层、第4个上采样层、第5个上采样层、第6个上采样层各自的放大倍数对应为32,第2个融合块中的第2个上采样层、第3个上采样层、第4个上采样层、第5个上采样层、第6个上采样层各自的放大倍数对应为2、16,第3个融合块中的第2个上采样层、第3个上采样层、第4个上采样层、第5个上采样层、第6个上采样层各自的放大倍数对应为4、2、8,第4个融合块中的第2个上采样层、第3个上采样层、第4个上采样层、第5个上采样层、第6个上采样层各自的放大倍数对应为8、4、2、4,第5个融合块中的第2个上采样层、第3个上采样层、第4个上采样层、第5个上采样层、第6个上采样层各自的放大倍数对应为16、8、4、2、2,第1个融合块至第5个融合块中的第2个上采样层、第3个上采样层、第4个上采样层、第5个上采样层、第6个上采样层各自的插值方法为双线性插值。在此,对应元素相加操作、对应元素相乘操作均为现有技术;“Sigmoid”激活函数为现有的函数。图5中的+表示对应元素相加操作,×表示对应元素相乘操作,σ表示“Sigmoid”激活函数。
在本实施例中,第22个卷积块包括依次连接的第三十二卷积层和第三十二激活层,第三十二卷积层的输入端为第22个卷积块的输入端,第三十二激活层的输出端为第22个卷积块的输出端,第23个卷积块包括依次连接的第三十三卷积层和第三十三激活层,第三十三卷积层的输入端为第23个卷积块的输入端,第三十三激活层的输出端为第23个卷积块的输出端,第24个卷积块包括依次连接的第三十四卷积层和第三十四激活层,第三十四卷积层的输入端为第24个卷积块的输入端,第三十四激活层的输出端为第24个卷积块的输出端,第25个卷积块包括依次连接的第三十五卷积层和第三十五激活层,第三十五卷积层的输入端为第25个卷积块的输入端,第三十五激活层的输出端为第25个卷积块的输出端,第26个卷积块包括依次连接的第三十六卷积层和第三十六激活层,第三十六卷积层的输入端为第26个卷积块的输入端,第三十六激活层的输出端为第26个卷积块的输出端;其中,第1个融合块至第5个融合块中的第三十二个卷积层至第三十六卷积层的卷积核大小均为3×3、卷积核个数均为32、步长均为1、补零参数的值均为0,第1个融合块至第5个融合块中的第三十二激活层到第三十六激活层的激活方式都为“Relu”。
在本实施例中,步骤1_2中,输出层包括输出卷积层,输出卷积层的输入端为输出层的输入端,输出卷积层的输出端为输出层的输出端;其中,输出卷积层的卷积核大小为3×3、卷积核个数为1、步长为1,输出卷积层为常用的卷积层。
为进一步说明本发明方法的可行性和有效性,对本发明方法进行实验。
利用pytorch库python语言编写代码对本发明方法进行实验,实验设备为英特尔i5-7500处理器,NVIDIA TITAN XP-12GB显卡下使用cuda加速。为保证实验的严谨性,本实验选定数据集为VT821、VT1000和VT5000,均为公开数据集。VT5000包含5000对3D图像,其中2500对3D图像用于训练,2500对3D图像用于检测。VT821包含821对3D图像都用于测试,VT1000包含1000对3D图像都用于测试。
在本实验中,利用评估显著性检测方法的4个常用客观参量作为评价指标:S↑(Structure-measure),用来评估显著性预测图像与标签图像中显著区域的结构相似性;adpE↑度量值、adpF↑度量值、MAE↓平均绝对误差(Mean Absolute Error)用来评价显著性预测图像的检测性能,通过计算精准率和召回率求出用来评价显著性检测方法好坏的重要指标。
利用本发明方法预测得到的显著性预测图像通过与标签图像对比,分别用S↑,adpE↑,adpF↑,MAE↓来作为评价指标评价本发明方法的好坏,三个数据集的评价指标如表1所列,由表1所列的数据可见本发明方法在三个数据集上的表现是优秀的。
表1本发明方法在三个数据集上的评测结果
图6a为待显著性物体检测的第1对3D图像的RGB图像,图6b为待显著性物体检测的第1对3D图像对应的热力图像,图6c为利用本发明方法对图6a和图6b进行处理得到的显著性预测图像,图6d为待显著性物体检测的第1对3D图像对应的标签图像;图7a为待显著性物体检测的第2对3D图像的RGB图像,图7b为待显著性物体检测的第2对3D图像对应的热力图像,图7c为利用本发明方法对图7a和图7b进行处理得到的显著性预测图像,图7d为待显著性物体检测的第2对3D图像对应的标签图像;图8a为待显著性物体检测的第3对3D图像的RGB图像,图8b为待显著性物体检测的第3对3D图像对应的热力图像,图8c为利用本发明方法对图8a和图8b进行处理得到的显著性预测图像,图8d为待显著性物体检测的第3对3D图像对应的标签图像;图9a为待显著性物体检测的第4对3D图像的RGB图像,图9b为待显著性物体检测的第4对3D图像对应的热力图像,图9c为利用本发明方法对图9a和图9b进行处理得到的显著性预测图像,图9d为待显著性物体检测的第4对3D图像对应的标签图像。图6a和图6b代表的3D图像、图7a和图7b代表的3D图像、图8a和图8b代表的3D图像、图9a和图9d代表的3D图像均是具有代表性的3D图像,其包含有背景噪声杂乱下的对象和黑暗光线下的对象,利用本发明方法对这些具有代表性的3D图像进行处理,显著性预测图像对应参见图6c、图7c、图8c、图9c,对应与图6d、图7d、图8d、图9d比较,可以发现利用本发明方法能够精准地捕捉这些复杂环境下3D图像中的显著区域。
图10a为利用本发明方法对VT821数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图,图10b为利用本发明方法对VT1000数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图,图10c为利用本发明方法对VT5000数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图。从图10a、图10b和图10c中可以看出,PR曲线下方的面积较大,说明本发明方法具有良好的检测性能。图10a、图10b和图10c中Precision代表“精准率”,Recall代表“召回率”。
Claims (9)
1.一种复杂环境下的显著性物体检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N对原始3D图像及每对原始3D图像对应的真实显著检测图像,并获取每对原始3D图像对应的热力图像,将第k对原始3D图像的RGB图像记为将第k对原始3D图像对应的热力图像记为将第k对原始3D图像对应的真实显著检测图像作为标签图像,并记为然后将所有原始3D图像的RGB图像及对应的热力图像和对应的标签图像构成训练集;其中,N为正整数,N≥200,k为正整数,1≤k≤N,1≤x≤W,1≤y≤H,W表示原始3D图像及其RGB图像、对应的热力图像、对应的标签图像的宽度,H表示原始3D图像及其RGB图像、对应的热力图像、对应的标签图像的高度,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;
步骤1_2:构建端到端的卷积神经网络:该卷积神经网络包括输入层、编码部分、解码部分和输出层,输入层包括RGB图输入层和热力图输入层,编码部分包括10个神经网络块,解码部分包括5个交叉模态融合块、5个双边反转融合块、1个多尺度一致性融合块;
对于RGB图输入层,其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给编码部分;其中,原始RGB图像的宽度为W且高度为H;
对于热力图输入层,其输入端接收一幅原始热力图像的R通道分量、G通道分量和B通道分量,其输出端输出原始热力图像的R通道分量、G通道分量和B通道分量给编码部分;其中,原始热力图像的宽度为W且高度为H;
对于编码部分,第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块依次连接构成RGB信息编码流,第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块、第10个神经网络块依次连接构成热力信息编码流;第1个神经网络块的输入端接收RGB图输入层的输出端输出的原始RGB图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S1,S1中的每幅特征图的宽度为且高度为第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S2,S2中的每幅特征图的宽度为且高度为第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S3,S3中的每幅特征图的宽度为且高度为第4个神经网络块的输入端接收S3中的所有特征图,第4个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S4,S4中的每幅特征图的宽度为且高度为第5个神经网络块的输入端接收S4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S5,S5中的每幅特征图的宽度为且高度为第6个神经网络块的输入端接收热力图输入层的输出端输出的原始热力图像的R通道分量、G通道分量和B通道分量,第6个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S6,S6中的每幅特征图的宽度为且高度为第7个神经网络块的输入端接收S6中的所有特征图,第7个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S7,S7中的每幅特征图的宽度为且高度为第8个神经网络块的输入端接收S7中的所有特征图,第8个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S8,S8中的每幅特征图的宽度为且高度为第9个神经网络块的输入端接收S8中的所有特征图,第9个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S9,S9中的每幅特征图的宽度为且高度为第10个神经网络块的输入端接收S9中的所有特征图,第10个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S10,S10中的每幅特征图的宽度为且高度为编码部分提供S1、S2、S3、S4、S5、S6、S7、S8、S9、S10中的所有特征图给解码部分;
对于解码部分,第1个交叉模态融合块的第一输入端接收S1中的所有特征图,第1个交叉模态融合块的第二输入端接收S6中的所有特征图,第1个交叉模态融合块的输出端输出64幅特征图,将这64幅特征图构成的集合记为F1,F1中的每幅特征图的宽度为且高度为第2个交叉模态融合块的第一输入端接收S2中的所有特征图,第2个交叉模态融合块的第二输入端接收S7中的所有特征图,第2个交叉模态融合块的输出端输出64幅特征图,将这64幅特征图构成的集合记为F2,F2中的每幅特征图的宽度为且高度为第3个交叉模态融合块的第一输入端接收S3中的所有特征图,第3个交叉模态融合块的第二输入端接收S8中的所有特征图,第3个交叉模态融合块的输出端输出128幅特征图,将这128幅特征图构成的集合记为F3,F3中的每幅特征图的宽度为且高度为第4个交叉模态融合块的第一输入端接收S4中的所有特征图,第4个交叉模态融合块的第二输入端接收S9中的所有特征图,第4个交叉模态融合块的输出端输出256幅特征图,将这256幅特征图构成的集合记为F4,F4中的每幅特征图的宽度为且高度为第5个交叉模态融合块的第一输入端接收S5中的所有特征图,第5个交叉模态融合块的第二输入端接收S10中的所有特征图,第5个交叉模态融合块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F5,F5中的每幅特征图的宽度为且高度为第1个双边反转融合块的输入端接收F5中的所有特征图,第1个双边反转融合块的输出端输出512幅特征图,将这512幅特征图构成的集合记为A1,A1中的每幅特征图的宽度为且高度为第2个双边反转融合块的第一输入端接收F4中的所有特征图,第2个双边反转融合块的第二输入端接收A1中的所有特征图,第2个双边反转融合块的输出端输出256幅特征图,将这256幅特征图构成的集合记为A2,A2中的每幅特征图的宽度为且高度为第3个双边反转融合块的第一输入端接收F3中的所有特征图,第3个双边反转融合块的第二输入端接收A2中的所有特征图,第3个双边反转融合块的输出端输出128幅特征图,将这128幅特征图构成的集合记为A3,A3中的每幅特征图的宽度为且高度为第4个双边反转融合块的第一输入端接收F2中的所有特征图,第4个双边反转融合块的第二输入端接收A3中的所有特征图,第4个双边反转融合块的输出端输出64幅特征图,将这64幅特征图构成的集合记为A4,A4中的每幅特征图的宽度为且高度为第5个双边反转融合块的第一输入端接收F1中的所有特征图,第5个双边反转融合块的第二输入端接收A4中的所有特征图,第5个双边反转融合块的输出端输出64幅特征图,将这64幅特征图构成的集合记为A5,A5中的每幅特征图的宽度为且高度为多尺度一致性融合块的第一输入端接收A1中的所有特征图,多尺度一致性融合块的第二输入端接收A2中的所有特征图,多尺度一致性融合块的第三输入端接收A3中的所有特征图,多尺度一致性融合块的第四输入端接收A4中的所有特征图,多尺度一致性融合块的第五输入端接收A5中的所有特征图,多尺度一致性融合块的输出端输出160幅特征图,将这160幅特征图构成的集合记为Y,Y中的每幅特征图的宽度为W且高度为H;解码部分提供Y中的所有特征图给输出层;
对于输出层,其输入端接收Y中的所有特征图,其输出端输出1幅宽度为W且高度为H的特征图,作为显著性检测图;
步骤1_3:将训练集中的每对原始3D图像的RGB图像作为原始RGB图像,并将训练集中的每对原始3D图像对应的热力图像作为原始热力图像,输入到卷积神经网络中进行训练,输出训练集中的每对原始3D图像对应的显著性预测图像,将第k对原始3D图像对应的显著性预测图像记为其中,表示中坐标位置为(x,y)的像素点的像素值;
步骤1_5:重复执行步骤1_3和步骤1_4共Num次,训练得到卷积神经网络训练模型,并共得到N×Num个损失函数值;然后从N×Num个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值相应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项;其中,Num≥50;
所述的测试阶段过程的具体步骤为:
步骤2_1:对于任意一对待显著性物体检测的3D图像,获取该3D图像对应的热力图像;然后将该3D图像的RGB图像作为原始RGB图像,并将该3D图像对应的热力图像作为原始热力图像,输入到卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,预测得到该3D图像对应的显著性预测图像。
2.根据权利要求1所述的一种复杂环境下的显著性物体检测方法,其特征在于所述的步骤1_2中,5个交叉模态融合块的结构相同,其由第1个卷积块至第16个卷积块、1个自适应最大池化层、1个自适应平均池化层组成,第1个卷积块的输入端为其所在的交叉模态融合块的第一输入端,第2个卷积块的输入端为其所在的交叉模态融合块的第二输入端,第3个卷积块的输入端接收第1个卷积块的输出端输出的所有特征图,对第1个卷积块的输出端输出的所有特征图和第3个卷积块的输出端输出的所有特征图进行第1次对应元素相加操作,并将第1次对应元素相加操作后得到的所有特征图构成的集合记为Add1,第4个卷积块的输入端接收Add1中的所有特征图,对第1个卷积块的输出端输出的所有特征图、第3个卷积块的输出端输出的所有特征图、第4个卷积块的输出端输出的所有特征图进行第2次对应元素相加操作,并将第2次对应元素相加操作后得到的所有特征图构成的集合记为Add2,第5个卷积块的输入端接收Add2中的所有特征图,对第1个卷积块的输出端输出的所有特征图、第3个卷积块的输出端输出的所有特征图、第4个卷积块的输出端输出的所有特征图、第5个卷积块的输出端输出的所有特征图进行第3次对应元素相加操作,并将第3次对应元素相加操作后得到的所有特征图构成的集合记为Add3,第6个卷积块的输入端接收Add3中的所有特征图,对第3个卷积块的输出端输出的所有特征图、第4个卷积块的输出端输出的所有特征图、第5个卷积块的输出端输出的所有特征图、第6个卷积块的输出端输出的所有特征图进行第1次通道数叠加操作,并将第1次通道数叠加操作后得到的所有特征图构成的集合记为CS1,第7个卷积块的输入端接收第2个卷积块的输出端输出的所有特征图,对第2个卷积块的输出端输出的所有特征图和第7个卷积块的输出端输出的所有特征图进行第4次对应元素相加操作,并将第4次对应元素相加操作后得到的所有特征图构成的集合记为Add4,第8个卷积块的输入端接收Add4中的所有特征图,对第2个卷积块的输出端输出的所有特征图、第7个卷积块的输出端输出的所有特征图、第8个卷积块的输出端输出的所有特征图进行第5次对应元素相加操作,并将第5次对应元素相加操作后得到的所有特征图构成的集合记为Add5,第9个卷积块的输入端接收Add5中的所有特征图,对第2个卷积块的输出端输出的所有特征图、第7个卷积块的输出端输出的所有特征图、第8个卷积块的输出端输出的所有特征图、第9个卷积块的输出端输出的所有特征图进行第6次对应元素相加操作,并将第6次对应元素相加操作后得到的所有特征图构成的集合记为Add6,第10个卷积块的输入端接收Add6中的所有特征图,对第7个卷积块的输出端输出的所有特征图、第8个卷积块的输出端输出的所有特征图、第9个卷积块的输出端输出的所有特征图、第10个卷积块的输出端输出的所有特征图进行第2次通道数叠加操作,并将第2次通道数叠加操作后得到的所有特征图构成的集合记为CS2,对CS1中的所有特征图和CS2中的所有特征图进行第1次对应元素相乘操作,并将第1次对应元素相乘操作后得到的所有特征图构成的集合记为Ride1,第14个卷积块的输入端接收Ride1中的所有特征图,对CS1中的所有特征图和第14个卷积块的输出端输出的所有特征图进行第7次对应元素相加操作,并将第7次对应元素相加操作后得到的所有特征图构成的集合记为Add7,对CS2中的所有特征图和第14个卷积块的输出端输出的所有特征图进行第8次对应元素相加操作,并将第8次对应元素相加操作后得到的所有特征图构成的集合记为Add8,对第1个卷积块的输出端输出的所有特征图和第2个卷积块的输出端输出的所有特征图进行第3次通道数叠加操作,并将第3次通道数叠加操作后得到的所有特征图构成的集合记为CS3,第11个卷积块的输入端接收CS3中的所有特征图,自适应最大池化层的输入端接收第11个卷积块的输出端输出的所有特征图,自适应平均池化层的输入端接收第11个卷积块的输出端输出的所有特征图,第12个卷积块的输入端接收自适应最大池化层的输出端输出的所有特征图,第13个卷积块的输入端接收自适应平均池化层的输出端输出的所有特征图,对第12个卷积块的输出端输出的所有特征图和第13个卷积块的输出端输出的所有特征图进行第9次对应元素相加操作,并将第9次对应元素相加操作后得到的所有特征图构成的集合记为Add9,对Add9中的所有特征图经过一个“Sigmoid”激活函数后得到的所有特征图和第11个卷积块的输出端输出的所有特征图进行第2次对应元素相乘操作,并将第2次对应元素相乘操作后得到的所有特征图构成的集合记为Ride2,对Add7中的所有特征图、Add8中的所有特征图、Ride2中的所有特征图进行第4次通道数叠加操作,并将第4次通道数叠加操作后得到的所有特征图构成的集合记为CS4,第15个卷积块的输入端接收CS4中的所有特征图,对第15个卷积块的输出端输出的所有特征图经过一个“torch.mean”函数后得到的所有特征图和第15个卷积块的输出端输出的所有特征图经过一个“torch.max”函数后得到的所有特征图进行第5次通道数叠加操作,并将第5次通道数叠加操作后得到的所有特征图构成的集合记为CS5,第16个卷积块的输入端接收CS5中的所有特征图,对第16个卷积块的输出端输出的所有特征图经过一个“Sigmoid”激活函数后得到的所有特征图和第15个卷积块的输出端输出的所有特征图进行第3次对应元素相乘操作,并将第3次对应元素相乘操作后得到的所有特征图构成的集合记为Ride3,将Ride3中的所有特征图作为所在的交叉模态融合块的输出端输出的所有特征图。
3.根据权利要求2所述的一种复杂环境下的显著性物体检测方法,其特征在于第1个卷积块包括依次连接的第一卷积层和第一激活层,第一卷积层的输入端作为第1个卷积块的输入端,第一激活层的输出端作为第1个卷积块的输出端,第2个卷积块包括依次连接的第二卷积层和第二激活层,第二卷积层的输入端作为第2个卷积块的输入端,第二激活层的输出端作为第2个卷积块的输出端,第3个卷积块包括依次连接的第三卷积层、第三激活层、第四卷积层、第四激活层,第三卷积层的输入端作为第3个卷积块的输入端,第四激活层的输出端作为第3个卷积块的输出端,第4个卷积块包括依次连接的第五卷积层、第五激活层、第六卷积层、第六激活层,第五卷积层的输入端作为第4个卷积块的输入端,第六激活层的输出端作为第4个卷积块的输出端,第5个卷积块包括依次连接的第七卷积层、第七激活层、第八卷积层、第八激活层,第七卷积层的输入端作为第5个卷积块的输入端,第八激活层的输出端作为第5个卷积块的输出端,第6个卷积块包括依次连接的第九卷积层、第九激活层、第十卷积层、第十激活层,第九卷积层的输入端作为第6个卷积块的输入端,第十激活层的输出端作为第6个卷积块的输出端,第7个卷积块包括依次连接的第十一卷积层、第十一激活层、第十二卷积层、第十二激活层,第十一卷积层的输入端作为第7个卷积块的输入端,第十二激活层的输出端作为第7个卷积块的输出端,第8个卷积块包括依次连接的第十三卷积层、第十三激活层、第十四卷积层、第十四激活层,第十三卷积层的输入端作为第8个卷积块的输入端,第十四激活层的输出端作为第8个卷积块的输出端,第9个卷积块包括依次连接的第十五卷积层、第十五激活层、第十六卷积层、第十六激活层,第十五卷积层的输入端作为第9个卷积块的输入端,第十六激活层的输出端作为第9个卷积块的输出端,第10个卷积块包括依次连接的第十七卷积层、第十七激活层、第十八卷积层、第十八激活层,第十七卷积层的输入端作为第10个卷积块的输入端,第十八激活层的输出端作为第10个卷积块的输出端,第11个卷积块包括依次连接的第十九卷积层、第十九激活层,第十九卷积层的输入端作为第11个卷积块的输入端,第十九激活层的输出端作为第11个卷积块的输出端,第12个卷积块包括依次连接的第二十卷积层、第二十激活层、第二十一卷积层、第二十一激活层,第二十卷积层的输入端作为第12个卷积块的输入端,第二十一激活层的输出端作为第12个卷积块的输出端,第13个卷积块包括依次连接的第二十二卷积层、第二十二激活层、第二十三卷积层、第二十三激活层,第二十二卷积层的输入端作为第13个卷积块的输入端,第二十三激活层的输出端作为第13个卷积块的输出端,第14个卷积块包括依次连接的第二十四卷积层、第二十四激活层,第二十四卷积层的输入端作为第14个卷积块的输入端,第二十四激活层的输出端作为第14个卷积块的输出端,第15个卷积块包括依次连接的第二十五卷积层、第二十五激活层,第二十五卷积层的输入端作为第15个卷积块的输入端,第二十五激活层的输出端作为第15个卷积块的输出端,第16个卷积块包括依次连接的第二十六卷积层、第二十六激活层,第二十六卷积层的输入端作为第16个卷积块的输入端,第二十六激活层的输出端作为第16个卷积块的输出端;其中,5个交叉模态融合块各自的第一输入端的输入通道数和第二输入端的输入通道数相等,设定第j个交叉模态融合块的第一输入端的输入通道数和第二输入端的输入通道数均为nj,j=1,2,3,4,5,n1=64,n2=64,n3=128,n4=256,n5=512,第j个交叉模态融合块中的第一卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为1,第j个交叉模态融合块中的第二卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为1,第j个交叉模态融合块中的第三卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第四卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为1,第j个交叉模态融合块中的第五卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第六卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为2、膨胀率为2,第j个交叉模态融合块中的第七卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第八卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为4、膨胀率为4,第j个交叉模态融合块中的第九卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第十卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为6、膨胀率为6,第j个交叉模态融合块中的第十一卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第十二卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为1,第j个交叉模态融合块中的第十三卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第十四卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为2、膨胀率为2,第j个交叉模态融合块中的第十五卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第十六卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为4、膨胀率为4,第j个交叉模态融合块中的第十七卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第十八卷积层的卷积核大小为3×3、卷积核个数为nj、步长为1、补零参数的值为6、膨胀率为6,第j个交叉模态融合块中的第十九卷积层的卷积核大小为1×1、卷积核个数为nj、步长为1、补零参数的值为0,第j个交叉模态融合块中的第二十卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第二十一卷积层的卷积核大小为1×1、卷积核个数为nj、步长为1、补零参数的值为0,第j个交叉模态融合块中的第二十二卷积层的卷积核大小为1×1、卷积核个数为步长为1、补零参数的值为0,第j个交叉模态融合块中的第二十三卷积层的卷积核大小为1×1、卷积核个数为nj、步长为1、补零参数的值为0,第j个交叉模态融合块中的第二十四卷积层的卷积核大小为1×1、卷积核个数为nj、步长为1、补零参数的值为0,第j个交叉模态融合块中的第二十五卷积层的卷积核大小为1×1、卷积核个数为nj、步长为1、补零参数的值为0,第j个交叉模态融合块中的第二十六卷积层的卷积核大小为7×7、卷积核个数为1、步长为1、补零参数的值为3,第j个交叉模态融合块中的自适应最大池化层和自适应平均池化层的指定输出图片尺寸为1×1,5个交叉模态融合块中的第一激活层至第二十六激活层的激活方式都为“Relu”。
4.根据权利要求1至3中任一项所述的一种复杂环境下的显著性物体检测方法,其特征在于所述的步骤1_2中,第1个双边反转融合块由第17个卷积块和第18个卷积块组成,对像素值全为1的图像与第1个双边反转融合块的输入端接收的每幅特征图进行第1次对应元素相减操作,并将第1次对应元素相减操作后得到的所有特征图构成的集合记为Sub1,对Sub1中的所有特征图经过一个“Sigmoid”激活函数后得到的所有特征图和第1个双边反转融合块的输入端接收的所有特征图进行第4次对应元素相乘操作,并将第4次对应元素相乘操作后得到的所有特征图构成的集合记为Ride4,第17个卷积块的输入端接收Ride4中的所有特征图,对第17个卷积块的输出端输出的所有特征图和第1个双边反转融合块的输入端接收的所有特征图进行第6次通道数叠加操作,并将第6次通道数叠加操作后得到的所有特征图构成的集合记为CS6,第18个卷积块的输入端接收CS6中的所有特征图,第18个卷积块的输出端作为第1个双边反转融合块的输出端;其中,像素值全为1的图像的宽度为且高度为第1次对应元素相减操作时是像素值全为1的图像减去第1个双边反转融合块的输入端接收的每幅特征图。
5.根据权利要求4所述的一种复杂环境下的显著性物体检测方法,其特征在于所述的步骤1_2中,第2个双边反转融合块至第5个双边反转融合块的结构相同,其由第1个上采样层、第19个卷积块、第20个卷积块、第21个卷积块组成,第1个上采样层的输入端作为其所在的双边反转融合块的第二输入端,第19个卷积块的输入端接收第1个上采样层的输出端输出的所有特征图,对像素值全为1的图像与第19个卷积块的输出端输出的每幅特征图进行第2次对应元素相减操作,并将第2次对应元素相减操作后得到的所有特征图构成的集合记为Sub2,对Sub2中的所有特征图经过一个“Sigmoid”激活函数后得到的所有特征图和所在的双边反转融合块的第一输入端接收的所有特征图进行第5次对应元素相乘操作,并将第5次对应元素相乘操作后得到的所有特征图构成的集合记为Ride5,第20个卷积块的输入端接收Ride5中的所有特征图,对第20个卷积块的输出端输出的所有特征图和所在的双边反转融合块的第一输入端接收的所有特征图进行第7次通道数叠加操作,并将第7次通道数叠加操作后得到的所有特征图构成的集合记为CS7,第21个卷积块的输入端接收CS7中的所有特征图,第21个卷积块的输出端作为其所在的双边反转融合块的输出端;其中,像素值全为1的图像的宽度和高度对应与第19个卷积块的输出端输出的特征图的宽度和高度一致,第2次对应元素相减操作时是像素值全为1的图像减去第19个卷积块的输出端输出的每幅特征图,第2个双边反转融合块至第5个双边反转融合块中的第1个上采样层的放大倍数为2、插值方法为双线性插值。
6.根据权利要求5所述的一种复杂环境下的显著性物体检测方法,其特征在于第17个卷积块包括依次连接的第二十七卷积层和第二十七激活层,第二十七卷积层的输入端作为第17个卷积块的输入端,第二十七激活层的输出端作为第17个卷积块的输出端,第18个卷积块包括依次连接的第二十八卷积层和第二十八激活层,第二十八卷积层的输入端作为第18个卷积块的输入端,第二十八激活层的输出端作为第18个卷积块的输出端,第19个卷积块包括依次连接的第二十九卷积层和第二十九激活层,第二十九卷积层的输入端作为第19个卷积块的输入端,第二十九激活层的输出端作为第19个卷积块的输出端,第20个卷积块包括依次连接的第三十卷积层和第三十激活层,第三十卷积层的输入端作为第20个卷积块的输入端,第三十激活层的输出端作为第20个卷积块的输出端,第21个卷积块包括依次连接的第三十一卷积层和第三十一激活层,第三十一卷积层的输入端作为第21个卷积块的输入端,第三十一激活层的输出端作为第21个卷积块的输出端;其中,第1个双边反转融合块的输入端的输入通道数为512,第二十七个卷积层的卷积核大小为3×3、卷积核个数为512、步长为1、补零参数的值为0,第二十八个卷积层的卷积核大小为3×3、卷积核个数为512、步长为1、补零参数的值为0,设定第i个双边反转融合块的第一输入端的输入通道数为m1i、第二输入端的输入通道数为m2i,i=2,3,4,5,m12=256,m22=512,m13=128,m23=256,m14=64,m24=128,m15=64,m25=64,第i个双边反转融合块中的第二十九个卷积层的卷积核大小为3×3、卷积核个数为m1i、步长为1、补零参数的值为0,第i个双边反转融合块中的第三十个卷积层的卷积核大小为3×3、卷积核个数为m1i、步长为1、补零参数的值为0,第i个双边反转融合块中的第三十一个卷积层的卷积核大小为3×3、卷积核个数为m1i、步长为1、补零参数的值为0,5个双边反转融合块中的第二十七激活层至第三十一激活层的激活方式都为“Relu”。
7.根据权利要求6所述的一种复杂环境下的显著性物体检测方法,其特征在于所述的步骤1_2中,多尺度一致性融合块由5个融合块组成,5个融合块的结构相同,融合块由第22个卷积块、第23个卷积块、第24个卷积块、第25个卷积块、第26个卷积块、第2个上采样层、第3个上采样层、第4个上采样层、第5个上采样层、第6个上采样层组成,第1个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端与多尺度一致性融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端一一对应连接,第1个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端对应接收A1中的所有特征图、A2中的所有特征图、A3中的所有特征图、A4中的所有特征图、A5中的所有特征图,第2个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端与多尺度一致性融合块的第二输入端、第一输入端、第三输入端、第四输入端、第五输入端一一对应连接,第2个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端对应接收A2中的所有特征图、A1中的所有特征图、A3中的所有特征图、A4中的所有特征图、A5中的所有特征图,第3个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端与多尺度一致性融合块的第三输入端、第一输入端、第二输入端、第四输入端、第五输入端一一对应连接,第3个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端对应接收A3中的所有特征图、A1中的所有特征图、A2中的所有特征图、A4中的所有特征图、A5中的所有特征图,第4个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端与多尺度一致性融合块的第四输入端、第一输入端、第二输入端、第三输入端、第五输入端一一对应连接,第4个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端对应接收A4中的所有特征图、A1中的所有特征图、A2中的所有特征图、A3中的所有特征图、A5中的所有特征图,第5个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端与多尺度一致性融合块的第五输入端、第一输入端、第二输入端、第三输入端、第四输入端一一对应连接,第5个融合块的第一输入端、第二输入端、第三输入端、第四输入端、第五输入端对应接收A5中的所有特征图、A1中的所有特征图、A2中的所有特征图、A3中的所有特征图、A4中的所有特征图,第22个卷积块的输入端为其所在的融合块的第一输入端,第23个卷积块的输入端为其所在的融合块的第二输入端,第24个卷积块的输入端为其所在的融合块的第三输入端,第25个卷积块的输入端为其所在的融合块的第四输入端,第26个卷积块的输入端为其所在的融合块的第五输入端,第2个上采样层的输入端接收第23个卷积块的输出端输出的所有特征图,第3个上采样层的输入端接收第24个卷积块的输出端输出的所有特征图,第4个上采样层的输入端接收第25个卷积块的输出端输出的所有特征图,第5个上采样层的输入端接收第26个卷积块的输出端输出的所有特征图,对第2个上采样层的输出端输出的所有特征图、第3个上采样层的输出端输出的所有特征图、第4个上采样层的输出端输出的所有特征图、第5个上采样层的输出端输出的所有特征图进行第10次对应元素相加操作,并将第10次对应元素相加操作后得到的所有特征图构成的集合记为Add10,对第22个卷积块的输出端输出的所有特征图和Add10中的所有特征图进行第6次对应元素相乘操作,并将第6次对应元素相乘操作后得到的所有特征图构成的集合记为Ride6,对第22个卷积块的输出端输出的所有特征图和Ride6中的所有特征图进行第11次对应元素相加操作,并将第11次对应元素相加操作后得到的所有特征图构成的集合记为Add11,第6个上采样层的输入端接收Add11中的所有特征图经过一个“Sigmoid”激活函数后得到的所有特征图,第6个上采样层的输出端为其所在的融合块的输出端,将第1个融合块的输出端输出的所有特征图构成的集合记为Y1,将第2个融合块的输出端输出的所有特征图构成的集合记为Y2,将第3个融合块的输出端输出的所有特征图构成的集合记为Y3,将第4个融合块的输出端输出的所有特征图构成的集合记为Y4,将第5个融合块的输出端输出的所有特征图构成的集合记为Y5,对Y1中的所有特征图、Y2中的所有特征图、Y3中的所有特征图、Y4中的所有特征图、Y5中的所有特征图进行第8次通道数叠加操作,第8次通道数叠加操作后得到的所有特征图构成的集合即为Y;其中,第1个融合块中的第2个上采样层、第3个上采样层、第4个上采样层、第5个上采样层、第6个上采样层各自的放大倍数对应为32,第2个融合块中的第2个上采样层、第3个上采样层、第4个上采样层、第5个上采样层、第6个上采样层各自的放大倍数对应为2、16,第3个融合块中的第2个上采样层、第3个上采样层、第4个上采样层、第5个上采样层、第6个上采样层各自的放大倍数对应为4、2、8,第4个融合块中的第2个上采样层、第3个上采样层、第4个上采样层、第5个上采样层、第6个上采样层各自的放大倍数对应为8、4、2、4,第5个融合块中的第2个上采样层、第3个上采样层、第4个上采样层、第5个上采样层、第6个上采样层各自的放大倍数对应为16、8、4、2、2,第1个融合块至第5个融合块中的第2个上采样层、第3个上采样层、第4个上采样层、第5个上采样层、第6个上采样层各自的插值方法为双线性插值。
8.根据权利要求7所述的一种复杂环境下的显著性物体检测方法,其特征在于第22个卷积块包括依次连接的第三十二卷积层和第三十二激活层,第三十二卷积层的输入端为第22个卷积块的输入端,第三十二激活层的输出端为第22个卷积块的输出端,第23个卷积块包括依次连接的第三十三卷积层和第三十三激活层,第三十三卷积层的输入端为第23个卷积块的输入端,第三十三激活层的输出端为第23个卷积块的输出端,第24个卷积块包括依次连接的第三十四卷积层和第三十四激活层,第三十四卷积层的输入端为第24个卷积块的输入端,第三十四激活层的输出端为第24个卷积块的输出端,第25个卷积块包括依次连接的第三十五卷积层和第三十五激活层,第三十五卷积层的输入端为第25个卷积块的输入端,第三十五激活层的输出端为第25个卷积块的输出端,第26个卷积块包括依次连接的第三十六卷积层和第三十六激活层,第三十六卷积层的输入端为第26个卷积块的输入端,第三十六激活层的输出端为第26个卷积块的输出端;其中,第1个融合块至第5个融合块中的第三十二个卷积层至第三十六卷积层的卷积核大小均为3×3、卷积核个数均为32、步长均为1、补零参数的值均为0,第1个融合块至第5个融合块中的第三十二激活层到第三十六激活层的激活方式都为“Relu”。
9.根据权利要求8所述的一种复杂环境下的显著性物体检测方法,其特征在于所述的步骤1_2中,输出层包括输出卷积层,输出卷积层的输入端为输出层的输入端,输出卷积层的输出端为输出层的输出端;其中,输出卷积层的卷积核大小为3×3、卷积核个数为1、步长为1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110018586.4A CN112700426A (zh) | 2021-01-07 | 2021-01-07 | 一种复杂环境下的显著性物体检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110018586.4A CN112700426A (zh) | 2021-01-07 | 2021-01-07 | 一种复杂环境下的显著性物体检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112700426A true CN112700426A (zh) | 2021-04-23 |
Family
ID=75515034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110018586.4A Withdrawn CN112700426A (zh) | 2021-01-07 | 2021-01-07 | 一种复杂环境下的显著性物体检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112700426A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269197A (zh) * | 2021-04-25 | 2021-08-17 | 南京三百云信息科技有限公司 | 基于语义分割的证件图像顶点坐标回归系统和识别方法 |
CN114092774B (zh) * | 2021-11-22 | 2023-08-15 | 沈阳工业大学 | 基于信息流融合的rgb-t图像显著性检测系统及检测方法 |
-
2021
- 2021-01-07 CN CN202110018586.4A patent/CN112700426A/zh not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269197A (zh) * | 2021-04-25 | 2021-08-17 | 南京三百云信息科技有限公司 | 基于语义分割的证件图像顶点坐标回归系统和识别方法 |
CN113269197B (zh) * | 2021-04-25 | 2024-03-08 | 南京三百云信息科技有限公司 | 基于语义分割的证件图像顶点坐标回归系统和识别方法 |
CN114092774B (zh) * | 2021-11-22 | 2023-08-15 | 沈阳工业大学 | 基于信息流融合的rgb-t图像显著性检测系统及检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Efficient and model-based infrared and visible image fusion via algorithm unrolling | |
CN111723732B (zh) | 一种光学遥感图像变化检测方法、存储介质及计算设备 | |
CN110246148B (zh) | 多模态的深度信息融合和注意力学习的显著性检测方法 | |
CN111080629A (zh) | 一种图像拼接篡改的检测方法 | |
Liu et al. | Variable augmented neural network for decolorization and multi-exposure fusion | |
CN110263813B (zh) | 一种基于残差网络和深度信息融合的显著性检测方法 | |
CN109743642B (zh) | 基于分层循环神经网络的视频摘要生成方法 | |
CN108280411A (zh) | 一种具有空间变换能力的行人搜索方法 | |
CN108154133B (zh) | 基于非对称联合学习的人脸画像-照片识别方法 | |
Zeng et al. | LEARD-Net: Semantic segmentation for large-scale point cloud scene | |
CN110020658B (zh) | 一种基于多任务深度学习的显著目标检测方法 | |
CN110837786B (zh) | 基于空间通道的密度图产生方法、装置、电子终端及介质 | |
CN109977834B (zh) | 从深度图像中分割人手与交互物体的方法和装置 | |
CN110570402B (zh) | 基于边界感知神经网络的双目显著物体检测方法 | |
CN112700426A (zh) | 一种复杂环境下的显著性物体检测方法 | |
CN112070159A (zh) | 一种多尺度滑窗相似图片检测方法 | |
CN112991364A (zh) | 基于卷积神经网络跨模态融合的道路场景语义分割方法 | |
CN112529862A (zh) | 一种交互循环特征重塑的显著性图像检测方法 | |
CN113988147A (zh) | 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置 | |
CN111310767A (zh) | 一种基于边界增强的显著性检测方法 | |
CN116703885A (zh) | 一种基于Swin Transformer的表面缺陷检测方法及系统 | |
CN107392211A (zh) | 基于视觉稀疏认知的显著目标检测方法 | |
Li et al. | Image reflection removal using end‐to‐end convolutional neural network | |
Shit et al. | An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection | |
CN111242003B (zh) | 一种基于多尺度受约束自注意机制的视频显著性物体检测的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210423 |