CN113343822B - 一种基于3d卷积的光场显著性目标检测方法 - Google Patents

一种基于3d卷积的光场显著性目标检测方法 Download PDF

Info

Publication number
CN113343822B
CN113343822B CN202110600616.2A CN202110600616A CN113343822B CN 113343822 B CN113343822 B CN 113343822B CN 202110600616 A CN202110600616 A CN 202110600616A CN 113343822 B CN113343822 B CN 113343822B
Authority
CN
China
Prior art keywords
convolution
module
layer
light field
target detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110600616.2A
Other languages
English (en)
Other versions
CN113343822A (zh
Inventor
王昕�
熊高敏
张钊
冯进
于海潮
高隽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202110600616.2A priority Critical patent/CN113343822B/zh
Publication of CN113343822A publication Critical patent/CN113343822A/zh
Application granted granted Critical
Publication of CN113343822B publication Critical patent/CN113343822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于3D卷积的光场显著性目标检测方法,包括:1、对光场数据进行重聚焦,得到不同聚焦参数下的光场数据;2、对重聚焦后的光场数据进行解码,得到聚焦在场景不同深度下的焦点堆栈;3、对焦点堆栈进行数据增强;4、构建基于3D卷积的深度卷积神经网络,以焦点堆栈作为输入,对深度卷积神经网络进行训练,得到光场显著性目标检测模型;5、利用训练好的模型对待检测的焦点堆栈进行显著性目标检测,并评估模型在待检测的焦点堆栈上的精度。本发明能实现基于3D卷积的光场显著性目标检测,有效提高复杂多变环境下场景的显著性目标检测的准确性。

Description

一种基于3D卷积的光场显著性目标检测方法
技术领域
本发明属于计算机视觉中、图像处理和分析领域,具体地说是一种基于3D卷积的光场显著性目标检测方法。
背景技术
视觉显著性是人类视觉系统的一种注意力机制,当我们在观察一个场景时,场景中往往有一个显著的区域吸引我们的注意力,自然的,我们会忽略那些非显著的区域,这样人类可以快速地处理大量的图像数据。显著性目标检测是指计算机模拟人类视觉系统快速准确的定位视野中感兴趣的区域或目标,准确的显著性目标检测可以为目标检测和识别,图像分割,视觉跟踪提供可靠的先验信息。
根据不同类型的输入数据,显著性目标检测主要分为三类:(1)基于RGB图像的显著性目标检测;(2)基于RGB-D图像的显著性目标检测;(3)基于光场的显著性目标检测。在高光或暗光,部分遮挡,背景杂乱,前景和背景相似等复杂场景下,以RGB图像作为输入很难有效的检测出显著性目标或区域。以RGB-D图像作为输入的方法,同时输入RGB图像和深度图,额外引入了深度信息,已经被证明可以提高显著性目标检测的性能,但是如果深度图的质量较差时,反而会导致显著性目标检测的效果变差。光场是指通过空间中每一点在各个方向传播的光的数量,其同时记录了光辐射在空间中的位置信息和视角信息,对自然场景的描述更加完整。
目前,已经有几项工作研究基于光场的显著性目标检测,这些工作大致分为基于特征的方法和基于学习的方法。基于特征的方法是在光场焦点堆栈、全聚焦图像的基础上,利用色彩、深度、背景先验等信息来估计显著性目标。这类方法只考虑到几种有限的特征,检测精度往往不高。基于学习的方法通过一定量的训练数据来训练一个显著性目标检测模型,利用训练的模型在测试数据上进行测试。基于学习的方法依赖于深度神经网络强大的学习能力,融合了多种特征,相较于基于特征的方法,在检测精度上有了很大的提升。但是这些基于学习的方法仍存在不足之处:1、基于学习的方法大都在自己提出的光场显著性目标检测数据集上进行训练测试,缺乏相互之间的比较,难以体现该模型在其他的光场显著性目标检测数据集上仍能取得良好的显著性目标检测结果;2、基于学习的方法大都用到了焦点堆栈,这些方法将焦点堆栈简单的堆叠在一起,扩充了通道维度,使用2D卷积提取焦点堆栈的特征,忽略了焦点堆栈不同聚焦图像之间焦点连续变化的关联信息,在复杂场景下,很难得到精确的光场显著性目标检测结果;3、另一部分基于学习的光场显著性目标检测方法使用中央视角图像、视角图像作为输入,考虑多视角信息对光场显著性目标检测的有益性,但实验结果表明,视角信息并不能很好的提升光场显著性目标检测的性能。
发明内容
本发明为解决现有技术中的不足之处,提供一种基于3D卷积的光场显著性目标检测方法,旨在解决从光场焦点堆栈中高效的提取特征的问题,通过构建基于3D卷积的深度神经网络,得到能够在复杂场景下有效的检测出显著性目标的光场显著性目标检测特征模型,从而提高复杂多变环境下光场显著性目标检测的精度和准确性。
为解决上述技术问题,本发明采用的技术方案是:
本发明一种基于3D卷积的光场显著性目标检测方法的特点是按照如下步骤进行:
步骤1、对光场数据进行重聚焦,得到不同聚焦参数下的光场数据;
步骤1.1、将第n个场景的光场数据用
Figure GDA0003696028260000021
进行表示,其中,u和v分别表示视角维度中的任一水平视角和竖直视角,且
Figure GDA0003696028260000022
M表示水平和竖直方向的最大视角数;x和y分别表示空间维度中任一水平方向和竖直方向的像素点坐标,且x∈[1,X],y∈[1,Y],X,Y分别表示视角图像的最大空间宽度和最大空间高度;n∈[1,N],N表示光场数据的数目,F表示光场相机主透镜到传感器的距离;
步骤1.2、对所述第n个场景的光场数据
Figure GDA0003696028260000023
在虚拟焦平面Fα处进行重聚焦,得到重聚焦后的光场数据
Figure GDA0003696028260000024
其中,Fα′为虚拟焦平面Fα到相机主透镜的距离,x′和y′分别表示重聚焦后视角图像空间维度中任一水平方向和竖直方向的像素点坐标;
步骤2、对重聚焦后的光场数据
Figure GDA0003696028260000025
进行解码,得到聚焦在场景不同深度下的焦点堆栈;
步骤2.1、利用式(1)对重聚焦后的光场
Figure GDA0003696028260000026
进行计算成像,得到第n个场景在虚拟焦平面Fα处的图像
Figure GDA0003696028260000027
Figure GDA0003696028260000028
式(1)中,α表示虚拟焦平面Fα至传感器的距离与光场相机主透镜至传感器的距离F的比例系数;
步骤2.2、取不同的比例系数α,并重复步骤1.2至步骤2.1,从而得到一系列聚焦在场景不同深度的图像
Figure GDA0003696028260000029
并作为第n个场景的焦点堆栈,记为
Figure GDA0003696028260000031
其中,
Figure GDA0003696028260000032
表示第n个场景的第m幅重聚焦图像,m∈[1,M],M表示焦点堆栈包含的重聚焦图像数量,
Figure GDA0003696028260000033
的高度、宽度和通道数分别为H,W,C;
步骤3、对所述第n个场景的焦点堆栈
Figure GDA0003696028260000034
包含的重聚焦图像进行数据增强处理,得到第n个场景数据增强后的重聚焦图像集合,即数据增强后的焦点堆栈,记为
Figure GDA0003696028260000035
将所述第n个场景的真实显著图记为Gn,对所述第n个场景的真实显著图Gn进行与重聚焦图像相对应的数据增强处理,得到数据增强后的真实显著图
Figure GDA0003696028260000036
步骤4、构建基于3D卷积的光场显著性目标检测模型,所述基于3D卷积的光场显著性目标检测模型包含:编码器、解码器和优化模块;
步骤4.1、构建所述编码器是由3D卷积模块、3D残差模块、3D池化层、通道降维模块组成,其中3D卷积模块和3D残差模块均由ResNet50对应的的2D卷积模块膨胀得到;
所述3D卷积模块依次由i个卷积层、批量归一化层和ReLU激活层构成;
所述编码器包含j个3D残差模块,所述3D残差模块依次由r1,...,ri,...,rj个3D残差子模块构成,其中,每个3D残差模块的第一个3D残差子模块依次由第一卷积层、第一批量归一化层、第一ReLU激活层、第二卷积层、第二批量归一化层、第二ReLU激活层、第三卷积层、第三批量归一化层和第三ReLU激活层的第一通道以及并联的一个采样模块构成,而其余3D残差子模块仅包含第一通道的结构,所述采样模块由一个3D卷积层和一个批量归一化层构成;
所述编码器包含j+1个3D池化层,并将3D池化层分别设置在3D卷积模块和3D残差模块之后对特征深度维度进行降维处理;
所述编码器包含由j+1个通道降维模块,并分别设置在3D卷积模块和3D残差模块之后,用于对特征通道维度进行下采样,以将通道数降到CN,其中,每个通道降维模块由j-1个3D卷积模块构成;
步骤4.2、构建所述解码器是由3D解码模块、上采样模块、特征输出模块、预测模块构成;
所述解码器包含j+2个3D解码模块,所述3D解码模块依次由第四卷积层、第四批量归一化层、第四ReLU激活层、第五卷积层、第五批量归一化层、第五ReLU激活层、第六卷积层、第六批量归一化层和第六ReLU激活层构成;
所述解码器包含j个上采样模块,所述上采样模块依次由空间上采样子模块和深度上采样子模块构成,其中,空间上采样使用双线性插值的方法将特征图像的宽度和高度扩大到原来的两倍,深度上采样子模块包含一个3D反卷积层、一个批量归一化层、一个ReLu激活层;
所述解码器包含j个特征输出模块,每个特征输出模块依次由一个3D卷积层和一个上采样层构成,其中,上采样层的采样率为f,用于将特征的宽度和高度扩大到原来的f倍;
所述预测模块依次由3D卷积层、上采样层和3D卷积层构成;
步骤4.3、构建所述优化模块是由2D编码模块、2D解码模块构成;
步骤4.3.1、所述2D编码模块由2D卷积层、2D卷积模块、2D池化层构成;
所述2D卷积层包含p个大小为(k,k)的卷积核,卷积核的移动步长为(s,s),补零个数为(p,p);
所述2D编码模块包含j+1个2D卷积模块,所述2D卷积模块依次由卷积层、批量归一化层和ReLU激活层构成;
所述2D编码模块包含j个2D池化层,并将2D池化层分别设置在第1,2,..,j个2D卷积模块之后对特征空间维度进行降维处理;
步骤4.3.2、所述2D解码模块由上采样层、2D卷积模块、2D卷积层构成;
所述2D解码模块包含j个上采样层,所述上采样层用于对空间维度进行l倍上采样,并将第1,2,..,j个上采样层设置在2D编码模块的第j+1,j,...,2个2D卷积模块之后;
所述2D解码模块包含j个2D卷积模块,所述2D卷积模块依次由卷积层、批量归一化层和ReLU激活层构成,并将第1,2,..,j个2D卷积模块分别设置在第1,2,..,j个上采样层之后;
所述2D解码模块包含的2D卷积层,并设置在解码模块的最后一个2D卷积模块之后;
步骤5、训练基于3D卷积的光场显著性目标检测模型,并评估模型在待检测的焦点堆栈上的精度;
步骤5.1、以数据增强后的第n个场景的焦点堆栈
Figure GDA0003696028260000041
及其对应的真实显著图
Figure GDA0003696028260000042
作为光场显著性目标检测模型的输入,并经过基于3D卷积的光场显著性目标检测模型的处理,在第1,2,..,j个特征输出模块分别得到4个粗糙的显著图outj+1,outj,outj-1,outj-2,在预测模块得到一个较精细的显著图outj-3,在优化模块得到最终的显著图pre;
使用平均绝对误差作为损失函数,分别计算显著图outj+1,outj,outj-1,outj-2,outj-3,pre和真实显著图
Figure GDA0003696028260000043
之间的损失,并利用梯度下降算法对所述光场显著性目标检测模型进行训练,从而得到最优光场显著性目标检测模型;
步骤5.2、以最优光场显著性目标检测模型对任意光场焦点堆栈进行显著性目标检测。
与已有技术相比,本发明的有益效果是:
1、本发明通过构建基于3D卷积的深度神经网络,使用标签数据监督深度神经网络进行学习,从而获得具有鲁棒性的光场显著性目标检测特征模型,解决了基于统计模型中使用色彩、深度、背景先验等线索进行模型设计,忽略了很多特征信息,且检测精度不高的问题。
2、本发明所构建的基于3D卷积的深度神经网络,考虑到光场焦点堆栈自身的特性:焦点堆栈中的图像聚焦深度是连续变化的,即焦点堆栈的深度维度上存在焦点变化的关联性,3D卷积能够在深度维度上提取关联特征,解决了基于2D卷积网络的光场显著性模型忽略焦点堆栈深度连续变化的问题,从而有效地利用焦点堆栈之间的关联性,提高了复杂场景下光场显著性目标检测的鲁棒性。
3、本发明所构建的基于3D卷积的深度神经网络,基于U-Net的思想,对称的构建编码器部分和解码器部分,使用通道降维模块对编码器获取的特征进行降维,有效的减少了解码器需要计算的数据量,解决了基于3D卷积的深度神经网络计算量巨大,时间成本高的问题。有效地降低了基于3D卷积的光场显著性目标检测模型的大小,极大的缩短了模型训练的时间,提高了对任意光场焦点堆栈进行显著性目标检测的效率。
4、本发明使用优化模块,对光场显著性目标检测结果进行优化,纠正了显著区域轮廓上检测错误的像素点,使检测边缘更加平滑,提高了光场显著性目标检测的准确度。
附图说明
图1为本发明方法对光场焦点堆栈进行显著性目标检测的流程图;
图2为本发明所使用3D卷积的深度神经网络结构示意图;
图3为本发明方法和其他光场显著性目标检测方法在DUTLF-V2部分测试集上的显著性目标检测结果。
具体实施方式
如图1所示,本实施例中,一种基于3D卷积网络的光场显著性目标检测方法是按照如下步骤进行:
步骤1、对光场数据进行重聚焦,得到不同聚焦参数下的光场数据;
步骤1.1、将第n个场景的光场数据用
Figure GDA0003696028260000051
进行表示,其中,u和v分别表示视角维度中的任一水平视角和竖直视角,且
Figure GDA0003696028260000052
M表示水平和竖直方向的最大视角数;x和y分别表示空间维度中任一水平方向和竖直方向的像素点坐标,且x∈[1,X],y∈[1,Y],X,Y分别表示视角图像的最大空间宽度和最大空间高度;n∈[1,N],N表示光场数据的数目,F表示光场相机主透镜到传感器的距离;
在本实施例中使用光场显著性目标检测数据集DUTLF-V2进行训练和测试,DUTLF-V2共包含N=4204个场景,其中训练集包含2597个场景、测试集包含1247个场景,水平和竖直方向的最大视角数M=9,不同视角图像的宽度W=600,高度H=400。
步骤1.2、对第n个场景的光场数据
Figure GDA0003696028260000061
在虚拟焦平面Fα处进行重聚焦,得到重聚焦后的光场数据
Figure GDA0003696028260000062
其中,Fα′为虚拟焦平面Fα到相机主透镜的距离,x′和y′分别表示重聚焦后视角图像空间维度中任一水平方向和竖直方向的像素点坐标;
步骤2、对重聚焦后的光场数据
Figure GDA0003696028260000063
进行解码,得到聚焦在场景不同深度下的焦点堆栈;
步骤2.1、利用式(1)对重聚焦后的光场
Figure GDA0003696028260000064
进行计算成像,得到第n个场景在虚拟焦平面Fα处的图像
Figure GDA0003696028260000065
Figure GDA0003696028260000066
式(1)中,α表示虚拟焦平面Fα至传感器的距离与光场相机主透镜至传感器的距离F的比例系数;
步骤2.2、取不同的比例系数α,并重复步骤1.2至步骤2.1,从而得到一系列聚焦在场景不同深度的图像
Figure GDA0003696028260000067
并作为第n个场景的焦点堆栈,记为
Figure GDA0003696028260000068
其中,
Figure GDA0003696028260000069
表示第n个场景的第m幅重聚焦图像,m∈[1,M],M表示焦点堆栈包含的重聚焦图像数量,
Figure GDA00036960282600000610
的高度、宽度和通道数分别为H,W,C;
在本实施例中,α由具体场景包含目标的深度决定,重聚焦次数由具体场景包含目标的深度范围决定。由于每个场景包含目标的深度分布存在差异,每个场景获取到的重聚焦图像大多为3-13幅,为了保证数据一致,对场景深度变化较小的场景,对现有的重聚焦图像进行复制,对场景深度变化大的场景,舍弃部分重聚焦图像,使得每个场景均包含M=12幅重聚焦图像。为减少神经网络的计算量,进一步对焦点堆栈进行采样,使其高度H=256,宽度W=256,重聚焦图像为彩色图像,通道C=3。
步骤3、对第n个场景的焦点堆栈
Figure GDA00036960282600000611
包含的重聚焦图像进行数据增强处理,得到第n个场景数据增强后的重聚焦图像集合,即数据增强后的焦点堆栈,记为
Figure GDA0003696028260000071
将第n个场景的真实显著图记为Gn,对第n个场景的真实显著图Gn进行与重聚焦图像相对应的数据增强处理,得到数据增强后的真实显著图
Figure GDA0003696028260000072
在本实施例中,对DUTLF-V2训练集中的焦点堆栈及其对应的真实显著图均进行数据增强,数据增强的方式包括旋转和镜像翻转,中心裁剪,将DUTLF-V2中每个场景的焦点堆栈和对应的真实显著图扩充到原来的11倍。
步骤4、构建基于3D卷积的光场显著性目标检测模型,基于3D卷积的光场显著性目标检测模型包含:编码器、解码器和优化模块;
步骤4.1、构建编码器是由3D卷积模块、3D残差模块、3D池化层、通道降维模块组成,其中3D卷积模块和3D残差模块均由ResNet50对应的的2D卷积模块膨胀得到;
3D卷积模块依次由i个卷积层、批量归一化层和ReLU激活层构成;
编码器包含j个3D残差模块,3D残差模块依次由r1,...,ri,...,rj个3D残差子模块构成,其中,每个3D残差模块的第一个3D残差子模块依次由第一卷积层、第一批量归一化层、第一ReLU激活层、第二卷积层、第二批量归一化层、第二ReLU激活层、第三卷积层、第三批量归一化层和第三ReLU激活层的第一通道以及并联的一个采样模块构成,而其余3D残差子模块仅包含第一通道的结构,采样模块由一个3D卷积层和一个批量归一化层构成;
编码器包含j+1个3D池化层,并将3D池化层分别设置在3D卷积模块和3D残差模块之后对特征深度维度进行降维处理;
编码器包含由j+1个通道降维模块,并分别设置在3D卷积模块和3D残差模块之后,用于对特征通道维度进行下采样,以将通道数降到CN,其中,每个通道降维模块由j-1个3D卷积模块构成;
在本实施例中,3D卷积模块对应图2中Conv,包含64个大小为(3,7,7)的卷积核,卷积核的移动步长为(1,2,1),补零个数为(1,3,3)。
编码器包含j=4个3D残差模块,分别对应图2中的Res1、Res2、Res3、Res4,这4个3D残差模块依次由3,4,6,3个3D残差子模块构成。每个3D残差子模块的三个卷积层的卷积核大小均为(1,1,1)、(3,3,3)、(1,1,1),补零个数均为(0,0,0)、(1,1,1)、(0,0,0),第1,2,3,4个3D残差模块的3个3D残差子模块的三个卷积层包含的卷积核个数依次分别为64、64、256,128、128、512,256、256、1024,512、512、2048。第2,3,4个3D残差模块的第1个3D残差子模块的三个卷积层的卷积核的移动步长依次均为(1,1,1)、(1,2,2)、(1,1,1),其余3D残差子模块和第1个3D残差模块的所有3D残差子模块的三个卷积层的卷积核的移动步长均为(1,1,1)。4个采样模块包含的卷积核的个数依次为256、512、1024、2048,4个采样模块卷积层的卷积核大小均为(1,1,1),补零个数均为(0,0,0),第1个采样模块卷积层的移动步长为(1,1,1),其余3个采样模块卷积层的移动步长均为(1,2,2)。
编码器包含j+1=5个3D池化层,第1个3D池化层的步长为(2,2,2),滑动范围为(1,3,3),补零个数为(0,1,1),其余3个3D池化层的步长均为(2,1,1),滑动范围均为(2,1,1),补零个数均为(0,0,0)。
编码器包含j+1=5个3D通道降维模块,对应图2中CR,每个通道降维模块由j-1=3个3D卷积模块构成,每个3D卷积模块包含的卷积核的个数均为32,即将通道数降到CN=32,卷积核大小依次为(1,1,1)、(3,3,3)、(3,3,3),移动步长依次为(1,1,1)、(1,1,1)、(1,1,1),补零个数依次为(0,0,0)、(1,1,1)、(1,1,1)。
步骤4.2、构建解码器是由3D解码模块、上采样模块、特征输出模块、预测模块构成;
解码器包含j+2个3D解码模块,3D解码模块依次由第四卷积层、第四批量归一化层、第四ReLU激活层、第五卷积层、第五批量归一化层、第五ReLU激活层、第六卷积层、第六批量归一化层和第六ReLU激活层构成;
解码器包含j个上采样模块,上采样模块依次由空间上采样子模块和深度上采样子模块构成,其中,空间上采样使用双线性插值的方法将特征图像的宽度和高度扩大到原来的两倍,深度上采样子模块包含一个3D反卷积层、一个批量归一化层、一个ReLu激活层;
解码器包含j个特征输出模块,每个特征输出模块依次由一个3D卷积层和一个上采样层构成,其中,上采样层的采样率为f,用于将特征的宽度和高度扩大到原来的f倍;
预测模块依次由3D卷积层、上采样层和3D卷积层构成;
在本实施例中,解码器包含了j+2=6个3D解码模块,对应图2中的Dec,6个3D解码模块包含的卷积核个数均为32,卷积核大小依次为(3,3,3)、(3,3,3)、(3,3,3),移动步长依次为(1,1,1)、(1,1,1)、(1,1,1),如图2所示,最下方2个3D解码模块的补零个数依次为(2,2,2)、(2,2,2)、(2,2,2),空洞率依次为(2,2,2)、(2,2,2)、(2,2,2),其余4个3D解码模块的补零个数依次为(1,1,1)、(1,1,1)、(1,1,1),空洞率依次为(1,1,1)、(1,1,1)、(1,1,1).
解码器包含j=4个上采样模块,4个上采样模块的3D反卷积层包含的卷积核个数均为32,卷积核的大小均为(2,1,1),补零个数均为(0,0,0),如图2所示,下面两个上采样模块中3D反卷积层的移动步长为(1,1,1),上面两个上采样模块中3D反卷积层的移动步长为(2,1,1)。
解码器包含了j=4个特征输出模块,4个特征输出模块中3D卷积层包含的卷积核个数均为1,移动步长为(1,1,1),补零个数均为(0,1,1),如图2所示,从下到上特征模块的卷积核的大小依次为(1,3,3)、(2,3,3)、(3,3,3)、(6,3,3),4个上采样层的采样率从下到上依次为32、16、8、4。
预测模块的2个3D卷积层包含的卷积核个数均为1,卷积核的大小均为(12,3,3),移动步长均为(1,1,1),补零个数均为(0,1,1),上采样层的采样率为2。
步骤4.3、构建优化模块是由2D编码模块、2D解码模块构成;
步骤4.3.1、2D编码模块由2D卷积层、2D卷积模块、2D池化层构成;
2D卷积层包含p个大小为(k,k)的卷积核,卷积核的移动步长为(s,s),补零个数为(p,p);
2D编码模块包含j+1个2D卷积模块,2D卷积模块依次由卷积层、批量归一化层和ReLU激活层构成;
2D编码模块包含j个2D池化层,并将2D池化层分别设置在第1,2,..,j个2D卷积模块之后对特征空间维度进行降维处理;
在本实施例中,2D编码模块包含了j+1=5个2D卷积模块,2D卷积层和2D卷积模块中的卷积层均包含p=64个卷积核,卷积核的大小均为(3,3),移动步长均为(1,1),补零个数均为(1,1)。
2D编码模块包含了j=4个2D池化层,以步长(2,2)在(2,2)的范围内进行最大值采样。
步骤4.3.2、2D解码模块由上采样层、2D卷积模块、2D卷积层构成;
2D解码模块包含j个上采样层,上采样层用于对空间维度进行l倍上采样,并将第1,2,..,j个上采样层设置在2D编码模块的第j+1,j,...,2个2D卷积模块之后;
2D解码模块包含j个2D卷积模块,2D卷积模块依次由卷积层、批量归一化层和ReLU激活层构成,并将第1,2,..,j个2D卷积模块分别设置在第1,2,..,j个上采样层之后;
2D解码模块包含的2D卷积层,并设置在解码模块的最后一个2D卷积模块之后;
在本实施例中,上采样层对空间维度进行l=2倍上采样;2D解码模块包含j=4个2D卷积模块,2D卷积模块、2D卷积层分别包含64、1个卷积核,卷积核的大小均为(3,3),移动步长均为(1,1),补零个数均为(1,1)。
步骤5、训练基于3D卷积的光场显著性目标检测模型,并评估模型在待检测的焦点堆栈上的精度;
步骤5.1、以数据增强后的第n个场景的焦点堆栈
Figure GDA0003696028260000101
及其对应的真实显著图
Figure GDA0003696028260000102
作为光场显著性目标检测模型的输入,并经过基于3D卷积的光场显著性目标检测模型的处理,在第1,2,..,j个特征输出模块分别得到4个粗糙的显著图outj+1,outj,outj-1,outj-2,在预测模块得到一个较精细的显著图outj-3,在优化模块得到最终的显著图pre;
使用平均绝对误差作为损失函数,分别计算显著图outj+1,outj,outj-1,outj-2,outj-3,pre和真实显著图
Figure GDA0003696028260000103
之间的损失,并利用梯度下降算法对光场显著性目标检测模型进行训练,从而得到最优光场显著性目标检测模型;
在本实施例中,使用DUTLF-V2数据增强后的32527个场景的焦点堆栈和对应的真实显著图进行训练,将特征输出模块、预测模块、优化模块的输出outj+1,outj,outj-1,outj-2,outj-3,pre分别与真实显著图
Figure GDA0003696028260000104
进行平均绝对误差计算得到6个训练损失,将6个损失相加得到一个总损失,用这个总损失结合梯度下降算法引导网络进行训练,得到光场显著性目标检测特征模型。
步骤5.2、以最优光场显著性目标检测模型对任意光场焦点堆栈进行显著性目标检测。
在本实施例中,使用DUTLF-V2的1247个测试场景的焦点堆栈作为输入,经过光场显著性目标检测特征模型计算得到预测的显著图,然后与对应场景的真实显著图进行比较,计算检测精度。
表1为本发明基于3D卷积的光场显著性目标检测方法分别以“S-measure”、“E-measure”、“F-measure”、“MAE”为评价指标,并利用光场显著性目标检测数据集DUTLF-V2的测试集,与当前其他光场显著性目标检测方法的比较结果。“S-measure”是度量预测显著图和真实显著图之间面向区域和面向物体的结构相似性,其值越接近于1表明显著目标检测的效果越好。“E-measure”是将局部像素与图像级平均值相结合,共同捕获图像级统计量和局部像素匹配信息,其值越接近于1表明显著目标检测的效果越好。“F-measure”是精确率和召回率的加权调和平均,其值越接近于1,表明显著目标检测的效果越好;;“MAE”是平均绝对误差,度量的是预测值与真实值的差异,其值越接近于0,表明显著目标检测的效果越好。根据表1的定量分析,可以看到,本发明的方法在四种评价指标上都取得了最好的效果。
表1
Methods S-meaure E-meaure F-meaure MAE
LFS 0.5854 0.7440 0.4646 0.2055
MSC 0.6271 0.7485 0.5132 0.1469
DILF 0.6491 0.7345 0.5039 0.1861
MoLF 0.8255 0.8664 0.7242 0.0649
DLSD 0.7935 0.8523 0.6998 0.0828
ERNet 0.8334 0.8828 0.7721 0.0604
Ours 0.8664 0.9000 0.8088 0.0549
图3为本发明的基于3D卷积的光场显著性目标检测方法与当前其他光场显著性目标检测方法的结果。其中,Ours表示本发明的基于3D卷积的光场显著性目标检测方法;LFS表示基于色彩、背景先验信息的光场显著性目标检测方法,结合位置线索、对比度线索和前景线索检测全聚焦图像中的显著性目标;MSC表示多线索的稀疏字典方法,构建了一种通用的显著性目标检测框架;DILF表示基于模糊检测的方法;MoLF表示基于空间融合的方法,利用面向记忆的特征集成模块自下而上地集成多层次光场特征;DILF表示基于单一视角驱动的光场方法,从中央视角图像中计算深度信息,并从中央视角图像恢复水平和垂直的多视角图像,对多视角图像进行显著性目标检测;ERNet表示基于知识蒸馏的方法,使用教师网络学习焦点堆栈的特征,使用学生网络学习RGB图像的特征,教师网络向学生网络传递全面的焦点知识。

Claims (1)

1.一种基于3D卷积的光场显著性目标检测方法,其特征是按照如下步骤进行:
步骤1、对光场数据进行重聚焦,得到不同聚焦参数下的光场数据;
步骤1.1、将第n个场景的光场数据用
Figure FDA0003713386650000011
进行表示,其中,u和v分别表示视角维度中的任一水平视角和竖直视角,且
Figure FDA0003713386650000012
M表示水平和竖直方向的最大视角数;x和y分别表示空间维度中任一水平方向和竖直方向的像素点坐标,且x∈[1,X],y∈[1,Y],X,Y分别表示视角图像的最大空间宽度和最大空间高度;n∈[1,N],N表示光场数据的数目,F表示光场相机主透镜到传感器的距离;
步骤1.2、对所述第n个场景的光场数据
Figure FDA0003713386650000013
在虚拟焦平面Fα处进行重聚焦,得到重聚焦后的光场数据
Figure FDA0003713386650000014
其中,F′α为虚拟焦平面Fα到相机主透镜的距离,x′和y′分别表示重聚焦后视角图像空间维度中任一水平方向和竖直方向的像素点坐标;
步骤2、对重聚焦后的光场数据
Figure FDA0003713386650000015
进行解码,得到聚焦在场景不同深度下的焦点堆栈;
步骤2.1、利用式(1)对重聚焦后的光场
Figure FDA0003713386650000016
进行计算成像,得到第n个场景在虚拟焦平面Fα处的图像
Figure FDA0003713386650000017
Figure FDA0003713386650000018
式(1)中,α表示虚拟焦平面Fα至传感器的距离与光场相机主透镜至传感器的距离F的比例系数;
步骤2.2、取不同的比例系数α,并重复步骤1.2至步骤2.1,从而得到一系列聚焦在场景不同深度的图像
Figure FDA0003713386650000019
并作为第n个场景的焦点堆栈,记为
Figure FDA00037133866500000110
其中,
Figure FDA00037133866500000111
表示第n个场景的第m幅重聚焦图像,m∈[1,M],M表示焦点堆栈包含的重聚焦图像数量,
Figure FDA00037133866500000112
的高度、宽度和通道数分别为H,W,C;
步骤3、对所述第n个场景的焦点堆栈
Figure FDA00037133866500000113
包含的重聚焦图像进行数据增强处理,得到第n个场景数据增强后的重聚焦图像集合,即数据增强后的焦点堆栈,记为
Figure FDA00037133866500000114
将所述第n个场景的真实显著图记为Gn,对所述第n个场景的真实显著图Gn进行与重聚焦图像相对应的数据增强处理,得到数据增强后的真实显著图
Figure FDA00037133866500000115
步骤4、构建基于3D卷积的光场显著性目标检测模型,所述基于3D卷积的光场显著性目标检测模型包含:编码器、解码器和优化模块;
步骤4.1、构建所述编码器是由3D卷积模块、3D残差模块、3D池化层、通道降维模块组成,其中3D卷积模块和3D残差模块均由ResNet50对应的2D卷积模块膨胀得到;
所述3D卷积模块依次由i个卷积层、批量归一化层和ReLU激活层构成;
所述编码器包含j个3D残差模块,所述3D残差模块依次由r1,...,ri,...,rj个3D残差子模块构成,其中,每个3D残差模块的第一个3D残差子模块依次由第一卷积层、第一批量归一化层、第一ReLU激活层、第二卷积层、第二批量归一化层、第二ReLU激活层、第三卷积层、第三批量归一化层和第三ReLU激活层的第一通道以及并联的一个采样模块构成,而其余3D残差子模块仅包含第一通道的结构,所述采样模块由一个3D卷积层和一个批量归一化层构成;
所述编码器包含j+1个3D池化层,并将3D池化层分别设置在3D卷积模块和3D残差模块之后对特征深度维度进行降维处理;
所述编码器包含由j+1个通道降维模块,并分别设置在3D卷积模块和3D残差模块之后,用于对特征通道维度进行下采样,以将通道数降到CN,其中,每个通道降维模块由j-1个3D卷积模块构成;
步骤4.2、构建所述解码器是由3D解码模块、上采样模块、特征输出模块、预测模块构成;
所述解码器包含j+2个3D解码模块,所述3D解码模块依次由第四卷积层、第四批量归一化层、第四ReLU激活层、第五卷积层、第五批量归一化层、第五ReLU激活层、第六卷积层、第六批量归一化层和第六ReLU激活层构成;
所述解码器包含j个上采样模块,所述上采样模块依次由空间上采样子模块和深度上采样子模块构成,其中,空间上采样使用双线性插值的方法将特征图像的宽度和高度扩大到原来的两倍,深度上采样子模块包含一个3D反卷积层、一个批量归一化层、一个ReLu激活层;
所述解码器包含j个特征输出模块,每个特征输出模块依次由一个3D卷积层和一个上采样层构成,其中,上采样层的采样率为f,用于将特征的宽度和高度扩大到原来的f倍;
所述预测模块依次由3D卷积层、上采样层和3D卷积层构成;
步骤4.3、构建所述优化模块是由2D编码模块、2D解码模块构成;
步骤4.3.1、所述2D编码模块由2D卷积层、2D卷积模块、2D池化层构成;
所述2D卷积层包含p个大小为(k,k)的卷积核,卷积核的移动步长为(s,s),补零个数为(p,p);
所述2D编码模块包含j+1个2D卷积模块,所述2D卷积模块依次由卷积层、批量归一化层和ReLU激活层构成;
所述2D编码模块包含j个2D池化层,并将2D池化层分别设置在第1,2,..,j个2D卷积模块之后对特征空间维度进行降维处理;
步骤4.3.2、所述2D解码模块由上采样层、2D卷积模块、2D卷积层构成;
所述2D解码模块包含j个上采样层,所述上采样层用于对空间维度进行l倍上采样,并将第一个上采样层设置在2D编码模块的第j个2D卷积模块之后;
所述2D解码模块包含j个2D卷积模块,所述2D卷积模块依次由卷积层、批量归一化层和ReLU激活层构成,并将第1,2,..,j个2D卷积模块分别设置在第1,2,..,j个上采样层之后;
所述2D解码模块包含的2D卷积层,并设置在解码模块的最后一个2D卷积模块之后;
步骤5、训练基于3D卷积的光场显著性目标检测模型,并评估模型在待检测的焦点堆栈上的精度;
步骤5.1、以数据增强后的第n个场景的焦点堆栈
Figure FDA0003713386650000031
及其对应的真实显著图
Figure FDA0003713386650000032
作为光场显著性目标检测模型的输入,并经过基于3D卷积的光场显著性目标检测模型的处理,在第1,2,..,j个特征输出模块分别得到j个粗糙的显著图,在预测模块得到一个较精细的显著图,在优化模块得到最终的显著图;
使用平均绝对误差作为损失函数,分别计算j个粗糙的显著图、一个较精细的显著图和最终的显著图共j+2个显著图和真实显著图
Figure FDA0003713386650000033
之间的损失,并利用梯度下降算法对所述光场显著性目标检测模型进行训练,从而得到最优光场显著性目标检测模型;
步骤5.2、以最优光场显著性目标检测模型对任意光场焦点堆栈进行显著性目标检测。
CN202110600616.2A 2021-05-31 2021-05-31 一种基于3d卷积的光场显著性目标检测方法 Active CN113343822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110600616.2A CN113343822B (zh) 2021-05-31 2021-05-31 一种基于3d卷积的光场显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110600616.2A CN113343822B (zh) 2021-05-31 2021-05-31 一种基于3d卷积的光场显著性目标检测方法

Publications (2)

Publication Number Publication Date
CN113343822A CN113343822A (zh) 2021-09-03
CN113343822B true CN113343822B (zh) 2022-08-19

Family

ID=77472653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110600616.2A Active CN113343822B (zh) 2021-05-31 2021-05-31 一种基于3d卷积的光场显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN113343822B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114549863B (zh) * 2022-04-27 2022-07-22 西安电子科技大学 一种基于像素级噪声标签监督的光场显著性目标检测方法
CN114972975B (zh) * 2022-06-21 2024-03-08 合肥工业大学 一种基于双输入网络的偏振图像伪装目标检测方法
CN116386027B (zh) * 2023-04-03 2023-10-24 南方海洋科学与工程广东省实验室(珠海) 一种基于人工智能算法的海洋三维旋涡识别系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111595737A (zh) * 2020-05-15 2020-08-28 厦门大学 一种基于三维分支网络的光学全息粒子场颗粒点检测方法
CN112070753A (zh) * 2020-09-10 2020-12-11 浙江科技学院 多尺度信息增强双目卷积神经网络显著性图像检测方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10991150B2 (en) * 2018-05-09 2021-04-27 Massachusetts Institute Of Technology View generation from a single image using fully convolutional neural networks
CN109344818B (zh) * 2018-09-28 2020-04-14 合肥工业大学 一种基于深度卷积网络的光场显著目标检测方法
CN110689599B (zh) * 2019-09-10 2023-05-19 上海大学 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
US11783518B2 (en) * 2019-09-30 2023-10-10 Lawrence Livermore National Security, Llc Few-view computed tomography reconstruction using deep neural network inference
CN110751160B (zh) * 2019-10-30 2022-09-13 华中科技大学 图像中物体的检测方法、装置及系统
CN110996104B (zh) * 2019-12-05 2021-10-08 华中科技大学 一种光场焦点堆栈图像序列编、解码方法、装置及系统
CN111369522B (zh) * 2020-03-02 2022-03-15 合肥工业大学 基于生成对抗卷积神经网络的光场显著性目标检测方法
CN111723822B (zh) * 2020-06-20 2022-06-14 福州大学 一种基于多层次融合的rgbd图像显著性检测方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111595737A (zh) * 2020-05-15 2020-08-28 厦门大学 一种基于三维分支网络的光学全息粒子场颗粒点检测方法
CN112070753A (zh) * 2020-09-10 2020-12-11 浙江科技学院 多尺度信息增强双目卷积神经网络显著性图像检测方法

Also Published As

Publication number Publication date
CN113343822A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN113343822B (zh) 一种基于3d卷积的光场显著性目标检测方法
CN110738697B (zh) 基于深度学习的单目深度估计方法
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN112001960B (zh) 基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法
CN113362223B (zh) 基于注意力机制和双通道网络的图像超分辨率重建方法
CN111563418A (zh) 一种基于注意力机制的非对称多模态融合显著性检测方法
CN110969124A (zh) 基于轻量级多分支网络的二维人体姿态估计方法及系统
CN110059728B (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN110070574B (zh) 一种基于改进PSMNet的双目视觉立体匹配方法
CN109344818B (zh) 一种基于深度卷积网络的光场显著目标检测方法
CN112818969A (zh) 一种基于知识蒸馏的人脸姿态估计方法及系统
CN105488759B (zh) 一种基于局部回归模型的图像超分辨率重建方法
CN114898284B (zh) 一种基于特征金字塔局部差异注意力机制的人群计数方法
CN111028273A (zh) 一种基于多流卷积神经网络的光场深度估计方法及其实现系统
CN115346071A (zh) 高置信局部特征与全局特征学习的图片分类方法及系统
CN114627290A (zh) 一种基于改进DeepLabV3+网络的机械零部件图像分割算法
Luo et al. Bi-GANs-ST for perceptual image super-resolution
CN112149662A (zh) 一种基于扩张卷积块的多模态融合显著性检测方法
CN116681894A (zh) 一种结合大核卷积的相邻层特征融合Unet多器官分割方法、系统、设备及介质
CN115049945A (zh) 一种基于无人机图像的小麦倒伏面积提取方法和装置
CN114943646A (zh) 基于纹理导向的梯度权重损失和注意力机制超分辨方法
Zhang et al. Dense haze removal based on dynamic collaborative inference learning for remote sensing images
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
CN116343043B (zh) 一种具有多尺度特征融合功能的遥感影像变化检测方法
CN112818777A (zh) 一种基于密集连接与特征增强的遥感图像目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant