CN116091793A - 一种基于光流融合的光场显著性检测方法 - Google Patents
一种基于光流融合的光场显著性检测方法 Download PDFInfo
- Publication number
- CN116091793A CN116091793A CN202310168513.2A CN202310168513A CN116091793A CN 116091793 A CN116091793 A CN 116091793A CN 202310168513 A CN202310168513 A CN 202310168513A CN 116091793 A CN116091793 A CN 116091793A
- Authority
- CN
- China
- Prior art keywords
- optical flow
- light field
- layer
- residual
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/66—Analysis of geometric attributes of image moments or centre of gravity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于光流融合的光场显著性检测方法,属于图像处理领域。该方法利用光场数据集训练光场显著性检测系统,使用光场显著性检测系统在光场数据集多视图图像上进行显著性检测,计算中心视图特征,并将其余视图作为参考图像,计算光流并与中心视图特征融合,辅助显著性检测。该系统由光场特征提取模块、光流生成模块、光流融合模块和显著性检测模块组成。引入光场深度信息,同时去除了各个视图之间的冗余信息,有助于提高显著性检测精度,并减少计算量,能够有效处理不同尺度的显著性目标,做到更准确的检测。
Description
技术领域
本发明涉及一种基于光流融合的光场显著性检测方法,属于图像处理领域。
背景技术
人类的视觉系统能够在复杂的自然场景中快速地找到刺激视觉的重要信息并进行定位,从而使人们注意到目标物体与周围环境的差异,这种对信息进行优先级排序的能力能够帮助人类准确快速地完成各种视觉任务。为了模仿人类视觉注意力,生理学、心理学和计算机视觉领域的研究人员长期以来一直在努力,提出了各种各样的计算模型。近年来,计算机视觉领域的学者专注于研究引起人类感知系统注意力的场景,这些场景中包含一个或多个显著目标。显著性检测已成为计算机视觉中的热门话题,又包含了许多富有挑战性的问题。显著性检测根据图像中的颜色、边缘、纹理等特征,提取图像中感兴趣的部分,获取目标区域或者作为进一步图像处理的基础,是计算机视觉中的一项重要研究方向,如今已经应用在诸多视觉领域中,例如,水利领域中在遥感图像中寻找水害灾情的变化;机械领域中寻找金属的缺陷,进行金相图分析识别;医疗领域中在CT图片中寻找病灶,对各种疾病进行诊断。
传统的显著性检测方法使用2D图像作为输入,通过计算图像的颜色、形状、方向以及纹理等特征或者利用神经网络学习更高级的图像特征来提取图像中的目标,然而在复杂场景下,2D显著性检测面临显著区域的颜色或纹理与背景相似、显著目标被部分遮挡难以提取完整目标等问题。基于2D图像的显著性检测方法由于2D图像丢弃深度信息,仅依赖于单张图像的特征造成了检测能力有限。为此,Lang等人在Computer Vision发表的论文《Depth Matters:Influence of Depth Cues on Visual Saliency》中提出利用含有深度信息的RGB-D图像,结合深度特征来提高显著性检测的鲁棒性。然而,基于深度图的显著性检测算法严重依赖深度图的质量,当深度图质量较差时无法为显著性检测提供有效信息,导致无法精准检测显著目标。
为了避免2D图像缺乏深度信息的缺陷,能够记录完整光线信息的光场被用于显著性检测。由于光场图像包含空间信息和角度信息,与基于2D图像的传统方法相比,基于光场的显著性检测方法在图像中物体纹理与颜色都与背景相似的情况下能有效区分前景和背景。
发明专利CN109146925B提供了一种动态场景下显著性目标检测方法,动态场景下显著性目标检测是通过对运动视频中的目标进行运动变化状态分析进行的显著性检测过程。方法主要包括三个步骤:首先,在动态场景中进行运动目标检测,得到场景中所有的运动目标区域。然后,在动态场景中提取图像特征并进行特征级融合,得到图像融合特征向量,基于贝叶斯推理进行视觉注视点检测。最后,结合注视点检测,对检测到的运动目标的显著程度进行估计,生成基于运动目标的动态显著图。解决了摄像机在运动情况下的显著性目标检测问题,能够满足机器视觉系统在动态场景中检测显著性目标的需求。
光场显著性检测能够从多个视角检测显著性,提供了有效的抗遮挡能力。光场显著性检测通过计算光场在任意深度上的图像,能够在更大的景深中检测显著性。随着深度学习技术快速发展,基于深度学习的光场显著性检测方法利用图像特征编码或者卷积网络的强大特征学习能力获取显著性区域。然而,如何让深度学习算法充分利用光场中的深度信息和角度信息仍然是尚未解决的问题。
发明内容
本发明的目的是为了克服以上现有技术存在的不足,提供了一种基于光流融合的光场显著性检测方法,提高了显著性检测的准确性。
本发明的目的通过以下技术方案实现:
一种基于光流融合的光场显著性检测方法,使用光场显著性检测系统在光场数据集多视图图像上进行显著性检测,计算中心视图特征,并将其余视图作为参考图像,计算光流并与中心视图特征融合,辅助显著性检测。
光场显著性检测系统由光场特征提取模块、光流生成模块、光流融合模块和显著性检测模块组成。光场特征提取模块使用残差网络ResNet50从中心视图中提取特征。光流生成模块使用SPyNet网络计算参考图像到中心图像之间的光流,即参考视图中像素相对于中心视图的位置偏移。光流融合模块使用残差网络将光流转化为光流特征并与中心特征相连,并使用卷积网络融合。显著性检测模块首先利用空洞空间金字塔池化(ASPP)模块提取不同尺度上的光流融合特征,然后使用一个卷积层融合不同尺度上的特征并重建显著性图。
基于光流融合的光场显著性检测方法步骤包括:
步骤1:加载光场显著性检测数据集,将数据集分为训练集和测试集,进行图像预处理;
步骤2:构建光场显著性检测系统;
步骤3:使用训练集对光场显著性检测系统进行训练;
步骤4:使用已训练的显著性检测系统对测试集进行测试。
进一步的,光场特征提取模块将中心图像特征化,并下采样以减少之后的计算量。我们将多视图图像记作{I(u,v)|u,v∈[1,3]},将I(2,2)作为中心视图记作Is,参考视图记作Ir(u,v)。光场特征提取模块使用残差卷积网络ResNet50提取中心视图的特征图,记为fs。残差网络ResNet是Zhang在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition上的论文《Deep Residual Learning for Image Recognition》中提出的神经网络结构。残差网络的优势在于:1)能够更好地利用前馈信息,提升网络的学习效果。2)更容易构建更深的网络结构。3)具有更好的泛化性能。残差网络由输入层、残差层和输出层组成。残差层是一个独立的神经网络层,与其他网络不同,残差层直接与输入层和输出层相连。这样的结构有利于更好地利用前馈信息,提升网络的学习效果。
进一步的,光流生成模块计算非中心视图像素到中心视图的像素偏移矢量。当3D空间中的一个点同时在多个视图内成像的时候,在多视图图像中由于拍摄角度不同,各个视图中相关的像素会发生位置偏移。对于中心视图中的任何一个像素,光流生成模块使用光流估计网络SPyNet在所有非中心视图中寻找匹配的对应点,计算所有非中心视图中的对应像素的像素偏移矢量O(x,y)。SPyNet对每一个非中心视图都生成一个光流flowi。
进一步的,光流融合模块使用一个残差网络提取光流特征并与中心图像特征融合。该残差网络拥有三个残差卷积层,每个残差卷积层之后拥有一个ma×_pooling下采样层,使得光流特征与中心图像特征的尺寸一致。之后跟随一个1×1卷积层调整特征的通道数量使其与中心图像特征相同。最后将光流特征与中心图像特征相连接作为显著性检测模块的输入。
进一步的,述显著性检测模块利用空洞空间金字塔池化ASPP全卷积网络从光流融合特征中提取不同尺度上的特征并融合,重建显著性图;显著性检测模块结构分为两部分,第一部分ASPP有五个并行分支,分别是一个1×1的卷积层,三个3x3的膨胀卷积层,以及一个全局平均池化层;与过去的ASPP不同的是最后一个全局池化分支。由于随着空洞卷积的扩张率的增大,卷积核中有效的权重越来越少,当扩张率足够大时,只有中间的一个权重有作用,这时空洞卷积便退化成了1×1卷积,丢失了图像全局的信息。为了解决这个问题,增加了一个全局平均池化层来获取全局上下文信息。然后通过将这5个分支的输出沿着通道方向进行拼接,后面跟有一个1x1的卷积层进一步融合信息,生成尺寸为256x60x60的显著性特征图。第二部分是一个全卷积网络,在这一部分中,之前的显著性特征图经过两个1x1卷积层,最后通过双线性插值的方法还原回输入的尺寸,产生双通道显著性检测图S。测试时,使用argmax操作将双通道显著性检测图S转化为二进制显著性图。
进一步的,基于光流融合的光场显著性检测方法使用显著性检测数据集HFUT-Lytro作为训练集进行训练。HFUT-Lytro光场数据集是一个具有挑战性的数据集,具有不同距离的真实场景、噪声、照明条件等。HFUT-Lytro每个场景包含一个角分辨率为7×7,空间分辨率为328×328的多视图图像。HFUT-Lytro数据集同时还提供中心图像和用于监督的二进制显著性图。
进一步的,训练过程使用Softmax加二进制交叉熵作为损失函数,并使用随机梯度下降优化器优化参数。首先对显著性检测模块输出的显著性图S的每一个像素上使用Softmax,然后使用二进制交叉熵作为损失函数。Softmax的表达式如下所示,
其中,Si表示显著性检测图S在i通道上的值,i=1表示目标的显著性,i=0表示背景的显著性。进行Softmax操作之后得到双通道概率图,两个通道分别表示检测为目标和背景的概率。
所述交叉熵的表达式如下所示,
其中,yi表示样本为i类别,p(i)表示被检测为i类别的概率。
将Softmax带入上式得到最终的损失函数,
其中,H,W代表图像的尺寸,GTi(x,y)表示图像中点(x,y)处的类别,softmax(Si(x,y))表示点(x,y)处被检测为目标的概率。i=1代表目标,i=0代表背景。
损失计算完成之后对显著性检测系统进行反向传播,并使用优化器优化。本发明使用随机梯度下降优化器优化参数。此外,使用poly策略来改进学习能力。在进行深度学习训练过程中学习率是优化时非常重要的一个因子,因此,本发明在训练过程中使用poly策略来动态调整学习率。poly是一种指数变换的策略,具体公式如下所示,
其中,epoch代表当前训练周期,num_epoch代表总训练周期,base_lr代表初始学习率,设置为0.0001,power代表学习率下降速度,设置为0.9。
本发明相对于现有技术具有如下优点:
(1)光场显著性检测系统使用残差网络提取中心图像特征,相比一般的卷积网络能够更好地利用前馈信息,且能够构建更深的网络结构。
(2)光场显著性检测系统通过光流生成模块计算光流,光流是各个视图之间的像素偏移,光流仅与视角和目标深度有关,与视图的颜色、纹理等结构信息无关。光流生成模块引入光场深度信息,同时去除了各个视图之间的冗余信息,有助于提高显著性检测精度,并减少计算量。
(3)显著性检测模块通过利用ASPP,融合多尺度特征,能够有效处理不同尺度的显著性目标,做到更准确的检测。
附图说明
图1光场显著性检测系统结构框架图;
图2光场特征提取模块结构;
图3光流融合模块模块结构;
图4显著性检测模块模块结构;
图5基于光流融合的光场显著性检测方法的训练损失;
图6基于光流融合的光场显著性检测方法部分检测结果的评价指标;
图7基于光流融合的光场显著性检测方法的检测结果。
具体实施方式
为了加深对本发明的理解,下面将结合附图和实施例对本发明做进一步详细描述,该实施例仅用于解释本发明,并不对本发明的保护范围构成限定。
如图1所示,本发明提供了一种基于光流融合的光场显著性检测方法及系统。基于光流融合的光场显著性检测方法利用光场数据集训练光场显著性检测系统。使用光场显著性检测系统在光场数据集多视图图像上进行显著性检测,计算中心视图特征,并将其余视图作为参考图像,计算光流并与中心视图特征融合,辅助显著性检测。光场显著性检测系统由光场特征提取模块、光流生成模块、光流融合模块和显著性检测模块组成。光场特征提取模块使用残差网络ResNet50从中心视图中提取特征。光流生成模块使用SPyNet网络计算参考图像到中心图像之间的光流,即参考视图中像素相对于中心视图的位置偏移。光流融合模块使用残差网络将光流转化为光流特征并与中心特征相连,并使用卷积网络融合。显著性检测模块首先利用空洞空间金字塔池化(ASPP)模块提取不同尺度上的光流融合特征,然后使用一个卷积层融合不同尺度上的特征并重建显著性图。
在本实施例,基于光流融合的光场显著性检测方法步骤包括:
步骤1:加载光场显著性检测数据集,将数据集分为训练集和测试集,进行图像预处理;
步骤2:构建光场显著性检测系统;
步骤3:使用训练集对光场显著性检测系统进行训练;
步骤4:使用已训练的显著性检测系统对测试集进行测试。
在本实施例,基于光流融合的光场显著性检测方法使用HFUT-Lytro光场显著性检测数据集训练光场显著性检测系统。HFUT-Lytro光场数据集是一个具有挑战性的数据集,具有不同距离的真实场景、噪声、照明条件等。HFUT Lytro每个场景包含一个角分辨率为7×7,空间分辨率为328×328的多视图图像。HFUT Lytro数据集同时还提供中心图像和用于监督的二进制显著性图。HFUT-Lytro包含用于室内和室外场景的255个光场。本实施例选择其中200个样本作为训练集,20个样本作为验证集,30个样本作为测试集。本实施例选用3x3的视图辅助对中心图像进行显著性检测。训练之前对数据进行预处理,首先将数据集图像放大为520x520,然后使用尺寸为480的随机裁剪,随机翻转进行数据增强。
在本实施例,光场特征提取模块中残差网络ResNet50结构如图2所示。光场特征提取模块将中心图像特征化,并下采样以减少之后的计算量。我们将多视图图像记作{I(u,v)|u,v∈[1,3]},将I(2,2)作为中心视图记作Is,其余视图记作Ir(u,v)。光场特征提取模块使用残差卷积网络ResNet50提取中心视图的特征图,记为fs。ResNet50由一个输入卷积层和四个残差层组成。输入卷积层使用3x3的卷积核,输入通道为3,输出通道为64。然后跟着一个LeakyReLU正则化层,一个max_pooling下采样层,下采样步长为2。特征每经过一个残差层,通道数量翻倍。第一个残差层输出通道数量为128,第二个通道数量为256,第三个通道数量为512,第四个通道数量为1024。四个残差层分别由3,4,6,3个残差块组成。每个残差块由三层卷积网络和残差连接组成。其中第二个卷积层为3x3卷积,其余两层为1x1卷积层。残差块的前两层卷积层拥有BN和ReLU正则化,第3层和残差连接层没有正则化。最后将输入与卷积输出相加作为残差块的输出。四个残差层中,第一层和第二层的第一个残差块的卷积步长为2,来对特征图进行下采样。此外,第四层的所有残差块里的3x3卷积层都换成了膨胀率为2的膨胀卷积层。最后输出尺寸为512x60x60的特征fs。
在本实施例,光流生成模块使用光流估计网络SPyNet通过将经典的空间金字塔方法与深度学习结合来计算光流。SPyNet网络结合了卷积神经网络和运动估计,可以高效地计算非中心视图像素到中心视图的像素偏移矢量。实验表明,经过训练的SPyNet可以获得较高的精度,在光流估计任务中表现出良好的性能。SPyNet金字塔网络的每一层都由三个模块组成,分别是上采样,下采样和残差光流卷积网络。SPyNet通过双线性插值分别处理两个输入图像,逐层将图像进行下采样。输入残差光流卷积网络。上采样类似于下采样,将上一层光流估计网络输出的光流上采样2倍,并用输出的光流对下一层的输入中的第二张图像进行扭曲。残差光流卷积网络是一个由五个卷积层组成的网络,它将上采样的输入中第一张图像和扭曲的第二张图像进行融合,以计算残差光流,然后将残差光流与上采样的上一层的输出光流相加,作为该层的输出光流,通过计算残差光流提高光流估计的精度。最后,光流生成模块输出8张两通道的光流,光流的两个通道分别表示像素在×,y方向上的偏移,所有光流在通道上相连,最终的尺寸为16x480x480。
在本实施例,光流融合模块结构如图3所示。光流融合模块使用残差网络提取光流特征并与中心图像特征融合。本实施例的残差网络拥有一个输入层和三个残差卷积层。输入层将通道为16的光流转化为通道为64的特征。之后的每个残差卷积层都会将通道数量翻倍,最后得到256通道的光流特征fl。每个残差卷积层由三个残差块组成,每个残差块有三个3x3卷积层。每个残差卷积层之后拥有一个步长为2的max_pooling下采样层,使得光流特征fl与特征fs的尺寸一致。之后跟随一个1x1卷积层调整特征的通道数量使其与中心图像特征相同。最后将光流特征fl与特征fs相连接作为显著性检测模块的输入。最后将两个特征在通道维度上相连,并用一个1x1卷积层将通道数量降低到合适的程度,输入显著性检测模块。
在本实施例,显著性检测模块结构如图4所示。显著性检测模块利用空洞空间金字塔池化(ASPP)全卷积网络从光流融合特征中提取不同尺度上的特征并融合,以重建显著性图。显著性检测模块结构分为两部分,第一部分ASPP有五个并行分支,分别是一个1x1的卷积层,三个3x3的膨胀卷积层,以及一个全局平均池化层。与过去的ASPP不同的是最后一个全局池化分支。由于随着空洞卷积的扩张率的增大,卷积核中有效的权重越来越少,当扩张率足够大时,只有中间的一个权重有作用,这时空洞卷积便退化成了1x1卷积,丢失了图像全局的信息。为了解决这个问题,增加了一个全局平均池化层来获取全局上下文信息。然后通过将这5个分支的输出沿着通道方向进行拼接,后面跟有一个1x1的卷积层进一步融合信息,生成尺寸为256x60x60的显著性特征图。第二部分是一个全卷积网络,在这一部分中,之前的显著性特征图经过两个1x1卷积层,最后通过双线性插值的方法还原回输入的尺寸,产生双通道显著性检测图S。测试时,使用argmax操作将双通道显著性检测图S转化为二进制显著性图。
在本实施例,基于光流融合的光场显著性检测方法训练损失如图5所示。训练过程使用Softmax加二进制交叉熵作为损失函数,并使用随机梯度下降优化器优化参数。首先对显著性检测模块输出的显著性图S的每一个像素上使用Softmax,然后使用二进制交叉熵作为损失函数。Softmax的表达式如下所示,
其中,Si表示显著性检测图S在i通道上的值,i=1表示目标的显著性,i=0表示背景的显著性。进行Softmax操作之后得到双通道概率图,两个通道分别表示检测为目标和背景的概率。
所述交叉熵的表达式如下所示,
其中,yi表示样本为i类别,p(i)表示被检测为i类别的概率。
将Softmax带入上式得到最终的损失函数,
其中,H,W代表图像的尺寸,GTi(x,y)表示图像中点(x,y)处的类别,softmax(Si(x,y))表示点(x,y)处被检测为目标的概率。i=1代表目标,i=0代表背景。
损失计算完成之后对光场显著性检测系统进行反向传播,并使用优化器优化。本发明使用随机梯度下降优化器优化参数。此外,使用poly策略来改进学习能力。在进行深度学习训练过程中学习率是优化时非常重要的一个因子,因此,本发明在训练过程中使用poly策略来动态调整学习率。poly是一种指数变换的策略,具体公式如下所示,
其中,epoch代表当前训练周期,num_epoch代表总训练周期,base_lr代表初始学习率,设置为0.0001,power代表学习率下降速度,设置为0.9。训练过程中,批大小设置为4,训练600个周期。
在本实施例,基于光流融合的光场显著性检测方法的性能指标如图6所示。基于光流融合的光场显著性检测方法检测结果如图7所示。基于光流融合的光场显著性检测方法在HFUT-Lytro测试集上进行测试,并在图7中将检测结果与GT进行对比。测试使用精确率(Accuracy)和交并比(IoU)作为评价光场显著性检测方法效果的指标,将部分结果的评价指标放在图6中展示。
Claims (10)
1.一种基于光流融合的光场显著性检测方法,其特征在于,利用光场显著性检测数据集训练光场显著性检测系统,使用光场显著性检测系统在数据集多视图图像上进行显著性检测,计算中心视图特征,并将其余视图作为参考图像,计算光流并与中心视图特征融合,辅助显著性检测;
所述光场显著性检测系统由光场特征提取模块、光流生成模块、光流融合模块和显著性检测模块组成;
所述光场特征提取模块使用残差网络ResNet50从中心视图中提取中心视图的特征fs;所述光流生成模块使用SPyNet网络计算参考图像到中心视图之间的光流;所述光流融合模块使用残差网络将光流转化为光流特征fl并与中心视图的特征fs相连,并使用卷积网络融合;所述显著性检测模块首先利用空洞空间金字塔池化模块提取不同尺度上的光流融合特征,然后使用一个卷积层融合不同尺度上的特征并重建显著性图。
2.根据权利要求1所述基于光流融合的光场显著性检测方法,其特征在于,所述方法具体包括:
步骤1:加载光场显著性检测数据集,将数据集分为训练集和测试集,进行图像预处理;
步骤2:构建光场显著性检测系统;
步骤3:使用训练集对光场显著性检测系统进行训练;
步骤4:使用已训练的显著性检测系统对测试集进行测试。
3.根据权利要求1或2所述基于光流融合的光场显著性检测方法,其特征在于,所述光场显著性检测数据集是HFUT-Lytro光场显著性检测数据集,该数据集具有不同距离的真实场景、噪声、照明条件,每个场景包含一个角分辨率为7×7,空间分辨率为328×328的多视图图像;该数据集同时还提供中心图像和用于监督的二进制显著性图;该数据集包含用于室内和室外场景的255个光场。
4.根据权利要求2所述基于光流融合的光场显著性检测方法,其特征在于,所述图像预处理首先将数据集图像放大,然后随机裁剪,随机翻转进行数据增强。
5.根据权利要求3所述基于光流融合的光场显著性检测方法,其特征在于,所述光场特征提取模块将中心图像特征化,并下采样;将多视图图像记作{I(u,v)|u,v∈[1,3]},将I(2,2)作为中心视图记作Is,其余视图记作Ir(u,v),光场特征提取模块使用残差卷积网络ResNet50提取中心视图的特征,记作fs,所述ResNet50由一个输入卷积层和四个残差层组成;输入卷积层使用3×3的卷积核,输入通道为3,输出通道为64;输入卷积层之后跟着一个LeakyReLU正则化层和一个max_pooling下采样层,下采样步长为2;ResNet50的每一个残差层都将通道数量翻倍;第一个残差层输出通道数量为128,第二个通道数量为256,第三个通道数量为512,第四个通道数量为1024;四个残差层分别由3,4,6,3个残差块组成;每个残差块由三层卷积网络和残差连接组成;其中第二个卷积层为3×3卷积,其余两层为1×1卷积层;残差块的前两层卷积层拥有BN和ReLU正则化,第3层和残差连接层没有正则化;最后将输入与卷积输出相加作为残差块的输出,四个残差层中,第一层和第二层的第一个残差块的卷积步长为2,对特征图进行下采样;第四层的所有残差块里的3×3卷积层都换成了膨胀率为2的膨胀卷积层;输出尺寸为512×60×60的中心视图的特征fs。
6.根据权利要求1所述基于光流融合的光场显著性检测方法及系统,其特征在于,所述光流生成模块使用光流估计SPyNet网络结合了卷积神经网络和运动估计,通过将经典的空间金字塔方法与深度学习结合来计算光流;所述SPyNet网络的每一层都由三个模块组成,分别是上采样、下采样和残差光流卷积网络,通过双线性插值分别处理两个输入图像,逐层将图像进行下采样;输入残差光流卷积网络,所述上采样将上一层光流估计网络输出的光流上采样2倍,并用输出的光流对下一层的输入中的第二张图像进行扭曲;所述残差光流卷积网络是由五个卷积层组成的网络,它将上采样的输入中第一张图像和扭曲的第二张图像进行融合,以计算残差光流,然后将残差光流与上采样的上一层的输出光流相加,作为该层的输出光流;最后,光流生成模块输出8张两通道的光流,光流的两个通道分别表示像素在x,y方向上的偏移,所有光流在通道上相连,最终的尺寸为16×480×480。
7.根据权利要求1所述基于光流融合的光场显著性检测方法,其特征在于,所述光流融合模块使用残差网络提取光流特征并与中心图像特征融合,残差网络有一个输入层和三个残差卷积层;输入层将通道为16的光流转化为通道为64的特征;每个残差卷积层都将通道数量翻倍,最后得到256通道的光流特征fl;每个残差卷积层由三个残差块组成,每个残差块有三个3×3卷积层;每个残差卷积层之后拥有一个步长为2的max_pooling下采样层,使得光流特征fl与中心视图的特征fs的尺寸一致;之后跟随一个1×1卷积层调整特征的通道数量使其与中心视图的特征fs相同;将光流特征fl与中心视图的特征fs相连接作为显著性检测模块的输入;最后将光流特征fl与中心视图的特征fs在通道维度上相连,并用一个1×1卷积层将通道数量降低,输入显著性检测模块。
8.根据权利要求1所述基于光流融合的光场显著性检测方法及系统,其特征在于,所述显著性检测模块利用空洞空间金字塔池化ASPP全卷积网络从光流融合特征中提取不同尺度上的特征并融合,重建显著性图;显著性检测模块结构分为两部分,第一部分ASPP有五个并行分支,分别是一个1×1的卷积层,三个3×3的膨胀卷积层,以及一个全局平均池化层,所述全局平均池化层获取全局上下文信息;将这5个分支的输出沿着通道方向进行拼接,接着通过1×1的卷积层进一步融合信息,生成尺寸为256×60×60的特征;第二部分是一个全卷积网络,第一部分输出的特征经过两个1×1卷积层,最后通过双线性插值的方法还原回输入的尺寸,产生双通道显著性检测图S;测试时,使用argmax操作将双通道显著性检测图S转化为二进制显著性图。
9.根据权利要求1所述基于光流融合的光场显著性检测方法,其特征在于,所述训练使用Softmax加二进制交叉熵作为损失函数,并使用随机梯度下降优化器优化参数;首先对显著性检测模块输出的双通道显著性检测图S的每一个像素上使用Softmax,然后使用二进制交叉熵作为损失函数;所述Softmax的表达式如下所示,
其中,Si表示显著性检测图S在i通道上的值,i=1表示目标的显著性,i=0表示背景的显著性;进行Softmax操作之后得到双通道概率图,两个通道分别表示检测为目标和背景的概率;
所述二进制交叉熵的表达式如下所示,
其中,yi表示样本为i类别,p(i)表示被检测为i类别的概率;
将Softmax带入上式得到最终的损失函数,
其中,H,W代表图像的尺寸,GTi(x,y)表示图像中点(x,y)处的类别,softmax(Si(x,y))表示点(x,y)处被检测为目标的概率;i=1代表目标,i=0代表背景;
损失计算完成之后对光场显著性检测系统进行反向传播,并使用随机梯度下降优化器优化参数;在训练过程中使用poly指数变换策略来动态调整学习率;具体公式如下所示,
其中,epoch代表当前训练周期,num_epoch代表总训练周期,base_lr代表初始学习率,设置为0.0001,power代表学习率下降速度,设置为0.9;训练过程中,批大小设置为4,训练600个周期。
10.根据权利要求1所述基于光流融合的光场显著性检测方法,其特征在于,所述方法还包括将检测结果与GT进行对比。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310168513.2A CN116091793A (zh) | 2023-02-27 | 2023-02-27 | 一种基于光流融合的光场显著性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310168513.2A CN116091793A (zh) | 2023-02-27 | 2023-02-27 | 一种基于光流融合的光场显著性检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116091793A true CN116091793A (zh) | 2023-05-09 |
Family
ID=86199234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310168513.2A Pending CN116091793A (zh) | 2023-02-27 | 2023-02-27 | 一种基于光流融合的光场显著性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116091793A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116486107A (zh) * | 2023-06-21 | 2023-07-25 | 南昌航空大学 | 一种光流计算方法、系统、设备及介质 |
-
2023
- 2023-02-27 CN CN202310168513.2A patent/CN116091793A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116486107A (zh) * | 2023-06-21 | 2023-07-25 | 南昌航空大学 | 一种光流计算方法、系统、设备及介质 |
CN116486107B (zh) * | 2023-06-21 | 2023-09-05 | 南昌航空大学 | 一种光流计算方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348330B (zh) | 基于vae-acgan的人脸姿态虚拟视图生成方法 | |
CN110555434B (zh) | 一种局部对比和全局指导的立体图像视觉显著性检测方法 | |
CN110969124B (zh) | 基于轻量级多分支网络的二维人体姿态估计方法及系统 | |
CN110175986B (zh) | 一种基于卷积神经网络的立体图像视觉显著性检测方法 | |
CN113283444B (zh) | 一种基于生成对抗网络的异源图像迁移方法 | |
CN112733950A (zh) | 一种基于图像融合与目标检测结合的电力设备故障诊断方法 | |
CN113673590B (zh) | 基于多尺度沙漏密集连接网络的去雨方法、系统和介质 | |
CN110232653A (zh) | 快速轻型超分辨率重建密集残差网络 | |
CN111563418A (zh) | 一种基于注意力机制的非对称多模态融合显著性检测方法 | |
CN113012172A (zh) | 一种基于AS-UNet的医学图像分割方法及系统 | |
CN110619638A (zh) | 一种基于卷积块注意模块的多模态融合显著性检测方法 | |
CN113610046B (zh) | 一种基于深度视频联动特征的行为识别方法 | |
CN115484410B (zh) | 基于深度学习的事件相机视频重建方法 | |
CN110070574A (zh) | 一种基于改进PSMNet的双目视觉立体匹配算法 | |
CN113792641A (zh) | 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法 | |
CN117392496A (zh) | 基于红外与可见光图像融合的目标检测方法及系统 | |
CN116091793A (zh) | 一种基于光流融合的光场显著性检测方法 | |
CN117095128A (zh) | 一种无先验多视角人体服饰编辑方法 | |
CN115578262A (zh) | 基于afan模型的偏振图像超分辨率重建方法 | |
CN113487530B (zh) | 一种基于深度学习的红外与可见光融合成像方法 | |
CN117391938B (zh) | 一种红外图像超分辨率重建方法、系统、设备及终端 | |
CN112991422A (zh) | 一种基于空洞空间金字塔池化的立体匹配方法及系统 | |
CN116091762A (zh) | 一种基于rgbd数据和视锥体的三维目标检测方法 | |
CN115496859A (zh) | 基于散乱点云交叉注意学习的三维场景运动趋势估计方法 | |
CN112419387B (zh) | 一种日光温室番茄植株图像无监督深度估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |