CN117496187B

CN117496187B - 一种光场图像显著性检测方法

Info

Publication number: CN117496187B
Application number: CN202311535437.0A
Authority: CN
Inventors: 郑馨; 李争取; 王伯阳; 徐奇奇; 刘德阳; 李�杰; 王远志
Original assignee: Anqing Normal University
Current assignee: Anqing Normal University
Priority date: 2023-11-15
Filing date: 2023-11-15
Publication date: 2024-06-11
Anticipated expiration: 2043-11-15
Also published as: CN117496187A

Abstract

本发明公开了一种光场图像显著性检测方法，具体包括以下步骤：获取原始聚焦栈图像；基于所述原始聚焦栈图像，获取新全聚焦栈图像；对所述原始聚焦栈图像和所述新全聚焦栈图像进行特征提取，获取原始聚焦栈特征图和新全聚焦栈特征图；对所述原始聚焦栈特征图和所述新全聚焦栈特征图进行多特征融合，获取目标融合特征图；利用所述目标融合特征图，生成最终显著图。本发明可以获得与输入光场全聚焦图片相同分辨率的显著图，满足目标追踪、语义分割等下游任务的需求。

Description

一种光场图像显著性检测方法

技术领域

本发明属于图像处理技术领域，尤其涉及一种光场图像显著性检测方法。

背景技术

光场图像记录了场景中光线的空间与角度信息，因而可以更完整的表征现实场景中的丰富信息，使用光场图像中的聚焦栈图像与全聚焦图像进行显著性检测可以有效提高显著性检测的效率。但是，仅仅将原始的聚焦栈图像与全聚焦图像进行特征融合无法充分挖掘聚焦栈图像的特性，也不能充分捕获两种模态之间的高频信息，无法实现对两种模态信息的充分利用已成为制约光场显著性检测的主要瓶颈。

因此，亟需一种光场图像显著性检测方法，以解决现有技术中的不足之处。

发明内容

本发明的目的在于提出一种光场图像显著性检测方法，通过使用基于聚焦栈与全聚焦的两种光场图像表征形式，并基于这两种表征方式提供一种光场图像显著性检测方法来对光场图像生成显著图。

为实现上述目的，本发明提供了一种光场图像显著性检测方法，包括以下步骤：

获取原始聚焦栈图像；

基于所述原始聚焦栈图像，获取新全聚焦栈图像；

对所述原始聚焦栈图像和所述新全聚焦栈图像进行特征提取，获取原始聚焦栈特征图和新全聚焦栈特征图；

对所述原始聚焦栈特征图和所述新全聚焦栈特征图进行多特征融合，获取目标融合特征图；

利用所述目标融合特征图，生成最终显著图。

可选的，获取所述原始聚焦栈图像包括：

从光场图像中提取光场聚焦栈图像；

将所述光场聚焦栈图像按照通道数的比例进行划分，获取所述原始聚焦栈图像。

可选的，基于所述原始聚焦栈图像，获取所述新全聚焦栈图像包括：

从光场图像中提取全聚焦图像；

将原始聚焦栈图像按预定顺序取出，通过卷积操作，获取每张聚焦栈图像的特征图；

将每张所述聚焦栈图像的特征图和所述全聚焦图像进行可变卷积操作，获取所述新全聚焦栈图像。

可选的，对所述原始聚焦栈图像和所述新全聚焦栈图像进行特征提取，获取所述原始聚焦栈特征图和所述新全聚焦栈特征图包括：

将所述原始聚焦栈图像和所述新全聚焦栈图像输入PVT模型进行特征提取，获取所述原始聚焦栈特征图和所述新全聚焦栈特征图。

可选的，对所述原始聚焦栈特征图和所述新全聚焦栈特征图进行多特征融合，获取所述目标融合特征图包括：

利用卷积长短时记忆将所述原始聚焦栈特征图和所述新全聚焦栈特征图的维度进行统一，并使用膨胀卷积模型，将所述原始聚焦栈特征图和所述新全聚焦栈特征图的通道数统一，获取目标原始聚焦栈特征图和目标新全聚焦栈特征图；

将所述目标原始聚焦栈特征图和所述目标新全聚焦栈特征图分级级联，获取融合后的特征图；

利用显著图真值GT对所述融合后的特征图进行监督，然后采用上采样操作将融合后的多级特征分辨率进行统一，并进行特征相加，获取所述目标融合特征图。

可选的，利用卷积长短时记忆将所述原始聚焦栈特征图和所述新全聚焦栈特征图的维度进行统一，并使用膨胀卷积模型，将所述原始聚焦栈特征图和所述新全聚焦栈特征图的通道数统一为：

其中，Iⁿ为维度统一后的全新聚焦堆栈图像，Fⁿ为维度统一后的原始堆栈图像，RFB是指膨胀卷积模块，ConvLSTM是指ConvLSTM卷积模块，为新全聚焦栈图像，/>为原始聚焦栈图。

可选的，利用显著图真值GT对所述融合后的特征图进行监督的过程中采取交叉熵损失。

可选的，利用所述目标融合特征图，生成所述最终显著图包括：

将所述目标融合特征图视为潜在特征编码，并输入局部隐函数，生成显著图；

对所述显著图的坐标进行位置编码，获取编码后的高频坐标信号；

将所述编码后的高频坐标信号和所述潜在特征编码输入所述局部隐函数，获取对应坐标的像素值；

通过遍历每个所述坐标，得到每个所述坐标对应的像素值，并生成所述最终显著图。

可选的，通过遍历每个所述坐标，得到每个所述坐标对应的像素值，并生成所述最终显著图包括：

M(x_q)＝f_θ(z^*,ψ(x_q))

其中，f_θ(·)是指局部隐函数模块，通过多层感知机的方式实现，M(·)是根据输入的潜在编码z^*与坐标ψ(x_q)预测得到的像素值。

本发明具有以下有益效果：与将原始的聚焦栈图像与全聚焦图像进行直接特征融合不同，本发明充分挖掘聚焦栈图像隐式的蕴含场景的深度信息这一特性，首先将单张全聚焦图像膨胀为数量为12的新全聚焦栈图像，从而在整体上扩大了网络中蕴含的深度信息；之后为了增强在显著性检测中有益的高频信息，使用局部隐函数中的高频坐标建立与潜在编码特征中的映射关系，最终得到了高频信号增强的显著图，从而生成了更为完整清晰的显著图，满足目标追踪、语义分割等下游任务的需求。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例一种光场图像显著性检测方法的流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

如图1所示，本实施例提供一种光场图像显著性检测方法，通过将聚焦堆栈中隐含的深度信息传递到全聚焦图上，将全聚焦图的数量进行膨胀，得到全新的全聚焦堆栈，从而充分利用隐式的深度信息，同时利用局部隐函数的高频坐标特性，实现对两种模态特征的高频信号增强，最后得到显著图，可以实现对聚焦栈图像特性的挖掘以及对两种模态信息的充分利用，具体包括以下步骤：

步骤一、利用12张光场聚焦栈图像作为引导，输入全聚焦图像膨胀模块，将1张全聚焦图像膨胀为12张新全聚焦图像栈；

从光场图像中提取光场聚焦栈图像F，维度为1×36×w×h，其中，1为光场聚焦栈图像的个数，w×h为光场聚焦栈图像F中单张聚焦栈图像的空间分辨率，36为聚焦栈图像的36个通道。首先，将12张光场聚焦栈图像F按照通道数为3的比例进行划分，得到12张通道数为3的原始聚焦栈图像；将12张原始聚焦栈图像记为其中，下标k表示的是原始聚焦栈图像的个数，从1到12。

从光场图像中提取全聚焦图像R，维度为1×3×w×h，其中，1为光场全聚焦图像的个数，w×h为光场全聚焦图像F中图像的空间分辨率，3为全聚焦图像的三个通道，将1张全聚焦图像记为F₀。

将得到的按照k＝1,2,…,K的顺序取出，通过卷积操作得到每个F_k对应的特征图，即每张聚焦栈图像的特征图，记为Δp_k，Δp_k是指进行可变形卷积操作之前需要得到的offset图，具体描述为:

然后将得到的offset图与全聚焦图像F₀进行可变性卷积操作，得到数量膨胀后的全聚焦堆栈图像记为其中，下标k表示的是新生成的全聚焦栈图像的个数，从1到12，具体描述为：

其中，DConv(·)是可变形卷积，卷积核大小为3×3，步长为1，填充值为1。

步骤二、对得到的新全聚焦栈图像与原始的聚焦栈图像分别进行特征提取；

将得到的新全聚焦栈图像与原始聚焦栈图/>输入网络模型PVT中，得到特征图/>与/>即两种模态信息，其中，上标n代表着输入网络后的层数，从1到4。其中，PVT网络模型采用主干网络模型。

步骤三、对步骤二中获得的两种模态信息进行多级特征融合；

利用卷积长短时记忆(ConvLSTM)将与/>的batchsize维度统一为1，并使用膨胀卷积模块，将/>与/>的通道数统一为32，具体描述为：

其中，Iⁿ为维度统一后的全新聚焦堆栈图像，Fⁿ为维度统一后的原始堆栈图像，ConvLSTM是指ConvLSTM卷积模块，用于实现对batchsize维度的压缩，RFB是指膨胀卷积模块，用于增大感受野的同时压缩通道数。

将得到的特征图Iⁿ与Fⁿ分级级联，得到融合后的特征Zⁿ，具体描述为：

Zⁿ＝Concat(Iⁿ,Fⁿ)(n＝1,...,4) (5)

其中，Concat(·)代表级联操作。

为了使模型加速收敛同时更好的实现多级特征的融合，使用显著图真值GT对得到的融合特征进行监督，监督采取交叉熵损失，具体描述为：

其中，L_fuse为多层特征的交叉熵损失之和，loss(·)为交叉熵损失。

然后使用上采样操作将融合后的多级特征分辨率统一为256×256，并进行特征相加，得到融合后的特征。具体描述为：

z^*＝Sum(Up(Zⁿ))(n＝1,...,4) (7)

其中，Up(·)表示将得到的不同分辨率的特征图统一至256×256，Sum(·)表示将统一分辨率后的多级特征进行逐元素相加，得到最终的融合特征z^*。

步骤四、将步骤三中获得的特征图视为潜在特征编码，使用局部表征隐函数建立潜在特征编码与最终显著图坐标之间的映射关系，并通过多层感知机学习到这一局部隐函数，同时利用坐标的高频特性，对输出特征图的高频信号进行增强，生成最终的显著图；

将融合后的特征z^*视为潜在编码，输入局部隐函数得到显著图S，同时为了更好的表征高频信号，对坐标x_q进行位置编码，从而将坐标拓展至高频坐标，具体描述为：

其中，ω₁为2e，ω_L为2e^L，x为坐标x_q。L是可以修改的网络超参数，本实施例设置为8。

再将编码过的高频坐标信号ψ(x)与潜在编码z^*输入局部隐函数中，得到对应坐标的像素值。通过遍历所有坐标，得到所有坐标对应的像素值，并生成最终的显著图具体描述为：

M(x_q)＝f_θ(z^*,ψ(x_q)) (9)

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种光场图像显著性检测方法，其特征在于，具体包括以下步骤：

获取原始聚焦栈图像；

基于所述原始聚焦栈图像，获取新全聚焦栈图像；

基于所述原始聚焦栈图像，获取所述新全聚焦栈图像包括：

从光场图像中提取全聚焦图像；

将每张所述聚焦栈图像的特征图和所述全聚焦图像进行可变卷积操作，获取所述新全聚焦栈图像；

利用所述目标融合特征图，生成最终显著图；

利用所述目标融合特征图，生成所述最终显著图包括：

2.如权利要求1所述的一种光场图像显著性检测方法，其特征在于，获取所述原始聚焦栈图像包括：

从光场图像中提取光场聚焦栈图像；

3.如权利要求1所述的一种光场图像显著性检测方法，其特征在于，对所述原始聚焦栈图像和所述新全聚焦栈图像进行特征提取，获取所述原始聚焦栈特征图和所述新全聚焦栈特征图包括：

4.如权利要求1所述的一种光场图像显著性检测方法，其特征在于，对所述原始聚焦栈特征图和所述新全聚焦栈特征图进行多特征融合，获取所述目标融合特征图包括：

5.如权利要求4所述的一种光场图像显著性检测方法，其特征在于，利用卷积长短时记忆将所述原始聚焦栈特征图和所述新全聚焦栈特征图的维度进行统一，并使用膨胀卷积模型，将所述原始聚焦栈特征图和所述新全聚焦栈特征图的通道数统一为：

6.如权利要求4所述的一种光场图像显著性检测方法，其特征在于，利用显著图真值GT对所述融合后的特征图进行监督的过程中采取交叉熵损失。

7.如权利要求1所述的一种光场图像显著性检测方法，其特征在于，通过遍历每个所述坐标，得到每个所述坐标对应的像素值，并生成所述最终显著图包括：

M(x_q)＝f_θ(z^*,ψ(x_q))