CN115019139A

CN115019139A - 一种基于双流网络的光场显著目标检测方法

Info

Publication number: CN115019139A
Application number: CN202210620320.1A
Authority: CN
Inventors: 张继勇; 张世龙; 周晓飞; 李世锋; 周振; 何帆
Original assignee: China Power Data Service Co ltd; Hangzhou Dianzi University
Current assignee: China Power Data Service Co ltd; Hangzhou Dianzi University
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2022-09-06

Abstract

本发明公开了一种基于双流网络的光场显著目标检测方法，包括如下步骤：S1、创建数据集，所述数据集包括焦片和RGB图像；S2、通过双流编码器提取焦片和RGB图像的特征；S3、特征融合S3‑1、将提取的焦片特征进行融合，使用焦片维注意力模块融合焦片中的有效信息；S3‑2、通过跨模态特征融合模块将步骤S3‑1得到的融合后的焦片特征和提取的RGB图像特征进行融合，得到跨模态融合特征；S4、通过解码模块对步骤S3得到的跨模态融合特征进行逐级解码。该方法通过跨模态特征融合模块能够有效地融合目标图像的特征、协同图像的特征和深度图像的特征。所以通过光场的输入来改善传统的基于RGB输入的显著目标检测具有良好的效果。

Description

一种基于双流网络的光场显著目标检测方法

技术领域

本发明涉及计算机视觉技术领域，具体指一种基于双流网络的光场显著目标检测方法。

背景技术

显著目标检测(SOD)旨在凸显出视觉上最吸引人的对象。在过去的数年中，它作为计算机的一项重要视觉任务得到了很好的应用并获得了广泛的关注，包括对象分割、视觉跟踪、人员重新识别和伪装对象检测。在传统的显著目标检测方法之中，RGB图像只包含着像素颜色和强度，而光场图像不仅包含像素颜色和强度信息，还反映出了所有入射光的方向。入射光的方向反映出场景中物体的3D几何信息。

最近，Lytro、Raytrix等商用微透镜阵列光场相机越来越受欢迎，光场信息也被用于深度估计、超分辨率等多重视觉任务，这就提供了更丰富的视觉信息算法，也让算法性能得到了显著提升。根据RGB图像、RGB-D图像和光场图像等图像类型的输入，现有的SOD算法可以大致分为三类：2D、3D和4D SOD算法。在研究中，第一类算法占据了很大比例，而后两类所占的比例则相对较少。由于深度学习技术，特别是卷积神经网络(CNN)的重大进步，主流二维显著性检测算法取得了显著进展。在尝试对实际场景进行成像时，这些方法通常会减慢或失败。这有两个主要原因:(1)传统的2D SOD方法主要是依靠着先验知识来进行的。(2)RGB图像中缺少3D信息。3D SOD算法的准确性之所以正逐渐受到学者们的关注，主要是因为深度信息有助于了解突出目标的上下文信息并改善SOD。然而，深度估计本身是一个非常困难的话题，质量差的深度图对3D RGB-D SOD方法的性能有严重影响。

近几年来光场信息相对容易获取，这主要得益于Lytro、Raytrix等光场相机的普及。丰富的视觉信息蕴含在光场图像中，其中包括全焦图像、焦点堆栈序列和深度图，而丰富的3D几何和外观信息蕴含在焦堆栈中。我们可以相信，4D Lightfield SOD具有良好的发展前景，因为其具有独特的视觉特性。由于光场数据包含了在许多方面都有益于显著目标检测的自然场景的综合信息，所以通过光场的输入来改善传统的基于RGB输入的显著目标检测已经越来越成为新兴的流行趋势。但是，当前显著目标检测的研究中缺少基于深度学习的光场方法。

发明内容

针对现有技术存在的不足，本发明提供了一种基于双流网络的光场显著目标检测方法，利用多层次和多尺度的能力使CNN能够准确地捕捉视觉上最吸引人的对象的区域，而无需先验知识。

为了解决上述技术问题，本发明的技术方案为：

一种基于双流网络的光场显著目标检测方法，包括如下步骤：

S1、创建数据集，所述数据集包括焦片和RGB图像；

S2、通过双流编码器提取焦片和RGB图像的特征；

S3、特征融合

S3-1、将提取的焦片特征进行融合，使用焦片维注意力模块融合焦片中的有效信息；

S3-2、通过跨模态特征融合模块将步骤S3-1得到的融合后的焦片特征和提取的RGB图像特征进行融合，得到跨模态融合特征；

S4、通过解码模块对步骤S3得到的跨模态融合特征进行逐级解码。

作为优选，所述数据集中每张RGB图像对应有12张不同焦点的焦片，12张不同焦点的焦片的集合为焦堆栈。

作为优选，所述步骤S2中特征的提取方法为：将RGB图像和焦堆栈输入到双流编码器中对特征进行编码，所述双流编码器采用resnet50的5个卷积块，分别为Conv1-Conv5，RGB图像和焦堆栈经过双流编码器后，分别得到5个层级的特征。

作为优选，所述步骤S3-1中焦片特征的融合方法为：使用焦片维注意力模块针对每张焦片包含场景中不同深度的信息，通过学习的方式自适应学习每张焦片的融合权重，然后使用得到的融合权重乘以对应的焦片特征，并相加得到融合后的焦片特征。

作为优选，所述焦片维注意力模块获取融合权重的方法为：首先将12张焦片在通道维连接，然后使用通道注意力预测每个通道的重要性，并作为每张焦片的融合权重。

作为优选，所述步骤S3-2中，使用相加操作融合两个模态的特征。

作为优选，所述步骤S4中，使用Unet的网络结构将跨模态融合特征使用跳连接的方式，连接到解码模块的每个层级，然后将解码模块的每层特征使用卷积预测得到显著图。

作为优选，所述步骤S4中采用深监督策略，使用交叉熵损失函数对Unet的网络结构进行监督。

本发明具有以下的特点和有益效果：

跨模态特征融合模块能够有效地融合目标图像的特征、协同图像的特征和深度图像的特征。

由于光场数据包含了在许多方面都有益于显著目标检测的自然场景的综合信息，所以通过光场的输入来改善传统的基于RGB输入的显著目标检测具有良好的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的网络整体框架图；

图2为本发明实施例中特征融合的模块结构图；

图3为本发明实施例特征解码的模块结构图；

图4为本发明方法的结果图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

本发明提供了一种基于双流网络的光场显著目标检测方法，如图1所示，包括如下步骤：

S1、创建数据集，所述数据集包括焦片和RGB图像。其中，所述数据集中每张RGB图像对应有12张不同焦点的焦片，12张不同焦点的焦片的集合为焦堆栈。

具体的，该数据集采用了一个新的数据集，即DUTLF-FS数据集，以此来协助后续的4D光场显著性检测研究。这是迄今为止最大的光场数据集，该数据集提供了1465个带有人工标记的地面真相蒙版的全焦点图像，以及每个光场图像的对应焦点堆栈。这是第一个大规模光场显著性数据集，其中包含1000个训练图像和465个测试图像。每个图像都包含一个标记有每像素GT的全焦点图像和一个具有不同重新聚焦和散焦区域的焦点堆栈。

需要说明的是，本实施例中所提及的焦片为RGB图像中不同焦点的图片，将不同焦点的图片进行叠加得到清晰的原图。

S2、通过双流编码器提取焦片和RGB图像的特征。

具体的，所述步骤S2中特征的提取方法为：将RGB图像和焦堆栈输入到双流编码器中对特征进行编码，所述双流编码器采用resnet50的5个卷积块，分别为Conv1-Conv5，RGB图像和焦堆栈经过双流编码器后，分别得到5个层级的特征。

S3、特征融合，对于每个层级，将两个模态的特征输入到跨模态特征融合模块中进行融合。

如图2所示，S3-1、将提取的焦片特征进行融合，使用焦片维注意力模块融合焦片中的有效信息；

具体的，所述步骤S3-1中焦片特征的融合方法为：使用焦片维注意力模块针对每张焦片包含场景中不同深度的信息，通过学习的方式自适应学习每张焦片的融合权重，然后使用得到的融合权重乘以对应的焦片特征，并相加得到融合后的焦片特征。

可以理解的，因为每张焦片包含场景中不同深度的信息，因此通过焦片维注意力模块充分融合其中所包含的信息。

进一步的，所述焦片维注意力模块获取融合权重的方法为：首先将12张焦片在通道维连接，然后使用通道注意力预测每个通道的重要性，并作为每张焦片的融合权重，其表达式如下：

W_i ^F＝σ(Conv(Relu(Conv(MaxPool(Cat(1F_i ^F,²F_i ^F,···,¹²F_i ^F))))))

^jW_i ^F＝Split(W_i ^F)

其中，^jF_i ^F表示第j张焦片第i层级的特征。W_i ^F表示第i个层级焦片的权重。^jW_i ^F表示第i层级第j张焦片的重要性权重。Cat是在通道维对特征连接，MaxPool是全局最大池化，Conv是1*1卷积且第1个卷积将通道降为1/16，第2个卷积将通道变为原通道，Relu是非线性激活操作。σ是sigmoid非线性激活。Split是对得到的权重沿着通道维分割成12份。

需要说明的是，数据集中每张RGB图像分别对应着12张不同焦点的图片，即12张焦片，因此，本实施例中焦片维注意力模块获取融合权重时，将12张焦片在通道维连接。

S3-2、通过跨模态特征融合模块将步骤S3-1得到的融合后的焦片特征和提取的RGB图像特征进行融合，得到跨模态融合特征，其表达式如下：

其中，F_i ^F表示第i个层级焦片融合后的特征。

进一步的，所述步骤S3-2中，使用相加操作融合两个模态的特征，大大减少了计算量，其表达式如下：

F_i ^S＝F_i ^F+F_i ^R

其中F_i ^S表示第i个层级模态间融合后的特征。

可以理解的，如图3所示，提取的5个层级的特征中，由于高层级特征包含语义信息，可以用来定位目标位置。低层级特征包含细节信息，用于对目标的细节进行补充。为了充分使用这两种信息，使用Unet的网络结构来逐渐增加显著特征的分辨率。即使用Unet的网络结构将跨模态融合特征使用跳连接的方式，连接到解码模块的每个层级，其表达式如下：

其中F_i ^D表示第i层级解码后的特征，Conv表示3*3卷积操作，卷积之后跟小批量标准化。Up表示2倍的升采样。

然后将解码模块的每层特征使用卷积预测得到显著图，其表达式如下：

S_i＝Conv(F_i ^D)

其中S_i是第i个层级的预测图，Conv是1*1卷积用于将特征通道降为1通道。在对模型测试时，选取S₁作为模型的最终预测图。

进一步的，所述步骤S4中采用深监督策略，使用交叉熵损失函数对Unet的网络结构进行监督，从而加快网络的训练速度，其表达式如下：

其中l_bce是交叉熵损失，GT是样本的标签，Loss是模型的预测损失。

具体的，Unet的网络结构使用PyTorch框架构建网络模型，选用交叉熵作为损失函数，采用Adam优化器进行训练。将学习率设置为1e-5，网络总共训练200轮。使用单GPU(NVIDIA RTX3080)进行训练。

通过图4可以看出，利用上述技术方案成功实现对光场显著目标的检测任务。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式包括部件进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种基于双流网络的光场显著目标检测方法，其特征在于，包括如下步骤：

S1、创建数据集，所述数据集包括焦片和RGB图像；

S2、通过双流编码器提取焦片和RGB图像的特征；

S3、特征融合

2.根据权利要求1所述的基于双流网络的光场显著目标检测方法，其特征在于，所述数据集中每张RGB图像对应有12张不同焦点的焦片，12张不同焦点的焦片的集合为焦堆栈。

3.根据权利要求2所述的基于双流网络的光场显著目标检测方法，其特征在于，所述步骤S2中特征的提取方法为：将RGB图像和焦堆栈输入到双流编码器中对特征进行编码，所述双流编码器采用resnet50的5个卷积块，分别为Conv1-Conv5，RGB图像和焦堆栈经过双流编码器后，分别得到5个层级的特征。

4.根据权利要求2所述的基于双流网络的光场显著目标检测方法，其特征在于，所述步骤S3-1中焦片特征的融合方法为：使用焦片维注意力模块针对每张焦片包含场景中不同深度的信息，通过学习的方式自适应学习每张焦片的融合权重，然后使用得到的融合权重乘以对应的焦片特征，并相加得到融合后的焦片特征。

5.根据权利要求4所述的基于双流网络的光场显著目标检测方法，其特征在于，所述焦片维注意力模块获取融合权重的方法为：首先将12张焦片在通道维连接，然后使用通道注意力预测每个通道的重要性，并作为每张焦片的融合权重。

6.根据权利要求1所述的基于双流网络的光场显著目标检测方法，其特征在于，所述步骤S3-2中，使用相加操作融合两个模态的特征。

7.根据权利要求1所述的基于双流网络的光场显著目标检测方法，其特征在于，所述步骤S4中，使用Unet的网络结构将跨模态融合特征使用跳连接的方式，连接到解码模块的每个层级，然后将解码模块的每层特征使用卷积预测得到显著图。

8.根据权利要求7所述的基于双流网络的光场显著目标检测方法，其特征在于，所述步骤S4中采用深监督策略，使用交叉熵损失函数对Unet的网络结构进行监督。