CN114549863B

CN114549863B - 一种基于像素级噪声标签监督的光场显著性目标检测方法

Info

Publication number: CN114549863B
Application number: CN202210447954.1A
Authority: CN
Inventors: 冯明涛; 刘肯东; 张亮; 朱光明; 宋娟; 沈沛意
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-07-22
Anticipated expiration: 2042-04-27
Also published as: CN114549863A

Abstract

本发明公开了一种基于像素级噪声标签监督的光场显著性目标检测方法，包括以下步骤：S1、基于全焦图像及其对应的焦堆栈构建实验数据；S2、通过实验数据交互式引导融合网络，获得全焦图像初始噪声预测和光场焦堆栈图像初始噪声预测；S3、通过全焦图像初始噪声预测和光场焦堆栈图像初始噪声预测构建像素遗忘矩阵，得到融合后的最终预测显著性映射；S4、对融合后的最终预测显著性映射进行跨场景的噪声惩罚损失。本发明通过挖掘高维度光场数据中非常丰富的场景信息来引导和辅助显著性物体的检测，充分利用噪声标签中可用的显著性信息并减小噪声信息的置信度，有效地降低了显著性目标检测的预实验成本。

Description

一种基于像素级噪声标签监督的光场显著性目标检测方法

技术领域

本发明涉及人工智能与计算机视觉技术领域，具体涉及一种基于像素级噪声标签监督的光场显著性目标检测方法。

背景技术

视觉显著性目标检测在计算机视觉、图形、机器人和公共安全等许多领域中广泛应用。近年来，随着深度学习模型的快速发展，基于RGB图像的显著性目标检测方法得到了明显的改进，但在复杂场景、背景前景区分度小、光照变化大、目标伪装遮掩等情况下，检测精度仍然较低。为此，基于光场图像的显著性目标检测任务引起了诸多关注，光场图像因包含丰富的纹理和深度等信息对挑战性自然场景的显著性目标检测提供了新的可能。然而，现有的光场图像显著性目标检测方法均需制作由大量人工逐像素标记的，与光场图像中心视角对齐的标签来完全监督训练过程，成本代价昂贵，不利于光场图像显著性目标检测的大规模落地应用。如何获得成本低廉的像素级噪声标签来监督光场显著性目标检测学习过程，并设计鲁棒的学习策略来大幅度降低像素级噪声标签带来的不确定扰动，使得在像素级噪声标签监督下训练的网络模型检测出的结果接近于人工标记数据监督下训练的网络模型，是极具价值和有深远意义的一个研究工作。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于像素级噪声标签监督的光场显著性目标检测方法解决了现有的光场图像显著性目标检测方法成本代价昂贵，不利于光场图像显著性目标检测的大规模落地应用的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于像素级噪声标签监督的光场显著性目标检测方法，包括以下步骤：

S1、基于全焦图像及其对应的焦堆栈构建实验数据；

S2、通过实验数据交互式引导融合网络，获得全焦图像初始噪声预测和光场焦堆栈图像初始噪声预测；

S3、通过全焦图像初始噪声预测和光场焦堆栈图像初始噪声预测构建像素遗忘矩阵，得到融合后的最终预测显著性映射；

S4、对融合后的最终预测显著性映射进行跨场景的噪声惩罚损失最小化，得到光场显著性映射目标。

进一步地：所述步骤S1具体为：

构建训练数据集

，N为训练数据样本总数，数据集中的每一个x _i由一个全焦图像I _r及其对应的焦堆栈

组成，k为焦堆栈总数，焦堆栈是由光场原始数据raw.lfp重聚焦分离得到的不同焦距下的焦片，

由传统无监督显著性目标检测方法生成的噪声标签。

进一步地：所述步骤S2的具体步骤为：

S21、输入全焦图像I _r及其对应的焦堆栈

，k为焦堆栈总数；

S22、采用VGG-19作为特征提取网络，生成全焦图像特征R _m及其对应的焦堆栈特征

，在R _m与F _m之间建立相互融合的网络模块，m为特征提取网络VGG-19的层数，

为第m层第i个焦堆片的特征；

S23、在全焦图像特征R _m的指导下，通过注意力机制和焦片内部上下文的传播进行焦堆栈特征

的融合，得到加权光场特征

，

为第m层第i个焦堆片的加权光场特征；

S24、将加权光场特征

作为一个对应于连续时间步长的输入序列输入到ConvLSTM结构中，得到细化后的焦堆栈特征

；

S25、在焦堆栈特征

的指导下，使用注意力机制对全焦图像特征R _m像素级的强调或抑制，得到焦堆栈空间信息引导融合后的全焦图像特征

；

S26、分别对

和

的多级层次使用ConvLSTM对多层特征进行有效地整合，进一步总结空间信息，在ConvLSTM输出之后进行过渡卷积层和上采样操作以获得全焦图像初始噪声预测s _r和光场焦堆栈图像初始噪声预测s _f。

进一步地：所述步骤S23中第m层第i个焦堆片的加权光场特征

的计算公式为：

上式中，

为连接操作，*，w _m和b _m表示第m层的卷积算子和卷积参数，

表示全局平均池化操作，

表示softmax函数，

表示第m层的信道注意图，

表示特征级乘法。

进一步地：所述步骤S25中全焦图像特征

的计算公式为：

上式中，*，w和b表示第m层的卷积算子和卷积参数，

表示第m层的像素级注意图，

表示softmax函数，

表示像素级乘法。

进一步地：所述步骤S3的具体步骤为：

S31、输入全焦图像和光场焦堆栈图像的初始噪声预测s _r和s _f，采用两个二进制变换矩阵T _r和T _f来描述像素在整个训练阶段的学习变换，变换矩阵中的元素表示该像素点在每次迭代中是否被正确识别；

S32、比较相邻迭代的变换矩阵T _r和T _f数值，以此来更新遗忘矩阵G _r和G _f，当像素点(u,v)的变换矩阵发生

时，像素点(u,v)对应的遗忘矩阵值加1，其中t为迭代次数；

S33、利用遗忘矩阵G _r和G _f，进一步采用置信重加权策略，为初始噪声预测s _r和s _f的像素点(u,v)分配在[0,1]之间的权重，得到置信重加权掩码矩阵M _r和M _f；

S34、采用置信重加权掩码矩阵M _r和M _f对初始噪声预测s _r和s _f分别进行像素级乘法，通过一个卷积层和上采样操作得到融合后的最终预测显著性映射s _i，

，其中N为样本总数。

进一步地：所述步骤S31中二进制变换矩阵更新公式为：

上式中，T(u,v)为变换矩阵，包括T _r(u,v)和T _f(u,v)，

表示像素(u,v)的噪声标签，s ^(u,v)为初始噪声预测，

为初始噪声预测与噪声标签之间的偏差阈值；

所述步骤S32中遗忘矩阵的更新公式为：

上式中，G(u,v)为遗忘矩阵，包括G _r(u,v)和G _f(u,v)，t为迭代次数；

所述置信重加权掩码矩阵为：

上式中，M(u,v)为置信重加权掩码矩阵，包括M _r(u,v)和M _f(u,v)，a根据遗忘事件的统计量来控制置信权值的下降程度。

进一步地：所述步骤S4的具体步骤为：

S41、对于每个样本

，随机抽取另外两个样本

为i的相关样本，将

和

进行配对；

S42、采用交叉熵损失函数

进行评分，利用随机配对的相关样本

对当前预测像素样本进行惩罚；

S43、根据像素级任务的特点，对显著性预测结果进行更详细的评估，采用m _l对跨场景样本对消除方差，稳定学习过程，减小噪声惩罚损失，得到光场显著性目标。

进一步地：所述步骤S43中m _l对跨场景样本的噪声惩罚损失为：

上式中，

为调节相关样本惩罚的程度，

为对噪声标签训练的预测结果评估，

为在m _l个独立的随机选择的光场图像之间，惩罚网络对像素级的噪声标签的过拟合行为。

本发明的有益效果为：

第一，本发明通过挖掘高维度光场数据中非常丰富的场景信息来引导和辅助显著性物体的检测，采用交互式融合对多模态的输入信息进行特征融合，并采用基于注意力机制的特征更新策略，有效地提取完整精确的显著性物体，充分地利用了光场数据中的丰富的场景信息，克服了现有2D、3D方法中对复杂场景理解不够深入而导致检测效果不佳的问题，使得本发明中的模型具有可以更深入地理解许多具有挑战性的复杂场景的优点，进而为显著性目标的精确检测提供了必要条件。

第二，本发明使用传统显著性目标检测方法得到的噪声标签作为网络的监督信息，引入像素遗忘引导的融合模块来相互增强光场特征，并利用迭代中的像素一致性来识别有噪声的像素标签，充分利用噪声标签中可用的显著性信息并减小噪声信息的置信度，有效地降低了显著性目标检测的预实验成本，有效地减少了数据处理的工作量，采用基于预测一致性和噪声像素非典型性的噪声识别方法，有效地降低噪声在训练过程中的干扰，克服了现有技术中监督信息标注困难、成本高、速度慢和无监督下的噪声扰动的问题，使得本发明具有能够建立在弱监督下仍具有高精度的检测模型的优点。

第三，本发明采用跨场景噪声惩罚损失，反映训练数据的潜在结构，在评估噪声标签的预测结果的同时惩罚网络的过拟合学习，隐式地编码了噪声率，克服了噪声标签预测统计噪声率过程繁琐的困难，解决了基于噪声标签的显著性目标检测边界模糊的问题，使得本发明具有能够在不估计噪声率的情况下预测出完整的显著性物体并且具有清晰的预测边界等优点。

附图说明

图1为基于像素级噪声标签监督的光场显著性目标检测方法的整体框架图；

图2是交互式引导融合网络的示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，一种基于像素级噪声标签监督的光场显著性目标检测方法，包括以下步骤：

S1、基于全焦图像及其对应的焦堆栈构建实验数据；

构建训练数据集

，数据集中的每一个

由一个全焦图像

及其对应的焦堆栈

组成，其中

，焦堆栈是由

光场相机拍摄的原始数据

重聚焦分离得到的不同焦距下的焦片，

是由传统无监督显著性目标检测方法生成的噪声标签，作为伪标签监督网络。

输入为全焦图像

及其对应的焦堆栈

，采用VGG-19作为特征提取网络，生成全焦图像特征

及其对应的焦堆栈特征

，表示VGG-19最后4个卷积块中的高级特征的索引，焦堆栈特征包含丰富的空间信息，在

与

之间建立相互融合的网络模块，在每一步中，前者首先用于指导后者的更新，然后使用改进后的特性来更新前者；

在全焦图像特征

的指导下，通过注意机制和焦片内部上下文的传播进行焦堆栈特征

的融合，如图2（1）所示，得到的加权光场特征

作为一个对应于连续时间步长的输入序列输入到

结构中，得到细化后的焦堆栈特征

，以逐步完善光场特征，更加准确地识别显著性物体的空间信息；

在焦堆栈特征

的指导下，使用注意力机制对全焦图像特征

像素级的强调或抑制，得到焦堆栈空间信息引导融合后的全焦图像特征

，此过程如下：

其中

和b表示第m层的卷积算子和卷积参数，

表示第m层的像素级注意图，

表示像素级乘法。

交互融合的最后，如图2（2）和2（3）所示，分别对

和

的多级层次使用

对多层特征进行有效地整合，进一步总结空间信息，在

输出之后进行过渡卷积层和上采样操作以获得全焦图像初始噪声预测

和光场焦堆栈图像初始噪声预测

。

输入为全焦图像和焦堆栈图像交互引导融合网络初始噪声预测

和

，定义初始噪声预测中的像素从正确识别转换为错误识别为一次遗忘事件，当且仅当在第t次迭代中学习正确的像素，随后在第t+1次被识别错误时会发生一次遗忘事件，采用两个二进制变换矩阵

和

来描述像素在整个训练阶段的学习变换，变换矩阵中的元素表示该像素点在每次迭代中是否被正确识别，两个变换矩阵的更新规则如下：

其中

表示像素

的噪声标签，

为初始噪声预测，

为初始噪声预测与噪声标签之间的偏差阈值，用来判断模型是否正确地学习了该像素点。

通过计算每个像素的遗忘事件统计量来判断该像素点是否为噪声点，比较相邻迭代的变换矩阵

和

数值，以此来更新遗忘矩阵

和

，当像素点

的变换矩阵发生

时，像素点

对应的遗忘矩阵值加一，其中t为迭代次数，通过计算每个像素的遗忘事件统计量来判断该像素点是否为噪声点，更新过程如下：

利用遗忘矩阵G，进一步采用置信重加权策略，为初始预测噪声预测

和

的像素点

分配一个范围在

之间的权重，得到置信重加权掩码矩阵

和

，遵循的原则是发生遗忘事件次数越多的像素点，置信权重越低，重加权函数定义为：

，

其中

根据遗忘事件的统计量来控制置信权值的下降程度。

在像素遗忘的引导下，融合初始预测的噪声显著性映射

和

得到最终预测显著性映射

，过程如下：

其中

表示连接操作，

，

和b表示卷积算子和卷积参数。Up表示得到最终显著性图

的上采样操作。

如图1所示，对于每个样本

，随机抽取另外两个样本

作为i的相关样本，将

和

进行配对（两个独立的场景

和

配对）；

利用当前预测与其他场景之间的相关性，激励正确的信息，从其他场景的预测中获取信息对当前的预测评分，采用交叉熵损失函数

进行评分，其中，损失函数l计算方法如下：

利用随机配对的相关样本

对当前预测像素样本进行惩罚，根据像素级任务的特点，对显著性预测结果进行更详细的评估，采用

对跨场景样本对，尽可能多地消除方差，以稳定训练过程，达到更高的预测准确率。

最终的跨场景的噪声惩罚损失函数如下：

其中

用来调节相关样本惩罚的程度，第一项

对噪声标签训练的预测结果进行了评估，第二项评估定义在

个独立的随机选择的光场图像之间，以惩罚网络对像素级的噪声标签的过拟合行为。

Claims

1.一种基于像素级噪声标签监督的光场显著性目标检测方法，其特征在于，包括以下步骤：

S1、基于全焦图像及其对应的焦堆栈构建实验数据；

所述步骤S1具体为：

构建训练数据集

由传统无监督显著性目标检测方法生成的噪声标签；

所述步骤S2的具体步骤为：

S21、输入全焦图像I _r及其对应的焦堆栈

，k为焦堆栈总数；

为第m层第i个焦堆片的特征；

S23、在全焦图像特征R _m的指导下，通过注意力机制和焦堆片内部上下文的传播进行焦堆栈特征

的融合，得到加权光场特征

，

为第m层第i个焦堆片的加权光场特征；

S24、将加权光场特征

；

S25、在焦堆栈特征

；

S26、分别对

和

的多级层次使用ConvLSTM对多层特征进行有效地整合，进一步总结空间信息，在ConvLSTM输出之后进行过渡卷积层和上采样操作以获得全焦图像初始噪声预测s _r和光场焦堆栈图像初始噪声预测s _f；

所述步骤S3的具体步骤为：

S31、输入全焦图像和光场焦堆栈图像的初始噪声预测s _r和s _f，采用两个二进制变换矩阵T _r和T _f来描述像素点在整个训练阶段的学习变换，变换矩阵中的元素表示该像素点在每次迭代中是否被正确识别；

时，像素点(u,v)对应的遗忘矩阵值加1，其中t为迭代次数；

，其中N为样本总数；

S4、对融合后的最终预测显著性映射进行跨场景的噪声惩罚损失最小化，得到光场显著性映射目标；

所述步骤S4的具体步骤为：

S41、对于每个样本

，随机抽取另外两个样本

为i的相关样本，将

和

进行配对；

S42、采用交叉熵损失函数

进行评分，利用随机配对的相关样本

对当前预测像素样本进行惩罚；

2.根据权利要求1所述的基于像素级噪声标签监督的光场显著性目标检测方法，其特征在于，所述步骤S23中第m层第i个焦堆片的加权光场特征

的计算公式为：

上式中，

为连接操作，*，w _m和b _m表示第m层的卷积算子和卷积参数，

表示全局平均池化操作，

表示softmax函数，

表示第m层的信道注意图，

表示特征级乘法。

3.根据权利要求1所述的基于像素级噪声标签监督的光场显著性目标检测方法，其特征在于，所述步骤S25中全焦图像特征

的计算公式为：

上式中，*，w和b表示第m层的卷积算子和卷积参数，

表示第m层的像素级注意图，

表示softmax函数，

表示像素级乘法。

4.根据权利要求1所述的基于像素级噪声标签监督的光场显著性目标检测方法，其特征在于，所述步骤S31中二进制变换矩阵更新公式为：

上式中，T(u,v)为变换矩阵，包括T _r(u,v)和T _f(u,v)，

表示像素点(u,v)的噪声标签，s ^(u,v)为初始噪声预测，

为初始噪声预测与噪声标签之间的偏差阈值；

所述步骤S32中遗忘矩阵的更新公式为：

所述置信重加权掩码矩阵为：

5.根据权利要求1所述的基于像素级噪声标签监督的光场显著性目标检测方法，其特征在于，所述步骤S43中m _l对跨场景样本的噪声惩罚损失为：

上式中，

为调节相关样本惩罚的程度，

为对噪声标签训练的预测结果评估，