CN114549863B - 一种基于像素级噪声标签监督的光场显著性目标检测方法 - Google Patents

一种基于像素级噪声标签监督的光场显著性目标检测方法 Download PDF

Info

Publication number
CN114549863B
CN114549863B CN202210447954.1A CN202210447954A CN114549863B CN 114549863 B CN114549863 B CN 114549863B CN 202210447954 A CN202210447954 A CN 202210447954A CN 114549863 B CN114549863 B CN 114549863B
Authority
CN
China
Prior art keywords
pixel
noise
prediction
light field
focus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210447954.1A
Other languages
English (en)
Other versions
CN114549863A (zh
Inventor
冯明涛
刘肯东
张亮
朱光明
宋娟
沈沛意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202210447954.1A priority Critical patent/CN114549863B/zh
Publication of CN114549863A publication Critical patent/CN114549863A/zh
Application granted granted Critical
Publication of CN114549863B publication Critical patent/CN114549863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于像素级噪声标签监督的光场显著性目标检测方法,包括以下步骤:S1、基于全焦图像及其对应的焦堆栈构建实验数据;S2、通过实验数据交互式引导融合网络,获得全焦图像初始噪声预测和光场焦堆栈图像初始噪声预测;S3、通过全焦图像初始噪声预测和光场焦堆栈图像初始噪声预测构建像素遗忘矩阵,得到融合后的最终预测显著性映射;S4、对融合后的最终预测显著性映射进行跨场景的噪声惩罚损失。本发明通过挖掘高维度光场数据中非常丰富的场景信息来引导和辅助显著性物体的检测,充分利用噪声标签中可用的显著性信息并减小噪声信息的置信度,有效地降低了显著性目标检测的预实验成本。

Description

一种基于像素级噪声标签监督的光场显著性目标检测方法
技术领域
本发明涉及人工智能与计算机视觉技术领域,具体涉及一种基于像素级噪声标签监督的光场显著性目标检测方法。
背景技术
视觉显著性目标检测在计算机视觉、图形、机器人和公共安全等许多领域中广泛应用。近年来,随着深度学习模型的快速发展,基于RGB图像的显著性目标检测方法得到了明显的改进,但在复杂场景、背景前景区分度小、光照变化大、目标伪装遮掩等情况下,检测精度仍然较低。为此,基于光场图像的显著性目标检测任务引起了诸多关注,光场图像因包含丰富的纹理和深度等信息对挑战性自然场景的显著性目标检测提供了新的可能。然而,现有的光场图像显著性目标检测方法均需制作由大量人工逐像素标记的,与光场图像中心视角对齐的标签来完全监督训练过程,成本代价昂贵,不利于光场图像显著性目标检测的大规模落地应用。如何获得成本低廉的像素级噪声标签来监督光场显著性目标检测学习过程,并设计鲁棒的学习策略来大幅度降低像素级噪声标签带来的不确定扰动,使得在像素级噪声标签监督下训练的网络模型检测出的结果接近于人工标记数据监督下训练的网络模型,是极具价值和有深远意义的一个研究工作。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于像素级噪声标签监督的光场显著性目标检测方法解决了现有的光场图像显著性目标检测方法成本代价昂贵,不利于光场图像显著性目标检测的大规模落地应用的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于像素级噪声标签监督的光场显著性目标检测方法,包括以下步骤:
S1、基于全焦图像及其对应的焦堆栈构建实验数据;
S2、通过实验数据交互式引导融合网络,获得全焦图像初始噪声预测和光场焦堆栈图像初始噪声预测;
S3、通过全焦图像初始噪声预测和光场焦堆栈图像初始噪声预测构建像素遗忘矩阵,得到融合后的最终预测显著性映射;
S4、对融合后的最终预测显著性映射进行跨场景的噪声惩罚损失最小化,得到光场显著性映射目标。
进一步地:所述步骤S1具体为:
构建训练数据集
Figure 100002_DEST_PATH_IMAGE001
N为训练数据样本总数,数据集中的每一个x i 由一个全焦图像I r 及其对应的焦堆栈
Figure 875683DEST_PATH_IMAGE002
组成,k为焦堆栈总数,焦堆栈是由光场原始数据raw.lfp重聚焦分离得到的不同焦距下的焦片,
Figure 100002_DEST_PATH_IMAGE003
由传统无监督显著性目标检测方法生成的噪声标签。
进一步地:所述步骤S2的具体步骤为:
S21、输入全焦图像I r 及其对应的焦堆栈
Figure 73052DEST_PATH_IMAGE002
k为焦堆栈总数;
S22、采用VGG-19作为特征提取网络,生成全焦图像特征R m 及其对应的焦堆栈特征
Figure 553712DEST_PATH_IMAGE004
,在R m F m 之间建立相互融合的网络模块,m为特征提取网络VGG-19的层数,
Figure 100002_DEST_PATH_IMAGE005
为第m层第i个焦堆片的特征;
S23、在全焦图像特征R m 的指导下,通过注意力机制和焦片内部上下文的传播进行焦堆栈特征
Figure 642891DEST_PATH_IMAGE004
的融合,得到加权光场特征
Figure 765568DEST_PATH_IMAGE006
Figure 100002_DEST_PATH_IMAGE007
为第m层第i个焦堆片的加权光场特征;
S24、将加权光场特征
Figure 928696DEST_PATH_IMAGE006
作为一个对应于连续时间步长的输入序列输入到ConvLSTM结构中,得到细化后的焦堆栈特征
Figure 580257DEST_PATH_IMAGE008
S25、在焦堆栈特征
Figure 219049DEST_PATH_IMAGE008
的指导下,使用注意力机制对全焦图像特征R m 像素级的强调或抑制,得到焦堆栈空间信息引导融合后的全焦图像特征
Figure 100002_DEST_PATH_IMAGE009
S26、分别对
Figure 817520DEST_PATH_IMAGE010
Figure 100002_DEST_PATH_IMAGE011
的多级层次使用ConvLSTM对多层特征进行有效地整合,进一步总结空间信息,在ConvLSTM输出之后进行过渡卷积层和上采样操作以获得全焦图像初始噪声预测s r 和光场焦堆栈图像初始噪声预测s f
进一步地:所述步骤S23中第m层第i个焦堆片的加权光场特征
Figure 225368DEST_PATH_IMAGE007
的计算公式为:
Figure 516672DEST_PATH_IMAGE012
Figure 100002_DEST_PATH_IMAGE013
上式中,
Figure 878645DEST_PATH_IMAGE014
为连接操作,*,w m b m 表示第m层的卷积算子和卷积参数,
Figure 100002_DEST_PATH_IMAGE015
表示全局平均池化操作,
Figure 546387DEST_PATH_IMAGE016
表示softmax函数,
Figure 100002_DEST_PATH_IMAGE017
表示第m层的信道注意图,
Figure 543162DEST_PATH_IMAGE018
表示特征级乘法。
进一步地:所述步骤S25中全焦图像特征
Figure 802105DEST_PATH_IMAGE009
的计算公式为:
Figure 100002_DEST_PATH_IMAGE019
Figure 290855DEST_PATH_IMAGE020
上式中,*,wb表示第m层的卷积算子和卷积参数,
Figure 100002_DEST_PATH_IMAGE021
表示第m层的像素级注意图,
Figure 355763DEST_PATH_IMAGE016
表示softmax函数,
Figure 144728DEST_PATH_IMAGE022
表示像素级乘法。
进一步地:所述步骤S3的具体步骤为:
S31、输入全焦图像和光场焦堆栈图像的初始噪声预测s r s f ,采用两个二进制变换矩阵T r T f 来描述像素在整个训练阶段的学习变换,变换矩阵中的元素表示该像素点在每次迭代中是否被正确识别;
S32、比较相邻迭代的变换矩阵T r T f 数值,以此来更新遗忘矩阵G r G f ,当像素点(u,v)的变换矩阵发生
Figure 100002_DEST_PATH_IMAGE023
时,像素点(u,v)对应的遗忘矩阵值加1,其中t为迭代次数;
S33、利用遗忘矩阵G r G f ,进一步采用置信重加权策略,为初始噪声预测s r s f 的像素点(u,v)分配在[0,1]之间的权重,得到置信重加权掩码矩阵M r M f
S34、采用置信重加权掩码矩阵M r M f 对初始噪声预测s r s f 分别进行像素级乘法,通过一个卷积层和上采样操作得到融合后的最终预测显著性映射s i
Figure 43414DEST_PATH_IMAGE024
,其中N为样本总数。
进一步地:所述步骤S31中二进制变换矩阵更新公式为:
Figure 100002_DEST_PATH_IMAGE025
上式中,T(u,v)为变换矩阵,包括T r (u,v)和T f (u,v),
Figure 612935DEST_PATH_IMAGE026
表示像素(u,v)的噪声标签,s (u,v)为初始噪声预测,
Figure 100002_DEST_PATH_IMAGE027
为初始噪声预测与噪声标签之间的偏差阈值;
所述步骤S32中遗忘矩阵的更新公式为:
Figure 622479DEST_PATH_IMAGE028
上式中,G(u,v)为遗忘矩阵,包括G r (u,v)和G f (u,v),t为迭代次数;
所述置信重加权掩码矩阵为:
Figure 100002_DEST_PATH_IMAGE029
上式中,M(u,v)为置信重加权掩码矩阵,包括M r (u,v)和M f (u,v),a根据遗忘事件的统计量来控制置信权值的下降程度。
进一步地:所述步骤S4的具体步骤为:
S41、对于每个样本
Figure 363820DEST_PATH_IMAGE030
,随机抽取另外两个样本
Figure 100002_DEST_PATH_IMAGE031
i的相关样本,将
Figure 167828DEST_PATH_IMAGE032
Figure 100002_DEST_PATH_IMAGE033
进行配对;
S42、采用交叉熵损失函数
Figure 490225DEST_PATH_IMAGE034
进行评分,利用随机配对的相关样本
Figure 100002_DEST_PATH_IMAGE035
对当前预测像素样本进行惩罚;
S43、根据像素级任务的特点,对显著性预测结果进行更详细的评估,采用m l 对跨场景样本对消除方差,稳定学习过程,减小噪声惩罚损失,得到光场显著性目标。
进一步地:所述步骤S43中m l 对跨场景样本的噪声惩罚损失为:
Figure 37881DEST_PATH_IMAGE036
上式中,
Figure 100002_DEST_PATH_IMAGE037
为调节相关样本惩罚的程度,
Figure 129334DEST_PATH_IMAGE038
为对噪声标签训练的预测结果评估,
Figure 100002_DEST_PATH_IMAGE039
为在m l 个独立的随机选择的光场图像之间,惩罚网络对像素级的噪声标签的过拟合行为。
本发明的有益效果为:
第一,本发明通过挖掘高维度光场数据中非常丰富的场景信息来引导和辅助显著性物体的检测,采用交互式融合对多模态的输入信息进行特征融合,并采用基于注意力机制的特征更新策略,有效地提取完整精确的显著性物体,充分地利用了光场数据中的丰富的场景信息,克服了现有2D、3D方法中对复杂场景理解不够深入而导致检测效果不佳的问题,使得本发明中的模型具有可以更深入地理解许多具有挑战性的复杂场景的优点,进而为显著性目标的精确检测提供了必要条件。
第二,本发明使用传统显著性目标检测方法得到的噪声标签作为网络的监督信息,引入像素遗忘引导的融合模块来相互增强光场特征,并利用迭代中的像素一致性来识别有噪声的像素标签,充分利用噪声标签中可用的显著性信息并减小噪声信息的置信度,有效地降低了显著性目标检测的预实验成本,有效地减少了数据处理的工作量,采用基于预测一致性和噪声像素非典型性的噪声识别方法,有效地降低噪声在训练过程中的干扰,克服了现有技术中监督信息标注困难、成本高、速度慢和无监督下的噪声扰动的问题,使得本发明具有能够建立在弱监督下仍具有高精度的检测模型的优点。
第三,本发明采用跨场景噪声惩罚损失,反映训练数据的潜在结构,在评估噪声标签的预测结果的同时惩罚网络的过拟合学习,隐式地编码了噪声率,克服了噪声标签预测统计噪声率过程繁琐的困难,解决了基于噪声标签的显著性目标检测边界模糊的问题,使得本发明具有能够在不估计噪声率的情况下预测出完整的显著性物体并且具有清晰的预测边界等优点。
附图说明
图1为基于像素级噪声标签监督的光场显著性目标检测方法的整体框架图;
图2是交互式引导融合网络的示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基于像素级噪声标签监督的光场显著性目标检测方法,包括以下步骤:
S1、基于全焦图像及其对应的焦堆栈构建实验数据;
构建训练数据集
Figure 104243DEST_PATH_IMAGE040
,数据集中的每一个
Figure DEST_PATH_IMAGE041
由一个全焦图像
Figure 913936DEST_PATH_IMAGE042
及其对应的焦堆栈
Figure DEST_PATH_IMAGE043
组成,其中
Figure 265283DEST_PATH_IMAGE044
,焦堆栈是由
Figure DEST_PATH_IMAGE045
光场相机拍摄的原始数据
Figure 712707DEST_PATH_IMAGE046
重聚焦分离得到的不同焦距下的焦片,
Figure DEST_PATH_IMAGE047
是由传统无监督显著性目标检测方法生成的噪声标签,作为伪标签监督网络。
S2、通过实验数据交互式引导融合网络,获得全焦图像初始噪声预测和光场焦堆栈图像初始噪声预测;
输入为全焦图像
Figure 124097DEST_PATH_IMAGE042
及其对应的焦堆栈
Figure 889928DEST_PATH_IMAGE048
,采用VGG-19作为特征提取网络,生成全焦图像特征
Figure DEST_PATH_IMAGE049
及其对应的焦堆栈特征
Figure 779386DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE051
,表示VGG-19最后4个卷积块中的高级特征的索引,焦堆栈特征包含丰富的空间信息,在
Figure 845431DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE053
之间建立相互融合的网络模块,在每一步中,前者首先用于指导后者的更新,然后使用改进后的特性来更新前者;
在全焦图像特征
Figure 162143DEST_PATH_IMAGE052
的指导下,通过注意机制和焦片内部上下文的传播进行焦堆栈特征
Figure 352953DEST_PATH_IMAGE054
的融合,如图2(1)所示,得到的加权光场特征
Figure DEST_PATH_IMAGE055
作为一个对应于连续时间步长的输入序列输入到
Figure 170736DEST_PATH_IMAGE056
结构中,得到细化后的焦堆栈特征
Figure DEST_PATH_IMAGE057
,以逐步完善光场特征,更加准确地识别显著性物体的空间信息;
在焦堆栈特征
Figure 966654DEST_PATH_IMAGE057
的指导下,使用注意力机制对全焦图像特征
Figure 77436DEST_PATH_IMAGE052
像素级的强调或抑制,得到焦堆栈空间信息引导融合后的全焦图像特征
Figure 755542DEST_PATH_IMAGE058
,此过程如下:
Figure DEST_PATH_IMAGE059
Figure 986803DEST_PATH_IMAGE060
其中
Figure DEST_PATH_IMAGE061
b表示第m层的卷积算子和卷积参数,
Figure 761861DEST_PATH_IMAGE062
表示第m层的像素级注意图,
Figure DEST_PATH_IMAGE063
表示像素级乘法。
交互融合的最后,如图2(2)和2(3)所示,分别对
Figure 685955DEST_PATH_IMAGE064
Figure DEST_PATH_IMAGE065
的多级层次使用
Figure 179253DEST_PATH_IMAGE056
对多层特征进行有效地整合,进一步总结空间信息,在
Figure 948626DEST_PATH_IMAGE056
输出之后进行过渡卷积层和上采样操作以获得全焦图像初始噪声预测
Figure 250294DEST_PATH_IMAGE066
和光场焦堆栈图像初始噪声预测
Figure DEST_PATH_IMAGE067
S3、通过全焦图像初始噪声预测和光场焦堆栈图像初始噪声预测构建像素遗忘矩阵,得到融合后的最终预测显著性映射;
输入为全焦图像和焦堆栈图像交互引导融合网络初始噪声预测
Figure 469923DEST_PATH_IMAGE066
Figure 60304DEST_PATH_IMAGE067
,定义初始噪声预测中的像素从正确识别转换为错误识别为一次遗忘事件,当且仅当在第t次迭代中学习正确的像素,随后在第t+1次被识别错误时会发生一次遗忘事件,采用两个二进制变换矩阵
Figure 430106DEST_PATH_IMAGE068
Figure DEST_PATH_IMAGE069
来描述像素在整个训练阶段的学习变换,变换矩阵中的元素表示该像素点在每次迭代中是否被正确识别,两个变换矩阵的更新规则如下:
Figure 681221DEST_PATH_IMAGE070
其中
Figure DEST_PATH_IMAGE071
表示像素
Figure 947117DEST_PATH_IMAGE072
的噪声标签,
Figure DEST_PATH_IMAGE073
为初始噪声预测,
Figure 149428DEST_PATH_IMAGE074
为初始噪声预测与噪声标签之间的偏差阈值,用来判断模型是否正确地学习了该像素点。
通过计算每个像素的遗忘事件统计量来判断该像素点是否为噪声点,比较相邻迭代的变换矩阵
Figure 526183DEST_PATH_IMAGE068
Figure 802444DEST_PATH_IMAGE069
数值,以此来更新遗忘矩阵
Figure DEST_PATH_IMAGE075
Figure 363875DEST_PATH_IMAGE076
,当像素点
Figure 663269DEST_PATH_IMAGE072
的变换矩阵发生
Figure DEST_PATH_IMAGE077
时,像素点
Figure 702770DEST_PATH_IMAGE072
对应的遗忘矩阵值加一,其中t为迭代次数,通过计算每个像素的遗忘事件统计量来判断该像素点是否为噪声点,更新过程如下:
Figure 99116DEST_PATH_IMAGE078
利用遗忘矩阵G,进一步采用置信重加权策略,为初始预测噪声预测
Figure 441235DEST_PATH_IMAGE067
Figure 290243DEST_PATH_IMAGE066
的像素点
Figure 539958DEST_PATH_IMAGE072
分配一个范围在
Figure DEST_PATH_IMAGE079
之间的权重,得到置信重加权掩码矩阵
Figure 447321DEST_PATH_IMAGE080
Figure DEST_PATH_IMAGE081
,遵循的原则是发生遗忘事件次数越多的像素点,置信权重越低,重加权函数定义为:
Figure 225921DEST_PATH_IMAGE082
Figure DEST_PATH_IMAGE083
其中
Figure 890120DEST_PATH_IMAGE084
根据遗忘事件的统计量来控制置信权值的下降程度。
在像素遗忘的引导下,融合初始预测的噪声显著性映射
Figure 146789DEST_PATH_IMAGE066
Figure 252149DEST_PATH_IMAGE067
得到最终预测显著性映射
Figure DEST_PATH_IMAGE085
,过程如下:
Figure 326284DEST_PATH_IMAGE086
其中
Figure DEST_PATH_IMAGE087
表示连接操作,
Figure 87566DEST_PATH_IMAGE088
Figure DEST_PATH_IMAGE089
b表示卷积算子和卷积参数。Up表示得到最终显著性图
Figure 538139DEST_PATH_IMAGE085
的上采样操作。
S4、对融合后的最终预测显著性映射进行跨场景的噪声惩罚损失最小化,得到光场显著性映射目标。
如图1所示,对于每个样本
Figure 435688DEST_PATH_IMAGE090
,随机抽取另外两个样本
Figure DEST_PATH_IMAGE091
作为i的相关样本,将
Figure 182190DEST_PATH_IMAGE092
Figure DEST_PATH_IMAGE093
进行配对(两个独立的场景
Figure 696348DEST_PATH_IMAGE094
Figure DEST_PATH_IMAGE095
配对);
利用当前预测与其他场景之间的相关性,激励正确的信息,从其他场景的预测中获取信息对当前的预测评分,采用交叉熵损失函数
Figure 685032DEST_PATH_IMAGE096
进行评分,其中,损失函数l计算方法如下:
Figure DEST_PATH_IMAGE097
利用随机配对的相关样本
Figure 702667DEST_PATH_IMAGE098
对当前预测像素样本进行惩罚,根据像素级任务的特点,对显著性预测结果进行更详细的评估,采用
Figure DEST_PATH_IMAGE099
对跨场景样本对,尽可能多地消除方差,以稳定训练过程,达到更高的预测准确率。
最终的跨场景的噪声惩罚损失函数如下:
Figure 384184DEST_PATH_IMAGE100
其中
Figure DEST_PATH_IMAGE101
用来调节相关样本惩罚的程度,第一项
Figure 120059DEST_PATH_IMAGE102
对噪声标签训练的预测结果进行了评估,第二项评估定义在
Figure 318959DEST_PATH_IMAGE099
个独立的随机选择的光场图像之间,以惩罚网络对像素级的噪声标签的过拟合行为。

Claims (5)

1.一种基于像素级噪声标签监督的光场显著性目标检测方法,其特征在于,包括以下步骤:
S1、基于全焦图像及其对应的焦堆栈构建实验数据;
所述步骤S1具体为:
构建训练数据集
Figure DEST_PATH_IMAGE001
N为训练数据样本总数,数据集中的每一个x i 由一个全焦图像I r 及其对应的焦堆栈
Figure 734555DEST_PATH_IMAGE002
组成,k为焦堆栈总数,焦堆栈是由光场原始数据raw.lfp重聚焦分离得到的不同焦距下的焦片,
Figure DEST_PATH_IMAGE003
由传统无监督显著性目标检测方法生成的噪声标签;
S2、通过实验数据交互式引导融合网络,获得全焦图像初始噪声预测和光场焦堆栈图像初始噪声预测;
所述步骤S2的具体步骤为:
S21、输入全焦图像I r 及其对应的焦堆栈
Figure 872275DEST_PATH_IMAGE002
k为焦堆栈总数;
S22、采用VGG-19作为特征提取网络,生成全焦图像特征R m 及其对应的焦堆栈特征
Figure 600060DEST_PATH_IMAGE004
,在R m F m 之间建立相互融合的网络模块,m为特征提取网络VGG-19的层数,
Figure DEST_PATH_IMAGE005
为第m层第i个焦堆片的特征;
S23、在全焦图像特征R m 的指导下,通过注意力机制和焦堆片内部上下文的传播进行焦堆栈特征
Figure 947864DEST_PATH_IMAGE004
的融合,得到加权光场特征
Figure 419297DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
为第m层第i个焦堆片的加权光场特征;
S24、将加权光场特征
Figure 536158DEST_PATH_IMAGE006
作为一个对应于连续时间步长的输入序列输入到ConvLSTM结构中,得到细化后的焦堆栈特征
Figure 700423DEST_PATH_IMAGE008
S25、在焦堆栈特征
Figure 676469DEST_PATH_IMAGE008
的指导下,使用注意力机制对全焦图像特征R m 像素级的强调或抑制,得到焦堆栈空间信息引导融合后的全焦图像特征
Figure DEST_PATH_IMAGE009
S26、分别对
Figure 545068DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
的多级层次使用ConvLSTM对多层特征进行有效地整合,进一步总结空间信息,在ConvLSTM输出之后进行过渡卷积层和上采样操作以获得全焦图像初始噪声预测s r 和光场焦堆栈图像初始噪声预测s f
S3、通过全焦图像初始噪声预测和光场焦堆栈图像初始噪声预测构建像素遗忘矩阵,得到融合后的最终预测显著性映射;
所述步骤S3的具体步骤为:
S31、输入全焦图像和光场焦堆栈图像的初始噪声预测s r s f ,采用两个二进制变换矩阵T r T f 来描述像素点在整个训练阶段的学习变换,变换矩阵中的元素表示该像素点在每次迭代中是否被正确识别;
S32、比较相邻迭代的变换矩阵T r T f 数值,以此来更新遗忘矩阵G r G f ,当像素点(u,v)的变换矩阵发生
Figure 657380DEST_PATH_IMAGE012
时,像素点(u,v)对应的遗忘矩阵值加1,其中t为迭代次数;
S33、利用遗忘矩阵G r G f ,进一步采用置信重加权策略,为初始噪声预测s r s f 的像素点(u,v)分配在[0,1]之间的权重,得到置信重加权掩码矩阵M r M f
S34、采用置信重加权掩码矩阵M r M f 对初始噪声预测s r s f 分别进行像素级乘法,通过一个卷积层和上采样操作得到融合后的最终预测显著性映射s i
Figure DEST_PATH_IMAGE013
,其中N为样本总数;
S4、对融合后的最终预测显著性映射进行跨场景的噪声惩罚损失最小化,得到光场显著性映射目标;
所述步骤S4的具体步骤为:
S41、对于每个样本
Figure 586022DEST_PATH_IMAGE014
,随机抽取另外两个样本
Figure DEST_PATH_IMAGE015
i的相关样本,将
Figure 783785DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
进行配对;
S42、采用交叉熵损失函数
Figure 456075DEST_PATH_IMAGE018
进行评分,利用随机配对的相关样本
Figure DEST_PATH_IMAGE019
对当前预测像素样本进行惩罚;
S43、根据像素级任务的特点,对显著性预测结果进行更详细的评估,采用m l 对跨场景样本对消除方差,稳定学习过程,减小噪声惩罚损失,得到光场显著性目标。
2.根据权利要求1所述的基于像素级噪声标签监督的光场显著性目标检测方法,其特征在于,所述步骤S23中第m层第i个焦堆片的加权光场特征
Figure 422894DEST_PATH_IMAGE007
的计算公式为:
Figure 928962DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
上式中,
Figure 473075DEST_PATH_IMAGE022
为连接操作,*,w m b m 表示第m层的卷积算子和卷积参数,
Figure DEST_PATH_IMAGE023
表示全局平均池化操作,
Figure 824422DEST_PATH_IMAGE024
表示softmax函数,
Figure DEST_PATH_IMAGE025
表示第m层的信道注意图,
Figure 773311DEST_PATH_IMAGE026
表示特征级乘法。
3.根据权利要求1所述的基于像素级噪声标签监督的光场显著性目标检测方法,其特征在于,所述步骤S25中全焦图像特征
Figure 450280DEST_PATH_IMAGE009
的计算公式为:
Figure DEST_PATH_IMAGE027
Figure 622636DEST_PATH_IMAGE028
上式中,*,wb表示第m层的卷积算子和卷积参数,
Figure DEST_PATH_IMAGE029
表示第m层的像素级注意图,
Figure 636728DEST_PATH_IMAGE024
表示softmax函数,
Figure 843718DEST_PATH_IMAGE030
表示像素级乘法。
4.根据权利要求1所述的基于像素级噪声标签监督的光场显著性目标检测方法,其特征在于,所述步骤S31中二进制变换矩阵更新公式为:
Figure DEST_PATH_IMAGE031
上式中,T(u,v)为变换矩阵,包括T r (u,v)和T f (u,v),
Figure 550643DEST_PATH_IMAGE032
表示像素点(u,v)的噪声标签,s (u,v)为初始噪声预测,
Figure DEST_PATH_IMAGE033
为初始噪声预测与噪声标签之间的偏差阈值;
所述步骤S32中遗忘矩阵的更新公式为:
Figure 944716DEST_PATH_IMAGE034
上式中,G(u,v)为遗忘矩阵,包括G r (u,v)和G f (u,v),t为迭代次数;
所述置信重加权掩码矩阵为:
Figure DEST_PATH_IMAGE035
上式中,M(u,v)为置信重加权掩码矩阵,包括M r (u,v)和M f (u,v),a根据遗忘事件的统计量来控制置信权值的下降程度。
5.根据权利要求1所述的基于像素级噪声标签监督的光场显著性目标检测方法,其特征在于,所述步骤S43中m l 对跨场景样本的噪声惩罚损失为:
Figure 762499DEST_PATH_IMAGE036
上式中,
Figure DEST_PATH_IMAGE037
为调节相关样本惩罚的程度,
Figure 292837DEST_PATH_IMAGE038
为对噪声标签训练的预测结果评估,
Figure DEST_PATH_IMAGE039
为在m l 个独立的随机选择的光场图像之间,惩罚网络对像素级的噪声标签的过拟合行为。
CN202210447954.1A 2022-04-27 2022-04-27 一种基于像素级噪声标签监督的光场显著性目标检测方法 Active CN114549863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210447954.1A CN114549863B (zh) 2022-04-27 2022-04-27 一种基于像素级噪声标签监督的光场显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210447954.1A CN114549863B (zh) 2022-04-27 2022-04-27 一种基于像素级噪声标签监督的光场显著性目标检测方法

Publications (2)

Publication Number Publication Date
CN114549863A CN114549863A (zh) 2022-05-27
CN114549863B true CN114549863B (zh) 2022-07-22

Family

ID=81667241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210447954.1A Active CN114549863B (zh) 2022-04-27 2022-04-27 一种基于像素级噪声标签监督的光场显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN114549863B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117496187B (zh) * 2023-11-15 2024-06-11 安庆师范大学 一种光场图像显著性检测方法
CN117253054B (zh) * 2023-11-20 2024-02-06 浙江优众新材料科技有限公司 一种光场显著性检测方法及其相关设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701813A (zh) * 2016-01-11 2016-06-22 深圳市未来媒体技术研究院 一种光场图像的显著性检测方法
CN108399406A (zh) * 2018-01-15 2018-08-14 中山大学 基于深度学习的弱监督显著性物体检测的方法及系统
WO2019051481A1 (en) * 2017-09-11 2019-03-14 Massachusetts Eye And Ear Infirmary TISSUE FORCE SENSOR SYSTEMS AND METHODS OF USE
CN110633708A (zh) * 2019-06-28 2019-12-31 中国人民解放军军事科学院国防科技创新研究院 一种基于全局模型和局部优化的深度网络显著性检测方法
CN110751160A (zh) * 2019-10-30 2020-02-04 华中科技大学 图像中物体的检测方法、装置及系统
CN111967476A (zh) * 2020-07-02 2020-11-20 北京大学深圳研究生院 光场图像显著性特征提取、信息融合及预测损失评估方法
CN112487225A (zh) * 2020-12-11 2021-03-12 联通(浙江)产业互联网有限公司 显著性图像生成方法、装置及服务器
CN112767466A (zh) * 2021-01-20 2021-05-07 大连理工大学 一种基于多模态信息的光场深度估计方法
CN113343822A (zh) * 2021-05-31 2021-09-03 合肥工业大学 一种基于3d卷积的光场显著性目标检测方法
CN113393435A (zh) * 2021-06-11 2021-09-14 大连理工大学 一种基于动态上下文感知滤波网络的视频显著性检测方法
CN114078192A (zh) * 2021-10-28 2022-02-22 杭州电子科技大学 一种使用动态权重融合的焦堆栈显著目标检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6525603B2 (ja) * 2015-01-27 2019-06-05 キヤノン株式会社 撮像装置
CN108090447A (zh) * 2017-12-19 2018-05-29 青岛理工大学 双分支深层结构下的高光谱图像分类方法及装置
CN108734199B (zh) * 2018-04-24 2021-09-07 西北工业大学 基于分段深度特征及低秩表示的高光谱图像鲁棒分类方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701813A (zh) * 2016-01-11 2016-06-22 深圳市未来媒体技术研究院 一种光场图像的显著性检测方法
WO2019051481A1 (en) * 2017-09-11 2019-03-14 Massachusetts Eye And Ear Infirmary TISSUE FORCE SENSOR SYSTEMS AND METHODS OF USE
CN108399406A (zh) * 2018-01-15 2018-08-14 中山大学 基于深度学习的弱监督显著性物体检测的方法及系统
CN110633708A (zh) * 2019-06-28 2019-12-31 中国人民解放军军事科学院国防科技创新研究院 一种基于全局模型和局部优化的深度网络显著性检测方法
CN110751160A (zh) * 2019-10-30 2020-02-04 华中科技大学 图像中物体的检测方法、装置及系统
CN111967476A (zh) * 2020-07-02 2020-11-20 北京大学深圳研究生院 光场图像显著性特征提取、信息融合及预测损失评估方法
CN112487225A (zh) * 2020-12-11 2021-03-12 联通(浙江)产业互联网有限公司 显著性图像生成方法、装置及服务器
CN112767466A (zh) * 2021-01-20 2021-05-07 大连理工大学 一种基于多模态信息的光场深度估计方法
CN113343822A (zh) * 2021-05-31 2021-09-03 合肥工业大学 一种基于3d卷积的光场显著性目标检测方法
CN113393435A (zh) * 2021-06-11 2021-09-14 大连理工大学 一种基于动态上下文感知滤波网络的视频显著性检测方法
CN114078192A (zh) * 2021-10-28 2022-02-22 杭州电子科技大学 一种使用动态权重融合的焦堆栈显著目标检测方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
A Multi-Task Collaborative Network for Light Field Salient Object Detection;Qiudan Zhang 等;《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》;20210531;第31卷(第5期);1849-1861 *
AN EMPIRICAL STUDY OF EXAMPLE FORGETTING DURING DEEP NEURAL NETWORK LEARNING;Mariya Toneva 等;《ICLR 2019》;20191231;1-18 *
Deep Light-field-driven Saliency Detection from a Single View;Yongri Piao 等;《Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence (IJCAI-19)》;20191231;904-911 *
Learning Noise-Aware Encoder-Decoder from Noisy Labels by Alternating Back-Propagation for Saliency Detection;Jing Zhang 等;《ECCV 2020》;20201231;349-366 *
Learning Saliency From Single Noisy Labelling: A Robust Model Fitting Perspective;Jing Zhang 等;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;20210831;第43卷(第8期);2866-2873 *
LFNet: Light Field Fusion Network for Salient Object Detection;Miao Zhang 等;《IEEE TRANSACTIONS ON IMAGE PROCESSING》;20201231;第29卷;6276-6287 *
Memory-oriented Decoder for Light Field Salient Object Detection;Miao Zhang 等;《33rd Conference on Neural Information Processing Systems (NeurIPS 2019)》;20191231;1-11 *
Saliency Detection via Dense and Sparse Reconstruction;Xiaohui Li 等;《2013 IEEE International Conference on Computer Vision》;20131231;2976-2983 *
光场显著性检测研究综述;刘亚美 等;《中国图象图形学报》;20201231;第25卷(第12期);2465-2483 *
复杂场景下基于光场技术的显著性检测研究;李啸;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20200215;第2020年卷(第02期);I138-1920 *

Also Published As

Publication number Publication date
CN114549863A (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN114549863B (zh) 一种基于像素级噪声标签监督的光场显著性目标检测方法
CN109800689B (zh) 一种基于时空特征融合学习的目标跟踪方法
CN110728694B (zh) 一种基于持续学习的长时视觉目标跟踪方法
CN113744311A (zh) 基于全连接注意力模块的孪生神经网络运动目标跟踪方法
Xue et al. Boundary-induced and scene-aggregated network for monocular depth prediction
US11361534B2 (en) Method for glass detection in real scenes
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
CN113129336A (zh) 一种端到端多车辆跟踪方法、系统及计算机可读介质
CN113312973A (zh) 一种手势识别关键点特征提取方法及系统
CN113139502A (zh) 无监督视频分割方法
CN117456480B (zh) 一种基于多源信息融合的轻量化车辆再辨识方法
CN112508966B (zh) 一种交互式图像分割方法及系统
CN117854104A (zh) 一种基于特征对齐的无监督行人重识别方法
CN116503618B (zh) 一种基于多模态多级特征聚合的显著目标检测方法及装置
CN117351194A (zh) 基于互补图推理网络的涂鸦式弱监督显著性目标检测方法
CN116935438A (zh) 一种基于模型结构自主进化的行人图像重识别方法
CN116433909A (zh) 基于相似度加权多教师网络模型的半监督图像语义分割方法
CN116309165A (zh) 一种基于ResNet的深度可分离卷积神经网络的图像去雾方法
CN116229228A (zh) 基于中心环绕机制的小目标检测方法
CN110942463A (zh) 一种基于生成对抗网络的视频目标分割方法
CN116452472A (zh) 基于语义知识引导的低照度图像增强方法
CN116030095A (zh) 一种基于双分支孪生网络结构的视觉目标跟踪方法
CN115294371B (zh) 基于深度学习的互补特征可靠描述与匹配方法
CN113313091A (zh) 仓储物流下的基于多重注意力和拓扑约束的密度估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant