CN116229222A - 一种基于隐式图学习的光场显著性目标检测方法及装置 - Google Patents
一种基于隐式图学习的光场显著性目标检测方法及装置 Download PDFInfo
- Publication number
- CN116229222A CN116229222A CN202211618605.8A CN202211618605A CN116229222A CN 116229222 A CN116229222 A CN 116229222A CN 202211618605 A CN202211618605 A CN 202211618605A CN 116229222 A CN116229222 A CN 116229222A
- Authority
- CN
- China
- Prior art keywords
- focus
- feature
- full
- focal stack
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Eye Examination Apparatus (AREA)
- Image Analysis (AREA)
Abstract
本发明所提供的一种基于隐式图学习的光场显著性目标检测方法及装置,所述方法包括:将待测试的全聚焦图像和待测试的焦点堆栈图像输入预先训练的双流深层卷积网络,得到全聚焦特征图和焦点堆栈特征图;将所述全聚焦特征图和所述焦点堆栈特征图输入预先训练的轮廓感知模型,得到显著性预测结果和物体轮廓预测结果。本发明通过将待测试的全聚焦图像和焦点堆栈图像输入预先训练的双流深层卷积网络,促进了显著性特征的挖掘,并且,将全聚焦特征图和焦点堆栈特征图输入预先训练的轮廓感知模型,可以有效地聚合混合尺度的信息,进而得到准确的光场显著性目标检测结果。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及的是一种基于隐式图学习的光场显著性目标检测方法及装置。
背景技术
显著性目标检测技术主要是基于视觉注意力机制构建的图像预处理方法。近年来,光场相机可以提供由多视角图像和焦点切片提供的丰富的空间和布局信息,这种丰富的信息已经显示出其促进显著性目标检测的强大能力,因此,近年来光场显著性目标检测(LF SOD)引起了广泛的研究关注。
在光场图像中,一个焦点堆栈包含一系列聚焦在不同深度的焦点切片图像,导致与显著性相关的区域模糊不清、显著性上下文信息缺失的问题。这样的特点可能会切断像素间的关系,显著性预测将受到负面影响。然而,大多数基于深度学习的光场显著性检测模型只是简单地使用单独的焦点堆栈主干网进行特征提取,而忽略了不同区域与显著性预测结果的内部关联性。这样,不能充分提取有用的显著性特征,限制了对焦点堆栈内容的理解,难以得到准确的光场显著性目标检测结果。
因此,现有技术存在缺陷,有待改进与发展。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于隐式图学习的光场显著性目标检测方法及装置,旨在解决现有技术中在进行光场显著性目标检测时,难以得到准确的光场显著性目标检测结果的问题。
本发明解决技术问题所采用的技术方案如下:
一种基于隐式图学习的光场显著性目标检测方法,包括:
将待测试的全聚焦图像和待测试的焦点堆栈图像输入预先训练的双流深层卷积网络,得到全聚焦特征图和焦点堆栈特征图;
将所述全聚焦特征图和所述焦点堆栈特征图输入预先训练的轮廓感知模型,得到显著性预测结果和物体轮廓预测结果。
在一种实现方式中,所述双流深层卷积网络包括全聚焦主干网和焦点堆栈主干网;所述将待测试的全聚焦图像和待测试的焦点堆栈图像输入预先训练的双流深层卷积网络,得到全聚焦特征图和焦点堆栈特征图,包括:
将待测试的全聚焦图像输入预先训练的全聚焦主干网,得到全聚焦特征图,以及将待测试的焦点堆栈图像输入预先训练的焦点堆栈主干网,得到焦点堆栈特征图。
在一种实现方式中,将所述全聚焦特征图和所述焦点堆栈特征图输入预先训练的轮廓感知模型,得到显著性预测结果和物体轮廓预测结果,包括:
在预先训练的轮廓感知模型中,采用2D卷积层和ReLU激活函数将所述焦点堆栈特征图中的各个焦点堆栈显著特征处理为第一焦点堆栈特征,以及将所述全聚焦特征图中的各个全聚焦显著特征处理为第一全聚焦特征;
采用紧凑聚合模块对各个所述第一焦点堆栈特征进行处理,得到增强的分层焦点堆栈特征;
采用多个交互式特征融合模块将各个所述分层焦点堆栈特征和各个所述第一全聚焦特征进行互促融合,得到焦点堆栈初始融合特征和全聚焦初始融合特征;
基于轮廓原型表达将所述焦点堆栈初始融合特征处理为焦点堆栈细化融合特征,以及将所述全聚焦初始融合特征处理为全聚焦细化融合特征;
利用显著性检测头将所述焦点堆栈细化融合特征和所述全聚焦细化融合特征进行聚合,得到显著性预测结果和物体轮廓预测结果。
在一种实现方式中,所述分层焦点堆栈特征的计算公式为:
其中,所述表示带有空洞率为1的3×3×3的3D扩张的深度可分离的卷积,所述表示带有空洞率为2的3×3×3的3D扩张的深度可分离的卷积,所述/>表示带有空洞率为3的3×3×3的3D扩张的深度可分离的卷积,所述/>代表转换层,用于通过一个3×3卷积将焦点堆栈的维度从N×128转换为1×128,所述/>表示第一焦点堆栈特征,所述l为焦点堆栈主干网的层数,取值为3,4,5。
在一种实现方式中,所述采用多个交互式特征融合模块将各个所述分层焦点堆栈特征和各个所述第一全聚焦特征进行互促融合,得到焦点堆栈初始融合特征和全聚焦初始融合特征,包括:
在一种实现方式中,所述基于轮廓原型表达将所述焦点堆栈初始融合特征处理为焦点堆栈细化融合特征,以及将所述全聚焦初始融合特征处理为全聚焦细化融合特征,包括:
在一种实现方式中,所述双流深层卷积网络的训练步骤包括:
获取训练数据集,所述训练数据集中包括:全聚焦训练图像和焦点堆栈训练图像;
将所述全聚焦训练图像和所述焦点堆栈训练图像输入初始双流深层卷积网络,所述初始双流深层卷积网络包括全聚焦主干网和焦点堆栈主干网;
根据所述全聚焦训练特征图建立全聚焦图Gr,所述Gr={Ar,Fr},其中,所述Ar表示全聚焦图的邻接矩阵,所述Fr表示全聚焦图的节点;
根据所述焦点堆栈训练特征图建立焦点堆栈图Gf={Af,Ff},其中,所述Af表示焦点堆栈图的邻接矩阵,所述Ff表示焦点堆栈图的节点;
通过建模图神经网络建立和推理全聚焦图的节点之间的关系,并鼓励全聚焦图之间的连接来挖掘显著性特征表达,公式表达为:
通过建模图神经网络建立和推理焦点堆栈图的节点之间的关系,并鼓励焦点堆栈图之间的连接来挖掘显著性特征表达,公式表达为:
其中,所述L2代表L2损失函数,所述l表示焦点堆栈主干网和全聚焦主干网的层数;
当训练epoch数达到第一预设值时,训练完成,得到已训练的双流深层卷积网络。
在一种实现方式中,所述轮廓感知模型的训练步骤包括:
其中,所述表示带有空洞率为1的3×3×3的3D扩张的深度可分离的卷积,所述表示带有空洞率为2的3×3×3的3D扩张的深度可分离的卷积,所述/>表示带有空洞率为3的3×3×3的3D扩张的深度可分离的卷积,所述/>代表转换层,用于通过一个3×3卷积将焦点堆栈的维度从N×128转换为1×128,所述/>表示第一焦点堆栈特征,所述l为焦点堆栈主干网的层数,取值为3,4,5;
采用多个交互式特征融合模块将各个所述分层焦点堆栈特征和各个所述第一全聚焦特征进行互促融合,得到焦点堆栈初始融合特征和全聚焦初始融合特征;
基于轮廓原型表达将所述焦点堆栈初始融合特征处理为焦点堆栈细化融合特征,以及将所述全聚焦初始融合特征处理为全聚焦细化融合特征;
利用显著性检测头将所述焦点堆栈细化融合特征和所述全聚焦细化融合特征进行聚合,得到显著性预测结果和物体轮廓预测结果;
当训练epoch数达到第二预设值时,训练完成,得到已训练的轮廓感知模型。
本发明还提供一种基于隐式图学习的光场显著性目标检测装置,包括:
特征图获取模块,用于将待测试的全聚焦图像和待测试的焦点堆栈图像输入预先训练的双流深层卷积网络,得到全聚焦特征图和焦点堆栈特征图;
计算模块,用于将所述全聚焦特征图和所述焦点堆栈特征图输入预先训练的轮廓感知模型,得到显著性预测结果和物体轮廓预测结果。
本发明还提供一种终端,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于隐式图学习的光场显著性目标检测程序,所述基于隐式图学习的光场显著性目标检测程序被所述处理器执行时实现如上所述的基于隐式图学习的光场显著性目标检测方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序能够被执行以用于实现如上所述的基于隐式图学习的光场显著性目标检测方法的步骤。
本发明所提供的一种基于隐式图学习的光场显著性目标检测方法及装置,所述方法包括:将待测试的全聚焦图像和待测试的焦点堆栈图像输入预先训练的双流深层卷积网络,得到全聚焦特征图和焦点堆栈特征图;将所述全聚焦特征图和所述焦点堆栈特征图输入预先训练的轮廓感知模型,得到显著性预测结果和物体轮廓预测结果。本发明通过将待测试的全聚焦图像和焦点堆栈图像输入预先训练的双流深层卷积网络,促进了显著性特征的挖掘,并且,将全聚焦特征图和焦点堆栈特征图输入预先训练的轮廓感知模型,可以有效地聚合混合尺度的信息,进而得到准确的光场显著性目标检测结果。
附图说明
图1是本发明中基于隐式图学习的光场显著性目标检测方法较佳实施例的流程图。
图2是双流深层卷积网络和轮廓感知模型的原理框图。
图3是RFFM的原理框图。
图4是实验测试的测试结果表。
图5是本发明中基于隐式图学习的光场显著性目标检测装置的较佳实施例的功能原理框图。
图6是本发明中终端的功能原理框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在传统的方法中,建立了第一个光场显著性检测基准,并通过计算手工制作的聚焦度特征提出了一个开创性的方法;提出了加权稀疏编码网络,并利用字典同时解决了RGB、RGB-D和LF SOD问题;深度对比和颜色对比的显著性被计算出来用于显著性检测;采用光场流线索来探索深度对比信息,通过使用位置先验来加强深度对比。虽然早期的传统方法已经取得了很大的进步,但它们依赖于手工制作的线索进行光场显著性目标检测,导致在复杂场景中的通用性有限。
最近,基于深度学习的网络已经成为主流,并极大地促进了光场显著性目标检测的准确性。根据推理过程中的架构,大多数基于焦点堆栈的方法采用双流框架进行光场显著性目标检测。有的方法采用后期融合网络,分别从焦点堆栈骨干和全焦点骨干中提取特征,然后在最后一步与ConvLSTM相结合。现有的方法中,有的按照单独的两流方式,通过设计一个面向记忆的解码器进行中间融合。有的提出了一个轻量级的细化模块和整合模块来聚合从两个骨干中提取的特征。同样,有的设计了一个带有递归融合方案的局部图解码器,用于信息融合。此外,有的是将焦点信息转移到一个单一的全焦点网络,以提高计算效率。然而,来自焦点堆栈的不完整甚至不正确的反应阻碍了准确的光场显著性目标检测性能。
总的来说,现有的基于焦点堆栈的SOD模型只是使用单个焦点堆栈的骨架来提取特征。它们会受到焦点堆栈内模糊的显著性相关区域和轮廓的负面影响,导致对信息特征的探索不足。此外,大多数方法很少考虑物体轮廓的质量,导致显著性的轮廓粗糙。
本发明则可以有效地防止模糊区域误导,且有效地挖掘利用焦点堆栈的特征信息。
请参见图1,图1是本发明中基于隐式图学习的光场显著性目标检测方法的流程图。如图1所示,本发明实施例所述的基于隐式图学习的光场显著性目标检测方法包括如下步骤:
步骤S100、将待测试的全聚焦图像和待测试的焦点堆栈图像输入预先训练的双流深层卷积网络,得到全聚焦特征图和焦点堆栈特征图。
具体地,所述双流深层卷积网络可以采用ResNet34、ResNet18,ResNet50,ResNet101,Transformer等主干网。利用双流深层卷积网络分层提取全聚焦图像与焦点堆栈图像的显著特征信息。
在一种实现方式中,所述双流深层卷积网络包括全聚焦主干网和焦点堆栈主干网;所述步骤S100具体包括:将待测试的全聚焦图像输入预先训练的全聚焦主干网,得到全聚焦特征图,以及将待测试的焦点堆栈图像输入预先训练的焦点堆栈主干网,得到焦点堆栈特征图。
具体地,全聚焦主干网与焦点堆栈主干网的输出分别表示为l为全聚焦主干网和焦点堆栈主干网的层数,取值为2,3,4,5。预先训练的双流深层卷积网络利用了隐式图表示学习的策略,与以往典型的LF SOD模型使用独立的骨干进行特征提取不同,该方法可以促进焦点堆栈网络挖掘有代表性的显著性相关特征,并加强显著性感知。更重要的是,隐式图表示学习策略只需要在训练期间使用,在推理期间不需要引入额外的计算和参数,从而获得更好的光场显著性目标检测性能。
在一种实施例中,如图2所示,所述双流深层卷积网络的训练步骤包括:
A1、获取训练数据集,所述训练数据集中包括:全聚焦训练图像和焦点堆栈训练图像。
A2、将所述全聚焦训练图像和所述焦点堆栈训练图像输入初始双流深层卷积网络,所述初始双流深层卷积网络包括全聚焦主干网和焦点堆栈主干网。
A4、根据所述全聚焦训练特征图建立全聚焦图Gr,所述Gr={Ar,Fr},其中,所述Ar表示全聚焦图的邻接矩阵,所述Fr表示全聚焦图的节点;根据所述焦点堆栈训练特征图建立焦点堆栈图Gf={Af,Ff},其中,所述Af表示焦点堆栈图的邻接矩阵,所述Ff表示焦点堆栈图的节点。
A5、通过建模图神经网络建立和推理全聚焦图的节点之间的关系,并鼓励全聚焦图之间的连接来挖掘显著性特征表达,公式表达为:
通过建模图神经网络建立和推理焦点堆栈图的节点之间的关系,并鼓励焦点堆栈图之间的连接来挖掘显著性特征表达,公式表达为:
A6、根据基于全聚焦图的表达得到基于隐式图学习的全聚焦图显著性特征表达计算公式为:/>其中,所述/>表示全聚焦图对应的自适应层,所述表示全聚焦图对应的转换矩阵,所述XR表示全聚焦训练特征图。根据基于焦点堆栈图的表达/>得到基于隐式图学习的焦点堆栈显著性特征表达/>计算公式为:其中,所述/>表示焦点堆栈图对应的自适应层,所述/>表示焦点堆栈图对应的转换矩阵,所述XF表示焦点堆栈训练特征图。
具体地,为了获得一个更稳定的训练过程利于优化,提出一个自适应层并采取一个残差连接。转换矩阵通过实现图反投影将图空间的特征投影到原始的特征空间,自适应层是通过一个1×1卷积和ReLU激活函数组合实现。设计这个自适应层的原因如下:1)它调整了全焦点网络的通道数,使之与焦点堆栈网络的通道数相匹配,以计算距离。2)这种操作可以促进网络训练的稳定改进。
A8、当训练epoch数达到第一预设值时,训练完成,得到已训练的双流深层卷积网络。
本发明设计的隐式图表示学习的策略充分建模和推理上下文内容的关系,在缓解模糊和干扰影响的同时,可以形成准确的具有判别性的特征表达。隐式图表示学习也可以用其他蒸馏策略实现,不仅局限于图蒸馏的方式,例如pixel-wise的蒸馏,non-local-wise的蒸馏等。
所述步骤S100之后为:步骤S200、将所述全聚焦特征图和所述焦点堆栈特征图输入预先训练的轮廓感知模型,得到显著性预测结果和物体轮廓预测结果。
具体地,为了准确的进行光场显著性目标检测,在全聚焦特征和焦点堆栈特征(即multi-modal多模态特征)之间进行融合是非常重要的。以前的方法很少考虑利用物体的轮廓线索,这对更好的SOD是有帮助的。缺乏对轮廓线索的明确利用可能会产生粗糙的显著性图。由于焦点切片的模糊性质,焦点切片和全聚焦的显著性目标的轮廓往往质量不同。直接进行融合和轮廓监督可能会限制互补性的利用和显著性性能。因此,本实施例的解码器不仅要有效地整合多模态特征,还要明确地利用物体的轮廓信息。
在一种实现方式中,所述步骤S200具体包括:
步骤S210、在预先训练的轮廓感知模型中,采用2D卷积层和ReLU激活函数将所述焦点堆栈特征图中的各个焦点堆栈显著特征处理为第一焦点堆栈特征,以及将所述全聚焦特征图中的各个全聚焦显著特征处理为第一全聚焦特征;
步骤S220、采用紧凑聚合模块对各个所述第一焦点堆栈特征进行处理,得到增强的分层焦点堆栈特征;
步骤S230、采用多个交互式特征融合模块将各个所述分层焦点堆栈特征和各个所述第一全聚焦特征进行互促融合,得到焦点堆栈初始融合特征和全聚焦初始融合特征;
步骤S240、基于轮廓原型表达将所述焦点堆栈初始融合特征处理为焦点堆栈细化融合特征,以及将所述全聚焦初始融合特征处理为全聚焦细化融合特征;
步骤S250、利用显著性检测头将所述焦点堆栈细化融合特征和所述全聚焦细化融合特征进行聚合,得到显著性预测结果和物体轮廓预测结果。
具体地,本实施例提出互促交互式的轮廓感知策略reciprocal contour-awarefusion(RCF),第一、对于更有效的焦点切片特征表示,多尺度和多切片(即混合尺度)特征整合将是重要的。为此,设计了一个紧凑聚合模块(Compact Aggregation Module,CAM),它采用了3D扩张的深度可分离的卷积,而不是普通的二维卷积。通过设计一个多路径学习方案,CAM可以有效地聚合混合尺度的信息,以加强焦点堆栈的特征表示。第二、由于多模态特征表现出不同的有用表征,因此提出了一个交互式特征融合模块(Reciprocal FeatureFusion Module,RFFM)。本发明没有使用串联或求和的方式进行多模态特征融合,而是提出自适应地调整不同特征的权重,以充分地利用互补性,生成有代表性的突出性特征。第三、为了进一步完善具有尖锐物体轮廓的显著性检测结果,开发了一个轮廓嵌入机制(ContourHint Injection Mechanism),将轮廓线索准确嵌入到上述融合过程中。在轮廓提示的引导下,诱导网络理解全局性的图像内容,从而可以过滤不必要的背景干扰,更好地定位复杂场景中的显著区域。
在一种实施例中,在所述步骤S220中,所述分层焦点堆栈特征的计算公式为:
其中,所述表示带有空洞率为1的3×3×3的3D扩张的深度可分离的卷积,所述表示带有空洞率为2的3×3×3的3D扩张的深度可分离的卷积,所述/>表示带有空洞率为3的3×3×3的3D扩张的深度可分离的卷积,所述/>代表转换层,用于通过一个3×3卷积将焦点堆栈的维度从N×128转换为1×128,所述/>表示第一焦点堆栈特征,所述l为焦点堆栈主干网的层数,取值为3,4,5。通过这种方式,/>通过送入不同层的CAMs可以获得增强的分层焦点堆栈特征。
具体地,对于焦点堆栈特征图以及全聚焦特征图/>XR 5,首先采用2层3x3卷积层和ReLU激活函数,并将通道数统一调整到128,得到第一焦点堆栈特征和第一全聚焦特征/>其中l=3,4,5。如图2所示,提出的CAM由三条平行的路径组成,通过不同扩张率的三维深度可分离卷积来实现。不同路径的输出通过元素求和与ReLU激活函数进行融合。这样就获得了增强的分层焦点堆栈特征/>
在一种实现方式中,通过使用几个RFFMs去逐渐地实现多模态多层级的特征融合,以获得更细化的显著性特征表达。如图3所示,所述步骤S230中,若交互式特征融合模块的输入为使用/>的显著性预测/>并实施辅助的深层监督,公式为:其中,所述Conv3×3表示3×3大小的卷积层,所述U表示双线性插值上采样。
通过预测显著性图来生成物体轮廓特征计算公式为:/>其中,所述/>是由3×3卷积和一个Groupnorm层和一个PReLU激活函数组成,用于将通道数从1转换到128。这样能够强制生成的轮廓更贴近显著性物体。
在RFFM中,设计一个reciprocal fusion的过程去自适应地融合互补特征,从而增强有用的显著性特征表达。即,通过计算通道响应评价特征的重要性,计算公式为:其中(m,n)代表特征图的坐标位置,wk表示特征图F的第k个通道权重。
在一种实施例中,为了进一步确保这个融合过程的准确性,本实施例基于轮廓原型表达增强这个初始融合特征,它通过嵌入全局视图的轮廓提示来完善初始的初始融合特征。所述步骤S240具体包括:通过嵌入全局视图的轮廓提示完善所述全聚焦初始融合特征,如图3中的(c)所示,这个过程可以计算为:其中,所述Conv代表3×3卷积核大小的卷积层,所述/>表示全聚焦细化融合特征。通过这种方式,可以获得全聚焦细化融合特征。相似地,如图2所示,通过实施几个RFFMs,细化融合特征(reciprocal refined features)能够被逐渐生成,显著性特征表达被逐渐增强细化。
在一种实现方式中,一个显著性检测头被用于聚合细化融合特征和/>来获得最终的显著性预测结果和物体轮廓预测结果。所述显著性预测结果SP的计算公式为:其中,所述/>表示全聚焦细化融合特征,所述/>表示焦点堆栈细化融合特征。所述物体轮廓预测结果SC的计算公式为:/>
在本实施例提出的IGL方法和RCF策略的配合下,本实施例的网络可以进一步挖掘重要的焦点堆栈特征,并充分利用互补的显著性特征和物体轮廓信息,促进光场显著性检测。
在一种实施例中,所述轮廓感知模型的训练步骤包括:
其中,所述表示带有空洞率为1的3×3×3的3D扩张的深度可分离的卷积,所述表示带有空洞率为2的3×3×3的3D扩张的深度可分离的卷积,所述/>表示带有空洞率为3的3×3×3的3D扩张的深度可分离的卷积,所述/>代表转换层,用于通过一个3×3卷积将焦点堆栈的维度从N×128转换为1×128,所述/>表示第一焦点堆栈特征,所述l为焦点堆栈主干网的层数,取值为3,4,5;
采用多个交互式特征融合模块将各个所述分层焦点堆栈特征和各个所述第一全聚焦特征进行互促融合,得到焦点堆栈初始融合特征和全聚焦初始融合特征;
基于轮廓原型表达将所述焦点堆栈初始融合特征处理为焦点堆栈细化融合特征,以及将所述全聚焦初始融合特征处理为全聚焦细化融合特征;
利用显著性检测头将所述焦点堆栈细化融合特征和所述全聚焦细化融合特征进行聚合,得到显著性预测结果和物体轮廓预测结果;
当训练epoch数达到第二预设值时,训练完成,得到已训练的轮廓感知模型。
本实施例通过设计一种互促交互式的轮廓感知策略(Reciprocal Contour-AwareFusion,RCF),有效地聚合互补特征和显式地利用轮廓信息,从而进一步提高光场显著性目标检测的性能和鲁棒性。
本实施例的隐式图表示学习,增强了对焦点堆栈特征主干网的特征提取;以及互促交互式的轮廓感知策略,增强了特征融合。
本发明在公开的光场SOD三个图像数据集HFUT,DUTLF,LFSD上进行了实验测试,并使用了4个常用的评价指标maximum E-measure、S-measure、maximum F-measure和MAE进行对比,实验结果如图4所示。从实验结果可以看出,本实施例提出的基于隐式图学习的光场显著性目标检测方法有明显的优势。
进一步地,如图5所示,基于上述基于隐式图学习的光场显著性目标检测方法,本发明还相应提供了一种基于隐式图学习的光场显著性目标检测装置,包括:
特征图获取模块100,用于将待测试的全聚焦图像和待测试的焦点堆栈图像输入预先训练的双流深层卷积网络,得到全聚焦特征图和焦点堆栈特征图;
计算模块200,用于将所述全聚焦特征图和所述焦点堆栈特征图输入预先训练的轮廓感知模型,得到显著性预测结果和物体轮廓预测结果。
如图6所示,本发明还提供一种终端,包括:存储器20、处理器10及存储在所述存储器20上并可在所述处理器10上运行的基于隐式图学习的光场显著性目标检测程序30,所述基于隐式图学习的光场显著性目标检测程序30被所述处理器10执行时实现如上所述的基于隐式图学习的光场显著性目标检测方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序能够被执行以用于实现如上所述的基于隐式图学习的光场显著性目标检测方法的步骤。
综上所述,本发明公开的一种基于隐式图学习的光场显著性目标检测方法及装置,所述方法包括:将待测试的全聚焦图像和待测试的焦点堆栈图像输入预先训练的双流深层卷积网络,得到全聚焦特征图和焦点堆栈特征图;将所述全聚焦特征图和所述焦点堆栈特征图输入预先训练的轮廓感知模型,得到显著性预测结果和物体轮廓预测结果。本发明通过将待测试的全聚焦图像和焦点堆栈图像输入预先训练的双流深层卷积网络,促进了显著性特征的挖掘,并且,将全聚焦特征图和焦点堆栈特征图输入预先训练的轮廓感知模型,可以有效地聚合混合尺度的信息,进而得到准确的光场显著性目标检测结果。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (13)
1.一种基于隐式图学习的光场显著性目标检测方法,其特征在于,包括:
将待测试的全聚焦图像和待测试的焦点堆栈图像输入预先训练的双流深层卷积网络,得到全聚焦特征图和焦点堆栈特征图;
将所述全聚焦特征图和所述焦点堆栈特征图输入预先训练的轮廓感知模型,得到显著性预测结果和物体轮廓预测结果。
2.根据权利要求1所述的基于隐式图学习的光场显著性目标检测方法,其特征在于,所述双流深层卷积网络包括全聚焦主干网和焦点堆栈主干网;所述将待测试的全聚焦图像和待测试的焦点堆栈图像输入预先训练的双流深层卷积网络,得到全聚焦特征图和焦点堆栈特征图,包括:
将待测试的全聚焦图像输入预先训练的全聚焦主干网,得到全聚焦特征图,以及将待测试的焦点堆栈图像输入预先训练的焦点堆栈主干网,得到焦点堆栈特征图。
3.根据权利要求1所述的基于隐式图学习的光场显著性目标检测方法,其特征在于,将所述全聚焦特征图和所述焦点堆栈特征图输入预先训练的轮廓感知模型,得到显著性预测结果和物体轮廓预测结果,包括:
在预先训练的轮廓感知模型中,采用2D卷积层和ReLU激活函数将所述焦点堆栈特征图中的各个焦点堆栈显著特征处理为第一焦点堆栈特征,以及将所述全聚焦特征图中的各个全聚焦显著特征处理为第一全聚焦特征;
采用紧凑聚合模块对各个所述第一焦点堆栈特征进行处理,得到增强的分层焦点堆栈特征;
采用多个交互式特征融合模块将各个所述分层焦点堆栈特征和各个所述第一全聚焦特征进行互促融合,得到焦点堆栈初始融合特征和全聚焦初始融合特征;
基于轮廓原型表达将所述焦点堆栈初始融合特征处理为焦点堆栈细化融合特征,以及将所述全聚焦初始融合特征处理为全聚焦细化融合特征;
利用显著性检测头将所述焦点堆栈细化融合特征和所述全聚焦细化融合特征进行聚合,得到显著性预测结果和物体轮廓预测结果。
5.根据权利要求3所述的基于隐式图学习的光场显著性目标检测方法,其特征在于,所述采用多个交互式特征融合模块将各个所述分层焦点堆栈特征和各个所述第一全聚焦特征进行互促融合,得到焦点堆栈初始融合特征和全聚焦初始融合特征,包括:
8.根据权利要求1所述的基于隐式图学习的光场显著性目标检测方法,其特征在于,所述双流深层卷积网络的训练步骤包括:
获取训练数据集,所述训练数据集中包括:全聚焦训练图像和焦点堆栈训练图像;
将所述全聚焦训练图像和所述焦点堆栈训练图像输入初始双流深层卷积网络,所述初始双流深层卷积网络包括全聚焦主干网和焦点堆栈主干网;
根据所述全聚焦训练特征图建立全聚焦图Gr,所述Gr={Ar,Fr},其中,所述Ar表示全聚焦图的邻接矩阵,所述Fr表示全聚焦图的节点;
根据所述焦点堆栈训练特征图建立焦点堆栈图Gf={Af,Ff},其中,所述Af表示焦点堆栈图的邻接矩阵,所述Ff表示焦点堆栈图的节点;
通过建模图神经网络建立和推理全聚焦图的节点之间的关系,并鼓励全聚焦图之间的连接来挖掘显著性特征表达,公式表达为:
通过建模图神经网络建立和推理焦点堆栈图的节点之间的关系,并鼓励焦点堆栈图之间的连接来挖掘显著性特征表达,公式表达为:
其中,所述L2代表L2损失函数,所述l表示焦点堆栈主干网和全聚焦主干网的层数;
当训练epoch数达到第一预设值时,训练完成,得到已训练的双流深层卷积网络。
9.根据权利要求8所述的基于隐式图学习的光场显著性目标检测方法,其特征在于,所述轮廓感知模型的训练步骤包括:
其中,所述表示带有空洞率为1的3×3×3的3D扩张的深度可分离的卷积,所述/>表示带有空洞率为2的3×3×3的3D扩张的深度可分离的卷积,所述/>表示带有空洞率为3的3×3×3的3D扩张的深度可分离的卷积,所述/>代表转换层,用于通过一个3×3卷积将焦点堆栈的维度从N×128转换为1×128,所述/>表示第一焦点堆栈特征,所述l为焦点堆栈主干网的层数,取值为3,4,5;
采用多个交互式特征融合模块将各个所述分层焦点堆栈特征和各个所述第一全聚焦特征进行互促融合,得到焦点堆栈初始融合特征和全聚焦初始融合特征;
基于轮廓原型表达将所述焦点堆栈初始融合特征处理为焦点堆栈细化融合特征,以及将所述全聚焦初始融合特征处理为全聚焦细化融合特征;
利用显著性检测头将所述焦点堆栈细化融合特征和所述全聚焦细化融合特征进行聚合,得到显著性预测结果和物体轮廓预测结果;
当训练epoch数达到第二预设值时,训练完成,得到已训练的轮廓感知模型。
10.根据权利要求9所述的基于隐式图学习的光场显著性目标检测方法,其特征在于,若交互式特征融合模块的输入为使用/>的显著性预测/>并实施辅助的深层监督,公式为:/>其中,所述Conv3×3表示3×3大小的卷积层,所述U表示双线性插值上采样;
11.一种基于隐式图学习的光场显著性目标检测装置,其特征在于,包括:
特征图获取模块,用于将待测试的全聚焦图像和待测试的焦点堆栈图像输入预先训练的双流深层卷积网络,得到全聚焦特征图和焦点堆栈特征图;
计算模块,用于将所述全聚焦特征图和所述焦点堆栈特征图输入预先训练的轮廓感知模型,得到显著性预测结果和物体轮廓预测结果。
12.一种终端,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于隐式图学习的光场显著性目标检测程序,所述基于隐式图学习的光场显著性目标检测程序被所述处理器执行时实现如权利要求1~10任意一项所述的基于隐式图学习的光场显著性目标检测方法的步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序能够被执行以用于实现如权利要求1~10任意一项所述的基于隐式图学习的光场显著性目标检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211618605.8A CN116229222A (zh) | 2022-12-15 | 2022-12-15 | 一种基于隐式图学习的光场显著性目标检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211618605.8A CN116229222A (zh) | 2022-12-15 | 2022-12-15 | 一种基于隐式图学习的光场显著性目标检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116229222A true CN116229222A (zh) | 2023-06-06 |
Family
ID=86588150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211618605.8A Pending CN116229222A (zh) | 2022-12-15 | 2022-12-15 | 一种基于隐式图学习的光场显著性目标检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116229222A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117253054A (zh) * | 2023-11-20 | 2023-12-19 | 浙江优众新材料科技有限公司 | 一种光场显著性检测方法及其相关设备 |
CN117496187A (zh) * | 2023-11-15 | 2024-02-02 | 安庆师范大学 | 一种光场图像显著性检测方法 |
CN117496187B (zh) * | 2023-11-15 | 2024-06-11 | 安庆师范大学 | 一种光场图像显著性检测方法 |
-
2022
- 2022-12-15 CN CN202211618605.8A patent/CN116229222A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496187A (zh) * | 2023-11-15 | 2024-02-02 | 安庆师范大学 | 一种光场图像显著性检测方法 |
CN117496187B (zh) * | 2023-11-15 | 2024-06-11 | 安庆师范大学 | 一种光场图像显著性检测方法 |
CN117253054A (zh) * | 2023-11-20 | 2023-12-19 | 浙江优众新材料科技有限公司 | 一种光场显著性检测方法及其相关设备 |
CN117253054B (zh) * | 2023-11-20 | 2024-02-06 | 浙江优众新材料科技有限公司 | 一种光场显著性检测方法及其相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lin et al. | Dynamic spatial propagation network for depth completion | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
US10275719B2 (en) | Hyper-parameter selection for deep convolutional networks | |
CN111325165B (zh) | 考虑空间关系信息的城市遥感影像场景分类方法 | |
CN111008639B (zh) | 一种基于注意力机制的车牌字符识别方法 | |
CN113807355A (zh) | 一种基于编解码结构的图像语义分割方法 | |
CN112734915A (zh) | 一种基于深度学习的多视角立体视觉三维场景重建方法 | |
CN112036260B (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及系统 | |
CN112966747A (zh) | 一种基于无锚框检测网络改进的车辆检测方法 | |
CN116229222A (zh) | 一种基于隐式图学习的光场显著性目标检测方法及装置 | |
CN113344869A (zh) | 一种基于候选视差的行车环境实时立体匹配方法及装置 | |
CN116612468A (zh) | 基于多模态融合与深度注意力机制的三维目标检测方法 | |
Zhao et al. | Joint learning of salient object detection, depth estimation and contour extraction | |
Zhou et al. | Attention transfer network for nature image matting | |
CN116052025A (zh) | 一种基于孪生网络的无人机视频图像小目标跟踪方法 | |
CN115588237A (zh) | 一种基于单目rgb图像的三维手部姿态估计方法 | |
Alimjan et al. | An image change detection algorithm based on multi-feature self-attention fusion mechanism UNet network | |
Yuan et al. | Recurrent structure attention guidance for depth super-resolution | |
Sun et al. | CRNet: Channel-enhanced Remodeling-based Network for Salient Object Detection in Optical Remote Sensing Images | |
Liu et al. | Weakly supervised region of interest extraction based on uncertainty-aware self-refinement learning for remote sensing images | |
CN117333908A (zh) | 基于姿态特征对齐的跨模态行人重识别方法 | |
CN115760807B (zh) | 一种视网膜眼底图像配准方法及系统 | |
CN116523888A (zh) | 路面裂缝的检测方法、装置、设备及介质 | |
CN115546512A (zh) | 基于可学习的权重描述子的光场图像显著目标检测方法 | |
Nguyen et al. | Facial Landmark Detection with Learnable Connectivity Graph Convolutional Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |