CN116229222A - 一种基于隐式图学习的光场显著性目标检测方法及装置 - Google Patents

一种基于隐式图学习的光场显著性目标检测方法及装置 Download PDF

Info

Publication number
CN116229222A
CN116229222A CN202211618605.8A CN202211618605A CN116229222A CN 116229222 A CN116229222 A CN 116229222A CN 202211618605 A CN202211618605 A CN 202211618605A CN 116229222 A CN116229222 A CN 116229222A
Authority
CN
China
Prior art keywords
focus
feature
full
focal stack
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211618605.8A
Other languages
English (en)
Inventor
高伟
廖桂标
李革
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Shenzhen Graduate School
Original Assignee
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Shenzhen Graduate School filed Critical Peking University Shenzhen Graduate School
Priority to CN202211618605.8A priority Critical patent/CN116229222A/zh
Publication of CN116229222A publication Critical patent/CN116229222A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Eye Examination Apparatus (AREA)
  • Image Analysis (AREA)

Abstract

本发明所提供的一种基于隐式图学习的光场显著性目标检测方法及装置,所述方法包括:将待测试的全聚焦图像和待测试的焦点堆栈图像输入预先训练的双流深层卷积网络,得到全聚焦特征图和焦点堆栈特征图;将所述全聚焦特征图和所述焦点堆栈特征图输入预先训练的轮廓感知模型,得到显著性预测结果和物体轮廓预测结果。本发明通过将待测试的全聚焦图像和焦点堆栈图像输入预先训练的双流深层卷积网络,促进了显著性特征的挖掘,并且,将全聚焦特征图和焦点堆栈特征图输入预先训练的轮廓感知模型,可以有效地聚合混合尺度的信息,进而得到准确的光场显著性目标检测结果。

Description

一种基于隐式图学习的光场显著性目标检测方法及装置
技术领域
本发明涉及计算机视觉技术领域,尤其涉及的是一种基于隐式图学习的光场显著性目标检测方法及装置。
背景技术
显著性目标检测技术主要是基于视觉注意力机制构建的图像预处理方法。近年来,光场相机可以提供由多视角图像和焦点切片提供的丰富的空间和布局信息,这种丰富的信息已经显示出其促进显著性目标检测的强大能力,因此,近年来光场显著性目标检测(LF SOD)引起了广泛的研究关注。
在光场图像中,一个焦点堆栈包含一系列聚焦在不同深度的焦点切片图像,导致与显著性相关的区域模糊不清、显著性上下文信息缺失的问题。这样的特点可能会切断像素间的关系,显著性预测将受到负面影响。然而,大多数基于深度学习的光场显著性检测模型只是简单地使用单独的焦点堆栈主干网进行特征提取,而忽略了不同区域与显著性预测结果的内部关联性。这样,不能充分提取有用的显著性特征,限制了对焦点堆栈内容的理解,难以得到准确的光场显著性目标检测结果。
因此,现有技术存在缺陷,有待改进与发展。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于隐式图学习的光场显著性目标检测方法及装置,旨在解决现有技术中在进行光场显著性目标检测时,难以得到准确的光场显著性目标检测结果的问题。
本发明解决技术问题所采用的技术方案如下:
一种基于隐式图学习的光场显著性目标检测方法,包括:
将待测试的全聚焦图像和待测试的焦点堆栈图像输入预先训练的双流深层卷积网络,得到全聚焦特征图和焦点堆栈特征图;
将所述全聚焦特征图和所述焦点堆栈特征图输入预先训练的轮廓感知模型,得到显著性预测结果和物体轮廓预测结果。
在一种实现方式中,所述双流深层卷积网络包括全聚焦主干网和焦点堆栈主干网;所述将待测试的全聚焦图像和待测试的焦点堆栈图像输入预先训练的双流深层卷积网络,得到全聚焦特征图和焦点堆栈特征图,包括:
将待测试的全聚焦图像输入预先训练的全聚焦主干网,得到全聚焦特征图,以及将待测试的焦点堆栈图像输入预先训练的焦点堆栈主干网,得到焦点堆栈特征图。
在一种实现方式中,将所述全聚焦特征图和所述焦点堆栈特征图输入预先训练的轮廓感知模型,得到显著性预测结果和物体轮廓预测结果,包括:
在预先训练的轮廓感知模型中,采用2D卷积层和ReLU激活函数将所述焦点堆栈特征图中的各个焦点堆栈显著特征处理为第一焦点堆栈特征,以及将所述全聚焦特征图中的各个全聚焦显著特征处理为第一全聚焦特征;
采用紧凑聚合模块对各个所述第一焦点堆栈特征进行处理,得到增强的分层焦点堆栈特征;
采用多个交互式特征融合模块将各个所述分层焦点堆栈特征和各个所述第一全聚焦特征进行互促融合,得到焦点堆栈初始融合特征和全聚焦初始融合特征;
基于轮廓原型表达将所述焦点堆栈初始融合特征处理为焦点堆栈细化融合特征,以及将所述全聚焦初始融合特征处理为全聚焦细化融合特征;
利用显著性检测头将所述焦点堆栈细化融合特征和所述全聚焦细化融合特征进行聚合,得到显著性预测结果和物体轮廓预测结果。
在一种实现方式中,所述分层焦点堆栈特征的计算公式为:
Figure BDA0004001184600000031
其中,所述
Figure BDA0004001184600000032
表示带有空洞率为1的3×3×3的3D扩张的深度可分离的卷积,所述
Figure BDA0004001184600000033
表示带有空洞率为2的3×3×3的3D扩张的深度可分离的卷积,所述/>
Figure BDA0004001184600000034
表示带有空洞率为3的3×3×3的3D扩张的深度可分离的卷积,所述/>
Figure BDA0004001184600000035
代表转换层,用于通过一个3×3卷积将焦点堆栈的维度从N×128转换为1×128,所述/>
Figure BDA00040011846000000314
表示第一焦点堆栈特征,所述l为焦点堆栈主干网的层数,取值为3,4,5。
在一种实现方式中,所述采用多个交互式特征融合模块将各个所述分层焦点堆栈特征和各个所述第一全聚焦特征进行互促融合,得到焦点堆栈初始融合特征和全聚焦初始融合特征,包括:
若交互式特征融合模块的输入为
Figure BDA0004001184600000036
使用/>
Figure BDA0004001184600000037
的显著性预测/>
Figure BDA0004001184600000038
并实施辅助的深层监督,公式为:/>
Figure BDA0004001184600000039
其中,所述Conv3×3表示3×3大小的卷积层,所述U表示双线性插值上采样;
通过预测显著性图来生成物体轮廓特征
Figure BDA00040011846000000310
计算公式为:/>
Figure BDA00040011846000000311
其中,所述/>
Figure BDA00040011846000000312
是由3×3卷积和一个Groupnorm层和一个PReLU激活函数组成,用于将通道数从1转换到128;
对物体轮廓预测施加辅助的深度监督,计算公式为:
Figure BDA00040011846000000313
通过计算通道响应评价特征的重要性,计算公式为:
Figure BDA0004001184600000041
其中(m,n)代表特征图的坐标位置,wk表示特征图F的第k个通道权重;
通过特征
Figure BDA0004001184600000042
生成权重响应/>
Figure BDA0004001184600000043
利用一个自适应的增强操作动态地调整不同特征的响应,计算公式包括:/>
Figure BDA0004001184600000044
Figure BDA0004001184600000045
其中,所述
Figure BDA00040011846000000412
代表串联操作,所述FC代表全连接层,所述U表示双线性插值上采样,所述/>
Figure BDA0004001184600000046
表示全聚焦初始融合特征。
在一种实现方式中,所述基于轮廓原型表达将所述焦点堆栈初始融合特征处理为焦点堆栈细化融合特征,以及将所述全聚焦初始融合特征处理为全聚焦细化融合特征,包括:
通过嵌入全局视图的轮廓提示完善所述全聚焦初始融合特征,计算公式为:
Figure BDA0004001184600000047
其中,所述Conv代表3×3卷积核大小的卷积层,所述
Figure BDA0004001184600000048
表示全聚焦细化融合特征。
在一种实现方式中,所述显著性预测结果SP的计算公式为:
Figure BDA0004001184600000049
其中,所述
Figure BDA00040011846000000410
表示全聚焦细化融合特征,所述/>
Figure BDA00040011846000000411
表示焦点堆栈细化融合特征;
所述物体轮廓预测结果SC的计算公式为:
Figure BDA0004001184600000051
在一种实现方式中,所述双流深层卷积网络的训练步骤包括:
获取训练数据集,所述训练数据集中包括:全聚焦训练图像和焦点堆栈训练图像;
将所述全聚焦训练图像和所述焦点堆栈训练图像输入初始双流深层卷积网络,所述初始双流深层卷积网络包括全聚焦主干网和焦点堆栈主干网;
从所述全聚焦主干网输出全聚焦训练特征图
Figure BDA0004001184600000052
从所述焦点堆栈主干网输出焦点堆栈训练特征图/>
Figure BDA0004001184600000053
其中,l为全聚焦主干网和焦点堆栈主干网的层数,取值为2,3,4,5;
根据所述全聚焦训练特征图建立全聚焦图Gr,所述Gr={Ar,Fr},其中,所述Ar表示全聚焦图的邻接矩阵,所述Fr表示全聚焦图的节点;
根据所述焦点堆栈训练特征图建立焦点堆栈图Gf={Af,Ff},其中,所述Af表示焦点堆栈图的邻接矩阵,所述Ff表示焦点堆栈图的节点;
通过建模图神经网络建立和推理全聚焦图的节点之间的关系,并鼓励全聚焦图之间的连接来挖掘显著性特征表达,公式表达为:
Figure BDA0004001184600000054
其中,所述Θr代表全聚焦图对应的可学习的权重矩阵,所述
Figure BDA0004001184600000055
表示全聚焦图的对角度矩阵,所述/>
Figure BDA0004001184600000056
表示基于全聚焦图的表达;/>
通过建模图神经网络建立和推理焦点堆栈图的节点之间的关系,并鼓励焦点堆栈图之间的连接来挖掘显著性特征表达,公式表达为:
Figure BDA0004001184600000057
其中,所述Θf代表焦点堆栈图对应的可学习的权重矩阵,所述
Figure BDA0004001184600000061
表示焦点堆栈图的对角度矩阵,所述/>
Figure BDA0004001184600000062
表示基于焦点堆栈图的表达;
根据基于全聚焦图的表达
Figure BDA0004001184600000063
得到基于隐式图学习的全聚焦图显著性特征表达/>
Figure BDA0004001184600000064
计算公式为:/>
Figure BDA0004001184600000065
其中,所述/>
Figure BDA00040011846000000617
表示全聚焦图对应的自适应层,所述/>
Figure BDA0004001184600000066
表示全聚焦图对应的转换矩阵,所述XR表示全聚焦训练特征图;
根据基于焦点堆栈图的表达
Figure BDA0004001184600000067
得到基于隐式图学习的焦点堆栈显著性特征表达
Figure BDA0004001184600000068
计算公式为:/>
Figure BDA0004001184600000069
其中,所述/>
Figure BDA00040011846000000618
表示焦点堆栈图对应的自适应层,所述/>
Figure BDA00040011846000000610
表示焦点堆栈图对应的转换矩阵,所述XF表示焦点堆栈训练特征图;
利用隐式图损失函数
Figure BDA00040011846000000611
促使焦点堆栈训练特征图学习的所述焦点堆栈显著性特征表达逼近所述全聚焦图显著性特征表达,计算公式为:
Figure BDA00040011846000000612
其中,所述L2代表L2损失函数,所述l表示焦点堆栈主干网和全聚焦主干网的层数;
当训练epoch数达到第一预设值时,训练完成,得到已训练的双流深层卷积网络。
在一种实现方式中,所述轮廓感知模型的训练步骤包括:
获取焦点堆栈特征图
Figure BDA00040011846000000613
以及全聚焦特征图/>
Figure BDA00040011846000000614
采用2层3x3卷积层和ReLU激活函数,并将通道数统一调整到128,得到第一焦点堆栈特征
Figure BDA00040011846000000615
和第一全聚焦特征/>
Figure BDA00040011846000000616
其中l=3,4,5;
通过不同扩张率的三维深度可分离卷积得到紧凑聚合模块,不同路径的输出通过元素求和与ReLU激活函数进行融合,得到增强的分层焦点堆栈特征
Figure BDA00040011846000000714
计算公式为:
Figure BDA0004001184600000071
其中,所述
Figure BDA0004001184600000072
表示带有空洞率为1的3×3×3的3D扩张的深度可分离的卷积,所述
Figure BDA0004001184600000073
表示带有空洞率为2的3×3×3的3D扩张的深度可分离的卷积,所述/>
Figure BDA0004001184600000074
表示带有空洞率为3的3×3×3的3D扩张的深度可分离的卷积,所述/>
Figure BDA0004001184600000075
代表转换层,用于通过一个3×3卷积将焦点堆栈的维度从N×128转换为1×128,所述/>
Figure BDA0004001184600000076
表示第一焦点堆栈特征,所述l为焦点堆栈主干网的层数,取值为3,4,5;
采用多个交互式特征融合模块将各个所述分层焦点堆栈特征和各个所述第一全聚焦特征进行互促融合,得到焦点堆栈初始融合特征和全聚焦初始融合特征;
基于轮廓原型表达将所述焦点堆栈初始融合特征处理为焦点堆栈细化融合特征,以及将所述全聚焦初始融合特征处理为全聚焦细化融合特征;
利用显著性检测头将所述焦点堆栈细化融合特征和所述全聚焦细化融合特征进行聚合,得到显著性预测结果和物体轮廓预测结果;
当训练epoch数达到第二预设值时,训练完成,得到已训练的轮廓感知模型。
在一种实现方式中,若交互式特征融合模块的输入为
Figure BDA0004001184600000077
使用/>
Figure BDA0004001184600000078
的显著性预测/>
Figure BDA0004001184600000079
并实施辅助的深层监督,公式为:/>
Figure BDA00040011846000000710
其中,所述Conv3×3表示3×3大小的卷积层,所述U表示双线性插值上采样;
通过预测显著性图来生成物体轮廓特征
Figure BDA00040011846000000711
计算公式为:/>
Figure BDA00040011846000000712
其中,所述/>
Figure BDA00040011846000000713
是由3×3卷积和一个Groupnorm层和一个PReLU激活函数组成,用于将通道数从1转换到128;
对物体轮廓预测施加辅助的深度监督,计算公式为:
Figure BDA0004001184600000081
通过计算通道响应评价特征的重要性,计算公式为:
Figure BDA0004001184600000082
其中(m,n)代表特征图的坐标位置,wk表示特征图F的第k个通道权重;
通过特征
Figure BDA0004001184600000083
生成权重响应/>
Figure BDA0004001184600000084
利用一个自适应的增强操作动态地调整不同特征的响应,计算公式包括:
Figure BDA0004001184600000085
Figure BDA0004001184600000086
其中,所述
Figure BDA00040011846000000813
代表串联操作,所述FC代表全连接层,所述U表示双线性插值上采样,所述/>
Figure BDA0004001184600000087
表示全聚焦初始融合特征;
通过嵌入全局视图的轮廓提示完善所述全聚焦初始融合特征,计算公式为:
Figure BDA0004001184600000088
其中,所述Conv代表3×3卷积核大小的卷积层,所述
Figure BDA0004001184600000089
表示全聚焦细化融合特征;
所述显著性预测结果SP的计算公式为:
Figure BDA00040011846000000810
其中,所述
Figure BDA00040011846000000811
表示全聚焦细化融合特征,所述/>
Figure BDA00040011846000000812
表示焦点堆栈细化融合特征;
所述物体轮廓预测结果SC的计算公式为:
Figure BDA0004001184600000091
本发明还提供一种基于隐式图学习的光场显著性目标检测装置,包括:
特征图获取模块,用于将待测试的全聚焦图像和待测试的焦点堆栈图像输入预先训练的双流深层卷积网络,得到全聚焦特征图和焦点堆栈特征图;
计算模块,用于将所述全聚焦特征图和所述焦点堆栈特征图输入预先训练的轮廓感知模型,得到显著性预测结果和物体轮廓预测结果。
本发明还提供一种终端,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于隐式图学习的光场显著性目标检测程序,所述基于隐式图学习的光场显著性目标检测程序被所述处理器执行时实现如上所述的基于隐式图学习的光场显著性目标检测方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序能够被执行以用于实现如上所述的基于隐式图学习的光场显著性目标检测方法的步骤。
本发明所提供的一种基于隐式图学习的光场显著性目标检测方法及装置,所述方法包括:将待测试的全聚焦图像和待测试的焦点堆栈图像输入预先训练的双流深层卷积网络,得到全聚焦特征图和焦点堆栈特征图;将所述全聚焦特征图和所述焦点堆栈特征图输入预先训练的轮廓感知模型,得到显著性预测结果和物体轮廓预测结果。本发明通过将待测试的全聚焦图像和焦点堆栈图像输入预先训练的双流深层卷积网络,促进了显著性特征的挖掘,并且,将全聚焦特征图和焦点堆栈特征图输入预先训练的轮廓感知模型,可以有效地聚合混合尺度的信息,进而得到准确的光场显著性目标检测结果。
附图说明
图1是本发明中基于隐式图学习的光场显著性目标检测方法较佳实施例的流程图。
图2是双流深层卷积网络和轮廓感知模型的原理框图。
图3是RFFM的原理框图。
图4是实验测试的测试结果表。
图5是本发明中基于隐式图学习的光场显著性目标检测装置的较佳实施例的功能原理框图。
图6是本发明中终端的功能原理框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在传统的方法中,建立了第一个光场显著性检测基准,并通过计算手工制作的聚焦度特征提出了一个开创性的方法;提出了加权稀疏编码网络,并利用字典同时解决了RGB、RGB-D和LF SOD问题;深度对比和颜色对比的显著性被计算出来用于显著性检测;采用光场流线索来探索深度对比信息,通过使用位置先验来加强深度对比。虽然早期的传统方法已经取得了很大的进步,但它们依赖于手工制作的线索进行光场显著性目标检测,导致在复杂场景中的通用性有限。
最近,基于深度学习的网络已经成为主流,并极大地促进了光场显著性目标检测的准确性。根据推理过程中的架构,大多数基于焦点堆栈的方法采用双流框架进行光场显著性目标检测。有的方法采用后期融合网络,分别从焦点堆栈骨干和全焦点骨干中提取特征,然后在最后一步与ConvLSTM相结合。现有的方法中,有的按照单独的两流方式,通过设计一个面向记忆的解码器进行中间融合。有的提出了一个轻量级的细化模块和整合模块来聚合从两个骨干中提取的特征。同样,有的设计了一个带有递归融合方案的局部图解码器,用于信息融合。此外,有的是将焦点信息转移到一个单一的全焦点网络,以提高计算效率。然而,来自焦点堆栈的不完整甚至不正确的反应阻碍了准确的光场显著性目标检测性能。
总的来说,现有的基于焦点堆栈的SOD模型只是使用单个焦点堆栈的骨架来提取特征。它们会受到焦点堆栈内模糊的显著性相关区域和轮廓的负面影响,导致对信息特征的探索不足。此外,大多数方法很少考虑物体轮廓的质量,导致显著性的轮廓粗糙。
本发明则可以有效地防止模糊区域误导,且有效地挖掘利用焦点堆栈的特征信息。
请参见图1,图1是本发明中基于隐式图学习的光场显著性目标检测方法的流程图。如图1所示,本发明实施例所述的基于隐式图学习的光场显著性目标检测方法包括如下步骤:
步骤S100、将待测试的全聚焦图像和待测试的焦点堆栈图像输入预先训练的双流深层卷积网络,得到全聚焦特征图和焦点堆栈特征图。
具体地,所述双流深层卷积网络可以采用ResNet34、ResNet18,ResNet50,ResNet101,Transformer等主干网。利用双流深层卷积网络分层提取全聚焦图像与焦点堆栈图像的显著特征信息。
在一种实现方式中,所述双流深层卷积网络包括全聚焦主干网和焦点堆栈主干网;所述步骤S100具体包括:将待测试的全聚焦图像输入预先训练的全聚焦主干网,得到全聚焦特征图,以及将待测试的焦点堆栈图像输入预先训练的焦点堆栈主干网,得到焦点堆栈特征图。
具体地,全聚焦主干网与焦点堆栈主干网的输出分别表示为
Figure BDA0004001184600000111
l为全聚焦主干网和焦点堆栈主干网的层数,取值为2,3,4,5。预先训练的双流深层卷积网络利用了隐式图表示学习的策略,与以往典型的LF SOD模型使用独立的骨干进行特征提取不同,该方法可以促进焦点堆栈网络挖掘有代表性的显著性相关特征,并加强显著性感知。更重要的是,隐式图表示学习策略只需要在训练期间使用,在推理期间不需要引入额外的计算和参数,从而获得更好的光场显著性目标检测性能。
在一种实施例中,如图2所示,所述双流深层卷积网络的训练步骤包括:
A1、获取训练数据集,所述训练数据集中包括:全聚焦训练图像和焦点堆栈训练图像。
A2、将所述全聚焦训练图像和所述焦点堆栈训练图像输入初始双流深层卷积网络,所述初始双流深层卷积网络包括全聚焦主干网和焦点堆栈主干网。
A3、从所述全聚焦主干网输出全聚焦训练特征图
Figure BDA0004001184600000121
从所述焦点堆栈主干网输出焦点堆栈训练特征图/>
Figure BDA0004001184600000122
其中,l为全聚焦主干网和焦点堆栈主干网的层数,取值为2,3,4,5。
A4、根据所述全聚焦训练特征图建立全聚焦图Gr,所述Gr={Ar,Fr},其中,所述Ar表示全聚焦图的邻接矩阵,所述Fr表示全聚焦图的节点;根据所述焦点堆栈训练特征图建立焦点堆栈图Gf={Af,Ff},其中,所述Af表示焦点堆栈图的邻接矩阵,所述Ff表示焦点堆栈图的节点。
其中,邻接矩阵A代表着成对节点之间的相似性。
Figure BDA0004001184600000123
代表着自连接的邻接矩阵,由
Figure BDA0004001184600000124
获得,其中I是单位矩阵。
A5、通过建模图神经网络建立和推理全聚焦图的节点之间的关系,并鼓励全聚焦图之间的连接来挖掘显著性特征表达,公式表达为:
Figure BDA0004001184600000125
其中,所述Θr代表全聚焦图对应的可学习的权重矩阵,所述
Figure BDA0004001184600000126
表示全聚焦图的对角度矩阵,所述/>
Figure BDA0004001184600000127
表示基于全聚焦图的表达。
通过建模图神经网络建立和推理焦点堆栈图的节点之间的关系,并鼓励焦点堆栈图之间的连接来挖掘显著性特征表达,公式表达为:
Figure BDA0004001184600000131
其中,所述Θf代表焦点堆栈图对应的可学习的权重矩阵,所述
Figure BDA0004001184600000132
表示焦点堆栈图的对角度矩阵,所述/>
Figure BDA0004001184600000133
表示基于焦点堆栈图的表达。
具体地,
Figure BDA0004001184600000134
diag表示对角矩阵。
A6、根据基于全聚焦图的表达
Figure BDA0004001184600000135
得到基于隐式图学习的全聚焦图显著性特征表达
Figure BDA0004001184600000136
计算公式为:/>
Figure BDA0004001184600000137
其中,所述/>
Figure BDA00040011846000001316
表示全聚焦图对应的自适应层,所述
Figure BDA0004001184600000138
表示全聚焦图对应的转换矩阵,所述XR表示全聚焦训练特征图。根据基于焦点堆栈图的表达/>
Figure BDA0004001184600000139
得到基于隐式图学习的焦点堆栈显著性特征表达/>
Figure BDA00040011846000001310
计算公式为:
Figure BDA00040011846000001311
其中,所述/>
Figure BDA00040011846000001317
表示焦点堆栈图对应的自适应层,所述/>
Figure BDA00040011846000001312
表示焦点堆栈图对应的转换矩阵,所述XF表示焦点堆栈训练特征图。
具体地,为了获得一个更稳定的训练过程利于优化,提出一个自适应层并采取一个残差连接。转换矩阵通过实现图反投影将图空间的特征投影到原始的特征空间,自适应层是通过一个1×1卷积和ReLU激活函数组合实现。设计这个自适应层的原因如下:1)它调整了全焦点网络的通道数,使之与焦点堆栈网络的通道数相匹配,以计算距离。2)这种操作可以促进网络训练的稳定改进。
A7、利用隐式图损失函数
Figure BDA00040011846000001313
促使焦点堆栈训练特征图学习的所述焦点堆栈显著性特征表达逼近所述全聚焦图显著性特征表达,计算公式为:
Figure BDA00040011846000001314
其中,所述L2代表L2损失函数,所述l表示焦点堆栈主干网和全聚焦主干网的层数。需要注意的是,在这里切断了
Figure BDA00040011846000001315
的反向传播梯度流,因为只需要焦点堆栈网络去挖掘重要的显著性特征。
A8、当训练epoch数达到第一预设值时,训练完成,得到已训练的双流深层卷积网络。
本发明设计的隐式图表示学习的策略充分建模和推理上下文内容的关系,在缓解模糊和干扰影响的同时,可以形成准确的具有判别性的特征表达。隐式图表示学习也可以用其他蒸馏策略实现,不仅局限于图蒸馏的方式,例如pixel-wise的蒸馏,non-local-wise的蒸馏等。
所述步骤S100之后为:步骤S200、将所述全聚焦特征图和所述焦点堆栈特征图输入预先训练的轮廓感知模型,得到显著性预测结果和物体轮廓预测结果。
具体地,为了准确的进行光场显著性目标检测,在全聚焦特征和焦点堆栈特征(即multi-modal多模态特征)之间进行融合是非常重要的。以前的方法很少考虑利用物体的轮廓线索,这对更好的SOD是有帮助的。缺乏对轮廓线索的明确利用可能会产生粗糙的显著性图。由于焦点切片的模糊性质,焦点切片和全聚焦的显著性目标的轮廓往往质量不同。直接进行融合和轮廓监督可能会限制互补性的利用和显著性性能。因此,本实施例的解码器不仅要有效地整合多模态特征,还要明确地利用物体的轮廓信息。
在一种实现方式中,所述步骤S200具体包括:
步骤S210、在预先训练的轮廓感知模型中,采用2D卷积层和ReLU激活函数将所述焦点堆栈特征图中的各个焦点堆栈显著特征处理为第一焦点堆栈特征,以及将所述全聚焦特征图中的各个全聚焦显著特征处理为第一全聚焦特征;
步骤S220、采用紧凑聚合模块对各个所述第一焦点堆栈特征进行处理,得到增强的分层焦点堆栈特征;
步骤S230、采用多个交互式特征融合模块将各个所述分层焦点堆栈特征和各个所述第一全聚焦特征进行互促融合,得到焦点堆栈初始融合特征和全聚焦初始融合特征;
步骤S240、基于轮廓原型表达将所述焦点堆栈初始融合特征处理为焦点堆栈细化融合特征,以及将所述全聚焦初始融合特征处理为全聚焦细化融合特征;
步骤S250、利用显著性检测头将所述焦点堆栈细化融合特征和所述全聚焦细化融合特征进行聚合,得到显著性预测结果和物体轮廓预测结果。
具体地,本实施例提出互促交互式的轮廓感知策略reciprocal contour-awarefusion(RCF),第一、对于更有效的焦点切片特征表示,多尺度和多切片(即混合尺度)特征整合将是重要的。为此,设计了一个紧凑聚合模块(Compact Aggregation Module,CAM),它采用了3D扩张的深度可分离的卷积,而不是普通的二维卷积。通过设计一个多路径学习方案,CAM可以有效地聚合混合尺度的信息,以加强焦点堆栈的特征表示。第二、由于多模态特征表现出不同的有用表征,因此提出了一个交互式特征融合模块(Reciprocal FeatureFusion Module,RFFM)。本发明没有使用串联或求和的方式进行多模态特征融合,而是提出自适应地调整不同特征的权重,以充分地利用互补性,生成有代表性的突出性特征。第三、为了进一步完善具有尖锐物体轮廓的显著性检测结果,开发了一个轮廓嵌入机制(ContourHint Injection Mechanism),将轮廓线索准确嵌入到上述融合过程中。在轮廓提示的引导下,诱导网络理解全局性的图像内容,从而可以过滤不必要的背景干扰,更好地定位复杂场景中的显著区域。
在一种实施例中,在所述步骤S220中,所述分层焦点堆栈特征的计算公式为:
Figure BDA0004001184600000151
其中,所述
Figure BDA0004001184600000152
表示带有空洞率为1的3×3×3的3D扩张的深度可分离的卷积,所述
Figure BDA0004001184600000153
表示带有空洞率为2的3×3×3的3D扩张的深度可分离的卷积,所述/>
Figure BDA0004001184600000161
表示带有空洞率为3的3×3×3的3D扩张的深度可分离的卷积,所述/>
Figure BDA0004001184600000162
代表转换层,用于通过一个3×3卷积将焦点堆栈的维度从N×128转换为1×128,所述/>
Figure BDA0004001184600000163
表示第一焦点堆栈特征,所述l为焦点堆栈主干网的层数,取值为3,4,5。通过这种方式,/>
Figure BDA0004001184600000164
通过送入不同层的CAMs可以获得增强的分层焦点堆栈特征。
具体地,对于焦点堆栈特征图
Figure BDA0004001184600000165
以及全聚焦特征图/>
Figure BDA0004001184600000166
XR 5,首先采用2层3x3卷积层和ReLU激活函数,并将通道数统一调整到128,得到第一焦点堆栈特征
Figure BDA0004001184600000167
和第一全聚焦特征/>
Figure BDA0004001184600000168
其中l=3,4,5。如图2所示,提出的CAM由三条平行的路径组成,通过不同扩张率的三维深度可分离卷积来实现。不同路径的输出通过元素求和与ReLU激活函数进行融合。这样就获得了增强的分层焦点堆栈特征/>
Figure BDA0004001184600000169
在一种实现方式中,通过使用几个RFFMs去逐渐地实现多模态多层级的特征融合,以获得更细化的显著性特征表达。如图3所示,所述步骤S230中,若交互式特征融合模块的输入为
Figure BDA00040011846000001610
使用/>
Figure BDA00040011846000001611
的显著性预测/>
Figure BDA00040011846000001612
并实施辅助的深层监督,公式为:
Figure BDA00040011846000001613
其中,所述Conv3×3表示3×3大小的卷积层,所述U表示双线性插值上采样。
通过预测显著性图来生成物体轮廓特征
Figure BDA00040011846000001614
计算公式为:/>
Figure BDA00040011846000001615
其中,所述/>
Figure BDA00040011846000001616
是由3×3卷积和一个Groupnorm层和一个PReLU激活函数组成,用于将通道数从1转换到128。这样能够强制生成的轮廓更贴近显著性物体。
对物体轮廓预测施加辅助的深度监督,计算公式为:
Figure BDA00040011846000001617
这样有利于生成更准确的轮廓,深度辅助监督有助于网络训练从而获得更好的优化。
在RFFM中,设计一个reciprocal fusion的过程去自适应地融合互补特征,从而增强有用的显著性特征表达。即,通过计算通道响应评价特征的重要性,计算公式为:
Figure BDA0004001184600000171
其中(m,n)代表特征图的坐标位置,wk表示特征图F的第k个通道权重。
假设RFFM的输入是
Figure BDA0004001184600000172
通过特征/>
Figure BDA0004001184600000173
生成权重响应
Figure BDA0004001184600000174
利用一个自适应的增强操作动态地调整不同特征的响应,这个过程表达如下:
Figure BDA0004001184600000175
Figure BDA0004001184600000176
其中,所述
Figure BDA00040011846000001711
代表串联(concatenation)操作,所述FC代表全连接层,所述U表示双线性插值上采样,所述/>
Figure BDA0004001184600000177
表示全聚焦初始融合特征。
这样,本实施例可以生成全聚焦初始融合特征
Figure BDA0004001184600000178
自适应地融合多模态互补的显著性特征和物体轮廓特征。
在一种实施例中,为了进一步确保这个融合过程的准确性,本实施例基于轮廓原型表达增强这个初始融合特征,它通过嵌入全局视图的轮廓提示来完善初始的初始融合特征。所述步骤S240具体包括:通过嵌入全局视图的轮廓提示完善所述全聚焦初始融合特征,如图3中的(c)所示,这个过程可以计算为:
Figure BDA0004001184600000179
其中,所述Conv代表3×3卷积核大小的卷积层,所述/>
Figure BDA00040011846000001710
表示全聚焦细化融合特征。通过这种方式,可以获得全聚焦细化融合特征。相似地,如图2所示,通过实施几个RFFMs,细化融合特征(reciprocal refined features)能够被逐渐生成,显著性特征表达被逐渐增强细化。
在一种实现方式中,一个显著性检测头被用于聚合细化融合特征
Figure BDA0004001184600000181
和/>
Figure BDA0004001184600000182
来获得最终的显著性预测结果和物体轮廓预测结果。所述显著性预测结果SP的计算公式为:
Figure BDA0004001184600000183
其中,所述/>
Figure BDA0004001184600000184
表示全聚焦细化融合特征,所述/>
Figure BDA0004001184600000185
表示焦点堆栈细化融合特征。所述物体轮廓预测结果SC的计算公式为:/>
Figure BDA0004001184600000186
在本实施例提出的IGL方法和RCF策略的配合下,本实施例的网络可以进一步挖掘重要的焦点堆栈特征,并充分利用互补的显著性特征和物体轮廓信息,促进光场显著性检测。
在一种实施例中,所述轮廓感知模型的训练步骤包括:
获取焦点堆栈特征图
Figure BDA0004001184600000187
以及全聚焦特征图/>
Figure BDA0004001184600000188
采用2层3x3卷积层和ReLU激活函数,并将通道数统一调整到128,得到第一焦点堆栈特征
Figure BDA0004001184600000189
和第一全聚焦特征/>
Figure BDA00040011846000001810
其中l=3,4,5;/>
通过不同扩张率的三维深度可分离卷积得到紧凑聚合模块,不同路径的输出通过元素求和与ReLU激活函数进行融合,得到增强的分层焦点堆栈特征
Figure BDA00040011846000001811
计算公式为:
Figure BDA00040011846000001812
其中,所述
Figure BDA00040011846000001813
表示带有空洞率为1的3×3×3的3D扩张的深度可分离的卷积,所述
Figure BDA00040011846000001814
表示带有空洞率为2的3×3×3的3D扩张的深度可分离的卷积,所述/>
Figure BDA00040011846000001815
表示带有空洞率为3的3×3×3的3D扩张的深度可分离的卷积,所述/>
Figure BDA00040011846000001816
代表转换层,用于通过一个3×3卷积将焦点堆栈的维度从N×128转换为1×128,所述/>
Figure BDA0004001184600000191
表示第一焦点堆栈特征,所述l为焦点堆栈主干网的层数,取值为3,4,5;
采用多个交互式特征融合模块将各个所述分层焦点堆栈特征和各个所述第一全聚焦特征进行互促融合,得到焦点堆栈初始融合特征和全聚焦初始融合特征;
基于轮廓原型表达将所述焦点堆栈初始融合特征处理为焦点堆栈细化融合特征,以及将所述全聚焦初始融合特征处理为全聚焦细化融合特征;
利用显著性检测头将所述焦点堆栈细化融合特征和所述全聚焦细化融合特征进行聚合,得到显著性预测结果和物体轮廓预测结果;
当训练epoch数达到第二预设值时,训练完成,得到已训练的轮廓感知模型。
本实施例通过设计一种互促交互式的轮廓感知策略(Reciprocal Contour-AwareFusion,RCF),有效地聚合互补特征和显式地利用轮廓信息,从而进一步提高光场显著性目标检测的性能和鲁棒性。
在一种实施例中,若交互式特征融合模块的输入为
Figure BDA0004001184600000192
使用/>
Figure BDA0004001184600000193
的显著性预测/>
Figure BDA0004001184600000194
并实施辅助的深层监督,公式为:/>
Figure BDA0004001184600000195
其中,所述Conv3×3表示3×3大小的卷积层,所述U表示双线性插值上采样;
通过预测显著性图来生成物体轮廓特征
Figure BDA0004001184600000196
计算公式为:/>
Figure BDA0004001184600000197
其中,所述/>
Figure BDA0004001184600000198
是由3×3卷积和一个Groupnorm层和一个PReLU激活函数组成,用于将通道数从1转换到128;
对物体轮廓预测施加辅助的深度监督,计算公式为:
Figure BDA0004001184600000199
通过计算通道响应评价特征的重要性,计算公式为:
Figure BDA0004001184600000201
其中(m,n)代表特征图的坐标位置,wk表示特征图F的第k个通道权重;
通过特征
Figure BDA0004001184600000202
生成权重响应/>
Figure BDA0004001184600000203
利用一个自适应的增强操作动态地调整不同特征的响应,计算公式包括:/>
Figure BDA0004001184600000204
Figure BDA0004001184600000205
其中,所述
Figure BDA0004001184600000206
代表串联操作,所述FC代表全连接层,所述U表示双线性插值上采样,所述/>
Figure BDA0004001184600000207
表示全聚焦初始融合特征;
通过嵌入全局视图的轮廓提示完善所述全聚焦初始融合特征,计算公式为:
Figure BDA0004001184600000208
其中,所述Conv代表3×3卷积核大小的卷积层,所述
Figure BDA0004001184600000209
表示全聚焦细化融合特征;
所述显著性预测结果SP的计算公式为:
Figure BDA00040011846000002010
其中,所述
Figure BDA00040011846000002011
表示全聚焦细化融合特征,所述/>
Figure BDA00040011846000002012
表示焦点堆栈细化融合特征;
所述物体轮廓预测结果SC的计算公式为
Figure BDA00040011846000002013
本实施例的隐式图表示学习,增强了对焦点堆栈特征主干网的特征提取;以及互促交互式的轮廓感知策略,增强了特征融合。
本发明在公开的光场SOD三个图像数据集HFUT,DUTLF,LFSD上进行了实验测试,并使用了4个常用的评价指标maximum E-measure、S-measure、maximum F-measure和MAE进行对比,实验结果如图4所示。从实验结果可以看出,本实施例提出的基于隐式图学习的光场显著性目标检测方法有明显的优势。
进一步地,如图5所示,基于上述基于隐式图学习的光场显著性目标检测方法,本发明还相应提供了一种基于隐式图学习的光场显著性目标检测装置,包括:
特征图获取模块100,用于将待测试的全聚焦图像和待测试的焦点堆栈图像输入预先训练的双流深层卷积网络,得到全聚焦特征图和焦点堆栈特征图;
计算模块200,用于将所述全聚焦特征图和所述焦点堆栈特征图输入预先训练的轮廓感知模型,得到显著性预测结果和物体轮廓预测结果。
如图6所示,本发明还提供一种终端,包括:存储器20、处理器10及存储在所述存储器20上并可在所述处理器10上运行的基于隐式图学习的光场显著性目标检测程序30,所述基于隐式图学习的光场显著性目标检测程序30被所述处理器10执行时实现如上所述的基于隐式图学习的光场显著性目标检测方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序能够被执行以用于实现如上所述的基于隐式图学习的光场显著性目标检测方法的步骤。
综上所述,本发明公开的一种基于隐式图学习的光场显著性目标检测方法及装置,所述方法包括:将待测试的全聚焦图像和待测试的焦点堆栈图像输入预先训练的双流深层卷积网络,得到全聚焦特征图和焦点堆栈特征图;将所述全聚焦特征图和所述焦点堆栈特征图输入预先训练的轮廓感知模型,得到显著性预测结果和物体轮廓预测结果。本发明通过将待测试的全聚焦图像和焦点堆栈图像输入预先训练的双流深层卷积网络,促进了显著性特征的挖掘,并且,将全聚焦特征图和焦点堆栈特征图输入预先训练的轮廓感知模型,可以有效地聚合混合尺度的信息,进而得到准确的光场显著性目标检测结果。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (13)

1.一种基于隐式图学习的光场显著性目标检测方法,其特征在于,包括:
将待测试的全聚焦图像和待测试的焦点堆栈图像输入预先训练的双流深层卷积网络,得到全聚焦特征图和焦点堆栈特征图;
将所述全聚焦特征图和所述焦点堆栈特征图输入预先训练的轮廓感知模型,得到显著性预测结果和物体轮廓预测结果。
2.根据权利要求1所述的基于隐式图学习的光场显著性目标检测方法,其特征在于,所述双流深层卷积网络包括全聚焦主干网和焦点堆栈主干网;所述将待测试的全聚焦图像和待测试的焦点堆栈图像输入预先训练的双流深层卷积网络,得到全聚焦特征图和焦点堆栈特征图,包括:
将待测试的全聚焦图像输入预先训练的全聚焦主干网,得到全聚焦特征图,以及将待测试的焦点堆栈图像输入预先训练的焦点堆栈主干网,得到焦点堆栈特征图。
3.根据权利要求1所述的基于隐式图学习的光场显著性目标检测方法,其特征在于,将所述全聚焦特征图和所述焦点堆栈特征图输入预先训练的轮廓感知模型,得到显著性预测结果和物体轮廓预测结果,包括:
在预先训练的轮廓感知模型中,采用2D卷积层和ReLU激活函数将所述焦点堆栈特征图中的各个焦点堆栈显著特征处理为第一焦点堆栈特征,以及将所述全聚焦特征图中的各个全聚焦显著特征处理为第一全聚焦特征;
采用紧凑聚合模块对各个所述第一焦点堆栈特征进行处理,得到增强的分层焦点堆栈特征;
采用多个交互式特征融合模块将各个所述分层焦点堆栈特征和各个所述第一全聚焦特征进行互促融合,得到焦点堆栈初始融合特征和全聚焦初始融合特征;
基于轮廓原型表达将所述焦点堆栈初始融合特征处理为焦点堆栈细化融合特征,以及将所述全聚焦初始融合特征处理为全聚焦细化融合特征;
利用显著性检测头将所述焦点堆栈细化融合特征和所述全聚焦细化融合特征进行聚合,得到显著性预测结果和物体轮廓预测结果。
4.根据权利要求3所述的基于隐式图学习的光场显著性目标检测方法,其特征在于,所述分层焦点堆栈特征的计算公式为:
Figure FDA0004001184590000021
其中,所述
Figure FDA0004001184590000022
表示带有空洞率为1的3×3×3的3D扩张的深度可分离的卷积,所述/>
Figure FDA0004001184590000023
表示带有空洞率为2的3×3×3的3D扩张的深度可分离的卷积,所述/>
Figure FDA0004001184590000024
表示带有空洞率为3的3×3×3的3D扩张的深度可分离的卷积,所述/>
Figure FDA0004001184590000025
代表转换层,用于通过一个3×3卷积将焦点堆栈的维度从N×128转换为1×128,所述/>
Figure FDA0004001184590000026
表示第一焦点堆栈特征,所述l为焦点堆栈主干网的层数,取值为3,4,5。
5.根据权利要求3所述的基于隐式图学习的光场显著性目标检测方法,其特征在于,所述采用多个交互式特征融合模块将各个所述分层焦点堆栈特征和各个所述第一全聚焦特征进行互促融合,得到焦点堆栈初始融合特征和全聚焦初始融合特征,包括:
若交互式特征融合模块的输入为
Figure FDA0004001184590000027
使用/>
Figure FDA0004001184590000028
的显著性预测/>
Figure FDA0004001184590000029
并实施辅助的深层监督,公式为:/>
Figure FDA00040011845900000210
其中,所述Conv3×3表示3×3大小的卷积层,所述U表示双线性插值上采样;
通过预测显著性图来生成物体轮廓特征
Figure FDA00040011845900000211
计算公式为:/>
Figure FDA00040011845900000212
其中,所述/>
Figure FDA00040011845900000213
是由3×3卷积和一个Groupnorm层和一个PReLU激活函数组成,用于将通道数从1转换到128;
对物体轮廓预测施加辅助的深度监督,计算公式为:
Figure FDA0004001184590000031
通过计算通道响应评价特征的重要性,计算公式为:
Figure FDA0004001184590000032
其中(m,n)代表特征图的坐标位置,wk表示特征图F的第k个通道权重;
通过特征
Figure FDA0004001184590000033
生成权重响应/>
Figure FDA0004001184590000034
利用一个自适应的增强操作动态地调整不同特征的响应,计算公式包括:
Figure FDA0004001184590000035
Figure FDA0004001184590000036
其中,所述
Figure FDA0004001184590000037
代表串联操作,所述FC代表全连接层,所述U表示双线性插值上采样,所述
Figure FDA0004001184590000038
表示全聚焦初始融合特征。
6.根据权利要求5所述的基于隐式图学习的光场显著性目标检测方法,其特征在于,所述基于轮廓原型表达将所述焦点堆栈初始融合特征处理为焦点堆栈细化融合特征,以及将所述全聚焦初始融合特征处理为全聚焦细化融合特征,包括:
通过嵌入全局视图的轮廓提示完善所述全聚焦初始融合特征,计算公式为:
Figure FDA0004001184590000039
其中,所述Conv代表3×3卷积核大小的卷积层,所述
Figure FDA00040011845900000310
表示全聚焦细化融合特征。
7.根据权利要求6所述的基于隐式图学习的光场显著性目标检测方法,其特征在于,所述显著性预测结果SP的计算公式为:
Figure FDA0004001184590000041
其中,所述
Figure FDA0004001184590000042
表示全聚焦细化融合特征,所述/>
Figure FDA0004001184590000043
表示焦点堆栈细化融合特征;
所述物体轮廓预测结果SC的计算公式为:
Figure FDA0004001184590000044
8.根据权利要求1所述的基于隐式图学习的光场显著性目标检测方法,其特征在于,所述双流深层卷积网络的训练步骤包括:
获取训练数据集,所述训练数据集中包括:全聚焦训练图像和焦点堆栈训练图像;
将所述全聚焦训练图像和所述焦点堆栈训练图像输入初始双流深层卷积网络,所述初始双流深层卷积网络包括全聚焦主干网和焦点堆栈主干网;
从所述全聚焦主干网输出全聚焦训练特征图
Figure FDA0004001184590000045
从所述焦点堆栈主干网输出焦点堆栈训练特征图/>
Figure FDA0004001184590000046
其中,l为全聚焦主干网和焦点堆栈主干网的层数,取值为2,3,4,5;
根据所述全聚焦训练特征图建立全聚焦图Gr,所述Gr={Ar,Fr},其中,所述Ar表示全聚焦图的邻接矩阵,所述Fr表示全聚焦图的节点;
根据所述焦点堆栈训练特征图建立焦点堆栈图Gf={Af,Ff},其中,所述Af表示焦点堆栈图的邻接矩阵,所述Ff表示焦点堆栈图的节点;
通过建模图神经网络建立和推理全聚焦图的节点之间的关系,并鼓励全聚焦图之间的连接来挖掘显著性特征表达,公式表达为:
Figure FDA0004001184590000047
其中,所述Θr代表全聚焦图对应的可学习的权重矩阵,所述
Figure FDA0004001184590000048
表示全聚焦图的对角度矩阵,所述/>
Figure FDA0004001184590000051
表示基于全聚焦图的表达;
通过建模图神经网络建立和推理焦点堆栈图的节点之间的关系,并鼓励焦点堆栈图之间的连接来挖掘显著性特征表达,公式表达为:
Figure FDA0004001184590000052
其中,所述Θf代表焦点堆栈图对应的可学习的权重矩阵,所述
Figure FDA0004001184590000053
表示焦点堆栈图的对角度矩阵,所述/>
Figure FDA0004001184590000054
表示基于焦点堆栈图的表达;
根据基于全聚焦图的表达
Figure FDA0004001184590000055
得到基于隐式图学习的全聚焦图显著性特征表达/>
Figure FDA0004001184590000056
计算公式为:/>
Figure FDA0004001184590000057
其中,所述/>
Figure FDA0004001184590000058
表示全聚焦图对应的自适应层,所述/>
Figure FDA0004001184590000059
表示全聚焦图对应的转换矩阵,所述XR表示全聚焦训练特征图;
根据基于焦点堆栈图的表达
Figure FDA00040011845900000510
得到基于隐式图学习的焦点堆栈显著性特征表达/>
Figure FDA00040011845900000511
计算公式为:/>
Figure FDA00040011845900000512
其中,所述/>
Figure FDA00040011845900000513
表示焦点堆栈图对应的自适应层,所述
Figure FDA00040011845900000514
表示焦点堆栈图对应的转换矩阵,所述XF表示焦点堆栈训练特征图;
利用隐式图损失函数
Figure FDA00040011845900000515
促使焦点堆栈训练特征图学习的所述焦点堆栈显著性特征表达逼近所述全聚焦图显著性特征表达,计算公式为:
Figure FDA00040011845900000516
/>
其中,所述L2代表L2损失函数,所述l表示焦点堆栈主干网和全聚焦主干网的层数;
当训练epoch数达到第一预设值时,训练完成,得到已训练的双流深层卷积网络。
9.根据权利要求8所述的基于隐式图学习的光场显著性目标检测方法,其特征在于,所述轮廓感知模型的训练步骤包括:
获取焦点堆栈特征图
Figure FDA0004001184590000061
以及全聚焦特征图/>
Figure FDA0004001184590000062
采用2层3x3卷积层和ReLU激活函数,并将通道数统一调整到128,得到第一焦点堆栈特征
Figure FDA0004001184590000063
和第一全聚焦特征/>
Figure FDA0004001184590000064
其中l=3,4,5;
通过不同扩张率的三维深度可分离卷积得到紧凑聚合模块,不同路径的输出通过元素求和与ReLU激活函数进行融合,得到增强的分层焦点堆栈特征
Figure FDA0004001184590000065
计算公式为:
Figure FDA0004001184590000066
其中,所述
Figure FDA0004001184590000067
表示带有空洞率为1的3×3×3的3D扩张的深度可分离的卷积,所述/>
Figure FDA0004001184590000068
表示带有空洞率为2的3×3×3的3D扩张的深度可分离的卷积,所述/>
Figure FDA0004001184590000069
表示带有空洞率为3的3×3×3的3D扩张的深度可分离的卷积,所述/>
Figure FDA00040011845900000610
代表转换层,用于通过一个3×3卷积将焦点堆栈的维度从N×128转换为1×128,所述/>
Figure FDA00040011845900000611
表示第一焦点堆栈特征,所述l为焦点堆栈主干网的层数,取值为3,4,5;
采用多个交互式特征融合模块将各个所述分层焦点堆栈特征和各个所述第一全聚焦特征进行互促融合,得到焦点堆栈初始融合特征和全聚焦初始融合特征;
基于轮廓原型表达将所述焦点堆栈初始融合特征处理为焦点堆栈细化融合特征,以及将所述全聚焦初始融合特征处理为全聚焦细化融合特征;
利用显著性检测头将所述焦点堆栈细化融合特征和所述全聚焦细化融合特征进行聚合,得到显著性预测结果和物体轮廓预测结果;
当训练epoch数达到第二预设值时,训练完成,得到已训练的轮廓感知模型。
10.根据权利要求9所述的基于隐式图学习的光场显著性目标检测方法,其特征在于,若交互式特征融合模块的输入为
Figure FDA0004001184590000071
使用/>
Figure FDA0004001184590000072
的显著性预测/>
Figure FDA0004001184590000073
并实施辅助的深层监督,公式为:/>
Figure FDA0004001184590000074
其中,所述Conv3×3表示3×3大小的卷积层,所述U表示双线性插值上采样;
通过预测显著性图来生成物体轮廓特征
Figure FDA0004001184590000075
计算公式为:/>
Figure FDA0004001184590000076
其中,所述/>
Figure FDA0004001184590000077
是由3×3卷积和一个Groupnorm层和一个PReLU激活函数组成,用于将通道数从1转换到128;
对物体轮廓预测施加辅助的深度监督,计算公式为:
Figure FDA0004001184590000078
通过计算通道响应评价特征的重要性,计算公式为:
Figure FDA0004001184590000079
其中(m,n)代表特征图的坐标位置,wk表示特征图F的第k个通道权重;
通过特征
Figure FDA00040011845900000710
生成权重响应/>
Figure FDA00040011845900000711
利用一个自适应的增强操作动态地调整不同特征的响应,计算公式包括:
Figure FDA00040011845900000712
Figure FDA00040011845900000713
其中,所述
Figure FDA00040011845900000714
代表串联操作,所述FC代表全连接层,所述U表示双线性插值上采样,所述
Figure FDA00040011845900000715
表示全聚焦初始融合特征;
通过嵌入全局视图的轮廓提示完善所述全聚焦初始融合特征,计算公式为:
Figure FDA0004001184590000081
其中,所述Conv代表3×3卷积核大小的卷积层,所述
Figure FDA0004001184590000082
表示全聚焦细化融合特征;
所述显著性预测结果SP的计算公式为:
Figure FDA0004001184590000083
其中,所述
Figure FDA0004001184590000084
表示全聚焦细化融合特征,所述/>
Figure FDA0004001184590000085
表示焦点堆栈细化融合特征;
所述物体轮廓预测结果SC的计算公式为:
Figure FDA0004001184590000086
11.一种基于隐式图学习的光场显著性目标检测装置,其特征在于,包括:
特征图获取模块,用于将待测试的全聚焦图像和待测试的焦点堆栈图像输入预先训练的双流深层卷积网络,得到全聚焦特征图和焦点堆栈特征图;
计算模块,用于将所述全聚焦特征图和所述焦点堆栈特征图输入预先训练的轮廓感知模型,得到显著性预测结果和物体轮廓预测结果。
12.一种终端,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于隐式图学习的光场显著性目标检测程序,所述基于隐式图学习的光场显著性目标检测程序被所述处理器执行时实现如权利要求1~10任意一项所述的基于隐式图学习的光场显著性目标检测方法的步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序能够被执行以用于实现如权利要求1~10任意一项所述的基于隐式图学习的光场显著性目标检测方法的步骤。
CN202211618605.8A 2022-12-15 2022-12-15 一种基于隐式图学习的光场显著性目标检测方法及装置 Pending CN116229222A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211618605.8A CN116229222A (zh) 2022-12-15 2022-12-15 一种基于隐式图学习的光场显著性目标检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211618605.8A CN116229222A (zh) 2022-12-15 2022-12-15 一种基于隐式图学习的光场显著性目标检测方法及装置

Publications (1)

Publication Number Publication Date
CN116229222A true CN116229222A (zh) 2023-06-06

Family

ID=86588150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211618605.8A Pending CN116229222A (zh) 2022-12-15 2022-12-15 一种基于隐式图学习的光场显著性目标检测方法及装置

Country Status (1)

Country Link
CN (1) CN116229222A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117253054A (zh) * 2023-11-20 2023-12-19 浙江优众新材料科技有限公司 一种光场显著性检测方法及其相关设备
CN117496187A (zh) * 2023-11-15 2024-02-02 安庆师范大学 一种光场图像显著性检测方法
CN117496187B (zh) * 2023-11-15 2024-06-11 安庆师范大学 一种光场图像显著性检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117496187A (zh) * 2023-11-15 2024-02-02 安庆师范大学 一种光场图像显著性检测方法
CN117496187B (zh) * 2023-11-15 2024-06-11 安庆师范大学 一种光场图像显著性检测方法
CN117253054A (zh) * 2023-11-20 2023-12-19 浙江优众新材料科技有限公司 一种光场显著性检测方法及其相关设备
CN117253054B (zh) * 2023-11-20 2024-02-06 浙江优众新材料科技有限公司 一种光场显著性检测方法及其相关设备

Similar Documents

Publication Publication Date Title
Lin et al. Dynamic spatial propagation network for depth completion
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
US10275719B2 (en) Hyper-parameter selection for deep convolutional networks
CN111325165B (zh) 考虑空间关系信息的城市遥感影像场景分类方法
CN111008639B (zh) 一种基于注意力机制的车牌字符识别方法
CN113807355A (zh) 一种基于编解码结构的图像语义分割方法
CN112734915A (zh) 一种基于深度学习的多视角立体视觉三维场景重建方法
CN112036260B (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN112966747A (zh) 一种基于无锚框检测网络改进的车辆检测方法
CN116229222A (zh) 一种基于隐式图学习的光场显著性目标检测方法及装置
CN113344869A (zh) 一种基于候选视差的行车环境实时立体匹配方法及装置
CN116612468A (zh) 基于多模态融合与深度注意力机制的三维目标检测方法
Zhao et al. Joint learning of salient object detection, depth estimation and contour extraction
Zhou et al. Attention transfer network for nature image matting
CN116052025A (zh) 一种基于孪生网络的无人机视频图像小目标跟踪方法
CN115588237A (zh) 一种基于单目rgb图像的三维手部姿态估计方法
Alimjan et al. An image change detection algorithm based on multi-feature self-attention fusion mechanism UNet network
Yuan et al. Recurrent structure attention guidance for depth super-resolution
Sun et al. CRNet: Channel-enhanced Remodeling-based Network for Salient Object Detection in Optical Remote Sensing Images
Liu et al. Weakly supervised region of interest extraction based on uncertainty-aware self-refinement learning for remote sensing images
CN117333908A (zh) 基于姿态特征对齐的跨模态行人重识别方法
CN115760807B (zh) 一种视网膜眼底图像配准方法及系统
CN116523888A (zh) 路面裂缝的检测方法、装置、设备及介质
CN115546512A (zh) 基于可学习的权重描述子的光场图像显著目标检测方法
Nguyen et al. Facial Landmark Detection with Learnable Connectivity Graph Convolutional Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination