CN112651406A - 一种深度感知和多模态自动融合的rgb-d显著性目标检测方法 - Google Patents

一种深度感知和多模态自动融合的rgb-d显著性目标检测方法 Download PDF

Info

Publication number
CN112651406A
CN112651406A CN202011504271.2A CN202011504271A CN112651406A CN 112651406 A CN112651406 A CN 112651406A CN 202011504271 A CN202011504271 A CN 202011504271A CN 112651406 A CN112651406 A CN 112651406A
Authority
CN
China
Prior art keywords
neural network
modal
depth
network
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011504271.2A
Other languages
English (en)
Other versions
CN112651406B (zh
Inventor
李玺
张文虎
孙鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202011504271.2A priority Critical patent/CN112651406B/zh
Publication of CN112651406A publication Critical patent/CN112651406A/zh
Application granted granted Critical
Publication of CN112651406B publication Critical patent/CN112651406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种深度感知和多模态自动融合的RGB‑D显著性目标检测方法,用于在给定彩色图像和对应的深度图像的情况下,对彩色图像中的显著物体做像素级的细粒度分割。具体包括如下步骤:获取训练该任务的图像数据集,并定义算法目标;分别建立用于提取彩色图像与深度图像的深度神经网络;建立用于多模态自动融合的超网络;基于前述的超网络进行神经网络结构搜索以确定模型结构;基于前述模型结构进行预测模型训练,并得到最终的训练好的神经网络模型。本发明适用于RGB‑D场景下的显著性目标检测,面对各类复杂情况具有较佳的效果和鲁棒性。

Description

一种深度感知和多模态自动融合的RGB-D显著性目标检测 方法
技术领域
本发明涉及计算机视觉领域,特别地涉及一种深度感知和多模态自动融合的RGB-D显著性目标检测方法。
背景技术
RGB-D显著性目标检测问题旨在利用成对的彩色图像与深度图像,检测场景中最显着的物体,并给出该物体的分割图,可以为图像检索,视频分割,行人重识别等众多领域提供帮助,近年来因为深度学习模型的出现得到了较大的发展。
深度图像作为场景中的重要显著性依据,蕴含了丰富的空间结构信息和物体边界信息,如何利用深度图像辅助显著性区域的判断是至关重要的。此前基于深度学习的RGB-D显著性目标检测方法,通常将深度图像单独提取特征,或作为彩色图像的第四个维度,将彩色图像与深度图像平等得对待,并没有显式建模深度分布与显著性物体的空间位置关系,且两种特征的融合方式是通过启发式手工设计的。
考虑到彩色图像与深度图像的数据来源存在差异,本发明尝试探索更多的深度图像利用方式。其一,是将深度拆解为三个部分来辅助排除彩色图像中的背景干扰,并指导彩色图像特征的提取,其二,是利用神经网络搜索技术将深度图像特征与彩色图像特征做自动融合。以此适应不同复杂场景下的显著性目标检测任务。
发明内容
针对以上问题,本发明提供了一种深度感知和多模态自动融合的RGB-D显著性目标检测方法。
本发明具体采用的技术方案如下:
一种深度感知和多模态自动融合的RGB-D显著性目标检测方法,其包括以下步骤:
S1、获取训练该任务的图像数据集;
S2、分别建立用于提取彩色图像与深度图像的深度神经网络;
S3、建立用于多模态自动融合的超网络结构;
S4、基于所述的超网络结构进行神经网络结构搜索以确定模型结构;
S5、基于所述搜索结果进行预测模型训练,并得到最终的训练好的神经网络模型;
S6:将待检测的彩色图像与深度图像输入训练好的神经网络模型中,预测图中的显著性目标。
作为优选,所述S1中的图像数据集包括单帧彩色图像Itrain和对应的深度图像Dtrain,以及人工标注的显著目标分割图Ptrain
作为优选,定义算法目标为预测单帧图像中的显著性目标的分割图
Figure BDA0002844509270000023
进一步的,所述S2包括以下子步骤:
S21、对于每个单帧彩色图像Itrain,其特征提取的深度神经网络由VGG19网络结构与4个插入的DSAM模块构成;其中第i个DSAM模块以VGG19的第i个卷积模块的输出r′i作为输入,其输出作为VGG19的第i+1个卷积模块的输入,i∈{1,2,3,4};在i个DSAM模块中,首先根据对应的深度图像Dtrain的频数直方图将深度图像拆解为三个部分并通过最大池化层来得到与ri维度相同的三个子图像
Figure BDA0002844509270000021
然后通过如下操作获得深度感知的彩色图像特征Ri
Figure BDA0002844509270000022
式中Conv表示1×1的卷积模型;
四个DSAM模块的输出r1、r2、r3、r4以及VGG19的第五个卷积模块的输出r5共同构成彩色图像的多尺度特征,用于后续多模态多尺度的特征自动融合;
S22、每个对应的深度图像Dtrain,使用一个轻量级的深度神经网络对深度图像进行特征提取,该深度神经网络共由五个级联的卷积模块组成,其输出的多尺度深度图特征d1、d2、d3、d4、d5将用于后续多模态多尺度的特征自动融合。
进一步的,所述S3中用于多模态自动融合的超网络结构具体构成如下:
S31、使用三个多模态单元来得到同尺度的多模态融合特征,每个单元将两对S2中获得的相邻的两种模态特征作为输入,并输出相应的多模态特征Cn
Cn=MMn(rn+1,rn+2,dn+1,dn+2),n∈{1,2,3}
其中MMn()表示第n个多模态单元;
S32、使用四个多尺度单元来得到多尺度的多模态融合特征,每个单元以S31中的多模态特征或S2中的两种模态特征作为输入,并输出相应的多尺度特征Dm
Figure BDA0002844509270000031
其中MSm()表示第m个多尺度单元;
S33、使用一个特征聚集单元来进行全局特征的高度聚集,以得到全局的多模态多尺度特征G:
G=GA(D1,D2,D3,D4)
其中GA()表示特征聚集单元;
S34、使用两个级联的结构加强单元来得到最终的显著性图,每个单元以前一单元的输出和S2中的两种模态特征为输入,来加强最终显著性特征的结构信息,并进行尺度对齐:
L1=SR1(θ(G),d2,r2)
L2=SR2(θ(L1),d1,r1)
其中θ()代表上采样操作,SRn代表第n个结构加强单元,L2为最终的显著性图预测结果
Figure BDA0002844509270000032
进一步的,所述S4中基于所述的超网络进行神经网络结构搜索操作如下:
S41、针对S3中共同构成超网络的四种单元,将每一种单元内部都看做由X个节点构成的有向无环图,分别设置四种单元内的节点数;然后从候选操作集合Q中选择若干候选操作来构成节点之间的连接;节点xi、xj之间的连接关系表示为:
Figure BDA0002844509270000033
其中o(i,j)()代表候选操作集合Q中候选操作的一种;
用Softmax函数将所有候选操作集加和在一起,构成单元内连续的搜索空间:
Figure BDA0002844509270000041
其中
Figure BDA0002844509270000042
代表选择xi和xj之间的候选操作o的可学习权重参数;
整个搜索空间由四种单元的所有结构参数构成。
S42、在神经网络结构搜索阶段,用所述的超网络对数据集图像对进行预测,表示为:
Figure BDA0002844509270000043
其中F’()表示超网络函数,
Figure BDA0002844509270000044
表示超网络的预测结果,ω’为超网络中模型的卷积网络参数,α′为超网络的结构参数;
以最小化超网络模型预测结果与人工标注的显著目标分割图误差
Figure BDA0002844509270000045
为目标,对α′,ω′两种参数进行交替优化,得到固定的网络权重参数α*,其对应的网络分支即超网络结构最终的搜索结果。
进一步的,所述S41中,多模态单元、多尺度单元、特征聚集单元、结构加强单元四种单元内的节点数分别为8、8、8、4。
进一步的,所述S41中,所述候选操作集合Q包括极大池化、跳接相加、3×3卷积、1×1卷积、3×3可分离卷积、3×3空洞卷积、3×3空间注意力层、1×1通道注意力层;
进一步的,所述S5的具体步骤如下:
基于所述搜索结果确定的神经网络结构,建立深度卷积神经网络,深度卷积神经网络的输入为彩色图与深度图的图片对(Itrain,Dtrain),输出为相对于图片Itrain的显著性目标的分割图
Figure BDA0002844509270000046
深度卷积神经网络的结构表示为映射
Figure BDA0002844509270000047
用公式表示为:
Figure BDA0002844509270000048
其中ω为预测模型预测显著性目标的分割图时所用的卷积参数,F()为深度卷积神经网络的预测函数,以最小化深度卷积神经网络模型预测结果与人工标注的显著目标分割图的误差
Figure BDA0002844509270000049
为目标,在损失函数L下训练整个深度卷积神经网络,直到神经网络收敛。
进一步的,所述深度卷积神经网络使用SGD优化方法和反向传播算法进行训练。
本方法基于深度神经网络,利用深度图像中蕴含的丰富的空间结构信息,建立其与显著性物体在空间分布的关系,并采用神经网络搜索技术自动得对彩色图像和深度图像进行多模态信息融合,能够更好地适应不同场景下对显著性目标检测模型的要求。相比于之前的方法,本发明具有如下收益:
首先,本发明采用采用端到端的深度学习模型来建模RGB-D图像对与显著物体的关系,将网络设计分解为两个重要部分,即特征提取与特征融合。通过分别改进这两个部分,可以大幅提高显著性目标检测方法的准确度。
其次,本发明显式建模了深度分布与显著性物体的空间位置关系,用深度图像的分布来指导彩色图像的特征提取,辅助排除彩色图像中的背景干扰,来得到对于本任务更友好的彩色图像的特征,为后续预测打下了良好的基础。
最后,本发明利用神经网络搜索技术,为显著性目标检测任务设计了独特的搜索空间,来进行彩色图像与深度图像的多模态特征融合,网络可以通过不断优化的过程自动寻找更优的网络结构,最终确定模型中各节点的连接方式,并通过训练得到更好的显著性目标检测模型。
本方法在显著性目标检测任务中,能够有效提高对场景中显著物体的分割精度与区域相似度,具有良好的应用价值。例如,可以快速地辨别出一幅自然图像中包含有用信息的显著性部分为后续图像检索、视觉追踪、行人重识别等任务提供更精细的物体分割图样,做了良好的铺垫。
附图说明
图1为本发明的网络结构示意图;
图2为本发明实施例中的检测效果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,一种深度感知和多模态自动融合的RGB-D显著性目标检测方法包括以下步骤:
S1、获取训练该任务的图像数据集,并定义算法目标。
本步骤中,图像数据集包括单帧彩色图像Itrain和对应的深度图像Dtrain,以及人工标注的显著目标分割图Ptrain。定义本发明的算法目标为预测单帧图像中的显著性目标的分割图
Figure BDA0002844509270000061
S2、分别建立用于提取彩色图像与深度图像的深度神经网络。本步骤包含以下子步骤:
S21、对于每个单帧彩色图像Itrain,其特征提取的深度神经网络由VGG19网络结构与4个插入的DSAM模块构成。VGG19网络中本身封装有5个卷积模块(Block),因此本发明的深度神经网络即在五个卷积模块之间插入4个DSAM模块。其中对于第i个DSAM模块而言,其以VGG19的第i个卷积模块的输出r′i作为输入,其输出作为VGG19的第i+1个卷积模块的输入,i∈{1,2,3,4}。在i个DSAM模块中,其数据处理流程如下:首先根据对应的深度图像Dtrain的频数直方图将深度图像拆解为三个部分并通过最大池化层来得到与ri维度相同的三个子图像
Figure BDA0002844509270000062
三个子图像
Figure BDA0002844509270000063
组合即为对齐后深度图像。本实施例中对深度图像进行拆解的做法为:根据对应的深度图像Dtrain的频数直方图选定深度阈值μ1,μ2,然后根据阈值将深度图像拆解为互斥的三个部分([0,μ1],(μ1,μ2),[μ2,255])。然后通过如下操作获得深度感知的彩色图像特征Ri
Figure BDA0002844509270000064
式中Conv表示1×1的卷积模型。
四个DSAM模块的输出r1、r2、r3、r4以及VGG19的第五个卷积模块的输出r5共同构成彩色图像的多尺度特征,用于后续多模态多尺度的特征自动融合。
S22、每个对应的深度图像Dtrain,使用一个轻量级的深度神经网络对深度图像进行特征提取,该深度神经网络共由五个级联的卷积模块组成,其输出的多尺度深度图特征d1、d2、d3、d4、d5将用于后续多模态多尺度的特征自动融合。
S3、建立用于多模态自动融合的超网络结构。本步骤包含以下子步骤:
S31、使用三个多模态单元(MM Cell1、MM Cell2、MM Cell3)来得到同尺度的多模态融合特征,每个单元将两对S2中获得的相邻的两种模态特征作为输入,并输出相应的多模态特征Cn
Cn=MMn(rn+1,rn+2,dn+1,dn+2),n∈{1,2,3}
其中MMn()表示第n个多模态单元;
S32、使用四个多尺度单元(MSCell1、MS Cell2、MS Cell3、MS Cell4)来得到多尺度的多模态融合特征,每个单元以S31中的多模态特征或S2中的两种模态特征作为输入,并输出相应的多尺度特征Dm
Figure BDA0002844509270000071
其中MSm()表示第m个多尺度单元;
S33、使用一个特征聚集单元(GACell)来进行全局特征的高度聚集,以得到全局的多模态多尺度特征G:
G=GA(D1,D2,D3,D4)
其中GA()表示特征聚集单元;
S34、使用两个级联的结构加强单元(GACell1和GACell2,两者级联,而GACell1连接于GACell后)来得到最终的显著性图,每个单元以前一单元的输出和S2中的两种模态特征为输入,来加强最终显著性特征的结构信息,并进行尺度对齐:
L1=SR1(θ(G),d2,r2)
L2=SR2(θ(L1),d1,r1)
其中θ()代表上采样操作,SRn代表第n个结构加强单元,L2为最终的显著性图预测结果
Figure BDA0002844509270000072
需要注意的是,在本步骤S3中,多模态单元、多尺度单元、特征聚集单元、结构加强单元这四种单元内内的结构是尚未确定的,需要通过下一步的神经网络结构搜索最终确定。
S4、基于所述的超网络结构进行神经网络结构搜索以确定模型结构;
本步骤包含以下子步骤:
S41、为了优化超网络以得到确定的小型网络结构,针对S3中共同构成超网络的四种单元,将每一种单元内部都看做由X个节点构成的有向无环图,分别设置四种单元内的节点数,在本实施例中多模态单元、多尺度单元、特征聚集单元、结构加强单元四种单元内的节点数分别设置为8、8、8、4。然后从候选操作集合Q中选择若干候选操作来构成节点之间的连接(即节点之间的边),本实施例中候选操作集合Q包括极大池化、跳接相加、3×3卷积、1×1卷积、3×3可分离卷积、3×3空洞卷积、3×3空间注意力层、1×1通道注意力层。任意节点xi、xj之间的连接关系表示为:
xj=∑i<jo(i,j)(xi)
其中o(i,j)()代表候选操作集合Q中候选操作的一种;
进一步为了让搜索空间连续,用Softmax函数将所有候选操作集加和在一起,构成单元内连续的搜索空间:
Figure BDA0002844509270000081
其中
Figure BDA0002844509270000082
代表选择xi和xj之间的候选操作o的可学习权重参数;
整个搜索空间由四种单元的所有结构参数构成,即α={αMM,αMS,αGA,αSR},αMM,αMS,αGA,αSR分别为多模态单元、多尺度单元、特征聚集单元、结构加强单元内的结构参数。
S42、在神经网络结构搜索阶段,用所述的超网络对数据集图像对进行预测,表示为:
Figure BDA0002844509270000084
其中F’()表示超网络函数,
Figure BDA0002844509270000085
表示超网络的预测结果,ω’为超网络中模型的卷积网络参数,α′为超网络的结构参数;
以最小化超网络模型预测结果与人工标注的显著目标分割图误差
Figure BDA0002844509270000083
为目标,对α′,ω′两种参数进行交替优化,得到固定的网络权重参数α*,其对应的网络分支即超网络结构最终的搜索结果。
S5、基于所述搜索结果进行预测模型训练,并得到最终的训练好的神经网络模型;
本步骤包含以下子步骤:
基于所述搜索结果确定的神经网络结构,建立深度卷积神经网络,深度卷积神经网络的输入为彩色图与深度图的图片对(Itrain,Dtrain),输出为相对于图片Itrain的显著性目标的分割图
Figure BDA0002844509270000091
深度卷积神经网络的结构表示为映射
Figure BDA0002844509270000092
用公式表示为:
Figure BDA0002844509270000093
其中ω为预测模型预测显著性目标的分割图时所用的卷积参数,F()为深度卷积神经网络的预测函数,以最小化深度卷积神经网络模型预测结果与人工标注的显著目标分割图的误差
Figure BDA0002844509270000094
为目标,使用SGD优化方法和反向传播算法在损失函数L下训练整个深度卷积神经网络,直到神经网络收敛。
S6:在实际应用阶段,将待检测的彩色图像与深度图像输入训练好的神经网络模型中,即可输出预测图中显著性目标的分割图
Figure BDA0002844509270000095
获得图中的显著性目标。
由此可见,本发明可用于在给定彩色图像和对应的深度图像的情况下,对彩色图像中的显著物体做像素级的细粒度分割,适用于RGB-D场景下的显著性目标检测,面对各类复杂情况具有较佳的效果和鲁棒性。
下面将上述方法应用于具体实施例中,以便本领域技术人员能够更好地理解本发明的效果。
实施例
本实施例的实现方法如前所述,不再详细阐述具体的步骤,下面仅针对案例数据展示其效果。本发明在七个具有真值标注的数据集上实施,分别为:
DUT-RGBD数据集:该数据集包含1200个图像对,以及其显著性标签。
NJUD数据集:该数据集包含1985个图像对,以及其显著性标签。
NLPR数据集:该数据集包含1000个图像对,以及其显著性标签。
SSD数据集:该数据集包含80个图像对,以及其显著性标签。
STEREO数据集:该数据集包含1000个图像对,以及其显著性标签。
LFSD数据集:该数据集包含100个图像对,以及其显著性标签。
RGBD135数据集:该数据集包含135个图像对,以及其显著性标签。
本实例分别从DUT-RGBD数据集中选择800个图像对,从NLPR数据集中选择700个图像对,从NJUD中选择1485个图像对,共同作为训练集,其他作为测试集,通过前述方法建立深度学习模型并进行训练。
如图2所示。图中,GT表示真实标注的显著物体分割图标签,我们的方法得到的显著物体分割图与真实的显著物体分割图基本一致。
本实施例检测结果的检测精度如下表所示,主要采用平均F-measure以及M两个指标对各种方法的预测精度进行比较,其中平均F-measure指标用于衡量预测的显著分割图与真实的显著分割图的区域相似性,值越大代表预测结果与真实结果越相似;M是预测的显著分割图中每个像素点的结果差距,值越小代表预测结果越接近真实分割图。如下表中所示,本方法与其它方法相比,平均F-measure和M指标均存在明显优势。
Figure BDA0002844509270000101
Figure BDA0002844509270000111
上述与本发明方法(Our network)对比的其他方法,具体实现过程参见以下现有技术文献:
DMRA:Yongri Piao,Wei Ji,Jingjing Li,Miao Zhang,and Huchuan Lu.Depth-induced multi-scale recurrent attention network for saliency detection.InInt.Conf.Comput.Vis.,pages 7254-7263,2019.3,5,6
CPFP:Jia-Xing Zhao,Yang Cao,Deng-Ping Fan,Ming-Ming Cheng,Xuan-Yi Li,and Le Zhang.Contrast prior and fluid pyramid integration for rgbd salientobject detection.In IEEE Conf.Comput.Vis.Pattern Recog.,2019.2,6
PGAR:Shuhan Chen and Yun Fu.Progressively guided alternate refinementnetwork for rgb-d salient object detection.In Eur.Conf.Comput.Vis.,2020.6
CMWNet:Gongyang Li,Zhi Liu,Linwei Ye,Yang Wang,and Haibin Ling.Cross-modal weighting network for rgb-d salient object detection.InEur.Conf.Comput.Vis.,2020.3,6
CoNet:Wei Ji,Jingjing Li,Miao Zhang,Yongri Piao,and HuchuanLu.Accurate rgb-d salient object detection via collaborative learning.InEur.Conf.Comput.Vis.,2020.6
上述实施例中,本发明的RGB-D显著性目标检测方法首先利用深度图信息指导增强彩色图像分支的特征提取,已达到在特征提取阶段抑制背景噪音、增强结构关系的效果,提取更适合本任务的彩色图像特征。在此基础上,利用神经网络搜索技术,对分别提取的彩色与深度图像特征做多模态多尺度的自动融合,综合两种数据的特点来得到更优的显著性特征。最后,端到端的训练整体的深度学习模型以得到网络权重,从而预测新的RGB-D数据中的显著性部分。
通过以上技术方案,本发明实施例基于深度学习技术发展了一种深度感知和多模态自动融合的RGB-D显著性目标检测方法。本发明可以利用深度图像的结构信息来指导特征抽取,并采用神经网络搜索来将多模态的信息自动融合,能够更好适应不同复杂场景下的显著性目标检测任务。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种深度感知和多模态自动融合的RGB-D显著性目标检测方法,其特征在于包括以下步骤:
S1、获取训练该任务的图像数据集;
S2、分别建立用于提取彩色图像与深度图像的深度神经网络;
S3、建立用于多模态自动融合的超网络结构;
S4、基于所述的超网络结构进行神经网络结构搜索以确定模型结构;
S5、基于所述搜索结果进行预测模型训练,并得到最终的训练好的神经网络模型;
S6:将待检测的彩色图像与深度图像输入训练好的神经网络模型中,预测图中的显著性目标。
2.根据权利要求1所述的深度感知和多模态自动融合的RGB-D显著性目标检测方法,其特征在于所述S1中的图像数据集包括单帧彩色图像Itrain和对应的深度图像Dtrain,以及人工标注的显著目标分割图Ptrain
3.根据权利要求1所述的深度感知和多模态自动融合的RGB-D显著性目标检测方法,其特征在于,定义算法目标为预测单帧图像中的显著性目标的分割图
Figure FDA0002844509260000013
4.根据权利要求2所述的深度感知和多模态自动融合的RGB-D显著性目标检测方法,其特征在于所述S2包括以下子步骤:
S21、对于每个单帧彩色图像Itrain,其特征提取的深度神经网络由VGG19网络结构与4个插入的DSAM模块构成;其中第i个DSAM模块以VGG19的第i个卷积模块的输出r′i作为输入,其输出作为VGG19的第i+1个卷积模块的输入,i∈{1,2,3,4};在i个DSAM模块中,首先根据对应的深度图像Dtrain的频数直方图将深度图像拆解为三个部分并通过最大池化层来得到与ri维度相同的三个子图像
Figure FDA0002844509260000011
然后通过如下操作获得深度感知的彩色图像特征Ri
Figure FDA0002844509260000012
式中Conv表示1×1的卷积模型;
四个DSAM模块的输出r1、r2、r3、r4以及VGG19的第五个卷积模块的输出r5共同构成彩色图像的多尺度特征,用于后续多模态多尺度的特征自动融合;
S22、每个对应的深度图像Dtrain,使用一个轻量级的深度神经网络对深度图像进行特征提取,该深度神经网络共由五个级联的卷积模块组成,其输出的多尺度深度图特征d1、d2、d3、d4、d5将用于后续多模态多尺度的特征自动融合。
5.根据权利要求3所述的所述的深度感知和多模态自动融合的RGB-D显著性目标检测方法,其特征在于所述S3中用于多模态自动融合的超网络结构具体构成如下:
S31、使用三个多模态单元来得到同尺度的多模态融合特征,每个单元将两对S2中获得的相邻的两种模态特征作为输入,并输出相应的多模态特征Cn
Cn=MMn(rn+1,rn+2,dn+1,dn+2),n∈{1,2,3}
其中MMn()表示第n个多模态单元;
S32、使用四个多尺度单元来得到多尺度的多模态融合特征,每个单元以S31中的多模态特征或S2中的两种模态特征作为输入,并输出相应的多尺度特征Dm
Figure FDA0002844509260000021
其中MSm()表示第m个多尺度单元;
S33、使用一个特征聚集单元来进行全局特征的高度聚集,以得到全局的多模态多尺度特征G:
G=GA(D1,D2,D3,D4)
其中GA()表示特征聚集单元;
S34、使用两个级联的结构加强单元来得到最终的显著性图,每个单元以前一单元的输出和S2中的两种模态特征为输入,来加强最终显著性特征的结构信息,并进行尺度对齐:
L1=SR1(θ(G),d2,r2)
L2=SR2(θ(L1),d1,r1)
其中θ()代表上采样操作,SRn代表第n个结构加强单元,L2为最终的显著性图预测结果
Figure FDA0002844509260000022
6.根据权利要求4所述的深度感知和多模态自动融合的RGB-D显著性目标检测方法,其特征在于所述S4中基于所述的超网络进行神经网络结构搜索操作如下:
S41、针对S3中共同构成超网络的四种单元,将每一种单元内部都看做由X个节点构成的有向无环图,分别设置四种单元内的节点数;然后从候选操作集合Q中选择若干候选操作来构成节点之间的连接;节点xi、xj之间的连接关系表示为:
Figure FDA0002844509260000031
其中o(i,j)()代表候选操作集合Q中候选操作的一种;
用Softmax函数将所有候选操作集加和在一起,构成单元内连续的搜索空间:
Figure FDA0002844509260000032
其中
Figure FDA0002844509260000033
代表选择xi和xj之间的候选操作o的可学习权重参数;
整个搜索空间由四种单元的所有结构参数构成;
S42、在神经网络结构搜索阶段,用所述的超网络对数据集图像对进行预测,表示为:
Figure FDA0002844509260000034
其中F’()表示超网络函数,
Figure FDA0002844509260000035
表示超网络的预测结果,ω’为超网络中模型的卷积网络参数,α′为超网络的结构参数;
以最小化超网络模型预测结果与人工标注的显著目标分割图误差
Figure FDA0002844509260000036
为目标,对α′,ω′两种参数进行交替优化,得到固定的网络权重参数α*,其对应的网络分支即超网络结构最终的搜索结果。
7.根据权利要求6所述的深度感知和多模态自动融合的RGB-D显著性目标检测方法,其特征在于,所述S41中,多模态单元、多尺度单元、特征聚集单元、结构加强单元四种单元内的节点数分别为8、8、8、4。
8.根据权利要求6所述的深度感知和多模态自动融合的RGB-D显著性目标检测方法,其特征在于,所述S41中,所述候选操作集合Q包括极大池化、跳接相加、3×3卷积、1×1卷积、3×3可分离卷积、3×3空洞卷积、3×3空间注意力层、1×1通道注意力层。
9.根据权利要求6所述的深度感知和多模态自动融合的RGB-D显著性目标检测方法,其特征在于所述S5的具体步骤如下:
基于所述搜索结果确定的神经网络结构,建立深度卷积神经网络,深度卷积神经网络的输入为彩色图与深度图的图片对(Itrain,Dtrain),输出为相对于图片Itrain的显著性目标的分割图
Figure FDA0002844509260000041
深度卷积神经网络的结构表示为映射
Figure FDA0002844509260000042
用公式表示为:
Figure FDA0002844509260000043
其中ω为预测模型预测显著性目标的分割图时所用的卷积参数,F()为深度卷积神经网络的预测函数,以最小化深度卷积神经网络模型预测结果与人工标注的显著目标分割图的误差
Figure FDA0002844509260000044
为目标,在损失函数L下训练整个深度卷积神经网络,直到神经网络收敛。
10.根据权利要求9所述的深度感知和多模态自动融合的RGB-D显著性目标检测方法,其特征在于所述深度卷积神经网络使用SGD优化方法和反向传播算法进行训练。
CN202011504271.2A 2020-12-18 2020-12-18 一种深度感知和多模态自动融合的rgb-d显著性目标检测方法 Active CN112651406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011504271.2A CN112651406B (zh) 2020-12-18 2020-12-18 一种深度感知和多模态自动融合的rgb-d显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011504271.2A CN112651406B (zh) 2020-12-18 2020-12-18 一种深度感知和多模态自动融合的rgb-d显著性目标检测方法

Publications (2)

Publication Number Publication Date
CN112651406A true CN112651406A (zh) 2021-04-13
CN112651406B CN112651406B (zh) 2022-08-09

Family

ID=75355195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011504271.2A Active CN112651406B (zh) 2020-12-18 2020-12-18 一种深度感知和多模态自动融合的rgb-d显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN112651406B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076962A (zh) * 2021-05-14 2021-07-06 电子科技大学 一种基于可微神经网络搜索技术的多尺度目标检测方法
CN113222934A (zh) * 2021-05-13 2021-08-06 南开大学 一种基于设备感知的显著性物体检测方法及系统
CN113408584A (zh) * 2021-05-19 2021-09-17 成都理工大学 Rgb-d多模态特征融合3d目标检测方法
CN113643318A (zh) * 2021-06-30 2021-11-12 深圳市优必选科技股份有限公司 图像分割方法、图像分割装置及终端设备
WO2022222020A1 (zh) * 2021-04-20 2022-10-27 中国科学院深圳先进技术研究院 一种用于流量分类的神经网络架构自动搜索方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016037238A1 (en) * 2014-09-10 2016-03-17 National Ict Australia Limited Enhancing vision for a vision impaired user
WO2019015344A1 (zh) * 2017-07-21 2019-01-24 北京大学深圳研究生院 基于中心暗通道先验信息的图像显著性物体检测方法
CN109712105A (zh) * 2018-12-24 2019-05-03 浙江大学 一种结合彩色和深度信息的图像显著目标检测方法
CN110458178A (zh) * 2019-08-12 2019-11-15 浙江科技学院 多模态多拼接的rgb-d显著性目标检测方法
CN110929736A (zh) * 2019-11-12 2020-03-27 浙江科技学院 多特征级联rgb-d显著性目标检测方法
CN111583173A (zh) * 2020-03-20 2020-08-25 北京交通大学 一种rgb-d图像显著性目标检测方法
CN111582316A (zh) * 2020-04-10 2020-08-25 天津大学 一种rgb-d显著性目标检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016037238A1 (en) * 2014-09-10 2016-03-17 National Ict Australia Limited Enhancing vision for a vision impaired user
WO2019015344A1 (zh) * 2017-07-21 2019-01-24 北京大学深圳研究生院 基于中心暗通道先验信息的图像显著性物体检测方法
CN109712105A (zh) * 2018-12-24 2019-05-03 浙江大学 一种结合彩色和深度信息的图像显著目标检测方法
CN110458178A (zh) * 2019-08-12 2019-11-15 浙江科技学院 多模态多拼接的rgb-d显著性目标检测方法
CN110929736A (zh) * 2019-11-12 2020-03-27 浙江科技学院 多特征级联rgb-d显著性目标检测方法
CN111583173A (zh) * 2020-03-20 2020-08-25 北京交通大学 一种rgb-d图像显著性目标检测方法
CN111582316A (zh) * 2020-04-10 2020-08-25 天津大学 一种rgb-d显著性目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李玺 等;: "《深度学习的目标跟踪算法综述》", 《中国图象图形学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022222020A1 (zh) * 2021-04-20 2022-10-27 中国科学院深圳先进技术研究院 一种用于流量分类的神经网络架构自动搜索方法及装置
CN113222934A (zh) * 2021-05-13 2021-08-06 南开大学 一种基于设备感知的显著性物体检测方法及系统
CN113076962A (zh) * 2021-05-14 2021-07-06 电子科技大学 一种基于可微神经网络搜索技术的多尺度目标检测方法
CN113408584A (zh) * 2021-05-19 2021-09-17 成都理工大学 Rgb-d多模态特征融合3d目标检测方法
CN113408584B (zh) * 2021-05-19 2022-07-26 成都理工大学 Rgb-d多模态特征融合3d目标检测方法
CN113643318A (zh) * 2021-06-30 2021-11-12 深圳市优必选科技股份有限公司 图像分割方法、图像分割装置及终端设备
CN113643318B (zh) * 2021-06-30 2023-11-24 深圳市优必选科技股份有限公司 图像分割方法、图像分割装置及终端设备

Also Published As

Publication number Publication date
CN112651406B (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN112651406B (zh) 一种深度感知和多模态自动融合的rgb-d显著性目标检测方法
Li et al. Contour knowledge transfer for salient object detection
CN105844669B (zh) 一种基于局部哈希特征的视频目标实时跟踪方法
Liu et al. Adaptive partial differential equation learning for visual saliency detection
He et al. Enhanced boundary learning for glass-like object segmentation
CN112818903A (zh) 一种基于元学习和协同注意力的小样本遥感图像目标检测方法
Cheng et al. Implicit motion handling for video camouflaged object detection
CN107665498B (zh) 基于典型示例挖掘的全卷积网络飞机检测方法
Zhang et al. Edge-semantic learning strategy for layout estimation in indoor environment
US11816149B2 (en) Electronic device and control method thereof
CN111611861B (zh) 一种基于多尺度特征关联的图像变化检测方法
CN108985298B (zh) 一种基于语义一致性的人体衣物分割方法
CN113628244B (zh) 基于无标注视频训练的目标跟踪方法、系统、终端及介质
Li et al. A review of deep learning methods for pixel-level crack detection
CN113159043A (zh) 基于语义信息的特征点匹配方法及系统
CN112288758B (zh) 一种电力设备红外与可见光图像配准方法
Chen et al. ASF-Net: Adaptive screening feature network for building footprint extraction from remote-sensing images
Dong et al. Learning regional purity for instance segmentation on 3d point clouds
Xu et al. Investigate indistinguishable points in semantic segmentation of 3d point cloud
Yu et al. Progressive refined redistribution pyramid network for defect detection in complex scenarios
Hu et al. Supervised multi-scale attention-guided ship detection in optical remote sensing images
Lv et al. Contour deformation network for instance segmentation
Panta et al. IterLUNet: Deep learning architecture for pixel-wise crack detection in levee systems
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN117557804A (zh) 联合目标结构嵌入和多层次特征融合的多标签分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant