CN113298154B - 一种rgb-d图像显著目标检测方法 - Google Patents

一种rgb-d图像显著目标检测方法 Download PDF

Info

Publication number
CN113298154B
CN113298154B CN202110585098.1A CN202110585098A CN113298154B CN 113298154 B CN113298154 B CN 113298154B CN 202110585098 A CN202110585098 A CN 202110585098A CN 113298154 B CN113298154 B CN 113298154B
Authority
CN
China
Prior art keywords
rgbd
features
rgb
multilayer
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110585098.1A
Other languages
English (en)
Other versions
CN113298154A (zh
Inventor
刘政怡
汪远
何倩
姚晟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202110585098.1A priority Critical patent/CN113298154B/zh
Publication of CN113298154A publication Critical patent/CN113298154A/zh
Application granted granted Critical
Publication of CN113298154B publication Critical patent/CN113298154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种RGB‑D图像显著目标检测方法,包括以下步骤:提取RGB图像特征,同时提取Depth图像特征,并将Depth图像特征与RGB图像特征进行融合,形成RGBD融合特征;调整所述RGBD融合特征的尺度,形成通道数和分辨率都相同的RGBD多层特征;双向门控解码所述RGBD多层特征,形成RGBD增强特征;所述RGBD增强特征逐步相加,形成显著图。本发明检测方法中将编码器抽取的多层特征看作输入序列,通过双向门控循环单元解码多层特征,利用门控循环单元记忆共同信息,遗忘不一致信息,找出多层特征中的共有信息,提升特征的信息表示,实现最优的解码过程。

Description

一种RGB-D图像显著目标检测方法
技术领域
本发明涉及计算机视觉领域,特别是涉及一种RGB-D图像显著目标检测方法。
背景技术
RGB-D图像是由RGB颜色图像和Depth深度图像组成,表达了某一场景的外观特点及三维信息。目前RGB-D图像显著目标检测方法存在两种多模态融合方法,一种是双流融合,同等看待颜色和深度图像,另一种是深度指导的融合,以颜色图像为主,深度图像为辅。鉴于存在一些质量较差的深度图像,采用双流融合,可能扩大深度误差,给最终的显著目标检测结果带来不利的影响。因此深度指导的融合是一种更好的融合方法。
同时,图像显著目标检测属于像素级别的密集预测任务,通常使用VGG16或ResNet50等主干网络实现多层特征提取,然后由解码器通过逐层上采样并结合多层特征产生最终的显著图。结合的方法多为相加或者级联操作,这种方法从高层开始,逐层地累加低层特征,可能会在上采样过程中稀释高层特征,同时也会增加一些低层噪音。
因此,亟需设计一种RGB-D图像显著目标检测方法,提供一种合适的解码器,更好地融合多层特征,以解决上述问题。
发明内容
本发明所需要解决的技术问题是提供一种RGB-D图像显著目标检测方法,更好地融合多层特征。
本发明具体采用的技术方案如下:
一种RGB-D图像显著目标检测方法,该方法包括以下步骤:
S1、提取RGB图像特征,同时提取Depth图像特征,并将Depth图像特征与RGB图像特征进行融合,形成RGBD融合特征;
S2、调整所述RGBD融合特征的尺度,形成通道数和分辨率都相同的RGBD多层特征;
S3、双向门控解码所述RGBD多层特征,形成RGBD增强特征;
S4、所述RGBD增强特征逐步相加,形成显著图。
进一步地,在所述步骤S1中,提取RGB图像特征的方法是使用在ImageNet上预训练的ResNet50网络提取图像颜色特征,形成
Figure BDA0003086925790000011
类似地,提取Depth图像特征的方法是使用在ImageNet上预训练的ResNet50网络提取图像深度特征,形成
Figure BDA0003086925790000021
其中i表示层数,对应于ResNet50的每层输出,i取值为1至5的自然数。
所述将Depth图像特征与RGB图像特征进行融合的方法采用深度指导残差模块实现,所述深度指导残差模块,首先对Depth图像特征进行并行的通道注意力和空间注意力特征增强,然后通过与RGB图像特征逐元素相乘,得到深度图像特征指导下的两个优化后的RGB图像特征,最后将二者进行相加融合,从通道和空间两个角度增强RGB图像特征。
为了保留更多的原始RGB图像特征,在增强前后增加一个残差连接,最终形成RGBD融合特征
Figure BDA0003086925790000022
Figure BDA0003086925790000023
所述CA(·)操作是指论文《CBAM:Convolutional Block Attention Module》中所提出的通道注意力模块,SA(·)操作是指论文《CBAM:Convolutional Block AttentionModule》中所提出的空间注意力模块,“×”是指逐元素相乘操作,“+”是指逐元素相加操作。
进一步地,在步骤S2中,调整所述RGBD融合特征的尺度,分为两个阶段:第一阶段调整通道数,第二阶段调整分辨率,最终形成通道数和分辨率都相同的RGBD多层特征Fi 2;S2.1:调整通道数
对于所述S1步骤得到的RGBD融合特征
Figure BDA0003086925790000024
实施一个T(·)操作,得到同通道数的多尺度特征
Figure BDA0003086925790000025
Figure BDA0003086925790000026
其中T(·)操作是指对特征X进行卷积核为3×3的卷积操作,并实施ReLU激活函数:
T(X)=ReLU(Conv(X))
其中Conv(·)表示卷积操作,ReLU(·)表示ReLU激活函数。
S2.2:调整分辨率
对于所述S2.1步骤得到的同通道数的多尺度特征
Figure BDA0003086925790000027
经过一个下三角形上采样操作LTUM(·),得到同通道数同分辨率的RGBD多层特征
Figure BDA0003086925790000028
Figure BDA0003086925790000029
所述LTUM(·)操作根据i的不同有所区别,具体定义如下:
Figure BDA00030869257900000210
Figure BDA00030869257900000211
Figure BDA00030869257900000212
Figure BDA00030869257900000213
Figure BDA0003086925790000031
其中AMA(·)操作为论文《Bidirectional pyramid networks for semanticsegmentation》中提出的add-multiply-add特征融合模块。
进一步地,在步骤S3中,双向门控循环解码所述RGBD多层特征,形成RGBD增强特征的具体方法如下:
以最高层的RGBD增强特征
Figure BDA0003086925790000032
为初始隐藏状态,实施一个由高到低流向的单向门控循环解码过程,同时以最低层的RGBD增强特征
Figure BDA0003086925790000033
为初始隐藏状态,实施一个由低到高流向的单向门控循环解码过程,双向门控循环解码过程中对应层产生的隐藏状态被融合,产生RGBD增强特征
Figure BDA0003086925790000034
更进一步地,所述由高到低流向的单向门控循环解码过程采用门控循环单元加以实现,输入序列为
Figure BDA0003086925790000035
初始隐藏状态为最高层的RGBD增强特征
Figure BDA0003086925790000036
在所述门控循环单元中,隐藏状态表示为Ht,重置门表示为rt,更新门表示为zt,记忆单位表示为
Figure BDA0003086925790000037
每一个时间步的输入为由高到低的每一层RGBD多层特征
Figure BDA0003086925790000038
Figure BDA0003086925790000039
Figure BDA00030869257900000310
Figure BDA00030869257900000311
Figure BDA00030869257900000312
Figure BDA00030869257900000313
其中tanh(·)表示tanh函数。
经过时间步为5的门控循环解码之后,将每一个时间步的输出表示为
Figure BDA00030869257900000314
同理,所述由低到高流向的单向门控循环解码过程采用门控循环单元加以实现,输入序列为
Figure BDA00030869257900000315
初始隐藏状态为最低层的RGBD增强特征
Figure BDA00030869257900000316
在所述门控循环单元中,隐藏状态表示为Ht,重置门表示为rt,更新门表示为zt,记忆单位表示为
Figure BDA00030869257900000317
每一个时间步的输入为由低到高的每一层RGBD多层特征
Figure BDA00030869257900000318
Figure BDA00030869257900000319
Figure BDA00030869257900000320
Figure BDA00030869257900000321
Figure BDA00030869257900000322
Figure BDA00030869257900000323
经过时间步为5的门控循环解码之后,将每一个时间步的输出表示为
Figure BDA00030869257900000324
由以上所述由高到低流向的单向门控循环解码过程及所述由低到高流向的单向门控循环解码过程所产生的输出,对应层经过TFM模块融合,产生RGBD增强特征
Figure BDA0003086925790000041
Figure BDA0003086925790000042
所述TFM模块具体定义如下:
Figure BDA0003086925790000043
其中Up(·)操作表示两倍上采样操作,Cat(·)表示级联操作。
进一步地,在步骤S4中,RGBD增强特征
Figure BDA0003086925790000044
逐步相加得到总特征
Figure BDA0003086925790000045
的具体公式如下:
Figure BDA0003086925790000046
总特征
Figure BDA0003086925790000047
通过Sigmoid激活函数产生显著图的具体公式如下:
Figure BDA0003086925790000048
其中Sig(·)表示Sigmoid激活函数。
与已有技术相比,本发明有益效果体现在:
本发明提出一种RGB-D图像显著目标检测方法,将编码器抽取的多层特征看作输入序列,通过双向门控循环单元解码多层特征,利用门控循环单元记忆共同信息,遗忘不一致信息,找出多层特征中的共有信息,提升特征的信息表示,实现最优的解码过程。
附图说明
图1为本发明一种RGB-D图像显著目标检测方法的流程图;
图2为本发明实施例1图像显著目标检测方法的算法流程图。
以下通过具体实施方式,并结合附图对本发明做进一步说明,但本发明的实施方式不限于此。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
一种RGB-D图像显著目标检测方法,该方法包括以下步骤:
S1、提取RGB图像特征,同时提取Depth图像特征,并将Depth图像特征与RGB图像特征进行融合,形成RGBD融合特征;
S2、调整所述RGBD融合特征的尺度,形成通道数和分辨率都相同的RGBD多层特征;
S3、双向门控解码所述RGBD多层特征,形成RGBD增强特征;
S4、所述RGBD增强特征逐步相加,形成显著图。
进一步地,在所述步骤S1中,提取RGB图像特征的方法是使用在ImageNet上预训练的ResNet50网络提取图像颜色特征,形成
Figure BDA0003086925790000051
类似地,提取Depth图像特征的方法是使用在ImageNet上预训练的ResNet50网络提取图像深度特征,形成
Figure BDA0003086925790000052
其中i表示层数,对应于ResNet50的每层输出,i取值为1至5的自然数。
所述将Depth图像特征与RGB图像特征进行融合的方法采用深度指导残差模块实现,所述深度指导残差模块,首先对Depth图像特征进行并行的通道注意力和空间注意力特征增强,然后通过与RGB图像特征逐元素相乘,得到深度图像特征指导下的两个优化后的RGB图像特征,最后将二者进行相加融合,从通道和空间两个角度增强RGB图像特征。
为了保留更多的原始RGB图像特征,在增强前后增加一个残差连接,最终形成RGBD融合特征
Figure BDA0003086925790000053
Figure BDA0003086925790000054
所述CA(·)操作是指论文《CBAM:Convolutional Block Attention Module》中所提出的通道注意力模块,SA(·)操作是指论文《CBAM:Convolutional Block AttentionModule》中所提出的空间注意力模块,“×”是指逐元素相乘操作,“+”是指逐元素相加操作。
进一步地,在步骤S2中,调整所述RGBD融合特征的尺度,分为两个阶段:第一阶段调整通道数,第二阶段调整分辨率,最终形成通道数和分辨率都相同的RGBD多层特征
Figure BDA0003086925790000055
S2.1:调整通道数
对于所述S1步骤得到的RGBD融合特征
Figure BDA0003086925790000056
实施一个T(·)操作,得到同通道数的多尺度特征
Figure BDA0003086925790000057
Figure BDA0003086925790000058
其中T(·)操作是指对特征X进行卷积核为3×3的卷积操作,并实施ReLU激活函数:
T(X)=ReLU(Conv(X))
其中Conv(·)表示卷积操作,ReLU(·)表示ReLU激活函数。
S2.2:调整分辨率
对于所述S2.1步骤得到的同通道数的多尺度特征
Figure BDA0003086925790000059
经过一个下三角形上采样操作LTUM(·),得到同通道数同分辨率的RGBD多层特征
Figure BDA00030869257900000510
Figure BDA00030869257900000511
所述LTUM(·)操作根据i的不同有所区别,具体定义如下:
Figure BDA0003086925790000061
Figure BDA0003086925790000062
Figure BDA0003086925790000063
Figure BDA0003086925790000064
Figure BDA0003086925790000065
其中AMA(·)操作为论文《Bidirectional pyramid networks for semanticsegmentation》中提出的add-multiply-add特征融合模块。
进一步地,在步骤S3中,双向门控循环解码所述RGBD多层特征,形成RGBD增强特征的具体方法如下:
以最高层的RGBD增强特征
Figure BDA0003086925790000066
为初始隐藏状态,实施一个由高到低流向的单向门控循环解码过程,同时以最低层的RGBD增强特征
Figure BDA0003086925790000067
为初始隐藏状态,实施一个由低到高流向的单向门控循环解码过程,双向门控循环解码过程中对应层产生的隐藏状态被融合,产生RGBD增强特征
Figure BDA0003086925790000068
更进一步地,所述由高到低流向的单向门控循环解码过程采用门控循环单元加以实现,输入序列为
Figure BDA0003086925790000069
初始隐藏状态为最高层的RGBD增强特征
Figure BDA00030869257900000610
在所述门控循环单元中,隐藏状态表示为Ht,重置门表示为rt,更新门表示为zt,记忆单位表示为
Figure BDA00030869257900000611
每一个时间步的输入为由高到低的每一层RGBD多层特征
Figure BDA00030869257900000612
Figure BDA00030869257900000613
Figure BDA00030869257900000614
Figure BDA00030869257900000615
Figure BDA00030869257900000616
Figure BDA00030869257900000617
其中tanh(·)表示tanh函数。
经过时间步为5的门控循环解码之后,将每一个时间步的输出表示为
Figure BDA00030869257900000618
同理,所述由低到高流向的单向门控循环解码过程采用门控循环单元加以实现,输入序列为
Figure BDA00030869257900000619
初始隐藏状态为最低层的RGBD增强特征
Figure BDA00030869257900000620
在所述门控循环单元中,隐藏状态表示为Ht,重置门表示为rt,更新门表示为zt,记忆单位表示为
Figure BDA00030869257900000621
每一个时间步的输入为由低到高的每一层RGBD多层特征
Figure BDA00030869257900000622
Figure BDA00030869257900000623
Figure BDA00030869257900000624
Figure BDA00030869257900000625
Figure BDA0003086925790000071
Figure BDA0003086925790000072
经过时间步为5的门控循环解码之后,将每一个时间步的输出表示为
Figure BDA0003086925790000073
由以上所述由高到低流向的单向门控循环解码过程及所述由低到高流向的单向门控循环解码过程所产生的输出,对应层经过TFM模块融合,产生RGBD增强特征
Figure BDA0003086925790000074
Figure BDA0003086925790000075
所述TFM模块具体定义如下:
Figure BDA0003086925790000076
其中Up(·)操作表示两倍上采样操作,Cat(·)表示级联操作。
进一步地,在步骤S4中,RGBD增强特征
Figure BDA0003086925790000077
逐步相加得到总特征
Figure BDA0003086925790000078
的具体公式如下:
Figure BDA0003086925790000079
总特征
Figure BDA00030869257900000710
通过Sigmoid激活函数产生显著图的具体公式如下:
Figure BDA00030869257900000711
其中Sig(·)表示Sigmoid激活函数。
本发明RGB-D图像显著目标检测方法,将编码器抽取的多层特征看作输入序列,通过双向门控循环单元解码多层特征,利用门控循环单元记忆共同信息,遗忘不一致信息,找出多层特征中的共有信息,提升特征的信息表示,实现最优的解码过程。
实施例1
本实施例所述RGB-D图像显著目标检测方法在NJU2K数据集上选取1485张图片、在NLPR数据集上选取700张图片组成训练集,对NJU2K数据集和NLPR数据集上的剩余图片及整个的STERE,DES和SIP数据集作为测试集,进行测试。另外,对DUT数据集,采用与论文《Depth-induced multiscale recurrent attention network for saliency detection》相同的设置,训练集增加DUT训练集的800张图片,在DUT测试集上进行测试。
在训练和测试阶段,输入的RGB-D图像被调整到352*352大小,训练集进行了随机翻转、旋转、边界裁剪等数据增强操作。模型训练选取Adam优化器,初始学习率为1e-4,批处理大小为5,采用ResNet50预训练参数及PyTorch默认设置,使用的显卡是NVIDIAGTX1080Ti GPU。模型训练200代后收敛,耗时约8小时。
所述方法与14种RGB-D显著物体检测方法CPFP[1],DMRA[2],cmSalGAN[3],D3Net[4],ICNet[5],DCMF[6],DRLF[7],SSF[8],SSMA[9],A2dele[10],UCNet[11],CoNet[12],PGAR[13]and DANet[14]进行对比,结果见表1。
表1实验结果
Figure BDA0003086925790000081
[1]J.-X.Zhao,Y.Cao,D.-P.Fan,M.-M.Cheng,X.-Y.Li,and L.Zhang,“Contrastprior and fluid pyramid integration for RGBD salient object detection,”inProceedings of the IEEE Conference on Computer Vision and PatternRecognition,2019,pp.3927–3936.
[2]Y.Piao,W.Ji,J.Li,M.Zhang,and H.Lu,“Depth-induced multiscalerecurrent attention network for saliency detection,”in Proceedings of theIEEE International Conference on Computer Vision,2019,pp.7254–7263.
[3]B.Jiang,Z.Zhou,X.Wang,J.Tang,and B.Luo,“cmSalGAN:RGBD SalientObject Detection with Cross-View Generative Adversarial Networks,”IEEETransactions on Multimedia,2020.
[4]D.-P.Fan,Z.Lin,Z.Zhang,M.Zhu,and M.-M.Cheng,“Rethinking RGB-DSalient Object Detection:Models,Data Sets,and Large-Scale Benchmarks,”IEEETransactions on Neural Networks and Learning Systems,2020.
[5]G.Li,Z.Liu,and H.Ling,“ICNet:Information Conversion Network forRGB-D Based Salient Object Detection,”IEEE Transactions on Image Processing,vol.29,pp.4873–4884,2020.
[6]H.Chen,Y.Deng,Y.Li,T.-Y.Hung,and G.Lin,“RGBD salient objectdetection via disentangled cross-modal fusion,”IEEE Transactions on ImageProcessing,vol.29,pp.8407–8416,2020.
[7]X.Wang,S.Li,C.Chen,Y.Fang,A.Hao,and H.Qin,“Data-levelrecombination and lightweight fusion scheme for RGB-D salient objectdetection,”IEEE Transactions on Image Processing,vol.30,pp.458–471,2020.
[8]M.Zhang,W.Ren,Y.Piao,Z.Rong,and H.Lu,“Select,Supplement and Focusfor RGB-D Saliency Detection,”in Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,2020,pp.3472–3481.
[9]N.Liu,N.Zhang,and J.Han,“Learning Selective Self-Mutual Attentionfor RGB-D Saliency Detection,”in Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,2020,pp.13756–13765.
如表1所示可知,本发明方法在自适应F-measure、自适应E-measure及MAE的评价指标上均取得最优的结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种RGB-D图像显著目标检测方法,其特征在于,该方法包括以下步骤:
S1、提取RGB图像特征,同时提取Depth图像特征,并将Depth图像特征与RGB图像特征进行融合,形成RGBD融合特征;
S2、调整所述RGBD融合特征的尺度,形成通道数和分辨率都相同的RGBD多层特征;
调整所述RGBD融合特征的尺度,分为两个阶段:第一阶段调整通道数,第二阶段调整分辨率,最终形成通道数和分辨率都相同的RGBD多层特征
Figure 335064DEST_PATH_IMAGE001
S2.1:调整通道数
对于所述S1步骤得到的RGBD融合特征
Figure DEST_PATH_IMAGE002
,实施一个
Figure 314521DEST_PATH_IMAGE003
操作,得到同通道数的多尺度特征
Figure DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
其中
Figure 438466DEST_PATH_IMAGE003
操作是指对特征
Figure DEST_PATH_IMAGE006
进行卷积核为3
Figure 161572DEST_PATH_IMAGE007
3的卷积操作,并实施ReLU激活函数:
Figure DEST_PATH_IMAGE008
其中
Figure DEST_PATH_IMAGE009
表示卷积操作,
Figure DEST_PATH_IMAGE010
表示ReLU激活函数;
S2.2:调整分辨率
对于所述S2.1步骤得到的同通道数的多尺度特征
Figure 818687DEST_PATH_IMAGE004
,经过一个下三角形上采样操作
Figure 172308DEST_PATH_IMAGE011
,得到同通道数同分辨率的RGBD多层特征
Figure 173762DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE012
所述
Figure 982449DEST_PATH_IMAGE011
操作根据
Figure 182486DEST_PATH_IMAGE013
的不同有所区别,具体定义如下:
Figure DEST_PATH_IMAGE014
Figure 690697DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE018
其中
Figure DEST_PATH_IMAGE019
操作为add-multiply-add特征融合模块;
S3、双向门控解码所述RGBD多层特征,形成RGBD增强特征;
S4、所述RGBD增强特征逐步相加,形成显著图。
2.根据权利要求1所述的一种RGB-D图像显著目标检测方法,其特征在于,在所述步骤S1中,提取RGB图像特征的方法是使用在ImageNet上预训练的ResNet50网络提取图像颜色特征,形成
Figure DEST_PATH_IMAGE020
,i=1,…5;
类似地,提取Depth图像特征的方法是使用在ImageNet上预训练的ResNet50网络提取图像深度特征,形成
Figure DEST_PATH_IMAGE021
,i=1,…5,其中
Figure 382709DEST_PATH_IMAGE013
表示层数,对应于ResNet50的每层输出,
Figure 650880DEST_PATH_IMAGE013
取值为1至5的自然数;
所述将Depth图像特征与RGB图像特征进行融合的方法采用深度指导残差模块实现,所述深度指导残差模块,首先对Depth图像特征进行并行的通道注意力和空间注意力特征增强,然后通过与RGB图像特征逐元素相乘,得到深度图像特征指导下的两个优化后的RGB图像特征,最后将二者进行相加融合,从通道和空间两个角度增强RGB图像特征;
为了保留更多的原始RGB图像特征,在增强前后增加一个残差连接,最终形成RGBD融合特征
Figure 220270DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE022
所述
Figure DEST_PATH_IMAGE023
操作是指通道注意力模块,
Figure DEST_PATH_IMAGE024
操作是指空间注意力模块,“
Figure 978011DEST_PATH_IMAGE007
”是指逐元素相乘操作,“+”是指逐元素相加操作。
3.根据权利要求1所述的一种RGB-D图像显著目标检测方法,其特征在于,在步骤S3中,双向门控循环解码所述RGBD多层特征,形成RGBD增强特征的具体方法如下:
以最高层的RGBD增强特征
Figure DEST_PATH_IMAGE025
为初始隐藏状态,实施一个由高到低流向的单向门控循环解码过程,同时以最低层的RGBD增强特征
Figure DEST_PATH_IMAGE026
为初始隐藏状态,实施一个由低到高流向的单向门控循环解码过程,双向门控循环解码过程中对应层产生的隐藏状态被融合,产生RGBD增强特征
Figure 32685DEST_PATH_IMAGE027
4.根据权利要求3所述的一种RGB-D图像显著目标检测方法,其特征在于,所述由高到低流向的单向门控循环解码过程采用门控循环单元加以实现,输入序列为
Figure DEST_PATH_IMAGE028
,初始隐藏状态为最高层的RGBD增强特征
Figure 370126DEST_PATH_IMAGE025
;在所述门控循环单元中,隐藏状态表示为
Figure 794023DEST_PATH_IMAGE029
,重置门表示为
Figure DEST_PATH_IMAGE030
,更新门表示为
Figure 457085DEST_PATH_IMAGE031
,记忆单位表示为
Figure DEST_PATH_IMAGE032
,每一个时间步的输入为由高到低的每一层RGBD多层特征
Figure 451586DEST_PATH_IMAGE033
Figure 812291DEST_PATH_IMAGE035
Figure DEST_PATH_IMAGE036
i=
Figure 372586DEST_PATH_IMAGE037
Figure DEST_PATH_IMAGE038
Figure 721396DEST_PATH_IMAGE039
Figure DEST_PATH_IMAGE040
Figure 937614DEST_PATH_IMAGE041
其中
Figure DEST_PATH_IMAGE042
表示tanh函数;
经过时间步为5的门控循环解码之后,将每一个时间步的输出表示为
Figure 429906DEST_PATH_IMAGE043
同理,所述由低到高流向的单向门控循环解码过程采用门控循环单元加以实现,输入序列为
Figure DEST_PATH_IMAGE044
,初始隐藏状态为最低层的RGBD增强特征
Figure 47970DEST_PATH_IMAGE026
;在所述门控循环单元中,隐藏状态表示为
Figure 521676DEST_PATH_IMAGE029
,重置门表示为
Figure 490769DEST_PATH_IMAGE030
,更新门表示为
Figure 957392DEST_PATH_IMAGE031
,记忆单位表示为
Figure 961120DEST_PATH_IMAGE032
,每一个时间步的输入为由低到高的每一层RGBD多层特征
Figure 605728DEST_PATH_IMAGE045
Figure DEST_PATH_IMAGE046
Figure 796537DEST_PATH_IMAGE047
=1,2,3,4,5
Figure DEST_PATH_IMAGE048
Figure 833895DEST_PATH_IMAGE049
Figure DEST_PATH_IMAGE050
Figure 223288DEST_PATH_IMAGE051
经过时间步为5的门控循环解码之后,将每一个时间步的输出表示为
Figure DEST_PATH_IMAGE052
由以上所述由高到低流向的单向门控循环解码过程及所述由低到高流向的单向门控循环解码过程所产生的输出,对应层经过
Figure 819223DEST_PATH_IMAGE053
模块融合,产生RGBD增强特征
Figure 762908DEST_PATH_IMAGE027
Figure DEST_PATH_IMAGE054
所述
Figure 603956DEST_PATH_IMAGE053
模块具体定义如下:
Figure 519960DEST_PATH_IMAGE055
其中
Figure DEST_PATH_IMAGE056
操作表示两倍上采样操作,
Figure 37529DEST_PATH_IMAGE057
表示级联操作。
5.根据权利要求1所述的一种RGB-D图像显著目标检测方法,其特征在于,在步骤S4中,RGBD增强特征
Figure DEST_PATH_IMAGE058
逐步相加得到总特征
Figure 983357DEST_PATH_IMAGE059
的具体公式如下:
Figure DEST_PATH_IMAGE060
总特征
Figure 80626DEST_PATH_IMAGE059
通过Sigmoid激活函数产生显著图的具体公式如下:
Figure 913453DEST_PATH_IMAGE061
其中
Figure DEST_PATH_IMAGE062
表示Sigmoid激活函数。
CN202110585098.1A 2021-05-27 2021-05-27 一种rgb-d图像显著目标检测方法 Active CN113298154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110585098.1A CN113298154B (zh) 2021-05-27 2021-05-27 一种rgb-d图像显著目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110585098.1A CN113298154B (zh) 2021-05-27 2021-05-27 一种rgb-d图像显著目标检测方法

Publications (2)

Publication Number Publication Date
CN113298154A CN113298154A (zh) 2021-08-24
CN113298154B true CN113298154B (zh) 2022-11-11

Family

ID=77325619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110585098.1A Active CN113298154B (zh) 2021-05-27 2021-05-27 一种rgb-d图像显著目标检测方法

Country Status (1)

Country Link
CN (1) CN113298154B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117237343B (zh) * 2023-11-13 2024-01-30 安徽大学 半监督rgb-d图像镜面检测方法、存储介质及计算机设备

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997478A (zh) * 2017-04-13 2017-08-01 安徽大学 基于显著中心先验的rgb‑d图像显著目标检测方法
CN108171141A (zh) * 2017-12-25 2018-06-15 淮阴工学院 基于注意力模型的级联多模式融合的视频目标跟踪方法
CN109409435A (zh) * 2018-11-01 2019-03-01 上海大学 一种基于卷积神经网络的深度感知显著性检测方法
CN109598268A (zh) * 2018-11-23 2019-04-09 安徽大学 一种基于单流深度网络的rgb-d显著目标检测方法
CN109816100A (zh) * 2019-01-30 2019-05-28 中科人工智能创新技术研究院(青岛)有限公司 一种基于双向融合网络的显著性物体检测方法及装置
CN109902750A (zh) * 2019-03-04 2019-06-18 山西大学 基于双向单注意力机制图像描述方法
CN110298361A (zh) * 2019-05-22 2019-10-01 浙江省北大信息技术高等研究院 一种rgb-d图像的语义分割方法和系统
CN110334718A (zh) * 2019-07-09 2019-10-15 方玉明 一种基于长短期记忆的二维视频显著性检测方法
CN110675406A (zh) * 2019-09-16 2020-01-10 南京信息工程大学 基于残差双注意力深度网络的ct图像肾脏分割算法
CN110825968A (zh) * 2019-11-04 2020-02-21 腾讯科技(深圳)有限公司 信息推送方法、装置、存储介质和计算机设备
CN111242138A (zh) * 2020-01-11 2020-06-05 杭州电子科技大学 一种基于多尺度特征融合的rgbd显著性检测方法
CN111563513A (zh) * 2020-05-15 2020-08-21 电子科技大学 基于注意力机制的散焦模糊检测方法
CN111680695A (zh) * 2020-06-08 2020-09-18 河南工业大学 一种基于反向注意力模型的语义分割方法
CN111967477A (zh) * 2020-07-02 2020-11-20 北京大学深圳研究生院 Rgb-d图像显著性目标检测方法、装置、设备及存储介质
CN111985370A (zh) * 2020-08-10 2020-11-24 华南农业大学 一种基于改进混合注意力模块的农作物病虫害的细粒度识别方法
CN112348870A (zh) * 2020-11-06 2021-02-09 大连理工大学 一种基于残差融合的显著性目标检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11361470B2 (en) * 2019-05-09 2022-06-14 Sri International Semantically-aware image-based visual localization

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997478A (zh) * 2017-04-13 2017-08-01 安徽大学 基于显著中心先验的rgb‑d图像显著目标检测方法
CN108171141A (zh) * 2017-12-25 2018-06-15 淮阴工学院 基于注意力模型的级联多模式融合的视频目标跟踪方法
CN109409435A (zh) * 2018-11-01 2019-03-01 上海大学 一种基于卷积神经网络的深度感知显著性检测方法
CN109598268A (zh) * 2018-11-23 2019-04-09 安徽大学 一种基于单流深度网络的rgb-d显著目标检测方法
CN109816100A (zh) * 2019-01-30 2019-05-28 中科人工智能创新技术研究院(青岛)有限公司 一种基于双向融合网络的显著性物体检测方法及装置
CN109902750A (zh) * 2019-03-04 2019-06-18 山西大学 基于双向单注意力机制图像描述方法
CN110298361A (zh) * 2019-05-22 2019-10-01 浙江省北大信息技术高等研究院 一种rgb-d图像的语义分割方法和系统
CN110334718A (zh) * 2019-07-09 2019-10-15 方玉明 一种基于长短期记忆的二维视频显著性检测方法
CN110675406A (zh) * 2019-09-16 2020-01-10 南京信息工程大学 基于残差双注意力深度网络的ct图像肾脏分割算法
CN110825968A (zh) * 2019-11-04 2020-02-21 腾讯科技(深圳)有限公司 信息推送方法、装置、存储介质和计算机设备
CN111242138A (zh) * 2020-01-11 2020-06-05 杭州电子科技大学 一种基于多尺度特征融合的rgbd显著性检测方法
CN111563513A (zh) * 2020-05-15 2020-08-21 电子科技大学 基于注意力机制的散焦模糊检测方法
CN111680695A (zh) * 2020-06-08 2020-09-18 河南工业大学 一种基于反向注意力模型的语义分割方法
CN111967477A (zh) * 2020-07-02 2020-11-20 北京大学深圳研究生院 Rgb-d图像显著性目标检测方法、装置、设备及存储介质
CN111985370A (zh) * 2020-08-10 2020-11-24 华南农业大学 一种基于改进混合注意力模块的农作物病虫害的细粒度识别方法
CN112348870A (zh) * 2020-11-06 2021-02-09 大连理工大学 一种基于残差融合的显著性目标检测方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
BBS-Net: RGB-D Salient Object Detection with a Bifurcated Backbone Strategy Network;Deng-Ping Fan et al;《Computer Vision-ECCV 2020》;20201231;第275-292页 *
Bidirectional Pyramid Networks for Semantic Segmentation;Dong Nie et al;《Computer Vision–ACCV2020》;20201231;第654-671页 *
Circular Complement Network for RGB-D Salient Object Detection;Zhen Bai et al;《Neurocomputing》;20210501;第95-106页 *
Contrast prior and fluid pyramid integration for RGBD salient object detection;J.-X.Zhao et al;《CVPR》;20200109;第3927–3936页 *
DPANet: Depth Potentiality-Aware Gated Attention Network for RGB-D Salient Object Detection;Z. Chen, R et al;《IEEE Transactions on Image Processing》;20201103;第7012-7024页 *
Global and Local-Contrast Guides Content-Aware Fusion for RGB-D Saliency Prediction;W. Zhou et al;《IEEE Transactions on Systems, Man, and Cybernetics: Systems》;20191224;第3641-3649页 *
ICNet: Information Conversion Network for RGB-D Based Salient Object Detection;Gongyang Li et al;《IEEE TRANSACTIONS ON IMAGE PROCESSING》;20201231;第4873–4884页 *
基于多模态特征融合的轻量级人脸活体检测方法;皮家甜等;《计算机应用》;20201210;第40卷(第12期);第3658-3665页 *
非机制和多监督的特征聚合关注块融合网络的显著目标;周礼德;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210215;第2021年卷(第2期);I138-1685 *

Also Published As

Publication number Publication date
CN113298154A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN111582316B (zh) 一种rgb-d显著性目标检测方法
Guo et al. Dense scene information estimation network for dehazing
CN110929735B (zh) 一种基于多尺度特征注意机制的快速显著性检测方法
Gao et al. DE-CycleGAN: An object enhancement network for weak vehicle detection in satellite images
CN113076947B (zh) 一种交叉引导融合的rgb-t图像显著性检测系统
Han et al. Sign language recognition based on R (2+ 1) D with spatial–temporal–channel attention
CN113076957A (zh) 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN112364838B (zh) 一种利用合成的联机文本图像改进手写ocr性能的方法
Jang et al. Lip reading using committee networks with two different types of concatenated frame images
CN114693929A (zh) 一种rgb-d双模态特征融合的语义分割方法
CN113298154B (zh) 一种rgb-d图像显著目标检测方法
CN109766918A (zh) 基于多层次上下文信息融合的显著性物体检测方法
Tu et al. DTCM: Joint optimization of dark enhancement and action recognition in videos
CN113379606B (zh) 一种基于预训练生成模型的人脸超分辨方法
Fan et al. Multi-task and multi-modal learning for rgb dynamic gesture recognition
CN114359626A (zh) 基于条件生成对抗网络的可见光-热红外显著目标检测方法
Cong et al. Multi-Projection Fusion and Refinement Network for Salient Object Detection in 360$^{\circ} $ Omnidirectional Image
CN111489405A (zh) 基于条件增强生成对抗网络的人脸草图合成系统
Kim et al. Pseudo-supervised learning for semantic multi-style transfer
CN115546512A (zh) 基于可学习的权重描述子的光场图像显著目标检测方法
CN112927250B (zh) 一种基于多粒度注意力分层网络的边缘检测系统和方法
CN111047571B (zh) 一种具有自适应选择训练过程的图像显著目标检测方法
Ezekiel et al. Investigating GAN and VAE to train DCNN
CN111524090A (zh) 一种基于深度预测图的rgb-d显著性检测方法
Wang et al. Bimodal information fusion network for salient object detection based on transformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant