CN113393434A - 一种基于非对称双流网络架构的rgb-d显著性检测方法 - Google Patents

一种基于非对称双流网络架构的rgb-d显著性检测方法 Download PDF

Info

Publication number
CN113393434A
CN113393434A CN202110652710.2A CN202110652710A CN113393434A CN 113393434 A CN113393434 A CN 113393434A CN 202110652710 A CN202110652710 A CN 202110652710A CN 113393434 A CN113393434 A CN 113393434A
Authority
CN
China
Prior art keywords
rgb
depth
stream
features
network architecture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110652710.2A
Other languages
English (en)
Inventor
张淼
朴永日
孙小飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202110652710.2A priority Critical patent/CN113393434A/zh
Publication of CN113393434A publication Critical patent/CN113393434A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于非对称双流网络架构的RGB‑D显著性检测方法,包括:基于RGB‑D数据集中RGB图像和对应的Depth深度图分别得到输入张量IRGB和ID;将输入张量IRGB和ID输入非对称双流网络架构,得到基于RGB和Depth的多尺度编码特征;非对称双流网络架构中,RGB流网络在VGG的基础上还包括流阶梯模块,采用四个细节信息传递分支;Depth流网络采用一个细节信息传递分支;通过深度注意力模块将提取到的深度特征融合进RGB流中,得到具有丰富位置信息的互补特征;通过解码器对得到的互补特征进行特征解码,得到最终显著性预测结果。本发明构建了基于非对称的双流网络架构的RGB‑D显著性检测模型,充分考虑了RGB和Depth数据之间的固有差异,对于很多有挑战性的场景都能取得准确的预测结果。

Description

一种基于非对称双流网络架构的RGB-D显著性检测方法
技术领域
本发明涉及到计算机视觉领域,尤其是涉及一种基于非对称的双流网络架构的RGB-D显著性检测实现方法。
背景技术
显著性检测是指在一幅图像里,旨在识别最能吸引用户的视觉注意力和最引人注目的区域和物体,由于在场景中选择最具视觉特征的信息,在计算机视觉中的广泛应用引起了人们的广泛关注。伴随着显著性目标检测算法的日渐成熟,在越来越多的工业界或学术界领域都涉及到了对其的应用。在工业界,比如在生活场景中通过手机或其他照相设备对商品场景进行拍摄,再对其进行处理得到所关注的商品的详细信息等。在学术界,例如在物体的跟踪识别中进行显著性检测,剔除掉其余场景信息从而直接获得运动物体的运行轨迹;还有图像检索,主要是利用显著性目标区域的信息以及其所位于的空间分布情况,来进行多个图片之间的匹配和搜索,因此显著性算法在图像检索中,具有非常重要的作用和意义。此外还有场景分类,姿势估计等领域,显著性检测都占据着十分重要的地位。
根据输入形式的不同,显著性检测可以分为两大种类:静态图像显著性检测和视频显著性检测。其中静态图像显著性检测包括2D显著性检测、3D显著性检测和光场(4D)显著性检测。2D显著性检测的输入是RGB彩色图像;3D显著性检测(也即RGB-D显著性检测)的输入包括RGB彩色图像和与其相对应的深度图像;4D光场显著性检测的输入是光场图像,包括全聚焦RGB图像、焦点堆栈图像(一系列聚焦在不同深度层面物体上的聚焦切片图像)和深度图。而视频显著性检测则是以连续的视频帧作为输入,相较于2D显著性检测多了时间维度的信息需要考虑。
2D显著性检测方法是最为常见的基于静态图像的显著性检测方法,它采用图像对比度,颜色,纹理等信息来进行检测,虽然在现有的2D显著性检测数据库上取得了很好的检测结果,但RGB数据中的外观特征对于某些具有挑战性的场景(如多个或透明的物体,相似的前景和背景,复杂的背景,低强度的环境等)的预测效果较低。与单一RGB图像相比,深度信息在位置和空间结构上具有更好的判别力,这已被证明有利于精确的显着性预测。此外,随着深度传感器(例如Kinect)的出现,用于RGB自然图像的配对Depth深度数据可较易获得。近年来许多关于RGB-D的显著性目标检测的工作证明通过Depth信息对RGB特征的指导,显著性的检测效果得到了有效提升。大多数基于RGB-D的方法利用对称的双流体系结构来提取RGB和深度特征。
但是,虽然RGB数据包含更多信息,例如颜色,纹理,轮廓以及有限的位置信息,但是灰度深度数据提供了更多信息,例如空间结构和3D布局信息。因此,对称的RGB-D双流网络可能会忽略RGB和深度数据的固有差异,从而造成误检或错检等情况。此外,现有的RGB-D方法在采用RGB和深度流网络中的采用的跨步和合并操作时不可避免地会造成细节信息的丢失。
发明内容
有鉴于此,本发明提供了一种基于非对称的双流网络架构的RGB-D显著性检测方法,利用RGB信息和Depth深度信息进行显著性检测,并通过非对称的双流网络优化更新,实现了复杂场景下高质量的RGB-D显著性检测结果。
为此,本发明提供的技术方案如下:
本发明提供了一种基于非对称双流网络架构的RGB-D显著性检测方法,包括如下步骤:
步骤1、基于RGB-D数据集中对应的RGB图片和Depth深度图分别得到输入张量IRGB和ID
步骤2、将输入张量IRGB和ID输入非对称双流网络架构,得到基于RGB和Depth的多尺度编码特征
Figure BDA0003112324270000031
Figure BDA0003112324270000032
以及BiLj,i=1,2,3,4,j=1,2,3;
所述非对称双流网络架构包括:RGB流网络和Depth流网络;所述RGB流网络采用的特征编码器为VGG架构,并丢弃最后三层全连接层,以保留空间结构,提取多尺度上下文信息;所述RGB流网络中还包括流阶梯模块,所述流阶梯模块构造了四个细节信息传递分支来保留局部细节信息并且进化式地融合了全局位置信息,最终得到基于RGB的多尺度编码特征;所述Depth流网络所采用的特征编码器为一个细节信息传递分支,能够在提取Depth特征时保留其空间分辨率;所述特征编码器针对每一帧Depth深度图像生成对应于RGB流的T个阶段的特征图;
步骤3、将提取出的基于Depth的多尺度编码特征
Figure BDA00031123242700000310
融合进RGB流中,得到具有丰富位置信息的互补特征;
步骤4、通过解码器对得到的互补特征进行特征解码,得到最终显著性预测结果;表示如下:
Figure BDA0003112324270000033
其中
Figure BDA0003112324270000034
表示m个卷积和长宽为w和h,步长为d的卷积操作;其中,w=h=d=1;m=3;δ表示Sigmoid操作;Ups表示scale factor为s的双线性插值上采样操作;Ffinal表示最终的显著性预测输出。
进一步地,步骤3包括:
通过深度注意力模块将提取到的深度特征
Figure BDA0003112324270000035
融合进
Figure BDA0003112324270000036
特征中,得到具有丰富位置信息的互补特征
Figure BDA0003112324270000037
所述深度注意力模块包括上下文注意力模块和通道注意力模块;所述上下文注意模块以深度特征
Figure BDA0003112324270000038
为输入,通过Softmax操作输出
Figure BDA0003112324270000039
各个通道的权重αi,i=1,2,...,C;表示如下:
Figure BDA0003112324270000041
其中αi表示第i个通道的权重,
Figure BDA0003112324270000042
分别表示特征
Figure BDA0003112324270000043
中的第j个和第m个像素位置,Np是特征图
Figure BDA0003112324270000044
中某一通道的像素数量,也即H×W;Cw×h,d表示卷积和长宽为w和h,步长为d的卷积操作,其中w=h=d=1;
Figure BDA0003112324270000045
表示矩阵乘操作;
所述通道注意力模块将所述上下文注意模块得到的各个通道的权重αi,i=1,2,...,C融入于深度特征
Figure BDA0003112324270000046
中,得到关注于全局上下文的增强的深度特征;
将增强的深度特征融入对应的RGB特征
Figure BDA0003112324270000047
中,得到融合后的互补特征
Figure BDA0003112324270000048
表示如下:
Figure BDA0003112324270000049
Figure BDA00031123242700000410
其中Cw×h,d表示卷积和长宽为w和h,步长为d的卷积操作,其中,w=h=d=1;δ表示Sigmoid操作;
Figure BDA00031123242700000411
表示DepthNet中第t层提取的深度特征
Figure BDA00031123242700000412
表示由FLM模块得到的不同阶段的特征,其中t=3,4,5;
Figure BDA00031123242700000413
表示像素乘操作;αi表示第i个通道特征的权重值;βi表示
Figure BDA00031123242700000414
的第i个通道的注意力权重图;
Figure BDA00031123242700000415
代表第s个阶段融合后的互补特征,其中s=3,4,5。
进一步地,所述VGG架构为VGG-19骨干网络;
所述流阶梯模块采用VGG-19输出的基于RGB的多尺度编码特征作为输入,并以局部-全局进化融合的方式集成四个细节信息传递分支中提取的多尺度局部和全局特征;
所述局部-全局进化融合包括:每个分支都通过局部-全局进化融合流从其他垂直并行特征中获取丰富的信息;较深的分支的表示通过上采样和像素级加和操作融合到较浅的分支中,而较浅的分支的表示通过下采样和像素级加和操作融合到较深的分支中。
进一步地,步骤1包括:
根据RGB-D数据集的训练集和测试集,获取RGB图片,对应的Depth深度图以及对应的显著性真值GT;
对所述RGB图片和对应的Depth深度图进行数据增强,包括:
对RGB-D数据集的训练集中的RGB图片、Depth深度图以及真值GT进行上下左右边界的裁剪;使用水平和垂直的翻转并调整大小到H×W;将增强后的RGB原图和Depth深度图转变为网络可处理的张量;再进行均值为mean,方差为std的归一化操作,得到张量IRGB和ID
对RGB-D数据集的测试集中的RGB图片和对应的Depth深度图调整大小到H×W;对调整后的RGB原图和对应的Depth深度图转变为网络可处理的张量;再进行均值为mean,方差为std的归一化操作,得到张量IRGB和ID
其中所述归一化操作定义如下:
Figure BDA0003112324270000051
其中,Iinput为归一化前的RGB图像和Depth深度图,Iout为归一化后的张量IRGB和ID;mean和std为超参数,表示进行归一化操作的均值和方差。
进一步地,所述H×W为256×256。
进一步地,所述mean取[0.447,0.407,0.386],所述std取[0.244,0.250,0.253]。
进一步地,所述T取5。
进一步地,通道C在第3阶段取32,在第4阶段取32,在第5阶段取128。
本发明上述技术方案具有以下有益效果:
考虑到大多数利用对称双流体系结构的基于RGB-D的方法都忽略了RGB和深度数据之间的固有差异,本发明提出了一种非对称双流体系结构,此双流体系结构包括轻量级的Depth深度流和带有流阶梯模块(FLM)的RGB流,分别是DepthNet和RGBNet。对于深度流,本发明设计了一种轻量级的体系结构;然后,通过深度注意机制(DAM)将提取的深度特征馈入RGB流中,以生成具有丰富位置信息和空间信息的互补特征。对于RGB流,本发明采用体系结构VGG-19作为基准,基于此基准,本发明提出了一种新颖的流阶梯模块(FLM),以保留显著性细节信息并以进化的方式从其他并行分支的特征表示中接收全局位置信息,这有助于定位显著区域并获得可观的性能提升。实验结果表明,本发明提出的基于非对称的双流网络架构的RGB-D显著性检测方法对于很多复杂场景和挑战性场景都能取得准确的预测结果。
基于上述理由本发明可在计算机视觉领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是RGB图像、Depth深度图像以及真值示意图;
图2是本发明实施例中一种基于非对称双流网络架构的RGB-D显著性检测方法的流程图;
图3是本发明实施例中一种基于非对称双流网络架构的RGB-D显著性检测方法的又一流程图;
图4是本发明实施例中非对称双流网络架构的总体架构以及流阶梯模块(FLM)的结构示意图;
图5是本发明实施例中深度注意力模块(DAM)的结构示意图。
具体实施方式
本发明使用非对称双流网络来达成精确显着性检测的目标。实现此目标的主要挑战是如何在保留本地显著性细节信息的同时有效地提取丰富的全局上下文信息。第二个挑战是如何有效利用深度特征的判别力来引导RGB特征以准确定位突出的对象。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图2和图3,其示出了本发明实施例中一种基于非对称双流网络架构的RGB-D显著性检测方法的流程示意图,该方法包括如下步骤:
A、基于RGB-D数据集中的RGB图片和对应的Depth深度图分别得到输入张量IRGB和ID,其步骤如下:
A1、获取对应的RGB图片和Depth深度图:
根据RGB-D数据集的训练集和测试集,获取如图1所示的RGB图片、对应的Depth深度图以及对应的显著性真值GT;
A2、分别得到输入张量IRGB和ID
对RGB-D训练集中的RGB图片和对应的Depth深度图进行数据增强,首先对此RGB图,Depth深度图以及真值GT进行上下左右边界的裁剪,接着使用水平和垂直的翻转并调整大小到H×W(本发明实施例中取256×256);将增强后的RGB图像和Depth深度图首先转变为网络可处理的张量,再进行均值为mean,方差为std的归一化操作,得到张量IRGB和ID
对RGB-D测试集中的RGB图片和对应的Depth深度图调整大小到256×256,接着将调整后的RGB图片和对应的Depth深度图首先转变为网络可处理的张量,再进行均值为mean,方差为std的归一化操作,得到张量IRGB和ID
其中归一化操作定义如下:
Figure BDA0003112324270000071
其中,Iinput为归一化前的RGB图片和Depth深度图,Iout为归一化后的张量IRGB和ID;mean和std为超参数,mean和std均为1*3的数组;表示进行归一化操作的均值和方差,此处取mean=[0.447,0.407,0.386],std=[0.244,0.250,0.253]。
B、将输入张量IRGB和ID输入非对称双流网络架构,得到基于RGB和Depth的多尺度编码特征
Figure BDA0003112324270000081
Figure BDA0003112324270000082
以及BiLj,i=1,2,3,4,j=1,2,3。
参见图4,其示出了本发明实施例中非对称双流网络的总体架构;非对称双流网络架构包括:RGB流网络和Depth流网络;其中,RGB流网络采用的特征编码器为VGG架构,并丢弃最后三层全连接层,以保留空间结构,提取多尺度上下文信息;RGB流网络中还包括流阶梯模块(FLM模块),所述流阶梯模块构造了四个细节信息传递分支来保留局部细节信息并且进化式地融合了全局位置信息,最终得到基于RGB的多尺度编码特征。FLM模块可以保留多个尺度和级别的表示分辨率,从而确保局部细节信息和全局位置信息有助于显着性检测的精度,FLM模块应用于VGG-19骨干网络中,其采用VGG-19的每个阶段的输出特征也即多尺度特征作为输入,并以局部-全局进化融合流程的方式集成了四个细节信息传递分支。此外本发明提出了一种新颖的局部-全局进化融合策略,用于集成从细节信息传递分支中提取的多尺度局部和全局特征。每个分支都通过局部-全局进化融合流从其他垂直并行特征中获取丰富的信息。这样,在保留更多本地显著性细节信息的同时,生成了丰富的全局上下文信息。具体来说,较深的分支的表示通过上采样和像素级加和操作融合到较浅的分支中,而较浅的分支的表示通过下采样和像素级加和操作融合到较深的分支中。通过不同分支之间的演进,可以将局部细节信息和全局上下文信息有效地结合在一起,从而提高显著性检测的准确性。
Depth流网络所采用的特征编码器为一个细节信息传递分支,能够在提取Depth特征时保留其空间分辨率;特征编码器针对每一帧Depth深度图像生成对应于RGB流的T个阶段的特征图;
由于相较于RGB流网络,Depth流网络只采用了一个细节信息传递分支,因此体量远小于RGB流网络,形成一个非对称双流架构。
在该非对称双流网络架构下,步骤B具体包括如下步骤:
B1、将所得输入张量IRGB输入RGB流网络,得到基于RGB的多尺度编码特征
Figure BDA0003112324270000091
以及BiLj,i=1,2,3,4,j=1,2,3:
具体表示如下:
Figure BDA0003112324270000092
Figure BDA0003112324270000093
Figure BDA0003112324270000094
其中Bi和Lj分别代表第i个分支和第j层;
Figure BDA0003112324270000095
表示基于VGG-19编码的多尺度特征;f(·)表示当n>i时,进行n-i倍双线性上采样插值操作;当n<i时,进行i-n倍下采样操作;当n=i时,表示无操作;trans表示卷积核为1×1,步长为1的卷积,以实现通道变换;cat表示级联操作;
Figure BDA0003112324270000096
表示由FLM模块得到的不同阶段的特征,用于输入后续DAM模块,其中t=3,4,5;并且在加入深度注意力模块DAM之后,
Figure BDA0003112324270000097
B2、将所得输入张量ID输入Depth流网络,得到基于Depth的多尺度编码特征
Figure BDA0003112324270000098
具体细节如表1所示,其中k表示卷积核大小,s代表步长,chn代表每一层的输入/输处通道数,p表示padding,in和out表示输入和输出特征的大小。
表1
Figure BDA0003112324270000099
Figure BDA0003112324270000101
C、通过深度注意力模块(DAM)将提取到的深度特征
Figure BDA0003112324270000102
融合进FLM模块的输出特征中,得到具有丰富位置信息的互补特征
Figure BDA0003112324270000103
参见图5,其示出了本发明提出的深度注意力模块(DAM模块)的结构示意图。考虑到深度线索对于显著性预测的贡献程度不同,为了充分利用具有位置和空间结构判别力的深度线索,本发明设计了深度注意力模块,以自适应地融合RGB和Depth深度特征。首先,利用一个上下文注意力模块来更精确地提取显著位置信息,而不是使用简单的融合(例如像素级加和或串联)。然后,采用矩阵乘法运算将所有位置的特征聚合在一起,以生成关注于每个通道的注意力权重,以捕获像素级空间相关性。而且,不同通道的特征对显著区域的响应程度不同。因此,采用了一个通道注意力模块,以捕获通道之间的相互依赖性,并进一步得到了加权的深度特征。然后,采用像素级乘运算将其融合到RGB流中,这有助于在像素级别上引导RGB信息以彻底区分显著与非显著区域。
基于上述深度注意力模块,步骤C包括如下步骤:
C1、将深度特征
Figure BDA0003112324270000104
送入上下文注意力模块:
所提出的上下文注意力模块以深度特征
Figure BDA0003112324270000105
为输入,并通过Softmax操作输出关于
Figure BDA0003112324270000106
各个通道的权重αi,i=1,2,…,C,用于后续获得关注于全局上下文的特征;具体可表示为:
Figure BDA0003112324270000111
其中αi表示第i个通道的权重,
Figure BDA0003112324270000112
分别表示特征
Figure BDA0003112324270000113
中的第j个和第m个像素位置,Np是特征图
Figure BDA0003112324270000114
中某一通道的像素数量,也即H×W;Cw×h,d表示卷积和长宽为w和h,步长为d的卷积操作,其中w=h=d=1;
Figure BDA0003112324270000115
表示矩阵乘操作;
C2、利用通道注意力模块,对得到的通道权重αi,i=1,2,...,C,将其编码进深度特征与FLM模块的输出特征,得到DAM输出的互补特征;
得到代表不同通道响应程度的通道权重αi,i=1,2,...,C后,利用另一个通道注意力模块,将其融入于深度特征
Figure BDA0003112324270000116
中,得到关注于全局上下文的增强的深度特征;其次,将增强的深度特征融入对应的FLM特征
Figure BDA0003112324270000117
中,得到融合后的互补特征
Figure BDA0003112324270000118
具体可表示如下:
Figure BDA0003112324270000119
Figure BDA00031123242700001110
其中Cw×h,d表示卷积和长宽为w和h,步长为d的卷积操作,其中w=h=d=1;δ表示Sigmoid操作;
Figure BDA00031123242700001111
表示DepthNet中第t层提取的深度特征t=3,4,5;
Figure BDA00031123242700001112
表示由FLM模块得到的不同阶段的特征,其中t=3,4,5;
Figure BDA00031123242700001116
表示像素乘操作;αi表示第i个通道特征的权重值;βi表示
Figure BDA00031123242700001113
的第i个通道的注意力权重图;
Figure BDA00031123242700001114
代表第s个阶段融合后的互补特征,其中s=3,4,5。
D、通过解码器对得到的互补特征进行特征解码,得到最终显著性预测结果;
从第5个阶段的DAM输出的特征包含了不同尺度的高级和低级信息,并且整合了Depth特征的指导信息,对此采用一个简易的解码器进行特征解码,得到最终的显著性预测输出;其可具体表示为:
Figure BDA00031123242700001115
其中
Figure BDA0003112324270000121
表示m个卷积和长宽为w和h,步长为d的卷积操作;δ表示Sigmoid操作;Ups表示scale factor为s的双线性插值上采样操作;Ffinal表示最终的显著性预测输出;
E、非对称双流网络的训练及优化:
本发明整体可分为训练和推理两个阶段,在训练时以训练集的张量作为输入,得到训练好的网络参数;在推理阶段使用训练阶段保存的参数进行测试,得到最终的显著性预测结果。
本发明实施例在Pytorch框架下实现,其中训练阶段时使用SGD优化器,learningrate=1e-10,momentum=0.9,weight decay=0.0005,并且批处理大小2。在训练期间,图像的空间分辨率为256×256,但是模型可以是在测试时以全卷积方式应用于任意分辨率。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种基于非对称双流网络架构的RGB-D显著性检测方法,其特征在于,包括如下步骤:
步骤1、基于RGB-D数据集中对应的RGB图片和Depth深度图分别得到输入张量IRGB和ID
步骤2、将输入张量IRGB和ID输入非对称双流网络架构,得到基于RGB和Depth的多尺度编码特征
Figure FDA0003112324260000011
Figure FDA0003112324260000012
以及BiLj,i=1,2,3,4,j=1,2,3;
所述非对称双流网络架构包括:RGB流网络和Depth流网络;所述RGB流网络采用的特征编码器为VGG架构,并丢弃最后三层全连接层,以保留空间结构,提取多尺度上下文信息;所述RGB流网络中还包括流阶梯模块,所述流阶梯模块构造了四个细节信息传递分支来保留局部细节信息并且进化式地融合了全局位置信息,最终得到基于RGB的多尺度编码特征;所述Depth流网络所采用的特征编码器为一个细节信息传递分支,能够在提取Depth特征时保留其空间分辨率;所述特征编码器针对每一帧Depth深度图像生成对应于RGB流的T个阶段的特征图;
步骤3、将提取出的基于Depth的多尺度编码特征
Figure FDA0003112324260000013
融合进RGB流中,得到具有丰富位置信息的互补特征;
步骤4、通过解码器对得到的互补特征进行特征解码,得到最终显著性预测结果;表示如下:
Figure FDA0003112324260000014
其中
Figure FDA0003112324260000015
表示m个卷积和长宽为w和h,步长为d的卷积操作;其中,w=h=d=1;m=3;δ表示Sigmoid操作;Ups表示scale factor为s的双线性插值上采样操作;Ffinal表示最终的显著性预测输出。
2.根据权利要求1所述的一种基于非对称双流网络架构的RGB-D显著性检测方法,其特征在于,步骤3包括:
通过深度注意力模块将提取到的深度特征
Figure FDA0003112324260000021
融合进
Figure FDA0003112324260000022
特征中,得到具有丰富位置信息的互补特征
Figure FDA0003112324260000023
所述深度注意力模块包括上下文注意力模块和通道注意力模块;所述上下文注意模块以深度特征
Figure FDA0003112324260000024
为输入,通过Softmax操作输出
Figure FDA0003112324260000025
各个通道的权重αi,i=1,2,...,C;表示如下:
Figure FDA0003112324260000026
其中αi表示第i个通道的权重,
Figure FDA0003112324260000027
分别表示特征
Figure FDA0003112324260000028
中的第j个和第m个像素位置,Np是特征图
Figure FDA0003112324260000029
中某一通道的像素数量,也即H×W;Cw×h,d表示卷积和长宽为w和h,步长为d的卷积操作,其中w=h=d=1;
Figure FDA00031123242600000210
表示矩阵乘操作;
所述通道注意力模块将所述上下文注意模块得到的各个通道的权重αi,i=1,2,...,C融入于深度特征
Figure FDA00031123242600000211
中,得到关注于全局上下文的增强的深度特征;
将增强的深度特征融入对应的RGB特征
Figure FDA00031123242600000212
中,得到融合后的互补特征
Figure FDA00031123242600000213
表示如下:
Figure FDA00031123242600000214
Figure FDA00031123242600000215
其中Cw×h,d表示卷积和长宽为w和h,步长为d的卷积操作,其中,w=h=d=1;δ表示Sigmoid操作;
Figure FDA00031123242600000216
表示DepthNet中第t层提取的深度特征t=3,4,5;
Figure FDA00031123242600000217
表示由FLM模块得到的不同阶段的特征,其中t=3,4,5;
Figure FDA00031123242600000218
表示像素乘操作;αi表示第i个通道特征的权重值;βi表示
Figure FDA00031123242600000219
的第i个通道的注意力权重图;
Figure FDA00031123242600000220
代表第s个阶段融合后的互补特征,其中s=3,4,5。
3.根据权利要求1所述的一种基于非对称双流网络架构的RGB-D显著性检测方法,其特征在于,所述VGG架构为VGG-19骨干网络;
所述流阶梯模块采用VGG-19输出的基于RGB的多尺度编码特征作为输入,并以局部-全局进化融合的方式集成四个细节信息传递分支中提取的多尺度局部和全局特征;
所述局部-全局进化融合包括:每个分支都通过局部-全局进化融合流从其他垂直并行特征中获取丰富的信息;较深的分支的表示通过上采样和像素级加和操作融合到较浅的分支中,而较浅的分支的表示通过下采样和像素级加和操作融合到较深的分支中。
4.根据权利要求1所述的一种基于非对称双流网络架构的RGB-D显著性检测方法,其特征在于,步骤1包括:
根据RGB-D数据集的训练集和测试集,获取RGB图片,对应的Depth深度图以及对应的显著性真值GT;
对所述RGB图片和对应的Depth深度图进行数据增强,包括:
对RGB-D数据集的训练集中的RGB图片、Depth深度图以及真值GT进行上下左右边界的裁剪;使用水平和垂直的翻转并调整大小到H×W;将增强后的RGB原图和Depth深度图转变为网络可处理的张量;再进行均值为mean,方差为std的归一化操作,得到张量IRGB和ID
对RGB-D数据集的测试集中的RGB图片和对应的Depth深度图调整大小到H×W;对调整后的RGB原图和对应的Depth深度图转变为网络可处理的张量;再进行均值为mean,方差为std的归一化操作,得到张量IRGB和ID
其中所述归一化操作定义如下:
Figure FDA0003112324260000031
其中,Iinput为归一化前的RGB图像和Depth深度图,Iout为归一化后的张量IRGB和ID;mean和std为超参数,表示进行归一化操作的均值和方差。
5.根据权利要求1或4所述的一种基于非对称双流网络架构的RGB-D显著性检测方法,其特征在于,所述H×W为256×256。
6.根据权利要求4所述的一种基于非对称双流网络架构的RGB-D显著性检测方法,其特征在于,所述mean取[0.447,0.407,0.386],所述std取[0.244,0.250,0.253]。
7.根据权利要求1所述的一种基于非对称双流网络架构的RGB-D显著性检测方法,其特征在于,所述T取5。
8.根据权利要求1所述的一种基于非对称双流网络架构的RGB-D显著性检测方法,其特征在于,通道C在第3阶段取32,在第4阶段取32,在第5阶段取128。
CN202110652710.2A 2021-06-11 2021-06-11 一种基于非对称双流网络架构的rgb-d显著性检测方法 Withdrawn CN113393434A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110652710.2A CN113393434A (zh) 2021-06-11 2021-06-11 一种基于非对称双流网络架构的rgb-d显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110652710.2A CN113393434A (zh) 2021-06-11 2021-06-11 一种基于非对称双流网络架构的rgb-d显著性检测方法

Publications (1)

Publication Number Publication Date
CN113393434A true CN113393434A (zh) 2021-09-14

Family

ID=77620547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110652710.2A Withdrawn CN113393434A (zh) 2021-06-11 2021-06-11 一种基于非对称双流网络架构的rgb-d显著性检测方法

Country Status (1)

Country Link
CN (1) CN113393434A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780241A (zh) * 2021-09-29 2021-12-10 北京航空航天大学 一种显著物体检测的加速方法与装置
CN115019139A (zh) * 2022-06-02 2022-09-06 杭州电子科技大学 一种基于双流网络的光场显著目标检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780241A (zh) * 2021-09-29 2021-12-10 北京航空航天大学 一种显著物体检测的加速方法与装置
CN113780241B (zh) * 2021-09-29 2024-02-06 北京航空航天大学 一种显著物体检测的加速方法与装置
CN115019139A (zh) * 2022-06-02 2022-09-06 杭州电子科技大学 一种基于双流网络的光场显著目标检测方法

Similar Documents

Publication Publication Date Title
CN110555434B (zh) 一种局部对比和全局指导的立体图像视觉显著性检测方法
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN111915627B (zh) 语义分割方法、网络、设备及计算机存储介质
CN111950453B (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN110458165B (zh) 一种引入注意力机制的自然场景文本检测方法
CN111461110A (zh) 一种基于多尺度图像和加权融合损失的小目标检测方法
CN110175986B (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN110717851A (zh) 图像处理方法及装置、神经网络的训练方法、存储介质
Cun et al. Defocus blur detection via depth distillation
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN112927209B (zh) 一种基于cnn的显著性检测系统和方法
CN110866938B (zh) 一种全自动视频运动目标分割方法
CN112802039B (zh) 一种基于全局边缘注意力的全景分割方法
CN115131797B (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN114898284B (zh) 一种基于特征金字塔局部差异注意力机制的人群计数方法
CN113393434A (zh) 一种基于非对称双流网络架构的rgb-d显著性检测方法
CN114549574A (zh) 一种基于掩膜传播网络的交互式视频抠图系统
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN114038006A (zh) 一种抠图网络训练方法及抠图方法
CN113096140A (zh) 实例分割方法及装置、电子设备及存储介质
Oliveira et al. A novel Genetic Algorithms and SURF-Based approach for image retargeting
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN114708615A (zh) 基于图像增强的低照度环境下人体检测方法、电子设备及储存介质
JP6511950B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN113066074A (zh) 一种基于双目视差偏移融合的视觉显著性预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210914