CN113393434A - 一种基于非对称双流网络架构的rgb-d显著性检测方法 - Google Patents
一种基于非对称双流网络架构的rgb-d显著性检测方法 Download PDFInfo
- Publication number
- CN113393434A CN113393434A CN202110652710.2A CN202110652710A CN113393434A CN 113393434 A CN113393434 A CN 113393434A CN 202110652710 A CN202110652710 A CN 202110652710A CN 113393434 A CN113393434 A CN 113393434A
- Authority
- CN
- China
- Prior art keywords
- rgb
- depth
- stream
- features
- network architecture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 48
- 230000000295 complement effect Effects 0.000 claims abstract description 18
- 230000005540 biological transmission Effects 0.000 claims abstract description 9
- 238000010606 normalization Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 2
- 238000000034 method Methods 0.000 description 7
- 230000009977 dual effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于非对称双流网络架构的RGB‑D显著性检测方法,包括:基于RGB‑D数据集中RGB图像和对应的Depth深度图分别得到输入张量IRGB和ID;将输入张量IRGB和ID输入非对称双流网络架构,得到基于RGB和Depth的多尺度编码特征;非对称双流网络架构中,RGB流网络在VGG的基础上还包括流阶梯模块,采用四个细节信息传递分支;Depth流网络采用一个细节信息传递分支;通过深度注意力模块将提取到的深度特征融合进RGB流中,得到具有丰富位置信息的互补特征;通过解码器对得到的互补特征进行特征解码,得到最终显著性预测结果。本发明构建了基于非对称的双流网络架构的RGB‑D显著性检测模型,充分考虑了RGB和Depth数据之间的固有差异,对于很多有挑战性的场景都能取得准确的预测结果。
Description
技术领域
本发明涉及到计算机视觉领域,尤其是涉及一种基于非对称的双流网络架构的RGB-D显著性检测实现方法。
背景技术
显著性检测是指在一幅图像里,旨在识别最能吸引用户的视觉注意力和最引人注目的区域和物体,由于在场景中选择最具视觉特征的信息,在计算机视觉中的广泛应用引起了人们的广泛关注。伴随着显著性目标检测算法的日渐成熟,在越来越多的工业界或学术界领域都涉及到了对其的应用。在工业界,比如在生活场景中通过手机或其他照相设备对商品场景进行拍摄,再对其进行处理得到所关注的商品的详细信息等。在学术界,例如在物体的跟踪识别中进行显著性检测,剔除掉其余场景信息从而直接获得运动物体的运行轨迹;还有图像检索,主要是利用显著性目标区域的信息以及其所位于的空间分布情况,来进行多个图片之间的匹配和搜索,因此显著性算法在图像检索中,具有非常重要的作用和意义。此外还有场景分类,姿势估计等领域,显著性检测都占据着十分重要的地位。
根据输入形式的不同,显著性检测可以分为两大种类:静态图像显著性检测和视频显著性检测。其中静态图像显著性检测包括2D显著性检测、3D显著性检测和光场(4D)显著性检测。2D显著性检测的输入是RGB彩色图像;3D显著性检测(也即RGB-D显著性检测)的输入包括RGB彩色图像和与其相对应的深度图像;4D光场显著性检测的输入是光场图像,包括全聚焦RGB图像、焦点堆栈图像(一系列聚焦在不同深度层面物体上的聚焦切片图像)和深度图。而视频显著性检测则是以连续的视频帧作为输入,相较于2D显著性检测多了时间维度的信息需要考虑。
2D显著性检测方法是最为常见的基于静态图像的显著性检测方法,它采用图像对比度,颜色,纹理等信息来进行检测,虽然在现有的2D显著性检测数据库上取得了很好的检测结果,但RGB数据中的外观特征对于某些具有挑战性的场景(如多个或透明的物体,相似的前景和背景,复杂的背景,低强度的环境等)的预测效果较低。与单一RGB图像相比,深度信息在位置和空间结构上具有更好的判别力,这已被证明有利于精确的显着性预测。此外,随着深度传感器(例如Kinect)的出现,用于RGB自然图像的配对Depth深度数据可较易获得。近年来许多关于RGB-D的显著性目标检测的工作证明通过Depth信息对RGB特征的指导,显著性的检测效果得到了有效提升。大多数基于RGB-D的方法利用对称的双流体系结构来提取RGB和深度特征。
但是,虽然RGB数据包含更多信息,例如颜色,纹理,轮廓以及有限的位置信息,但是灰度深度数据提供了更多信息,例如空间结构和3D布局信息。因此,对称的RGB-D双流网络可能会忽略RGB和深度数据的固有差异,从而造成误检或错检等情况。此外,现有的RGB-D方法在采用RGB和深度流网络中的采用的跨步和合并操作时不可避免地会造成细节信息的丢失。
发明内容
有鉴于此,本发明提供了一种基于非对称的双流网络架构的RGB-D显著性检测方法,利用RGB信息和Depth深度信息进行显著性检测,并通过非对称的双流网络优化更新,实现了复杂场景下高质量的RGB-D显著性检测结果。
为此,本发明提供的技术方案如下:
本发明提供了一种基于非对称双流网络架构的RGB-D显著性检测方法,包括如下步骤:
步骤1、基于RGB-D数据集中对应的RGB图片和Depth深度图分别得到输入张量IRGB和ID;
所述非对称双流网络架构包括:RGB流网络和Depth流网络;所述RGB流网络采用的特征编码器为VGG架构,并丢弃最后三层全连接层,以保留空间结构,提取多尺度上下文信息;所述RGB流网络中还包括流阶梯模块,所述流阶梯模块构造了四个细节信息传递分支来保留局部细节信息并且进化式地融合了全局位置信息,最终得到基于RGB的多尺度编码特征;所述Depth流网络所采用的特征编码器为一个细节信息传递分支,能够在提取Depth特征时保留其空间分辨率;所述特征编码器针对每一帧Depth深度图像生成对应于RGB流的T个阶段的特征图;
步骤4、通过解码器对得到的互补特征进行特征解码,得到最终显著性预测结果;表示如下:
其中表示m个卷积和长宽为w和h,步长为d的卷积操作;其中,w=h=d=1;m=3;δ表示Sigmoid操作;Ups表示scale factor为s的双线性插值上采样操作;Ffinal表示最终的显著性预测输出。
进一步地,步骤3包括:
其中αi表示第i个通道的权重,分别表示特征中的第j个和第m个像素位置,Np是特征图中某一通道的像素数量,也即H×W;Cw×h,d表示卷积和长宽为w和h,步长为d的卷积操作,其中w=h=d=1;表示矩阵乘操作;
其中Cw×h,d表示卷积和长宽为w和h,步长为d的卷积操作,其中,w=h=d=1;δ表示Sigmoid操作;表示DepthNet中第t层提取的深度特征表示由FLM模块得到的不同阶段的特征,其中t=3,4,5;表示像素乘操作;αi表示第i个通道特征的权重值;βi表示的第i个通道的注意力权重图;代表第s个阶段融合后的互补特征,其中s=3,4,5。
进一步地,所述VGG架构为VGG-19骨干网络;
所述流阶梯模块采用VGG-19输出的基于RGB的多尺度编码特征作为输入,并以局部-全局进化融合的方式集成四个细节信息传递分支中提取的多尺度局部和全局特征;
所述局部-全局进化融合包括:每个分支都通过局部-全局进化融合流从其他垂直并行特征中获取丰富的信息;较深的分支的表示通过上采样和像素级加和操作融合到较浅的分支中,而较浅的分支的表示通过下采样和像素级加和操作融合到较深的分支中。
进一步地,步骤1包括:
根据RGB-D数据集的训练集和测试集,获取RGB图片,对应的Depth深度图以及对应的显著性真值GT;
对所述RGB图片和对应的Depth深度图进行数据增强,包括:
对RGB-D数据集的训练集中的RGB图片、Depth深度图以及真值GT进行上下左右边界的裁剪;使用水平和垂直的翻转并调整大小到H×W;将增强后的RGB原图和Depth深度图转变为网络可处理的张量;再进行均值为mean,方差为std的归一化操作,得到张量IRGB和ID;
对RGB-D数据集的测试集中的RGB图片和对应的Depth深度图调整大小到H×W;对调整后的RGB原图和对应的Depth深度图转变为网络可处理的张量;再进行均值为mean,方差为std的归一化操作,得到张量IRGB和ID;
其中所述归一化操作定义如下:
其中,Iinput为归一化前的RGB图像和Depth深度图,Iout为归一化后的张量IRGB和ID;mean和std为超参数,表示进行归一化操作的均值和方差。
进一步地,所述H×W为256×256。
进一步地,所述mean取[0.447,0.407,0.386],所述std取[0.244,0.250,0.253]。
进一步地,所述T取5。
进一步地,通道C在第3阶段取32,在第4阶段取32,在第5阶段取128。
本发明上述技术方案具有以下有益效果:
考虑到大多数利用对称双流体系结构的基于RGB-D的方法都忽略了RGB和深度数据之间的固有差异,本发明提出了一种非对称双流体系结构,此双流体系结构包括轻量级的Depth深度流和带有流阶梯模块(FLM)的RGB流,分别是DepthNet和RGBNet。对于深度流,本发明设计了一种轻量级的体系结构;然后,通过深度注意机制(DAM)将提取的深度特征馈入RGB流中,以生成具有丰富位置信息和空间信息的互补特征。对于RGB流,本发明采用体系结构VGG-19作为基准,基于此基准,本发明提出了一种新颖的流阶梯模块(FLM),以保留显著性细节信息并以进化的方式从其他并行分支的特征表示中接收全局位置信息,这有助于定位显著区域并获得可观的性能提升。实验结果表明,本发明提出的基于非对称的双流网络架构的RGB-D显著性检测方法对于很多复杂场景和挑战性场景都能取得准确的预测结果。
基于上述理由本发明可在计算机视觉领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是RGB图像、Depth深度图像以及真值示意图;
图2是本发明实施例中一种基于非对称双流网络架构的RGB-D显著性检测方法的流程图;
图3是本发明实施例中一种基于非对称双流网络架构的RGB-D显著性检测方法的又一流程图;
图4是本发明实施例中非对称双流网络架构的总体架构以及流阶梯模块(FLM)的结构示意图;
图5是本发明实施例中深度注意力模块(DAM)的结构示意图。
具体实施方式
本发明使用非对称双流网络来达成精确显着性检测的目标。实现此目标的主要挑战是如何在保留本地显著性细节信息的同时有效地提取丰富的全局上下文信息。第二个挑战是如何有效利用深度特征的判别力来引导RGB特征以准确定位突出的对象。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图2和图3,其示出了本发明实施例中一种基于非对称双流网络架构的RGB-D显著性检测方法的流程示意图,该方法包括如下步骤:
A、基于RGB-D数据集中的RGB图片和对应的Depth深度图分别得到输入张量IRGB和ID,其步骤如下:
A1、获取对应的RGB图片和Depth深度图:
根据RGB-D数据集的训练集和测试集,获取如图1所示的RGB图片、对应的Depth深度图以及对应的显著性真值GT;
A2、分别得到输入张量IRGB和ID:
对RGB-D训练集中的RGB图片和对应的Depth深度图进行数据增强,首先对此RGB图,Depth深度图以及真值GT进行上下左右边界的裁剪,接着使用水平和垂直的翻转并调整大小到H×W(本发明实施例中取256×256);将增强后的RGB图像和Depth深度图首先转变为网络可处理的张量,再进行均值为mean,方差为std的归一化操作,得到张量IRGB和ID;
对RGB-D测试集中的RGB图片和对应的Depth深度图调整大小到256×256,接着将调整后的RGB图片和对应的Depth深度图首先转变为网络可处理的张量,再进行均值为mean,方差为std的归一化操作,得到张量IRGB和ID;
其中归一化操作定义如下:
其中,Iinput为归一化前的RGB图片和Depth深度图,Iout为归一化后的张量IRGB和ID;mean和std为超参数,mean和std均为1*3的数组;表示进行归一化操作的均值和方差,此处取mean=[0.447,0.407,0.386],std=[0.244,0.250,0.253]。
参见图4,其示出了本发明实施例中非对称双流网络的总体架构;非对称双流网络架构包括:RGB流网络和Depth流网络;其中,RGB流网络采用的特征编码器为VGG架构,并丢弃最后三层全连接层,以保留空间结构,提取多尺度上下文信息;RGB流网络中还包括流阶梯模块(FLM模块),所述流阶梯模块构造了四个细节信息传递分支来保留局部细节信息并且进化式地融合了全局位置信息,最终得到基于RGB的多尺度编码特征。FLM模块可以保留多个尺度和级别的表示分辨率,从而确保局部细节信息和全局位置信息有助于显着性检测的精度,FLM模块应用于VGG-19骨干网络中,其采用VGG-19的每个阶段的输出特征也即多尺度特征作为输入,并以局部-全局进化融合流程的方式集成了四个细节信息传递分支。此外本发明提出了一种新颖的局部-全局进化融合策略,用于集成从细节信息传递分支中提取的多尺度局部和全局特征。每个分支都通过局部-全局进化融合流从其他垂直并行特征中获取丰富的信息。这样,在保留更多本地显著性细节信息的同时,生成了丰富的全局上下文信息。具体来说,较深的分支的表示通过上采样和像素级加和操作融合到较浅的分支中,而较浅的分支的表示通过下采样和像素级加和操作融合到较深的分支中。通过不同分支之间的演进,可以将局部细节信息和全局上下文信息有效地结合在一起,从而提高显著性检测的准确性。
Depth流网络所采用的特征编码器为一个细节信息传递分支,能够在提取Depth特征时保留其空间分辨率;特征编码器针对每一帧Depth深度图像生成对应于RGB流的T个阶段的特征图;
由于相较于RGB流网络,Depth流网络只采用了一个细节信息传递分支,因此体量远小于RGB流网络,形成一个非对称双流架构。
在该非对称双流网络架构下,步骤B具体包括如下步骤:
具体表示如下:
其中Bi和Lj分别代表第i个分支和第j层;表示基于VGG-19编码的多尺度特征;f(·)表示当n>i时,进行n-i倍双线性上采样插值操作;当n<i时,进行i-n倍下采样操作;当n=i时,表示无操作;trans表示卷积核为1×1,步长为1的卷积,以实现通道变换;cat表示级联操作;表示由FLM模块得到的不同阶段的特征,用于输入后续DAM模块,其中t=3,4,5;并且在加入深度注意力模块DAM之后,
具体细节如表1所示,其中k表示卷积核大小,s代表步长,chn代表每一层的输入/输处通道数,p表示padding,in和out表示输入和输出特征的大小。
表1
参见图5,其示出了本发明提出的深度注意力模块(DAM模块)的结构示意图。考虑到深度线索对于显著性预测的贡献程度不同,为了充分利用具有位置和空间结构判别力的深度线索,本发明设计了深度注意力模块,以自适应地融合RGB和Depth深度特征。首先,利用一个上下文注意力模块来更精确地提取显著位置信息,而不是使用简单的融合(例如像素级加和或串联)。然后,采用矩阵乘法运算将所有位置的特征聚合在一起,以生成关注于每个通道的注意力权重,以捕获像素级空间相关性。而且,不同通道的特征对显著区域的响应程度不同。因此,采用了一个通道注意力模块,以捕获通道之间的相互依赖性,并进一步得到了加权的深度特征。然后,采用像素级乘运算将其融合到RGB流中,这有助于在像素级别上引导RGB信息以彻底区分显著与非显著区域。
基于上述深度注意力模块,步骤C包括如下步骤:
其中αi表示第i个通道的权重,分别表示特征中的第j个和第m个像素位置,Np是特征图中某一通道的像素数量,也即H×W;Cw×h,d表示卷积和长宽为w和h,步长为d的卷积操作,其中w=h=d=1;表示矩阵乘操作;
C2、利用通道注意力模块,对得到的通道权重αi,i=1,2,...,C,将其编码进深度特征与FLM模块的输出特征,得到DAM输出的互补特征;
得到代表不同通道响应程度的通道权重αi,i=1,2,...,C后,利用另一个通道注意力模块,将其融入于深度特征中,得到关注于全局上下文的增强的深度特征;其次,将增强的深度特征融入对应的FLM特征中,得到融合后的互补特征具体可表示如下:
其中Cw×h,d表示卷积和长宽为w和h,步长为d的卷积操作,其中w=h=d=1;δ表示Sigmoid操作;表示DepthNet中第t层提取的深度特征t=3,4,5;表示由FLM模块得到的不同阶段的特征,其中t=3,4,5;表示像素乘操作;αi表示第i个通道特征的权重值;βi表示的第i个通道的注意力权重图;代表第s个阶段融合后的互补特征,其中s=3,4,5。
D、通过解码器对得到的互补特征进行特征解码,得到最终显著性预测结果;
从第5个阶段的DAM输出的特征包含了不同尺度的高级和低级信息,并且整合了Depth特征的指导信息,对此采用一个简易的解码器进行特征解码,得到最终的显著性预测输出;其可具体表示为:
E、非对称双流网络的训练及优化:
本发明整体可分为训练和推理两个阶段,在训练时以训练集的张量作为输入,得到训练好的网络参数;在推理阶段使用训练阶段保存的参数进行测试,得到最终的显著性预测结果。
本发明实施例在Pytorch框架下实现,其中训练阶段时使用SGD优化器,learningrate=1e-10,momentum=0.9,weight decay=0.0005,并且批处理大小2。在训练期间,图像的空间分辨率为256×256,但是模型可以是在测试时以全卷积方式应用于任意分辨率。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种基于非对称双流网络架构的RGB-D显著性检测方法,其特征在于,包括如下步骤:
步骤1、基于RGB-D数据集中对应的RGB图片和Depth深度图分别得到输入张量IRGB和ID;
所述非对称双流网络架构包括:RGB流网络和Depth流网络;所述RGB流网络采用的特征编码器为VGG架构,并丢弃最后三层全连接层,以保留空间结构,提取多尺度上下文信息;所述RGB流网络中还包括流阶梯模块,所述流阶梯模块构造了四个细节信息传递分支来保留局部细节信息并且进化式地融合了全局位置信息,最终得到基于RGB的多尺度编码特征;所述Depth流网络所采用的特征编码器为一个细节信息传递分支,能够在提取Depth特征时保留其空间分辨率;所述特征编码器针对每一帧Depth深度图像生成对应于RGB流的T个阶段的特征图;
步骤4、通过解码器对得到的互补特征进行特征解码,得到最终显著性预测结果;表示如下:
2.根据权利要求1所述的一种基于非对称双流网络架构的RGB-D显著性检测方法,其特征在于,步骤3包括:
其中αi表示第i个通道的权重,分别表示特征中的第j个和第m个像素位置,Np是特征图中某一通道的像素数量,也即H×W;Cw×h,d表示卷积和长宽为w和h,步长为d的卷积操作,其中w=h=d=1;表示矩阵乘操作;
3.根据权利要求1所述的一种基于非对称双流网络架构的RGB-D显著性检测方法,其特征在于,所述VGG架构为VGG-19骨干网络;
所述流阶梯模块采用VGG-19输出的基于RGB的多尺度编码特征作为输入,并以局部-全局进化融合的方式集成四个细节信息传递分支中提取的多尺度局部和全局特征;
所述局部-全局进化融合包括:每个分支都通过局部-全局进化融合流从其他垂直并行特征中获取丰富的信息;较深的分支的表示通过上采样和像素级加和操作融合到较浅的分支中,而较浅的分支的表示通过下采样和像素级加和操作融合到较深的分支中。
4.根据权利要求1所述的一种基于非对称双流网络架构的RGB-D显著性检测方法,其特征在于,步骤1包括:
根据RGB-D数据集的训练集和测试集,获取RGB图片,对应的Depth深度图以及对应的显著性真值GT;
对所述RGB图片和对应的Depth深度图进行数据增强,包括:
对RGB-D数据集的训练集中的RGB图片、Depth深度图以及真值GT进行上下左右边界的裁剪;使用水平和垂直的翻转并调整大小到H×W;将增强后的RGB原图和Depth深度图转变为网络可处理的张量;再进行均值为mean,方差为std的归一化操作,得到张量IRGB和ID;
对RGB-D数据集的测试集中的RGB图片和对应的Depth深度图调整大小到H×W;对调整后的RGB原图和对应的Depth深度图转变为网络可处理的张量;再进行均值为mean,方差为std的归一化操作,得到张量IRGB和ID;
其中所述归一化操作定义如下:
其中,Iinput为归一化前的RGB图像和Depth深度图,Iout为归一化后的张量IRGB和ID;mean和std为超参数,表示进行归一化操作的均值和方差。
5.根据权利要求1或4所述的一种基于非对称双流网络架构的RGB-D显著性检测方法,其特征在于,所述H×W为256×256。
6.根据权利要求4所述的一种基于非对称双流网络架构的RGB-D显著性检测方法,其特征在于,所述mean取[0.447,0.407,0.386],所述std取[0.244,0.250,0.253]。
7.根据权利要求1所述的一种基于非对称双流网络架构的RGB-D显著性检测方法,其特征在于,所述T取5。
8.根据权利要求1所述的一种基于非对称双流网络架构的RGB-D显著性检测方法,其特征在于,通道C在第3阶段取32,在第4阶段取32,在第5阶段取128。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110652710.2A CN113393434A (zh) | 2021-06-11 | 2021-06-11 | 一种基于非对称双流网络架构的rgb-d显著性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110652710.2A CN113393434A (zh) | 2021-06-11 | 2021-06-11 | 一种基于非对称双流网络架构的rgb-d显著性检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113393434A true CN113393434A (zh) | 2021-09-14 |
Family
ID=77620547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110652710.2A Withdrawn CN113393434A (zh) | 2021-06-11 | 2021-06-11 | 一种基于非对称双流网络架构的rgb-d显著性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113393434A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780241A (zh) * | 2021-09-29 | 2021-12-10 | 北京航空航天大学 | 一种显著物体检测的加速方法与装置 |
CN115019139A (zh) * | 2022-06-02 | 2022-09-06 | 杭州电子科技大学 | 一种基于双流网络的光场显著目标检测方法 |
-
2021
- 2021-06-11 CN CN202110652710.2A patent/CN113393434A/zh not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780241A (zh) * | 2021-09-29 | 2021-12-10 | 北京航空航天大学 | 一种显著物体检测的加速方法与装置 |
CN113780241B (zh) * | 2021-09-29 | 2024-02-06 | 北京航空航天大学 | 一种显著物体检测的加速方法与装置 |
CN115019139A (zh) * | 2022-06-02 | 2022-09-06 | 杭州电子科技大学 | 一种基于双流网络的光场显著目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110555434B (zh) | 一种局部对比和全局指导的立体图像视觉显著性检测方法 | |
CN110111366B (zh) | 一种基于多级损失量的端到端光流估计方法 | |
CN111915627B (zh) | 语义分割方法、网络、设备及计算机存储介质 | |
CN111950453B (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN110458165B (zh) | 一种引入注意力机制的自然场景文本检测方法 | |
CN111461110A (zh) | 一种基于多尺度图像和加权融合损失的小目标检测方法 | |
CN110175986B (zh) | 一种基于卷积神经网络的立体图像视觉显著性检测方法 | |
CN110717851A (zh) | 图像处理方法及装置、神经网络的训练方法、存储介质 | |
Cun et al. | Defocus blur detection via depth distillation | |
CN110827312B (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN112927209B (zh) | 一种基于cnn的显著性检测系统和方法 | |
CN110866938B (zh) | 一种全自动视频运动目标分割方法 | |
CN112802039B (zh) | 一种基于全局边缘注意力的全景分割方法 | |
CN115131797B (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN113393434A (zh) | 一种基于非对称双流网络架构的rgb-d显著性检测方法 | |
CN114549574A (zh) | 一种基于掩膜传播网络的交互式视频抠图系统 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN114038006A (zh) | 一种抠图网络训练方法及抠图方法 | |
CN113096140A (zh) | 实例分割方法及装置、电子设备及存储介质 | |
Oliveira et al. | A novel Genetic Algorithms and SURF-Based approach for image retargeting | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN114708615A (zh) | 基于图像增强的低照度环境下人体检测方法、电子设备及储存介质 | |
JP6511950B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
CN113066074A (zh) | 一种基于双目视差偏移融合的视觉显著性预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210914 |