CN113298094A - 一种基于模态关联与双感知解码器的rgb-t的显著性目标检测方法 - Google Patents
一种基于模态关联与双感知解码器的rgb-t的显著性目标检测方法 Download PDFInfo
- Publication number
- CN113298094A CN113298094A CN202110645432.8A CN202110645432A CN113298094A CN 113298094 A CN113298094 A CN 113298094A CN 202110645432 A CN202110645432 A CN 202110645432A CN 113298094 A CN113298094 A CN 113298094A
- Authority
- CN
- China
- Prior art keywords
- feature
- rgb
- convolution
- characteristic
- association
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000009466 transformation Effects 0.000 claims abstract description 32
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims abstract description 30
- 230000008569 process Effects 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 2
- 230000006798 recombination Effects 0.000 claims description 2
- 238000005215 recombination Methods 0.000 claims description 2
- 238000005096 rolling process Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims 1
- 239000000203 mixture Substances 0.000 claims 1
- 230000008447 perception Effects 0.000 abstract description 8
- 230000004927 fusion Effects 0.000 abstract description 4
- 230000009977 dual effect Effects 0.000 abstract description 3
- 238000011160 research Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 210000000746 body region Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开一种基于模态关联与双感知解码器的RGB‑T的显著性目标检测方法,本发明通过模态对齐模块(MAM)来建模两种模态的强关联性,其空间仿射变换,特征仿射变换和一个动态卷积层来实现特征对齐和建立更灵活的模态关联性;本发明的双重解码器结合自底向上和自顶向下的方式,学习由精到粗和由粗到精的两种感知过程,从而获得更强大的信息选择与融合的能力;进一步通过将MAM中的前两个组件和全局上下文增强部分添加到ConvLSTM中,本发明的显著图比其他先进的方法具有更高的置信度。
Description
技术领域
本发明属于图像处理技术,具体涉及一种基于模态关联与双感知解码器的RGB-T的显著性目标检测方法。
背景技术
显著性目标检测旨在利用算法检测和分割出图像中的显著性目标区域。作为一些视觉任务预处理步骤,显著性目标检测在视觉跟踪、图像识别、图像压缩、图像融合等视觉任务中起着至关重要的作用。
现有的显著目标检测方法可以分为两大类:一类是基于传统的显著性目标检测方法,另一类是基于深度学习的显著性目标检测方法。基于传统的显著性目标检测算法通过手工提取的颜色、纹理、方向等特征完成显著性预测,过度依赖于人工选取的特征,对场景适应性不强,在复杂数据集上表现不佳。随着深度学习的广泛应用,基于深度学习的显著性目标检测研究取得了突破性进展,相较于传统的显著性算法,检测性能显著提高。
RGB-T显著物体检测专注于分割成对的可见图像和热红外图像的共同显著区域。它是对显著目标检测任务的一种新的扩展,已经进行了很多探索。得益于热传感器,互补的温度信息有助于对可见光图像的研究。与可见光SOD任务的主观性不同,RGB-T SOD更为客观,因为显著区域是由两种模态确定的。因此,在RGB-T SOD中,最主要的问题是探索两种模态的关联性。
现有的一些研究主要集中在信息互补和融合的方式上。在早期的工作中,使用传统的基于图的方法来推断显著性,通过添加先验约束和手工特征融合来融合两种模态。由于手工特征的局限性,后来又有研究提出通过协同图学习算法来集成多层深度特征,从而进一步提高RGB-T SOD的性能。然而,这些传统方法依赖于鲁棒的超像素分割结果,并且不能有效地体现模态的关联性。随着深度学习的发展,它卓越的特征表示能力和端到端网络可以避免对超像素的依赖。如今已经提出了几种不同的基于深度学习的方法来融合多尺度,多模态和多层次的特征。这些方法在RGB-T模态互补方面取得了很大的进步,从而带来了更好的性能。最近,有研究提出解决模态偏置问题的在RGB-T显著目标检测中的有效性,设计一个多交互的双重解码器,以通过真值监督来隐式约束偏置区域。
但是,所有上述方法都融合了用于信息补充的模态,并依赖于配准的RGB-T图像对,存在以下问题:
一方面,由于视角偏差,传感器总是捕获未对准的图像对,这些图像对存在透视偏差,手动标注是一项耗费劳力的工作,因此导致更高的研究成本;
另一方面,探索信息互补只是一个目标,使用两种模态的关键点是建立关联性,这不仅用于信息补充,而且还用于空间、特征、语义的对齐,一旦建立了良好的关联性,就可以解决非配准的图像对和模态偏置的问题。
发明内容
发明目的:本发明提供一种基于模态关联与双感知解码器的RGB-T的显著性目标检测方法,本发明无需配准的RGB-T显著目标检测模型即可解决现有技术中处理非配准的图像和模态偏置的问题,获得更高精度和更高置信度的显著图像。
技术方案:本发明的一种基于模态关联与双感知解码器的RGB-T的显著性目标检测方法,包括以下内容:
S1、使用一个特征编码器编码获得可见光图像和红外图像的多级特征,并将可见光特征标记为R1~R4,红外特征标记为T1~T4;
S2、将所得最深层特征R4和T4经过金字塔池化PPM处理得到具有全局感受野的两个模态的全局特征Gr和Gt;Gr和Gt包含各自模态中目标的位置信息,这两个特征作为信息来源在S3中计算两个模态空间对齐的信息互补的全局特征G;
S3、使用模态对齐模块MAM对Gr和Gt进行模态关联处理,进而得到实现空间对齐和信息互补的全局特征G;该模态对齐模块MAM包括空间仿射变换,特征仿射变换和一个动态卷积层;
S4、步骤S1中所得到的R1~R4与T1~T4和步骤S3所得全局特征G通过双重感知解码器处理得到四个预测显著图S1~S4;S4为最终显著图;
S5、通过标注的真值用一个二元交叉熵BCE损失函数监督训练网络模型,由二元交叉熵损失函数计算梯度,通过梯度反向传播更新网络模型的参数。
进一步地,所述步骤S1中的特征编码器采用去除全连接层的共享参数的VGG16网络分别从可见光和红外模态提取各自的分层特征并去除最浅层(浅层的特征信息对特征图贡献很小,直接去除),并且在VGG16的每个块中添加一个过渡层,以降低分辨率并统一通道数;该过渡层是一个3*3的卷积层,步长为2,填充为1,输出通道为128;
然后使用批归一化对特征进行归一化并使用Relu激活函数实现非线性激活;
最后将可见图像的多级特征标记为R1~R4,将红外图像的多级特征标记为T1~T4。
进一步地,所述步骤S2中金字塔池化PPM处理过程如下:
Gr=PPM(R4);
Gt=PPM(T4)。
为能够解决空间偏差、模态偏差和信息互补的问题,步骤S3中空间仿射变换的具体方法为:采用空间转换网络STN接收两种模态的相应特征,标记为Fr和Ft,并预测空间仿射矩阵标,记为Mp;Mp是一个2×3矩阵,定义平移、旋转、错切和缩放操作;
Mp=STN([Fr,Ft]);
其中,Φ(*,*)为Pytorch深度学习框架集成的函数;
其中,ConvBlock是具有卷积层、批归一化和Relu激活函数的卷积块;
最后空间仿射变换组件的操作流程记为:Fs=STC(Fr,Ft)。
由于两个模态传感器的位置偏差,所捕获的图像对具有透视偏差,这不易通过空间仿射变换进行校正,而且没有有效的监督来限制STN的学习,这进一步增加了空间对齐的难度,因此,单一的空间仿射变换部分无法解决上述问题。
为解决上述问题,所述步骤S3执行特征仿射变换,生成动态调制参数建立两个模态特征之间的关联。该特征仿射变换即是指使用Fr来调制Ft,具体为方法,
在Fr上应用两个卷积块分别生成一个通道的调制参数α和β;
α=ConvBlock(Fr)
β=ConvBlock(Fr)
最后,特征仿射变换组件的操作流程记为:Ff=FTC(Fr,Ft)。
经过空间仿射变换和特征仿射变换后的,高级语义特征的表示能力未得到全部体现,为解决该问题,本发明通过动态卷积层的组件,以建立两种模态之间的高级语义相关性。步骤S3中动态卷积层的具体操作为:
在每个像素位置,κ具有C*k2个通道,将其重组为RC×k×k用作卷积核;对于红外特征Ft所有像素均具有自己的卷积核;然后将Ft与生成的卷积核进行卷积,进而建立通道关联性;
κ=ConvBlock(Fr)
ConvBlock是具有卷积层、批归一化和Relu激活函数的卷积块;动态卷积组件的操作流程记为:Fd=DCC(Fr,Ft)。
上述步骤S3模态对齐模块MAM的整体处理方法为:
MAM(Fr,Ft)=ConvBlock([STC(Fr,Ft),FTC(Fr,Ft),DCC(Fr,Ft)]);
获得所述步骤S3中全局特征G的具体操作为:
G=MAM(Gr,Gt)。这样能够更好地获得全局上下文信息。
为实现从粗到精和从精到粗的感知策略,该双重感知解码器有更多的潜力来学习选择和抑制目标任务的编码特征。所述步骤S4中使用双重感知解码器处理的具体方法为:使用两个共享MC-ConvLSTM分别以自顶向下和自底向上的方式进行解码;
其中BottomUp(*,*,*,*)和TopDown(*,*,*,*)分别代表两个MC-ConvLSTM;hBi和hTi是MC-ConvLSTM的隐藏状态,即为解码特征;
将所有初始隐藏状态和单元状态设置为零,然后使用普通的ConvLSTM接收两个MC-ConvLSTM的隐藏状态hBi和hTi,并优化如下:
hi=ConvLSTM(hBi,hTi)
进一步地,所述步骤S5的详细内容为:
给定最终显著图S={Si|i={1,...,T}和真实数据Y={Yi|i={1,...,T},其中T是总像素数;
二元交叉熵BCE损失函数为:
在训练过程中,仅使用BCE损失函数进行监督,将其应用于四个预测的显著图;
为获得更准确的全局信息,此处还添加了对全局上下文G的监督;使用得分层计算G,然后将其上采样到与Y相同的分辨率;这样就得到了一个粗显著图Sg;
Lg=L(Sg,Y)
因此,最终的损失函数为:
L=Ls+Lg。
有益效果:与本发明相比,现有技术具有以下优点:
(1)本发明基于模态相关的双重感知网络,解决了现有技术中有关非配准RGB-TSOD的问题。
(2)本发明的模态对齐模块MAM包括空间仿射变换,特征仿射变换和动态卷积运算,能够提供更强大的建立模态关联的能力。
(3)本发明优化解码器感知模式,能实现从粗到精和从精到粗的感知,且本发明的深度模型具有更强大的信息选择和抑制能力。
附图说明
图1为本发明的整体流程示意图;
图2为实施例的网络模型示意图;
图3为本发明的生成动态卷积核并执行动态卷积的过程示意图;
图4为本发明的双重感知解码器的处理流程示意图;
图5为本发明的与现有技术方案的显著图比较;
图6为本发明的在非配准案例上的特征可视化视图;
图7为本发明的两种感知模式解码器与本技术方案解码器的解码特征可视化示意图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
本实施例的一种基于模态关联与双感知解码器的RGB-T的显著性目标检测方法,具体步骤如下:
步骤(1)、给定一张可见光图像和一张该图像对应的红外图像,使用去除全连接层的VGG16网络,并分别从RGB和T模态提取各自的分层特征后去除最浅层,分别将可见图像特征标记为R1~R4,热红外图像的特征标记为T1~T4。
步骤(2)、将步骤(1)中得到的R4和T4经过金字塔池化得到Gr和Gt。
步骤(3)、将步骤(2)中的Gr和Gt使用特征对齐模块(MAM)进行处理得到G,其中MAM应用了空间仿射变换,特征仿射变换和一个动态卷积层来用于特征对齐和更灵活的模态关联。
成动态卷积核并执行动态卷积的过程如图3所示,在Fr上应用卷积块以生成动态滤波器在每个像素位置,κ具有C*k2个通道,可以将其重组为RC×k×k用作卷积核。因此,对于红外特征Ft,所有像素都有自己的卷积核。然后将Ft与生成的核进行卷积,从而可以建立通道关联性。
由于MAM模块的空间仿射变换组件、特征仿射变换组件也会用在C-ConvLSTM中,而MC-ConvLSTM接受其他层的编码特征,因此,此处使用Fr和Ft来表示输入的两个模态的特征。
κ=ConvBlock(Fr)
步骤(4)、将步骤(1)中所得到的R1-R4与T1-T4和步骤(3)中得到的G通过双重感知解码器处理得到S1~S4。S4作为最终的显著图。本实施例中双重感知解码器的特征流如图4所示。
该实施例中的具体网络框架和流程如图1和图2所示,上述络模型中,MAM中的三个组件作为最核心的部分,为两个模态的特征建立了强关联性,从而网络能够以监督学习的方式学会去应对非配准图像对。此外,该网络模型中的双感知解码器利用了两种感知模式,最大程度的利用了编码特征的信息,具有强大的信息选择和抑制能力,因此最终的显著图能够更精确、置信度更高。
另外,由于ConvLSTM被广泛用于学习图像序列模式,因此通过在MAM中添加前两个组件和全局上下文增强部分来设计模态相关的ConvLSTM(MC-ConvLSTM)。本发明使用两个MC-ConvLSTM作为感知单元来学习两种感知模式,该模块如图2的左下角所示。
本发明的MC-ConvLSTM是对现有ConvLSTM的改进优化,其中结合了空间仿射变换组件和特征仿射变换组件,并且利用全特征G来增强解码过程中的位置信息。
实施例1:
步骤1、本实施例使用公开的RGBT SOD数据集,VT821、VT1000、VT5000。
其中,VT821包含821对可见光和热红外图像对,VT1000包含1000对可见光和热红外图像对,VT5000分为训练集和测试集,分别包含2500对可见光和热红外图像对。
步骤2、本实施采用VT5000训练集训练网络,由于目前的数据集都是已配准图像对,为了模拟非配准的实验环境,本实施采用随机空间仿射变换来处理输入图像对,并使用随机水平翻转的数据增强方式获得多样性数据。本实施例的网络在一个Titan Xp GPU上以批大小为4训练了100轮。采用随机梯度下降优化方法训练,学习率为10-3,输入图像尺寸为352×352。
步骤3、为便于定量评估,本实施例采用了4种广泛使用的指标。
(1)、平均绝对误差(MAE)。MAE定义为:
其中T为总像素数量和S为预测显著图,Y是真值图。
(2)、F-measure(Fm)。它被定义为精确率和召回率的加权调和平均值。
F-measure公式为:
其中β2=0.3,表示更关注精确率。
(3)、S-measure(Sm)。Sm计算预测图和真值标签之间的目标感知结构相似
度(S0)和区域感知结构相似度(Sr)。Sm如下所示:
Sm=α·S0+(1-α)·Sr
其中α设置为0.5。
(4)、E-measure(Em)。该度量是一种增强的对齐度量,联合捕获图像级统计信息和像素级匹配信息。
步骤4、将本发明技术方案与其他现有技术比较。
本实施例将本发明技术方案的网络与其他11种方法进行比较。
比较方法包括6个基于可见光的SOD方法:PFA、R3Net、BASNet、PoolNet、CPD、EGNet。此外,还包括5个现有的RGBT SOD方法:MTMR、M3S-NIR、SGDL、ADF、SiamDecoder。
所有结果均由作者提供的代码生成。
定量比较:
本实施例的具体对比试验结果如表1所示,本实施例在三个数据集上使用Em、Sm、Fm、maxF和MAE来评估对应的显著图。在所有的评估指标中,本发明的方法得到了最高的分数。并与次优结果(SiamDecoder)进行比较,分别有平均2.1%、0.6%、4.4%、2.2%和6.5%的性能提升。
表1
表1最后一行。本实施例进一步测试的非对齐数据,虽然本发明的方法接收非配准的图像对,与在配准的数据上测试的对比方法相比较,仍然是最优的。
定性评价:
如图5所示,本实施进行与其他技术方案最终显著图的比较。本实施选择了10对具有挑战性的样本,从图中可以发现,本发明的方法对显著区域的分割更加准确。对比的技术方案在考虑模态融合时,可以在一定程度上应对模态质量差(第6,第7和第10行)的影响,但它们不能建立模式之间更强的相关性。因此,他们可能会在有模态偏置的样本上犯一些错误(第1~4行)。在这些具有挑战性的样本上,本发明的方法得益于MAM和双感知解码器,可以准确地聚焦于共同显著区域。
步骤5、评估发明技术方案对非配准图像的有效性以及双感知解码器的有效性。
如图6所示的两对非配准图像,第一行是采用空间转换组件的特征可视化结果,第二行是不采用空间转换组件的特征可视化结果。可以发现,使用空间转换组件获得的特征图质量更好,本发明技术方案对非配准图像也能很准确的检测出显著目标。
如图7所示,第一行是由精到粗的感知过程。可以看到,通过融合低分辨率的信息,主体区域逐渐被填充。但是由于原始的最精细的编码特征包含了太多的噪声细节,导致错误像素难以被修正,从而导致预测一些错误区域。第二行是粗到精的感知过程,可以发现主体区域周围的细节区域是逐渐细化的,但也存在一个严重的问题,即如果原始粗糙,显着区域的缺失部分很难被预测到。本技术方案结合两种感知模式,结果显示出更少的噪声区域和缺失部分。这些现象证明了本技术方案的观点,即粗到精的感知是在一般主体区域的基础上推断细节的过程,而精到粗的感知是根据现有的细节填充主体区域的过程。将这两种感知模式结合起来,解码器在选择信息和抑制噪声方面具有更大的潜力。
Claims (9)
1.一种基于模态关联与双感知解码器的RGB-T的显著性目标检测方法,其特征在于:包括以下内容:
S1、使用一个特征编码器编码获得可见光图像和红外图像的多级特征,并将可见光特征标记为R1~R4,红外特征标记为T1~T4;
S2、将所得最深层特征R4和T4经过金字塔池化PPM处理得到具有全局感受野的两个模态的全局特征Gr和Gt;
S3、使用模态对齐模块MAM对Gr和Gt进行模态关联处理,进而得到实现空间对齐和信息互补的全局特征G;该模态对齐模块MAM包括空间仿射变换,特征仿射变换和一个动态卷积层;
S4、步骤S1中所得到的R1~R4与T1~T4和步骤S3所得全局特征G通过双重感知解码器处理得到四个预测显著图S1~S4;S4为最终显著图;
S5、通过二元交叉熵BCE损失函数监督训练网络模型。
2.根据权利要求1所述的基于模态关联与双感知解码器的RGB-T的显著性目标检测方法,其特征在于:所述步骤S1中的特征编码器采用去除全连接层的共享参数的VGG16网络分别从可见光和红外模态提取各自的分层特征并去除最浅层,并且在VGG16的每个块中添加一个过渡层;该过渡层是一个3*3的卷积层,步长为2,填充为1,输出通道为128;
然后使用批归一化对特征进行归一化并使用Relu激活函数实现非线性激活;
最后将可见图像的多级特征标记为R1~R4,将红外图像的多级特征标记为T1~T4。
3.根据权利要求1所述的基于模态关联与双感知解码器的RGB-T的显著性目标检测方法,其特征在于:所述步骤S2中金字塔池化PPM处理过程如下:
Gr=PPM(R4);
Gt=PPM(T4)。
4.根据权利要求1所述的基于模态关联与双感知解码器的RGB-T的显著性目标检测方法,其特征在于:所述步骤S3中空间仿射变换的具体方法为:采用空间转换网络STN接收两种模态的相应特征,标记为Fr和Ft,并预测空间仿射矩阵标,记为Mp;Mp是一个2×3矩阵;
Mp=STN([Fr,Ft]);
其中,φ(*,*)为Pytorch深度学习框架集成的函数;
其中,ConvBlock是具有卷积层、批归一化和Relu激活函数的卷积块;空间仿射变换组件的操作流程记为:Fs=STC(Fr,Ft)。
6.根据权利要求1所述的基于模态关联与双感知解码器的RGB-T的显著性目标检测方法,其特征在于:所述步骤S3动态卷积层的具体操作为:
在每个像素位置,κ具有C*k2个通道,将其重组为RC×k×k用作卷积核;因此,对于红外特征Ft所有像素均具有自己的卷积核;然后将Ft与生成的卷积核进行卷积,进而建立通道关联性;
κ=ConvBlock(Fr)
ConvBlock是具有卷积层、批归一化和Relu激活函数的卷积块;
动态卷积组件的操作流程记为:Fd=DCC(Fr,Ft)。
7.根据权利要求1所述的基于模态关联与双感知解码器的RGB-T的显著性目标检测方法,其特征在于:所述步骤S3模态对齐模块MAM的具体操作为:
MAM(Fr,Ft)=ConvBlock([STC(Fr,Ft),FTC(Fr,Ft),DCC(Fr,Ft)]);
获得所述步骤S3中全局特征G的具体操作为:
G=MAM(Gr,Gt)。
8.根据权利要求1所述的基于模态关联与双感知解码器的RGB-T的显著性目标检测方法,其特征在于:所述步骤S4中使用双重感知解码器处理的具体方法为:使用两个共享MC-ConvLSTM分别以自顶向下和自底向上的方式进行解码;
其中BottomUp(*,*,*,*)和TopDown(*,*,*,*)分别代表两个MC-ConvLSTM;hBi和hTi是MC-ConvLSTM的隐藏状态,即为解码特征;
将所有初始隐藏状态和单元状态设置为零,然后使用普通的ConvLSTM接收两个MC-ConvLSTM的隐藏状态hBi和hTi,并优化如下:
hi=ConvLSTM(hBi,hTi)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110645432.8A CN113298094B (zh) | 2021-06-10 | 2021-06-10 | 一种基于模态关联与双感知解码器的rgb-t的显著性目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110645432.8A CN113298094B (zh) | 2021-06-10 | 2021-06-10 | 一种基于模态关联与双感知解码器的rgb-t的显著性目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113298094A true CN113298094A (zh) | 2021-08-24 |
CN113298094B CN113298094B (zh) | 2022-11-04 |
Family
ID=77327777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110645432.8A Active CN113298094B (zh) | 2021-06-10 | 2021-06-10 | 一种基于模态关联与双感知解码器的rgb-t的显著性目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113298094B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114092774B (zh) * | 2021-11-22 | 2023-08-15 | 沈阳工业大学 | 基于信息流融合的rgb-t图像显著性检测系统及检测方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2995850A1 (en) * | 2015-08-31 | 2017-03-09 | Ryan Kottenstette | Systems and methods for analyzing remote sensing imagery |
WO2018028255A1 (zh) * | 2016-08-11 | 2018-02-15 | 深圳市未来媒体技术研究院 | 基于对抗网络的图像显著性检测方法 |
US20180060701A1 (en) * | 2016-08-31 | 2018-03-01 | Adobe Systems Incorporated | Deep-learning network architecture for object detection |
EP3404578A1 (en) * | 2017-05-17 | 2018-11-21 | Samsung Electronics Co., Ltd. | Sensor transformation attention network (stan) model |
CN110210539A (zh) * | 2019-05-22 | 2019-09-06 | 西安电子科技大学 | 多级深度特征融合的rgb-t图像显著性目标检测方法 |
CN110610210A (zh) * | 2019-09-18 | 2019-12-24 | 电子科技大学 | 一种多目标检测方法 |
CN110633708A (zh) * | 2019-06-28 | 2019-12-31 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于全局模型和局部优化的深度网络显著性检测方法 |
AU2020100178A4 (en) * | 2020-02-04 | 2020-03-19 | Huang, Shuying DR | Multiple decision maps based infrared and visible image fusion |
CN111583173A (zh) * | 2020-03-20 | 2020-08-25 | 北京交通大学 | 一种rgb-d图像显著性目标检测方法 |
CN111582316A (zh) * | 2020-04-10 | 2020-08-25 | 天津大学 | 一种rgb-d显著性目标检测方法 |
CN112347861A (zh) * | 2020-10-16 | 2021-02-09 | 浙江工商大学 | 一种基于运动特征约束的人体姿态估计方法 |
CN112347859A (zh) * | 2020-10-15 | 2021-02-09 | 北京交通大学 | 一种光学遥感图像显著性目标检测方法 |
WO2021088300A1 (zh) * | 2019-11-09 | 2021-05-14 | 北京工业大学 | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 |
CN112801182A (zh) * | 2021-01-27 | 2021-05-14 | 安徽大学 | 一种基于困难样本感知的rgbt目标跟踪方法 |
CN112836713A (zh) * | 2021-03-12 | 2021-05-25 | 南京大学 | 基于图像无锚框检测的中尺度对流系统识别与追踪方法 |
-
2021
- 2021-06-10 CN CN202110645432.8A patent/CN113298094B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2995850A1 (en) * | 2015-08-31 | 2017-03-09 | Ryan Kottenstette | Systems and methods for analyzing remote sensing imagery |
WO2018028255A1 (zh) * | 2016-08-11 | 2018-02-15 | 深圳市未来媒体技术研究院 | 基于对抗网络的图像显著性检测方法 |
US20180060701A1 (en) * | 2016-08-31 | 2018-03-01 | Adobe Systems Incorporated | Deep-learning network architecture for object detection |
EP3404578A1 (en) * | 2017-05-17 | 2018-11-21 | Samsung Electronics Co., Ltd. | Sensor transformation attention network (stan) model |
CN110210539A (zh) * | 2019-05-22 | 2019-09-06 | 西安电子科技大学 | 多级深度特征融合的rgb-t图像显著性目标检测方法 |
CN110633708A (zh) * | 2019-06-28 | 2019-12-31 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于全局模型和局部优化的深度网络显著性检测方法 |
CN110610210A (zh) * | 2019-09-18 | 2019-12-24 | 电子科技大学 | 一种多目标检测方法 |
WO2021088300A1 (zh) * | 2019-11-09 | 2021-05-14 | 北京工业大学 | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 |
AU2020100178A4 (en) * | 2020-02-04 | 2020-03-19 | Huang, Shuying DR | Multiple decision maps based infrared and visible image fusion |
CN111583173A (zh) * | 2020-03-20 | 2020-08-25 | 北京交通大学 | 一种rgb-d图像显著性目标检测方法 |
CN111582316A (zh) * | 2020-04-10 | 2020-08-25 | 天津大学 | 一种rgb-d显著性目标检测方法 |
CN112347859A (zh) * | 2020-10-15 | 2021-02-09 | 北京交通大学 | 一种光学遥感图像显著性目标检测方法 |
CN112347861A (zh) * | 2020-10-16 | 2021-02-09 | 浙江工商大学 | 一种基于运动特征约束的人体姿态估计方法 |
CN112801182A (zh) * | 2021-01-27 | 2021-05-14 | 安徽大学 | 一种基于困难样本感知的rgbt目标跟踪方法 |
CN112836713A (zh) * | 2021-03-12 | 2021-05-25 | 南京大学 | 基于图像无锚框检测的中尺度对流系统识别与追踪方法 |
Non-Patent Citations (7)
Title |
---|
MOAB ARAR 等: "Unsupervised Multi-Modal Image Registration via Geometry Preserving Image-to-Image Translation", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
MORITZ BOHLE 等: "Convolutional Dynamic Alignment Networks for Interpretable Classifications", 《ARXIV》 * |
YINPENG CHEN 等: "Dynamic Convolution: Attention Over Convolution Kernels", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
ZHE WU 等: "Cascaded Partial Decoder for Fast and Accurate Salient Object Detection", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
ZHENGZHENG TU 等: "Edge-Guided Non-Local Fully Convolutional Network for Salient Object Detection", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 * |
ZHENGZHENG TU 等: "Multi-interactive Dula-decoder for RGB-thermal Salient Object Detection", 《ARXIV》 * |
郭秋杉: "基于动态循环神经网络的物体检测技术研究", 《中国优秀硕士论文全文数据库信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114092774B (zh) * | 2021-11-22 | 2023-08-15 | 沈阳工业大学 | 基于信息流融合的rgb-t图像显著性检测系统及检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113298094B (zh) | 2022-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Depth quality-inspired feature manipulation for efficient RGB-D salient object detection | |
CN109558832B (zh) | 一种人体姿态检测方法、装置、设备及存储介质 | |
Zhou et al. | Salient object detection in stereoscopic 3D images using a deep convolutional residual autoencoder | |
Zhao et al. | Self-supervised pretraining for RGB-D salient object detection | |
Rad et al. | Domain transfer for 3d pose estimation from color images without manual annotations | |
Zhou et al. | BCINet: Bilateral cross-modal interaction network for indoor scene understanding in RGB-D images | |
Xue et al. | Boundary-induced and scene-aggregated network for monocular depth prediction | |
CN115631121A (zh) | 一种基于自监督学习的全景图像显著性预测方法 | |
CN113139544A (zh) | 一种基于多尺度特征动态融合的显著性目标检测方法 | |
CN113076947A (zh) | 一种交叉引导融合的rgb-t图像显著性检测系统 | |
CN114419323A (zh) | 基于跨模态学习与领域自适应rgbd图像语义分割方法 | |
CN116434033A (zh) | 面向rgb-d图像稠密预测任务的跨模态对比学习方法及系统 | |
CN114663371A (zh) | 基于模态独有和共有特征提取的图像显著目标检测方法 | |
CN115049921A (zh) | 基于Transformer边界感知的光学遥感图像显著目标检测方法 | |
Zhao et al. | Self-supervised representation learning for RGB-D salient object detection | |
CN113298094B (zh) | 一种基于模态关联与双感知解码器的rgb-t的显著性目标检测方法 | |
CN114359626A (zh) | 基于条件生成对抗网络的可见光-热红外显著目标检测方法 | |
Zhu et al. | Boosting RGB-D salient object detection with adaptively cooperative dynamic fusion network | |
Xi et al. | A multilevel-guided curriculum domain adaptation approach to semantic segmentation for high-resolution remote sensing images | |
Zhou et al. | CMPFFNet: Cross-modal and progressive feature fusion network for RGB-D indoor scene semantic segmentation | |
Wei et al. | Bidirectional attentional interaction networks for rgb-d salient object detection | |
Zang et al. | Texture-aware gray-scale image colorization using a bistream generative adversarial network with multi scale attention structure | |
CN116452793A (zh) | 一种基于多视角和多层级的绿色编解码显著目标检测方法 | |
CN115661482A (zh) | 一种基于联合注意力的rgb-t显著目标检测方法 | |
Zou et al. | Gpt-cope: A graph-guided point transformer for category-level object pose estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |