CN113298094A - 一种基于模态关联与双感知解码器的rgb-t的显著性目标检测方法 - Google Patents

一种基于模态关联与双感知解码器的rgb-t的显著性目标检测方法 Download PDF

Info

Publication number
CN113298094A
CN113298094A CN202110645432.8A CN202110645432A CN113298094A CN 113298094 A CN113298094 A CN 113298094A CN 202110645432 A CN202110645432 A CN 202110645432A CN 113298094 A CN113298094 A CN 113298094A
Authority
CN
China
Prior art keywords
feature
rgb
convolution
characteristic
association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110645432.8A
Other languages
English (en)
Other versions
CN113298094B (zh
Inventor
涂铮铮
李准
王沛洲
臧兴华
樊康
潘正悦
田英健
李成龙
汤进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202110645432.8A priority Critical patent/CN113298094B/zh
Publication of CN113298094A publication Critical patent/CN113298094A/zh
Application granted granted Critical
Publication of CN113298094B publication Critical patent/CN113298094B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开一种基于模态关联与双感知解码器的RGB‑T的显著性目标检测方法,本发明通过模态对齐模块(MAM)来建模两种模态的强关联性,其空间仿射变换,特征仿射变换和一个动态卷积层来实现特征对齐和建立更灵活的模态关联性;本发明的双重解码器结合自底向上和自顶向下的方式,学习由精到粗和由粗到精的两种感知过程,从而获得更强大的信息选择与融合的能力;进一步通过将MAM中的前两个组件和全局上下文增强部分添加到ConvLSTM中,本发明的显著图比其他先进的方法具有更高的置信度。

Description

一种基于模态关联与双感知解码器的RGB-T的显著性目标检 测方法
技术领域
本发明属于图像处理技术,具体涉及一种基于模态关联与双感知解码器的RGB-T的显著性目标检测方法。
背景技术
显著性目标检测旨在利用算法检测和分割出图像中的显著性目标区域。作为一些视觉任务预处理步骤,显著性目标检测在视觉跟踪、图像识别、图像压缩、图像融合等视觉任务中起着至关重要的作用。
现有的显著目标检测方法可以分为两大类:一类是基于传统的显著性目标检测方法,另一类是基于深度学习的显著性目标检测方法。基于传统的显著性目标检测算法通过手工提取的颜色、纹理、方向等特征完成显著性预测,过度依赖于人工选取的特征,对场景适应性不强,在复杂数据集上表现不佳。随着深度学习的广泛应用,基于深度学习的显著性目标检测研究取得了突破性进展,相较于传统的显著性算法,检测性能显著提高。
RGB-T显著物体检测专注于分割成对的可见图像和热红外图像的共同显著区域。它是对显著目标检测任务的一种新的扩展,已经进行了很多探索。得益于热传感器,互补的温度信息有助于对可见光图像的研究。与可见光SOD任务的主观性不同,RGB-T SOD更为客观,因为显著区域是由两种模态确定的。因此,在RGB-T SOD中,最主要的问题是探索两种模态的关联性。
现有的一些研究主要集中在信息互补和融合的方式上。在早期的工作中,使用传统的基于图的方法来推断显著性,通过添加先验约束和手工特征融合来融合两种模态。由于手工特征的局限性,后来又有研究提出通过协同图学习算法来集成多层深度特征,从而进一步提高RGB-T SOD的性能。然而,这些传统方法依赖于鲁棒的超像素分割结果,并且不能有效地体现模态的关联性。随着深度学习的发展,它卓越的特征表示能力和端到端网络可以避免对超像素的依赖。如今已经提出了几种不同的基于深度学习的方法来融合多尺度,多模态和多层次的特征。这些方法在RGB-T模态互补方面取得了很大的进步,从而带来了更好的性能。最近,有研究提出解决模态偏置问题的在RGB-T显著目标检测中的有效性,设计一个多交互的双重解码器,以通过真值监督来隐式约束偏置区域。
但是,所有上述方法都融合了用于信息补充的模态,并依赖于配准的RGB-T图像对,存在以下问题:
一方面,由于视角偏差,传感器总是捕获未对准的图像对,这些图像对存在透视偏差,手动标注是一项耗费劳力的工作,因此导致更高的研究成本;
另一方面,探索信息互补只是一个目标,使用两种模态的关键点是建立关联性,这不仅用于信息补充,而且还用于空间、特征、语义的对齐,一旦建立了良好的关联性,就可以解决非配准的图像对和模态偏置的问题。
发明内容
发明目的:本发明提供一种基于模态关联与双感知解码器的RGB-T的显著性目标检测方法,本发明无需配准的RGB-T显著目标检测模型即可解决现有技术中处理非配准的图像和模态偏置的问题,获得更高精度和更高置信度的显著图像。
技术方案:本发明的一种基于模态关联与双感知解码器的RGB-T的显著性目标检测方法,包括以下内容:
S1、使用一个特征编码器编码获得可见光图像和红外图像的多级特征,并将可见光特征标记为R1~R4,红外特征标记为T1~T4
S2、将所得最深层特征R4和T4经过金字塔池化PPM处理得到具有全局感受野的两个模态的全局特征Gr和Gt;Gr和Gt包含各自模态中目标的位置信息,这两个特征作为信息来源在S3中计算两个模态空间对齐的信息互补的全局特征G;
S3、使用模态对齐模块MAM对Gr和Gt进行模态关联处理,进而得到实现空间对齐和信息互补的全局特征G;该模态对齐模块MAM包括空间仿射变换,特征仿射变换和一个动态卷积层;
S4、步骤S1中所得到的R1~R4与T1~T4和步骤S3所得全局特征G通过双重感知解码器处理得到四个预测显著图S1~S4;S4为最终显著图;
S5、通过标注的真值用一个二元交叉熵BCE损失函数监督训练网络模型,由二元交叉熵损失函数计算梯度,通过梯度反向传播更新网络模型的参数。
进一步地,所述步骤S1中的特征编码器采用去除全连接层的共享参数的VGG16网络分别从可见光和红外模态提取各自的分层特征并去除最浅层(浅层的特征信息对特征图贡献很小,直接去除),并且在VGG16的每个块中添加一个过渡层,以降低分辨率并统一通道数;该过渡层是一个3*3的卷积层,步长为2,填充为1,输出通道为128;
然后使用批归一化对特征进行归一化并使用Relu激活函数实现非线性激活;
最后将可见图像的多级特征标记为R1~R4,将红外图像的多级特征标记为T1~T4
进一步地,所述步骤S2中金字塔池化PPM处理过程如下:
Gr=PPM(R4);
Gt=PPM(T4)。
为能够解决空间偏差、模态偏差和信息互补的问题,步骤S3中空间仿射变换的具体方法为:采用空间转换网络STN接收两种模态的相应特征,标记为Fr和Ft,并预测空间仿射矩阵标,记为Mp;Mp是一个2×3矩阵,定义平移、旋转、错切和缩放操作;
Mp=STN([Fr,Ft]);
然后,根据坐标映射计算Ft并获得空间变换热红外特征
Figure BDA0003109362490000034
Figure BDA0003109362490000031
其中,Φ(*,*)为Pytorch深度学习框架集成的函数;
最后,将Fr
Figure BDA0003109362490000032
进行通道合并,并通过具有64个输出通道的卷积块将它们融合;最终输出是标记为Fs的空间相关特征;
Figure BDA0003109362490000033
其中,ConvBlock是具有卷积层、批归一化和Relu激活函数的卷积块;
最后空间仿射变换组件的操作流程记为:Fs=STC(Fr,Ft)。
由于两个模态传感器的位置偏差,所捕获的图像对具有透视偏差,这不易通过空间仿射变换进行校正,而且没有有效的监督来限制STN的学习,这进一步增加了空间对齐的难度,因此,单一的空间仿射变换部分无法解决上述问题。
为解决上述问题,所述步骤S3执行特征仿射变换,生成动态调制参数建立两个模态特征之间的关联。该特征仿射变换即是指使用Fr来调制Ft,具体为方法,
在Fr上应用两个卷积块分别生成一个通道的调制参数α和β;
α=ConvBlock(Fr)
β=ConvBlock(Fr)
然后用α和β对Ft进行变换,得到特征仿变换的红外特征标记为
Figure BDA0003109362490000041
Figure BDA0003109362490000042
直接将Fr
Figure BDA0003109362490000043
与另一个卷积块相加,以生成最终输出特征,标记为Ff,该特征表示各特征之间的相关性;
Figure BDA0003109362490000044
最后,特征仿射变换组件的操作流程记为:Ff=FTC(Fr,Ft)。
经过空间仿射变换和特征仿射变换后的,高级语义特征的表示能力未得到全部体现,为解决该问题,本发明通过动态卷积层的组件,以建立两种模态之间的高级语义相关性。步骤S3中动态卷积层的具体操作为:
在Fr上应用卷积块以生成动态滤波器
Figure BDA0003109362490000045
C是特征Ft的通道数,k是生成的卷积核的长(宽)像素数,H是特征Ft的长的像素数,W是特征Ft的宽的像素数;
在每个像素位置,κ具有C*k2个通道,将其重组为RC×k×k用作卷积核;对于红外特征Ft所有像素均具有自己的卷积核;然后将Ft与生成的卷积核进行卷积,进而建立通道关联性;
κ=ConvBlock(Fr)
Figure BDA0003109362490000046
DynamicConv包含卷积核重组和通道分离卷积;
Figure BDA0003109362490000047
是输出特征;
最后,直接将
Figure BDA0003109362490000048
Figure BDA0003109362490000049
相加,使用一个卷积块(ConvBlock)来重组,以生成最终输出特征Fd,特征Fd表示高级的模态语义关联;
Figure BDA00031093624900000410
ConvBlock是具有卷积层、批归一化和Relu激活函数的卷积块;动态卷积组件的操作流程记为:Fd=DCC(Fr,Ft)。
上述步骤S3模态对齐模块MAM的整体处理方法为:
MAM(Fr,Ft)=ConvBlock([STC(Fr,Ft),FTC(Fr,Ft),DCC(Fr,Ft)]);
获得所述步骤S3中全局特征G的具体操作为:
G=MAM(Gr,Gt)。这样能够更好地获得全局上下文信息。
为实现从粗到精和从精到粗的感知策略,该双重感知解码器有更多的潜力来学习选择和抑制目标任务的编码特征。所述步骤S4中使用双重感知解码器处理的具体方法为:使用两个共享MC-ConvLSTM分别以自顶向下和自底向上的方式进行解码;
Figure BDA0003109362490000051
Figure BDA0003109362490000052
其中BottomUp(*,*,*,*)和TopDown(*,*,*,*)分别代表两个MC-ConvLSTM;hBi和hTi是MC-ConvLSTM的隐藏状态,即为解码特征;
将所有初始隐藏状态和单元状态设置为零,然后使用普通的ConvLSTM接收两个MC-ConvLSTM的隐藏状态hBi和hTi,并优化如下:
hi=ConvLSTM(hBi,hTi)
然后得到四个解码特征为
Figure BDA0003109362490000053
在解码特征
Figure BDA0003109362490000054
上采用一个具有单输出通道的1*1卷积层作为得分层,再利用sigmoid函数将得分值约束到0~1,得到四个预测的显著图标,记为S1~S4,S4为最终显著图。
进一步地,所述步骤S5的详细内容为:
给定最终显著图S={Si|i={1,...,T}和真实数据Y={Yi|i={1,...,T},其中T是总像素数;
二元交叉熵BCE损失函数为:
Figure BDA0003109362490000055
在训练过程中,仅使用BCE损失函数进行监督,将其应用于四个预测的显著图;
Figure BDA0003109362490000056
为获得更准确的全局信息,此处还添加了对全局上下文G的监督;使用得分层计算G,然后将其上采样到与Y相同的分辨率;这样就得到了一个粗显著图Sg
Lg=L(Sg,Y)
因此,最终的损失函数为:
L=Ls+Lg
有益效果:与本发明相比,现有技术具有以下优点:
(1)本发明基于模态相关的双重感知网络,解决了现有技术中有关非配准RGB-TSOD的问题。
(2)本发明的模态对齐模块MAM包括空间仿射变换,特征仿射变换和动态卷积运算,能够提供更强大的建立模态关联的能力。
(3)本发明优化解码器感知模式,能实现从粗到精和从精到粗的感知,且本发明的深度模型具有更强大的信息选择和抑制能力。
附图说明
图1为本发明的整体流程示意图;
图2为实施例的网络模型示意图;
图3为本发明的生成动态卷积核并执行动态卷积的过程示意图;
图4为本发明的双重感知解码器的处理流程示意图;
图5为本发明的与现有技术方案的显著图比较;
图6为本发明的在非配准案例上的特征可视化视图;
图7为本发明的两种感知模式解码器与本技术方案解码器的解码特征可视化示意图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
本实施例的一种基于模态关联与双感知解码器的RGB-T的显著性目标检测方法,具体步骤如下:
步骤(1)、给定一张可见光图像和一张该图像对应的红外图像,使用去除全连接层的VGG16网络,并分别从RGB和T模态提取各自的分层特征后去除最浅层,分别将可见图像特征标记为R1~R4,热红外图像的特征标记为T1~T4
步骤(2)、将步骤(1)中得到的R4和T4经过金字塔池化得到Gr和Gt
步骤(3)、将步骤(2)中的Gr和Gt使用特征对齐模块(MAM)进行处理得到G,其中MAM应用了空间仿射变换,特征仿射变换和一个动态卷积层来用于特征对齐和更灵活的模态关联。
成动态卷积核并执行动态卷积的过程如图3所示,在Fr上应用卷积块以生成动态滤波器
Figure BDA0003109362490000071
在每个像素位置,κ具有C*k2个通道,可以将其重组为RC×k×k用作卷积核。因此,对于红外特征Ft,所有像素都有自己的卷积核。然后将Ft与生成的核进行卷积,从而可以建立通道关联性。
由于MAM模块的空间仿射变换组件、特征仿射变换组件也会用在C-ConvLSTM中,而MC-ConvLSTM接受其他层的编码特征,因此,此处使用Fr和Ft来表示输入的两个模态的特征。
κ=ConvBlock(Fr)
Figure BDA0003109362490000072
DynamicConv包含卷积核重组操作和通道分离卷积操作。
Figure BDA0003109362490000073
是输出特征。最后,直接将
Figure BDA0003109362490000074
Figure BDA0003109362490000075
相加,使用另一个卷积块生成最终输出特征,标记为Fd,该特征表示模态高级语义关联性。
Figure BDA0003109362490000076
步骤(4)、将步骤(1)中所得到的R1-R4与T1-T4和步骤(3)中得到的G通过双重感知解码器处理得到S1~S4。S4作为最终的显著图。本实施例中双重感知解码器的特征流如图4所示。
该实施例中的具体网络框架和流程如图1和图2所示,上述络模型中,MAM中的三个组件作为最核心的部分,为两个模态的特征建立了强关联性,从而网络能够以监督学习的方式学会去应对非配准图像对。此外,该网络模型中的双感知解码器利用了两种感知模式,最大程度的利用了编码特征的信息,具有强大的信息选择和抑制能力,因此最终的显著图能够更精确、置信度更高。
另外,由于ConvLSTM被广泛用于学习图像序列模式,因此通过在MAM中添加前两个组件和全局上下文增强部分来设计模态相关的ConvLSTM(MC-ConvLSTM)。本发明使用两个MC-ConvLSTM作为感知单元来学习两种感知模式,该模块如图2的左下角所示。
本发明的MC-ConvLSTM是对现有ConvLSTM的改进优化,其中结合了空间仿射变换组件和特征仿射变换组件,并且利用全特征G来增强解码过程中的位置信息。
实施例1:
步骤1、本实施例使用公开的RGBT SOD数据集,VT821、VT1000、VT5000。
其中,VT821包含821对可见光和热红外图像对,VT1000包含1000对可见光和热红外图像对,VT5000分为训练集和测试集,分别包含2500对可见光和热红外图像对。
步骤2、本实施采用VT5000训练集训练网络,由于目前的数据集都是已配准图像对,为了模拟非配准的实验环境,本实施采用随机空间仿射变换来处理输入图像对,并使用随机水平翻转的数据增强方式获得多样性数据。本实施例的网络在一个Titan Xp GPU上以批大小为4训练了100轮。采用随机梯度下降优化方法训练,学习率为10-3,输入图像尺寸为352×352。
步骤3、为便于定量评估,本实施例采用了4种广泛使用的指标。
(1)、平均绝对误差(MAE)。MAE定义为:
Figure BDA0003109362490000081
其中T为总像素数量和S为预测显著图,Y是真值图。
(2)、F-measure(Fm)。它被定义为精确率和召回率的加权调和平均值。
F-measure公式为:
Figure BDA0003109362490000082
其中β2=0.3,表示更关注精确率。
(3)、S-measure(Sm)。Sm计算预测图和真值标签之间的目标感知结构相似
度(S0)和区域感知结构相似度(Sr)。Sm如下所示:
Sm=α·S0+(1-α)·Sr
其中α设置为0.5。
(4)、E-measure(Em)。该度量是一种增强的对齐度量,联合捕获图像级统计信息和像素级匹配信息。
步骤4、将本发明技术方案与其他现有技术比较。
本实施例将本发明技术方案的网络与其他11种方法进行比较。
比较方法包括6个基于可见光的SOD方法:PFA、R3Net、BASNet、PoolNet、CPD、EGNet。此外,还包括5个现有的RGBT SOD方法:MTMR、M3S-NIR、SGDL、ADF、SiamDecoder。
所有结果均由作者提供的代码生成。
定量比较:
本实施例的具体对比试验结果如表1所示,本实施例在三个数据集上使用Em、Sm、Fm、maxF和MAE来评估对应的显著图。在所有的评估指标中,本发明的方法得到了最高的分数。并与次优结果(SiamDecoder)进行比较,分别有平均2.1%、0.6%、4.4%、2.2%和6.5%的性能提升。
表1
Figure BDA0003109362490000091
表1最后一行。本实施例进一步测试的非对齐数据,虽然本发明的方法接收非配准的图像对,与在配准的数据上测试的对比方法相比较,仍然是最优的。
定性评价:
如图5所示,本实施进行与其他技术方案最终显著图的比较。本实施选择了10对具有挑战性的样本,从图中可以发现,本发明的方法对显著区域的分割更加准确。对比的技术方案在考虑模态融合时,可以在一定程度上应对模态质量差(第6,第7和第10行)的影响,但它们不能建立模式之间更强的相关性。因此,他们可能会在有模态偏置的样本上犯一些错误(第1~4行)。在这些具有挑战性的样本上,本发明的方法得益于MAM和双感知解码器,可以准确地聚焦于共同显著区域。
步骤5、评估发明技术方案对非配准图像的有效性以及双感知解码器的有效性。
如图6所示的两对非配准图像,第一行是采用空间转换组件的特征可视化结果,第二行是不采用空间转换组件的特征可视化结果。可以发现,使用空间转换组件获得的特征图质量更好,本发明技术方案对非配准图像也能很准确的检测出显著目标。
如图7所示,第一行是由精到粗的感知过程。可以看到,通过融合低分辨率的信息,主体区域逐渐被填充。但是由于原始的最精细的编码特征包含了太多的噪声细节,导致错误像素难以被修正,从而导致预测一些错误区域。第二行是粗到精的感知过程,可以发现主体区域周围的细节区域是逐渐细化的,但也存在一个严重的问题,即如果原始粗糙,显着区域的缺失部分很难被预测到。本技术方案结合两种感知模式,结果显示出更少的噪声区域和缺失部分。这些现象证明了本技术方案的观点,即粗到精的感知是在一般主体区域的基础上推断细节的过程,而精到粗的感知是根据现有的细节填充主体区域的过程。将这两种感知模式结合起来,解码器在选择信息和抑制噪声方面具有更大的潜力。

Claims (9)

1.一种基于模态关联与双感知解码器的RGB-T的显著性目标检测方法,其特征在于:包括以下内容:
S1、使用一个特征编码器编码获得可见光图像和红外图像的多级特征,并将可见光特征标记为R1~R4,红外特征标记为T1~T4
S2、将所得最深层特征R4和T4经过金字塔池化PPM处理得到具有全局感受野的两个模态的全局特征Gr和Gt
S3、使用模态对齐模块MAM对Gr和Gt进行模态关联处理,进而得到实现空间对齐和信息互补的全局特征G;该模态对齐模块MAM包括空间仿射变换,特征仿射变换和一个动态卷积层;
S4、步骤S1中所得到的R1~R4与T1~T4和步骤S3所得全局特征G通过双重感知解码器处理得到四个预测显著图S1~S4;S4为最终显著图;
S5、通过二元交叉熵BCE损失函数监督训练网络模型。
2.根据权利要求1所述的基于模态关联与双感知解码器的RGB-T的显著性目标检测方法,其特征在于:所述步骤S1中的特征编码器采用去除全连接层的共享参数的VGG16网络分别从可见光和红外模态提取各自的分层特征并去除最浅层,并且在VGG16的每个块中添加一个过渡层;该过渡层是一个3*3的卷积层,步长为2,填充为1,输出通道为128;
然后使用批归一化对特征进行归一化并使用Relu激活函数实现非线性激活;
最后将可见图像的多级特征标记为R1~R4,将红外图像的多级特征标记为T1~T4
3.根据权利要求1所述的基于模态关联与双感知解码器的RGB-T的显著性目标检测方法,其特征在于:所述步骤S2中金字塔池化PPM处理过程如下:
Gr=PPM(R4);
Gt=PPM(T4)。
4.根据权利要求1所述的基于模态关联与双感知解码器的RGB-T的显著性目标检测方法,其特征在于:所述步骤S3中空间仿射变换的具体方法为:采用空间转换网络STN接收两种模态的相应特征,标记为Fr和Ft,并预测空间仿射矩阵标,记为Mp;Mp是一个2×3矩阵;
Mp=STN([Fr,Ft]);
然后,根据坐标映射计算Ft并获得空间变换热红外特征
Figure FDA0003109362480000021
Figure FDA0003109362480000022
其中,φ(*,*)为Pytorch深度学习框架集成的函数;
最后,将Fr
Figure FDA0003109362480000023
进行通道合并,并通过具有64个输出通道的卷积块将它们融合;最终输出是标记为Fs的空间相关特征;
Figure FDA0003109362480000024
其中,ConvBlock是具有卷积层、批归一化和Relu激活函数的卷积块;空间仿射变换组件的操作流程记为:Fs=STC(Fr,Ft)。
5.根据权利要求1所述的基于模态关联与双感知解码器的RGB-T的显著性目标检测方法,其特征在于:所述步骤S3中特征仿射变换即是指使用Fr来调制Ft,具体为方法,
在Fr上应用两个卷积块分别生成一个通道的调制参数α和β;
α=ConvBlock(Fr)
β=ConvBlock(Fr)
然后用α和β对Ft进行变换,得到特征仿变换的红外特征标记为
Figure FDA0003109362480000025
Figure FDA0003109362480000026
直接将Fr
Figure FDA0003109362480000027
与另一个卷积块相加,以生成最终输出特征,标记为Ff,该特征表示各特征之间的相关性;
Figure FDA0003109362480000028
特征仿射变换组件的操作流程记为:Ff=FTC(Fr,Ft)。
6.根据权利要求1所述的基于模态关联与双感知解码器的RGB-T的显著性目标检测方法,其特征在于:所述步骤S3动态卷积层的具体操作为:
在Fr上应用卷积块以生成动态滤波器
Figure FDA0003109362480000029
C是特征Ft的通道数,k是生成的卷积核的长宽像素数,H是特征Ft的长的像素数,W是特征Ft的宽的像素数;
在每个像素位置,κ具有C*k2个通道,将其重组为RC×k×k用作卷积核;因此,对于红外特征Ft所有像素均具有自己的卷积核;然后将Ft与生成的卷积核进行卷积,进而建立通道关联性;
κ=ConvBlock(Fr)
Figure FDA0003109362480000031
DynamicConv包含卷积核重组和通道分离卷积;
Figure FDA0003109362480000032
是输出特征;
最后,直接将
Figure FDA0003109362480000033
Figure FDA0003109362480000034
相加,使用一个卷积块来重组,以生成最终输出特征Fd,特征Fd表示高级的模态语义关联;
Figure FDA0003109362480000035
ConvBlock是具有卷积层、批归一化和Relu激活函数的卷积块;
动态卷积组件的操作流程记为:Fd=DCC(Fr,Ft)。
7.根据权利要求1所述的基于模态关联与双感知解码器的RGB-T的显著性目标检测方法,其特征在于:所述步骤S3模态对齐模块MAM的具体操作为:
MAM(Fr,Ft)=ConvBlock([STC(Fr,Ft),FTC(Fr,Ft),DCC(Fr,Ft)]);
获得所述步骤S3中全局特征G的具体操作为:
G=MAM(Gr,Gt)。
8.根据权利要求1所述的基于模态关联与双感知解码器的RGB-T的显著性目标检测方法,其特征在于:所述步骤S4中使用双重感知解码器处理的具体方法为:使用两个共享MC-ConvLSTM分别以自顶向下和自底向上的方式进行解码;
Figure FDA0003109362480000036
Figure FDA0003109362480000037
其中BottomUp(*,*,*,*)和TopDown(*,*,*,*)分别代表两个MC-ConvLSTM;hBi和hTi是MC-ConvLSTM的隐藏状态,即为解码特征;
将所有初始隐藏状态和单元状态设置为零,然后使用普通的ConvLSTM接收两个MC-ConvLSTM的隐藏状态hBi和hTi,并优化如下:
hi=ConvLSTM(hBi,hTi)
然后得到四个解码特征为
Figure FDA0003109362480000038
在解码特征
Figure FDA0003109362480000039
上采用一个具有单输出通道的1*1卷积层作为得分层,再利用sigmoid函数将得分值约束到0~1,得到四个预测的显著图标,记为S1~S4,S4为最终显著图。
9.根据权利要求1所述的基于模态关联与双感知解码器的RGB-T的显著性目标检测方法,其特征在于:所述步骤S5的详细内容为:
给定最终显著图S={Si|i={1,…,T}和真实数据Y={Yi|i={1,…,T},其中T是总像素数;
二元交叉熵BCE损失函数为:
Figure FDA0003109362480000041
在训练过程中,仅使用BCE损失函数进行监督,将其应用于四个预测的显著图;
Figure FDA0003109362480000042
然后添加对全局上下文G的监督;使用得分层计算G,然后将其上采样到与Y相同的分辨率;这样就得到了一个粗显著图Sg
Lg=L(Sg,Y);
因此,最终的损失函数为:
L=Ls+Lg
CN202110645432.8A 2021-06-10 2021-06-10 一种基于模态关联与双感知解码器的rgb-t的显著性目标检测方法 Active CN113298094B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110645432.8A CN113298094B (zh) 2021-06-10 2021-06-10 一种基于模态关联与双感知解码器的rgb-t的显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110645432.8A CN113298094B (zh) 2021-06-10 2021-06-10 一种基于模态关联与双感知解码器的rgb-t的显著性目标检测方法

Publications (2)

Publication Number Publication Date
CN113298094A true CN113298094A (zh) 2021-08-24
CN113298094B CN113298094B (zh) 2022-11-04

Family

ID=77327777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110645432.8A Active CN113298094B (zh) 2021-06-10 2021-06-10 一种基于模态关联与双感知解码器的rgb-t的显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN113298094B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114092774B (zh) * 2021-11-22 2023-08-15 沈阳工业大学 基于信息流融合的rgb-t图像显著性检测系统及检测方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2995850A1 (en) * 2015-08-31 2017-03-09 Ryan Kottenstette Systems and methods for analyzing remote sensing imagery
WO2018028255A1 (zh) * 2016-08-11 2018-02-15 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法
US20180060701A1 (en) * 2016-08-31 2018-03-01 Adobe Systems Incorporated Deep-learning network architecture for object detection
EP3404578A1 (en) * 2017-05-17 2018-11-21 Samsung Electronics Co., Ltd. Sensor transformation attention network (stan) model
CN110210539A (zh) * 2019-05-22 2019-09-06 西安电子科技大学 多级深度特征融合的rgb-t图像显著性目标检测方法
CN110610210A (zh) * 2019-09-18 2019-12-24 电子科技大学 一种多目标检测方法
CN110633708A (zh) * 2019-06-28 2019-12-31 中国人民解放军军事科学院国防科技创新研究院 一种基于全局模型和局部优化的深度网络显著性检测方法
AU2020100178A4 (en) * 2020-02-04 2020-03-19 Huang, Shuying DR Multiple decision maps based infrared and visible image fusion
CN111583173A (zh) * 2020-03-20 2020-08-25 北京交通大学 一种rgb-d图像显著性目标检测方法
CN111582316A (zh) * 2020-04-10 2020-08-25 天津大学 一种rgb-d显著性目标检测方法
CN112347861A (zh) * 2020-10-16 2021-02-09 浙江工商大学 一种基于运动特征约束的人体姿态估计方法
CN112347859A (zh) * 2020-10-15 2021-02-09 北京交通大学 一种光学遥感图像显著性目标检测方法
WO2021088300A1 (zh) * 2019-11-09 2021-05-14 北京工业大学 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN112801182A (zh) * 2021-01-27 2021-05-14 安徽大学 一种基于困难样本感知的rgbt目标跟踪方法
CN112836713A (zh) * 2021-03-12 2021-05-25 南京大学 基于图像无锚框检测的中尺度对流系统识别与追踪方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2995850A1 (en) * 2015-08-31 2017-03-09 Ryan Kottenstette Systems and methods for analyzing remote sensing imagery
WO2018028255A1 (zh) * 2016-08-11 2018-02-15 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法
US20180060701A1 (en) * 2016-08-31 2018-03-01 Adobe Systems Incorporated Deep-learning network architecture for object detection
EP3404578A1 (en) * 2017-05-17 2018-11-21 Samsung Electronics Co., Ltd. Sensor transformation attention network (stan) model
CN110210539A (zh) * 2019-05-22 2019-09-06 西安电子科技大学 多级深度特征融合的rgb-t图像显著性目标检测方法
CN110633708A (zh) * 2019-06-28 2019-12-31 中国人民解放军军事科学院国防科技创新研究院 一种基于全局模型和局部优化的深度网络显著性检测方法
CN110610210A (zh) * 2019-09-18 2019-12-24 电子科技大学 一种多目标检测方法
WO2021088300A1 (zh) * 2019-11-09 2021-05-14 北京工业大学 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
AU2020100178A4 (en) * 2020-02-04 2020-03-19 Huang, Shuying DR Multiple decision maps based infrared and visible image fusion
CN111583173A (zh) * 2020-03-20 2020-08-25 北京交通大学 一种rgb-d图像显著性目标检测方法
CN111582316A (zh) * 2020-04-10 2020-08-25 天津大学 一种rgb-d显著性目标检测方法
CN112347859A (zh) * 2020-10-15 2021-02-09 北京交通大学 一种光学遥感图像显著性目标检测方法
CN112347861A (zh) * 2020-10-16 2021-02-09 浙江工商大学 一种基于运动特征约束的人体姿态估计方法
CN112801182A (zh) * 2021-01-27 2021-05-14 安徽大学 一种基于困难样本感知的rgbt目标跟踪方法
CN112836713A (zh) * 2021-03-12 2021-05-25 南京大学 基于图像无锚框检测的中尺度对流系统识别与追踪方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
MOAB ARAR 等: "Unsupervised Multi-Modal Image Registration via Geometry Preserving Image-to-Image Translation", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
MORITZ BOHLE 等: "Convolutional Dynamic Alignment Networks for Interpretable Classifications", 《ARXIV》 *
YINPENG CHEN 等: "Dynamic Convolution: Attention Over Convolution Kernels", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
ZHE WU 等: "Cascaded Partial Decoder for Fast and Accurate Salient Object Detection", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
ZHENGZHENG TU 等: "Edge-Guided Non-Local Fully Convolutional Network for Salient Object Detection", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 *
ZHENGZHENG TU 等: "Multi-interactive Dula-decoder for RGB-thermal Salient Object Detection", 《ARXIV》 *
郭秋杉: "基于动态循环神经网络的物体检测技术研究", 《中国优秀硕士论文全文数据库信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114092774B (zh) * 2021-11-22 2023-08-15 沈阳工业大学 基于信息流融合的rgb-t图像显著性检测系统及检测方法

Also Published As

Publication number Publication date
CN113298094B (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
Zhang et al. Depth quality-inspired feature manipulation for efficient RGB-D salient object detection
CN109558832B (zh) 一种人体姿态检测方法、装置、设备及存储介质
Zhou et al. Salient object detection in stereoscopic 3D images using a deep convolutional residual autoencoder
Zhao et al. Self-supervised pretraining for RGB-D salient object detection
Rad et al. Domain transfer for 3d pose estimation from color images without manual annotations
Zhou et al. BCINet: Bilateral cross-modal interaction network for indoor scene understanding in RGB-D images
Xue et al. Boundary-induced and scene-aggregated network for monocular depth prediction
CN115631121A (zh) 一种基于自监督学习的全景图像显著性预测方法
CN113139544A (zh) 一种基于多尺度特征动态融合的显著性目标检测方法
CN113076947A (zh) 一种交叉引导融合的rgb-t图像显著性检测系统
CN114419323A (zh) 基于跨模态学习与领域自适应rgbd图像语义分割方法
CN116434033A (zh) 面向rgb-d图像稠密预测任务的跨模态对比学习方法及系统
CN114663371A (zh) 基于模态独有和共有特征提取的图像显著目标检测方法
CN115049921A (zh) 基于Transformer边界感知的光学遥感图像显著目标检测方法
Zhao et al. Self-supervised representation learning for RGB-D salient object detection
CN113298094B (zh) 一种基于模态关联与双感知解码器的rgb-t的显著性目标检测方法
CN114359626A (zh) 基于条件生成对抗网络的可见光-热红外显著目标检测方法
Zhu et al. Boosting RGB-D salient object detection with adaptively cooperative dynamic fusion network
Xi et al. A multilevel-guided curriculum domain adaptation approach to semantic segmentation for high-resolution remote sensing images
Zhou et al. CMPFFNet: Cross-modal and progressive feature fusion network for RGB-D indoor scene semantic segmentation
Wei et al. Bidirectional attentional interaction networks for rgb-d salient object detection
Zang et al. Texture-aware gray-scale image colorization using a bistream generative adversarial network with multi scale attention structure
CN116452793A (zh) 一种基于多视角和多层级的绿色编解码显著目标检测方法
CN115661482A (zh) 一种基于联合注意力的rgb-t显著目标检测方法
Zou et al. Gpt-cope: A graph-guided point transformer for category-level object pose estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant