CN115205337A - 一种基于模态差异补偿的rgbt目标跟踪方法 - Google Patents

一种基于模态差异补偿的rgbt目标跟踪方法 Download PDF

Info

Publication number
CN115205337A
CN115205337A CN202210904342.0A CN202210904342A CN115205337A CN 115205337 A CN115205337 A CN 115205337A CN 202210904342 A CN202210904342 A CN 202210904342A CN 115205337 A CN115205337 A CN 115205337A
Authority
CN
China
Prior art keywords
modal
rgb
target
feature
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210904342.0A
Other languages
English (en)
Inventor
张强
刘雪茹
金国强
张天路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Xian Thermal Power Research Institute Co Ltd
Original Assignee
Xidian University
Xian Thermal Power Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University, Xian Thermal Power Research Institute Co Ltd filed Critical Xidian University
Priority to CN202210904342.0A priority Critical patent/CN115205337A/zh
Publication of CN115205337A publication Critical patent/CN115205337A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于模态差异补偿的RGBT目标跟踪方法,包括:(1)一个用于单模态图像特征提取的双流CNN主干网络,其中一个流用于RGB图像,另一个流用于红外图像;(2)一个模态差异补偿模块,用于补偿单模态RGB和红外图像的差异信息,以及多模态RGB‑T图像的跨模态特征的融合;(3)基于注意机制的特征选择模块用于为RGB‑T跟踪选择高辨别特征;(4)一组由判别模型预测跟踪网络和基于边界定位的二次回归网络组成的预测头,用于预测准确的目标框。本发明充分利用可见光和红外图像信息之间的差异性,设计模态差异补偿模块以获得鲁棒的跨模态特征,并通过同时考虑跨模态特征和单模态(RGB和红外)特性进行RGB‑T跟踪,以提高RGB‑T跟踪性能。

Description

一种基于模态差异补偿的RGBT目标跟踪方法
技术领域
本发明属于计算机视觉领域,具体涉及一种基于模态差异补偿的RGBT目标跟踪方法。
背景技术
目标跟踪是指在第一帧图像中指定感兴趣目标后,在后续的视频序列中逐帧地标记出目标位置和尺度信息,一般以矩形框进行标定。作为计算机视觉研究领域中的一个重要任务和研究分支,目标跟踪技术在无人驾驶、社区安防、环境监测、智能交通监控等民用领域以及战场动态分析、军事武器精确制导、无人机侦察、反导系统等军事领域具有十分重要的作用和价值。
随着深度神经网络的快速发展,基于可见光的目标跟踪技术已经取得了重要突破。可见光图像可以捕获丰富的目标信息,如颜色、纹理、边界等内容。但是由于成像原理的限制,可见光图像很容易受到环境的影响,以至于基于可见光的目标跟踪方法在可见度低、光照复杂、恶劣天气等场景下鲁棒性较低。
近年来,为了提高复杂场景下的目标跟踪性能,一些研究人员尝试应用多模态数据进行目标跟踪,如配准的可见光-红外(RGB-T)图像和可见光-深度(RGB-D)图像。其中,红外图像是根据物体的热辐射而成像,虽然缺乏目标颜色、纹理和形状信息且存在热交叉等专属挑战因素,但是对光照变化不敏感,具有较强的穿透雾霾的能力,与可见光图像形成了强烈的互补优势。因此,RGBT目标跟踪受到越来越多的关注。
与RGB跟踪相比,RGBT跟踪器能够在具有挑战性的环境中实现强大的跟踪性能。到目前为止,研究员们已经提出了许多RGBT跟踪器。早期的RGBT跟踪器都是基于手工特征而提出的。这些方法不能很好地适应具有挑战性的环境,如剧烈的外观变化、杂乱的背景、目标的快速运动和遮挡。受卷积神经网络(CNN)在RGB跟踪中成功应用的启发,最近几年的工作都趋向于使用CNN来提高RGBT跟踪器的性能。由于深度CNN具有强大的特征提取和表示能力,这些最新的RGB-T跟踪器通常明显优于传统的跟踪器。最新的RGB-T跟踪器通常使用双流网络结构来学习每个模态的特征并通过一些级联、像素级相加和模态权重等融合策略对可见光特征和红外特征进行融合以获得更鲁棒的目标表示。另外也有一些跟踪器通过通用适配器、模态适配器和实例适配器等三种适配器来提取不同的特征表示以充分利用RGB和红外模态的互补优势。
虽然这些算法在RGBT跟踪取得了巨大的成功,但是这些算法忽略了由于不同成像机制导致的RGB和红外图像之间的模态差异,这将导致跨模态互补信息利用不足,从而影响后续的跟踪性能。此外,这些跟踪方法通常利用融合后的RGBT跨模态特征来预测最终结果。由于RGB和红外数据具有很强的互补优势,因此融合的跨模态特征通常可以比单模态特征(如RGB特征或红外特征)推断出更好的预测。然而,在热交叉或强光照等极端条件下,融合的跨模态特征可能不如单模态特征可靠。
发明内容
针对可见光与红外图像的目标跟踪中跨模态信息利用问题,本发明提供了一种基于模态差异补偿的RGBT目标跟踪方法,利用模态间的差异信息实现模态间互补信息的交互与融合以充分利用两种模态的互补优势,并且同时结合单模态特征以提高目标跟踪算法的精确性和鲁棒性。
本发明采用如下技术方案来实现的:
一种基于模态差异补偿的RGBT目标跟踪方法,包括如下步骤:
步骤1:构建双流CNN主干网络;
步骤2:构建模态差异补偿模块;
步骤2.1:模态差异补偿模块采用补偿再融合的策略,首先分别补偿两种模态的差异信息,然后通过元素求和的方式融合补偿后的RGB和补偿后的红外特征;
步骤2.2:分别以差异特征Fr-t和Ft-r作为输入,采用两个结构相同的权值生成网络生成差异特征权重Wr-t和Wt-r,权值生成网络同时使用空间权值图和通道权值图来获取更多的补偿信息;
步骤2.3:在获得差异特征权重图Wr-t(Wt-r)之后,补偿后的RGB特征
Figure BDA0003770422730000031
和补偿后的红外特征
Figure BDA0003770422730000032
通过跨模态残差连接获得,即:
Figure BDA0003770422730000037
Figure BDA0003770422730000033
补偿后的RGB特征
Figure BDA0003770422730000038
除了原始的单模态RGB特征Frgb外,还包含红外模态特有特征;同样的,如公式(7)所示,补偿后的红外特征
Figure BDA0003770422730000039
包含RGB模态特有特征以及原始的单模态红外特性Ft;通过对补偿后的RGB特征
Figure BDA0003770422730000034
和补偿后的红外特征
Figure BDA0003770422730000035
进行相加融合,得到最终融合的跨模态RGBT特征Frgbt∈RC×H×W,即:
Figure BDA0003770422730000036
步骤3:构建特征选择模块;
基于注意机制的特征选择模块进一步自适应地选择高鉴别性的跨模态和单模态特征以提高RGBT跟踪性能;特征选择模块通过三个步骤充分选择所有模态特征的高鉴别性特征,模态特征包括跨模态RGBT特征、原始单模态RGB特征和原始单模态红外特征;
步骤3.1:所有模态特征融合,目的是从跨模态RGBT特征、原始单模态RGB特征和原始单模态红外特征中获取更多的信息;
步骤3.2:通道级的特征选择,旨在增强与目标相关的类别的特征,抑制无用的特征;
步骤3.3:空间级特征选择,旨在增强目标空间位置的权重,抑制远离目标的位置;步骤4:构建判别模型预测跟踪网络;
判别模型预测跟踪网络分别以模板图像特征和待检测图像特征为输入,并进行多任务输出:分类得分图,IoU预测;其中,分类得分图是通过待检测图像特征和滤波器f相计算而获得,滤波器f包括由一个卷积层以及一个精确的ROI池化组成的模型初始化器和通过最速下降求解最终模型的模型优化器,模型滤波器f是通过在模型初始化器使用初始训练集中的多个样本来求解,IoU预测是预测图像的深度特征和候选边界框特征之间的IoU,然后通过最大化IoU预测来进行边界框估计;
步骤5:构建基于边界定位的二次回归网络:
基于边界定位的二次回归网络目的是对步骤4得到的IoU预测结果进行二次回归以获得更精确的目标框,基于边界定位的二次回归网络能够有效地细化IoUNet预测器的初始估计,并显著提高跟踪性能;
基于边界定位的二次回归网络使用以下两个步骤来进一步提高目标跟踪性能;
步骤5.1:基于边界定位的二次回归网络利用目标特征表示与搜索特征表示之间的互相关对边界框估计中心进行重新调整,得到目标在中心的重新调整边界框估计;
步骤5.2:对于步骤5.1得到的搜索特征Fp采用边界定位方案提高定位精度,分别对每一条边界使用分类器进行定位同时使用回归器预测目标边界位置与真值之间的偏移;
步骤6:两阶段训练;
步骤6.1:在训练数据集上,对步骤4中的判别模型预测跟踪网络,采用监督学习机制,分别通过最小化鉴别学习损失函数和均方误差损失函数,完成算法网络训练,得到判别模型预测跟踪网络模型参数;
步骤6.2:加载所述步骤6.1中的网络参数并进行冻结,在训练数据集上单独对步骤5中的基于边界定位的二次回归网络进行监督学习,通过最小化均方误差损失函数,获得训练好的网络;
步骤7:目标跟踪:将所述网络集成为在线跟踪器,对可见光与红外视频数据进行跟踪;
步骤7.1:给定带有注释的第一帧,通过平移、旋转和模糊对第一帧进行数据增强,得到一个包含15个样本的初始训练集;
步骤7.2:以初始训练集图像和下一帧图像为输入,利用步骤1的双流CNN主干网络、步骤2的模态差异补偿模块和步骤3的特征选择模块分别获得模板融合特征和待检测融合特征;
步骤7.3:以模板融合特征和待检测融合特征为输入,通过步骤4的判别模型预测跟踪网络获得初始框;
步骤7.4:以模板融合特征、待检测融合特征以及扩展的初始框为输入,通过步骤5的基于边界定位的二次回归网络对初始框进行二次回归以获得更精确的目标矩形边框;
步骤7.5:重复步骤7.2-7.4,逐帧迭代计算图像中目标位置以及边框,实现RGBT目标连续跟踪;
步骤7.6:每20帧后进行初始训练集更新,获得新的模板特征,然后继续步骤7.5。
本发明进一步的改进在于,步骤1中,双流CNN主干网络采用两个结构相同但参数不同的ResNet50,两个ResNet50主干网络分别输入RGB图像和红外图像,分别输出RGB单模态特征Frgb和红外单模态特征Ft,双流CNN主干网络采用孪生结构分别提取模板图像双流特征
Figure BDA0003770422730000051
和待检测图像的双流特征
Figure BDA0003770422730000052
本发明进一步的改进在于,步骤2.1中,模态差异补偿模块通过单模态RGB特征Frgb∈RC×H×W减去单模态红外特征Ft∈RC×H×W以获得差异特征Fr-t∈RC×H×W,同时通过单模态红外特征Ft∈RC×H×W减去单模态RGB特征Frgb∈RC×G×W以获得差异特征Ft-r∈RC×H×W,即:
Fr-t=(Frgb-Ft) (1)
Ft-r=(Ft-Frgb) (2)
其中,差异特征Fr-t∈RC×H×W表示RGB模态特异性特征表示;差异特征Ft-r∈Rc×H×W表示红外模态特异性特征表示。
本发明进一步的改进在于,步骤2.2中,空间权重图Sr-t∈R1×H×W是通过卷积层和一个sigmoid函数生成以反映RGB和红外模态在空间位置上的差异信息;这里的卷积层是由一个卷积核为3×3的卷积操作、批归一化层、ReLu激活函数组成;空间权重图Sr-t∈R1×H×W和St-r∈R1×H×W分别反映了RGB模态特异性特征和红外模态特异性特征的空间位置,同时,通道权重图Cr-t∈RC×1×1(Ct-r∈RC×1×1)是通过由全局平均池化和全局最大池化组成的池化层和一个sigmoid函数生成以反映RGB和红外模态在目标类别上的差异信息通道权重图Cr-t和Ct-r分别反映RGB模态特异性特征和红外模态特异性特征的目标类别;最终,通过空间权重图Sr-t(St-r)和通道权值图Cr-t(Ct-r)之间的元素乘法生成差异特征权重图Wr-t(Wt-r);差异特征权重图Wr-t的权重生成过程表述为:
Sr-t=σ(conv(Fr-t)) (3)
Cr-t=σ(GAP(Fr-t)+GMP(Fr-t)) (4)
Figure BDA0003770422730000061
其中,conv(*)表示由卷积核大小为3×3的卷积操作,批归一化层BatchNorm和ReLu激活函数组成的卷积层,σ(*)表示sigmoid函数,GAP(*)表示全局平均池化操作,GMP(*)表示全局最大池化操作,
Figure BDA0003770422730000062
表示元素乘法操作;差异特征权重图Wr-t和Wt-r分别反映了RGB模态特异性特征和红外模态特异性特征的空间位置和目标类别。
本发明进一步的改进在于,步骤3.1中,通过对跨模态RGBT特征Frgbt、原始单模态RGB特征Frgb和原始单模态红外特征Ft进行级联和卷积运算得到融合特征Fc∈R2C×H×W,即:
Fc=conv(cat(Frgbt,Frgb,Ft)) (9)
其中,cat(*)表示级联操作,contv(*)表示卷积核大小为1×1的卷积操作。
本发明进一步的改进在于,步骤3.2中,给定融合特征Fc∈R2C×H×W作为输入,首先同时使用全局平均池化和全局最大池化以获得包含每个通道全局信息的更精细的特征描述符;然后,通过执行卷积核大小为3的快速一维卷积和sigmoid函数生成通道权值Wc∈R2C ×1×1;通道注意力的计算方法为:
Wc=σ(CID(GAP(Fc)+GMP(Fc))) (10)
其中,CID(*)表示一维卷积,在获得通道权值Wc后,通过将融合特征Fc与权值Wc相乘,得到通道级特征选择输出Fcc∈R2C×H×W,即:
Figure BDA0003770422730000071
本发明进一步的改进在于,步骤3.3中,在获得通道级特征选择输出Fcc∈R2C×H×W后,沿通道应用平均池化和最大池化操作以生成一个有效的特征描述符;然后通过级联、卷积和sigmoid函数生成空间注意图Ws∈R1×H×W;空间注意力的计算方法为:
Ws=σ(conv(cat(Avgpool(Fcc)+Maxpool(Fcc)))) (12)
其中,Avgpool(*)表示沿通道的平均池化操作,Maxpool(*)表示沿通道的最大池化操作;获得空间权值Ws后,将通道级特征选择输出Fcc与空间权值Ws相乘,得到空间特征选择输出Fcs∈R2C×H×W,即:
Figure BDA0003770422730000072
本发明进一步的改进在于,步骤5.1中,首先使用参考分支和测试分支分别提取目标特征表示和搜索特征表示;参考分支输入特征为
Figure BDA0003770422730000073
和目标边界框注释B0,其中
Figure BDA0003770422730000074
表示特征选择模块输出的参考帧特征,返回RoI目标特征为
Figure BDA0003770422730000075
这个分支由一个卷积层和PrPool组成;测试分支通过从特征选择模块输出的待检测帧特征
Figure BDA0003770422730000076
Figure BDA0003770422730000077
和边界框估计B=(cx,cy,(λw),(λh)),提取RoI搜索特征
Figure BDA0003770422730000078
其中(cx,cy)表示边界框的中心坐标,w和h表示边界框估计的宽度和高度,λ是用以扩大候选区域边界以覆盖整个目标的比例因子,且λ>1;在获得ROI目标特征
Figure BDA0003770422730000079
和ROI搜索特性
Figure BDA00037704227300000710
后,基于边界定位的二次回归网络采用互相关以调整边界框估计B;互相关输入ROI目标特征
Figure BDA00037704227300000711
和ROI搜索特性
Figure BDA00037704227300000712
并返回一个得分图以反映目标特征与搜索特征的相似性;以得分最大的二维位置为中心,结合边界框估计B的宽度和高度,重新调整边界框B1被生成;然后,将重新调整边界框B1和经过两层卷积的搜索特征输入PrPool获得新的搜索特征Fp∈R256×7×7;;新的搜索特征Fp包含目标特征并且目标位于Fp中心。
本发明进一步的改进在于,步骤5.2中,首先对特征Fp分别沿x轴和y轴聚合并通过1×3和3×1卷积层进一步细化,提取水平和垂直特征Fx∈R1×7和Fy∈R7×1;然后,分别将水平和垂直特征Fx∈R1×7和Fy∈R7×1上采样后平均划分为两部分,得到边界特征Fl∈R1×7、Fr∈R1 ×7、Ft∈R7×1和Fd∈R7×1;对于每个边界特征,同时使用一个分类器和回归器,分类器以边界特征作为输入,输出每个边界响应位置的置信图,回归器以每个边界特征作为输入,输出目标边界位置与真值之间的偏移以细化边界框位置预测。
本发明公开的一种基于模态差异补偿的RGBT目标跟踪方法与现有技术相比,具有如下有益效果:
1)本发明充分利用可见光和红外图像信息之间的差异性,设计模态差异补偿模块以获得鲁棒的跨模态特征,并通过同时考虑跨模态特征和单模态(RGB和红外)特性进行RGBT跟踪,以提高RGBT跟踪性能。大量的实验结果表明,本发明跟踪方法与现有的跟踪方法相比,取得了优异的性能。
2)本发明提出了一种模态差异补偿模块,通过补偿再融合策略从RGB和红外图像中有效捕获跨模态信息。
3)本发明基于通道和空间注意机制,设计了特征选择模块,通过自适应选择辨别力强的跨模态和单模态特征进行更精确的跟踪。
4)本发明提出了一种简单而有效的基于边界定位的二次回归模块,通过在重新调整初始框以确保目标在初始框中心后,对边界框的每一条边分别用一个专用的网络分支来进行边界框定位。通过此模块,跟踪器可以获得更精确的框估计,并可以处理第一阶段回归的部分跟踪故障。
附图说明
图1为本发明公开的基于模态差异补偿的RGBT目标跟踪方法的网络整体框架;
图2为本发明公开的跟踪方法中的模态差异补偿模块示意图;
图3为本发明公开的跟踪方法中的特征选择模块示意图;
图4为本发明公开的跟踪方法中的基于边界定位的二次回归网络示意图;
图5为本发明公开的跟踪方法的定性跟踪结果示意图。
具体实施方式
下面结合附图详细描述本发明的技术方案。
参照本发明框架图和各模块示意图(图1、图2、图3、图4),一种基于模态差异补偿的RGBT目标跟踪方法,包括如下步骤:
步骤1:构建双流CNN主干网络:
主干网络的目的通常是为后续模型提取深度特征表示。这里的双流CNN主干网络采用结构相同但参数不同的ResNet50。两个ResNet50主干网络分别输入RGB图像和红外图像,分别输出RGB单模态特征Frgb和红外单模态特征Ft。双流CNN主干网络采用孪生结构分别提取模板图像双流特征
Figure BDA0003770422730000091
和待检测图像的双流特征
Figure BDA0003770422730000092
步骤2:构建模态差异补偿模块:
如图3所示,模态差异补偿模块采用补偿再融合的策略,首先分别补偿两种模态的差异信息,然后通过元素求和的方式融合补偿后的RGB和补偿后的红外特征。具体来说,模态差异补偿模块通过单模态RGB特征Frgb∈RC×H×W减去单模态红外特征Ft∈RC×H×W以获得差异特征Fr-t∈RC×H×W,同时通过单模态红外特征Ft∈RC×H×W减去单模态RGB特征Frgb∈RC×H×W以获得差异特征Ft-r∈RC×H×W,即:
Fr-t=(Frgb-Ft) (1)
Ft-r=(Ft-Frgb) (2)
其中,差异特征Fr-t∈RC×H×W表示RGB模态特异性特征表示;差异特征Ft-r∈RC×H×W表示红外模态特异性特征表示。
然后,分别以差异特征Fr-t和Ft-r作为输入,采用两个结构相同的权值生成网络生成差异特征权重Wr-t和Wt-r。与之前只使用空间权值图或通道权值图的权重生成方法不同,权值生成网络同时使用空间权值图和通道权值图来获取更多的补偿信息。具体来说,空间权重图Sr-t∈R1×H×W是通过卷积层和一个sigmoid函数生成以反映RGB和红外模态在空间位置上的差异信息。这里的卷积层是由一个卷积核为3×3的卷积操作、批归一化层、ReLu激活函数组成。与差异特征Fr-t和Ft-r相似,空间权重图Sr-t∈R1×H×W和St-r∈R1×H×W分别反映了RGB模态特异性特征和红外模态特异性特征的空间位置。同时,通道权重图Cr-t∈RC×1×1(Ct-r∈RC×1×1)是通过由全局平均池化和全局最大池化组成的池化层和一个sigmoid函数生成以反映RGB和红外模态在目标类别上的差异信息。同样,通道权重图Cr-t和Ct-r分别反映RGB模态特异性特征和红外模态特异性特征的目标类别。最终,通过空间权重图Sr-t(St-r)和通道权值图Cr-t(Ct-r)之间的元素乘法生成差异特征权重图Wr-t(Wt-r)。以差异特征权重图Wr-t为例,权重生成过程可以表述为:
Sr-t=σ(conv(Fr-t)) (3)
Cr-t=σ(GAP(Fr-t)+GMP(Fr-t)) (4)
Figure BDA0003770422730000101
其中,conv(*)表示由卷积核大小为3×3的卷积操作,批归一化层BatchNorm和ReLu激活函数组成的卷积层,σ(*)表示sigmoid函数,GAP(*)表示全局平均池化操作,GMP(*)表示全局最大池化操作,
Figure BDA0003770422730000103
表示元素乘法操作。差异特征权重图Wr-t和Wt-r分别反映了RGB模态特异性特征和红外模态特异性特征的空间位置和目标类别。
在获得差异特征权重图Wr-t(Wt-r)之后,补偿后的RGB特征
Figure BDA0003770422730000102
和补偿后的红外特征
Figure BDA0003770422730000111
通过跨模态残差连接获得,即:
Figure BDA0003770422730000112
Figure BDA0003770422730000113
如公式(6)所示,补偿后的RGB特征
Figure BDA0003770422730000114
除了原始的单模态RGB特征Frgb外,还包含红外模态特有特征。同样的,如公式(7)所示,补偿后的红外特征
Figure BDA0003770422730000115
包含RGB模态特有特征以及原始的单模态红外特性Ft。通过对补偿后的RGB特征
Figure BDA0003770422730000116
和补偿后的红外特征
Figure BDA0003770422730000117
进行简单的相加融合,可以得到最终融合的跨模态RGBT特征Frgbt∈RC×H×W,即:
Figure BDA0003770422730000118
如公式(8)所示,通过补偿特征而不是原来的单模态特征获得最终的融合特征将提高后续中RGBT跟踪的识别能力。
步骤3:构建特征选择模块:
基于注意机制的特征选择模块进一步自适应地选择高鉴别性的跨模态和单模态特征以提高RGBT跟踪性能。如图4所示,特征选择模块通过三个步骤充分选择所有模态特征(跨模态RGBT特征、原始单模态RGB特征和原始单模态红外特征)的高鉴别性特征。
步骤3.1:所有模态特征融合,目的是从跨模态RGBT特征、原始单模态RGB特征和原始单模态红外特征中获取更多的信息。具体来说,通过对跨模态RGBT特征Frgbt、原始单模态RGB特征Frgb和原始单模态红外特征Ft进行级联和卷积运算得到融合特征Fc∈R2C×H×W,即:
Fc=conv(cat(Frgbt,Frgb,Ft)) (9)
其中,cat(*)表示级联操作,conv(*)表示卷积核大小为1×1的卷积操作。
步骤3.2:通道级的特征选择,旨在增强与目标相关的类别的特征,抑制无用的特征。具体来说,给定融合特征Fc∈R2C×H×W作为输入,首先同时使用全局平均池化和全局最大池化以获得包含每个通道全局信息的更精细的特征描述符。然后,通过执行卷积核大小为3的快速一维卷积和sigmoid函数生成通道权值Wc∈R2C×1×1。简而言之,通道注意力的计算方法为:
Wc=σ(CID(GAP(Fc)+GMP(Fc))) (10)
其中,CID(*)表示一维卷积。在获得通道权值Wc后,通过将融合特征Fc与权值Wc相乘,得到通道级特征选择输出Fcc∈R2C×H×W,即:
Figure BDA0003770422730000121
步骤3.3:空间级特征选择,旨在增强目标空间位置的权重,抑制远离目标的位置。具体来说,在获得通道级特征选择输出Fcc∈R2C×H×W后,沿通道应用平均池化和最大池化操作以生成一个有效的特征描述符。然后通过级联、卷积和sigmoid函数生成空间注意图Ws∈R1×H×W。简而言之,空间注意力的计算方法为:
Ws=σ(conv(cat(Avgpool(Fcc)+Maxpool(Fcc)))) (12)
其中,Avgpool(*)表示沿通道的平均池化操作,Maxpool(*)表示沿通道的最大池化操作。获得空间权值Ws后,将通道级特征选择输出Fcc与空间权值Ws相乘,得到空间特征选择输出Fcs∈R2C×H×W,即:
Figure BDA0003770422730000122
通过上述三个步骤,特征选择模块同时利用融合的跨模态RGBT特征和单模态(RGB和红外)特征,在空间和通道维度上自适应地选择具有高鉴别性的特征。
步骤4:构建判别模型预测跟踪网络:
判别模型预测跟踪网络分别以模板图像特征和待检测图像特征为输入,并进行多任务输出:分类得分图,IoU预测。其中,分类得分图是通过待检测图像特征和滤波器f相计算而获得。滤波器f包括由一个卷积层以及一个精确的ROI池化组成的模型初始化器和通过最速下降(SD)求解最终模型的模型优化器。模型滤波器f是通过在模型初始化器使用初始训练集中的多个样本来求解。IoU预测是预测图像的深度特征和候选边界框特征之间的IoU,然后通过最大化IoU预测来进行边界框估计。
步骤5:构建基于边界定位的二次回归网络:
基于边界定位的二次回归网络目的是对步骤(4)得到的IoU预测结果进行二次回归以获得更精确的目标框。基于边界定位的二次回归网络能够有效地细化IoUNet预测器的初始估计,并显著提高跟踪性能。如图5所示,基于边界定位的二次回归网络使用了两个步骤来进一步提高目标跟踪性能。
步骤5.1:基于边界定位的二次回归网络利用目标特征表示与搜索特征表示之间的互相关对边界框估计中心进行重新调整,得到目标在中心的重新调整边界框估计。具体来说,首先使用参考分支和测试分支分别提取目标特征表示和搜索特征表示。参考分支输入特征为
Figure BDA0003770422730000131
和目标边界框注释B0,其中
Figure BDA0003770422730000132
表示特征选择模块输出的参考帧特征,返回RoI目标特征为
Figure BDA0003770422730000133
这个分支由一个卷积层和PrPool组成。测试分支通过从特征选择模块输出的待检测帧特征
Figure BDA0003770422730000134
和边界框估计B=(cx,cy,(λw),(λh)),提取RoI搜索特征
Figure BDA0003770422730000135
其中(cx,cy)表示边界框的中心坐标,w和h表示边界框估计的宽度和高度,λ(λ>1)是用以扩大候选区域边界以覆盖整个目标的比例因子。由于测试分支是提取边界预测的特征,这构成了更复杂的任务,因此,与参考分支相比,测试分支使用了更多的层和更高的池化分辨率。在获得ROI目标特征
Figure BDA0003770422730000136
和ROI搜索特性
Figure BDA0003770422730000137
后,基于边界定位的二次回归网络采用互相关以调整边界框估计B。互相关输入ROI目标特征
Figure BDA0003770422730000138
和ROI搜索特性
Figure BDA0003770422730000139
并返回一个得分图以反映目标特征与搜索特征的相似性。以得分最大的二维位置为中心,结合边界框估计B的宽度和高度,重新调整边界框B1被生成。然后,将重新调整边界框B1和经过两层卷积的搜索特征输入PrPool获得新的搜索特征Fp∈R256×7×7。新的搜索特征Fp包含目标特征并且目标位于Fp中心。
步骤5.2:对于步骤5.1得到的搜索特征Fp采用边界定位方案提高定位精度。该方案分别对每一条边界使用简单的分类器进行定位同时使用简单的回归器预测目标边界位置与真值之间的偏移。具体来说,首先对特征Fp分别沿x轴和y轴聚合并通过1×3和3×1卷积层进一步细化,提取水平和垂直特征Fx∈R1×7和Fy∈R7×1。然后,分别将水平和垂直特征Fx∈R1×7和Fy∈R7×1上采样后平均划分为两部分,得到边界特征Fl∈R1×7、Fr∈R1×7、Ft∈R7×1和Fd∈R7×1。对于每个边界特征,同时使用一个简单的分类器和回归器。分类器以边界特征作为输入,输出每个边界响应位置的置信图,回归器以每个边界特征作为输入,输出目标边界位置与真值之间的偏移以细化边界框位置预测。
步骤6:两阶段训练:
步骤6.1:在训练数据集上,对步骤(4)中的判别模型预测跟踪网络,采用监督学习机制,分别通过最小化鉴别学习损失函数和均方误差损失函数,完成算法网络训练,得到判别模型预测跟踪网络模型参数。
步骤6.2:加载所述步骤6.1中的网络参数并进行冻结,在训练数据集上单独对步骤(5)中的基于边界定位的二次回归网络进行监督学习,通过最小化均方误差损失函数,获得训练好的网络;
步骤7:目标跟踪:将所述网络集成为在线跟踪器,对可见光与红外视频数据进行跟踪。
步骤7.1:给定带有注释的第一帧,通过平移、旋转和模糊对第一帧进行数据增强,得到一个包含15个样本的初始训练集。
步骤7.2:以初始训练集图像和下一帧图像为输入,利用步骤(1)的双流CNN主干网络、步骤(2)的模态差异补偿模块和步骤(3)的特征选择模块分别获得模板融合特征和待检测融合特征。
步骤7.3:以模板融合特征和待检测融合特征为输入,通过步骤(4)的判别模型预测跟踪网络获得初始框。
步骤7.4:以模板融合特征、待检测融合特征以及扩展的初始框为输入,通过步骤(5)的基于边界定位的二次回归网络对初始框进行二次回归以获得更精确的目标矩形边框。
步骤7.5:重复步骤7.2-7.4,逐帧迭代计算图像中目标位置以及边框,实现RGBT目标连续跟踪。
步骤7.6:每20帧后进行初始训练集更新,获得新的模板特征,然后继续步骤7.5。
以下结合仿真实验,对本发明的技术效果作进一步说明:
1.仿真条件:所有仿真实验均在操作系统为Ubuntu 16.04.5,硬件环境为GPUNvidia GeForce GTX1080Ti,采用PyTorch深度学习框架实现。
2.仿真内容及结果分析
根据上述实施方案所述,在RGBT目标跟踪数据集RGBT234上测试模型的客观指标与性能,并与其他9个跟踪算法进行对比,其属性和总体的准确率与成功率指标的量化对比如表1所示。其中:
SR表示目标跟踪的成功率;PR表示目标跟踪的精准度;无遮挡(NO)、部分遮挡(PO)、重遮挡(HO)、低照明(LI)、低分辨率(LR)、热交叉(TC)、变形(Def)、快速运动(FM)、尺度变化(SV)、运动模糊(MB)、摄像机移动(CM)和背景杂波(BC)是RGBT234数据集的挑战属性。表中红色、绿色和蓝色的数字分别表示最好、第二和第三的跟踪结果。
表1在测试数据集RGBT234上的定量跟踪结果以及与其他先进跟踪器的对比结果
Figure BDA0003770422730000151
从表1中可以看到,在RGBT234数据集上,与最先进的跟踪器(包括RGB和RGBT跟踪器)相比,本发明在大多数情况下的性能明显优于其他跟踪器,总体实现了最好的跟踪性能。这表明本发明可以充分利用两种模式之间的互补信息来处理各种复杂的情况。其主观对比结果如图5所示,在序列child1中,与其他方法相比,本发明能够准确定位目标,在遮挡和运动模糊挑战上表现更好;来自序列dog1,可以发现本发明可以更好地处理遮挡和背景杂波的挑战;来自序列kite2,可以发现本发明充分抑制了摄像机移动挑战的干扰,从而确保了更具鲁棒性的目标位置;在序列elecbikewithlight1中,可以看出,RGB模态的初始目标包含强照明信息,这使得大多数算法都由这些信息主导。因此,当照明变得正常时,大多数算法都是模型漂移和失去目标。然而,本发明可以很好地抑制这些噪声信息,从而确保了更准确的目标定位。这表明,本发明可以充分挖掘模态差异和单模态特征的潜力。总的来说,通过上述比较,本发明能够更好地部署两种模态的信息来处理复杂的挑战。
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (9)

1.一种基于模态差异补偿的RGBT目标跟踪方法,其特征在于,包括如下步骤:
步骤1:构建双流CNN主干网络;
步骤2:构建模态差异补偿模块;
步骤2.1:模态差异补偿模块采用补偿再融合的策略,首先分别补偿两种模态的差异信息,然后通过元素求和的方式融合补偿后的RGB和补偿后的红外特征;
步骤2.2:分别以差异特征Fr-t和Ft-r作为输入,采用两个结构相同的权值生成网络生成差异特征权重Wr-t和Wt-r,权值生成网络同时使用空间权值图和通道权值图来获取更多的补偿信息;
步骤2.3:在获得差异特征权重图Wv-t(Wt-r)之后,补偿后的RGB特征
Figure FDA0003770422720000011
和补偿后的红外特征
Figure FDA0003770422720000012
通过跨模态残差连接获得,即:
Figure FDA0003770422720000013
Figure FDA0003770422720000014
补偿后的RGB特征
Figure FDA0003770422720000015
除了原始的单模态RGB特征Frgb外,还包含红外模态特有特征;同样的,如公式(7)所示,补偿后的红外特征
Figure FDA0003770422720000016
包含RGB模态特有特征以及原始的单模态红外特性Ft;通过对补偿后的RGB特征
Figure FDA0003770422720000017
和补偿后的红外特征
Figure FDA0003770422720000018
进行相加融合,得到最终融合的跨模态RGBT特征Frgbt∈RC×H×W,即:
Figure FDA0003770422720000019
步骤3:构建特征选择模块;
基于注意机制的特征选择模块进一步自适应地选择高鉴别性的跨模态和单模态特征以提高RGBT跟踪性能;特征选择模块通过三个步骤充分选择所有模态特征的高鉴别性特征,模态特征包括跨模态RGBT特征、原始单模态RGB特征和原始单模态红外特征;
步骤3.1:所有模态特征融合,目的是从跨模态RGBT特征、原始单模态RGB特征和原始单模态红外特征中获取更多的信息;
步骤3.2:通道级的特征选择,旨在增强与目标相关的类别的特征,抑制无用的特征;
步骤3.3:空间级特征选择,旨在增强目标空间位置的权重,抑制远离目标的位置;步骤4:构建判别模型预测跟踪网络;
判别模型预测跟踪网络分别以模板图像特征和待检测图像特征为输入,并进行多任务输出:分类得分图,IoU预测;其中,分类得分图是通过待检测图像特征和滤波器f相计算而获得,滤波器f包括由一个卷积层以及一个精确的ROI池化组成的模型初始化器和通过最速下降求解最终模型的模型优化器,模型滤波器f是通过在模型初始化器使用初始训练集中的多个样本来求解,IoU预测是预测图像的深度特征和候选边界框特征之间的IoU,然后通过最大化IoU预测来进行边界框估计;
步骤5:构建基于边界定位的二次回归网络:
基于边界定位的二次回归网络目的是对步骤4得到的IoU预测结果进行二次回归以获得更精确的目标框,基于边界定位的二次回归网络能够有效地细化IoUNet预测器的初始估计,并显著提高跟踪性能;
基于边界定位的二次回归网络使用以下两个步骤来进一步提高目标跟踪性能;
步骤5.1:基于边界定位的二次回归网络利用目标特征表示与搜索特征表示之间的互相关对边界框估计中心进行重新调整,得到目标在中心的重新调整边界框估计;
步骤5.2:对于步骤5.1得到的搜索特征Fp采用边界定位方案提高定位精度,分别对每一条边界使用分类器进行定位同时使用回归器预测目标边界位置与真值之间的偏移;
步骤6:两阶段训练;
步骤6.1:在训练数据集上,对步骤4中的判别模型预测跟踪网络,采用监督学习机制,分别通过最小化鉴别学习损失函数和均方误差损失函数,完成算法网络训练,得到判别模型预测跟踪网络模型参数;
步骤6.2:加载所述步骤6.1中的网络参数并进行冻结,在训练数据集上单独对步骤5中的基于边界定位的二次回归网络进行监督学习,通过最小化均方误差损失函数,获得训练好的网络;
步骤7:目标跟踪:将所述网络集成为在线跟踪器,对可见光与红外视频数据进行跟踪;
步骤7.1:给定带有注释的第一帧,通过平移、旋转和模糊对第一帧进行数据增强,得到一个包含15个样本的初始训练集;
步骤7.2:以初始训练集图像和下一帧图像为输入,利用步骤1的双流CNN主干网络、步骤2的模态差异补偿模块和步骤3的特征选择模块分别获得模板融合特征和待检测融合特征;
步骤7.3:以模板融合特征和待检测融合特征为输入,通过步骤4的判别模型预测跟踪网络获得初始框;
步骤7.4:以模板融合特征、待检测融合特征以及扩展的初始框为输入,通过步骤5的基于边界定位的二次回归网络对初始框进行二次回归以获得更精确的目标矩形边框;
步骤7.5:重复步骤7.2-7.4,逐帧迭代计算图像中目标位置以及边框,实现RGBT目标连续跟踪;
步骤7.6:每20帧后进行初始训练集更新,获得新的模板特征,然后继续步骤7.5。
2.根据权利要求1所述的一种基于模态差异补偿的RGBT目标跟踪方法,其特征在于,步骤1中,双流CNNNN主干网络采用两个结构相同但参数不同的ResNet50,两个ResNet50主干网络分别输入RGB图像和红外图像,分别输出RGB单模态特征Frgb和红外单模态特征Ft,双流CNN主干网络采用孪生结构分别提取模板图像双流特征
Figure FDA0003770422720000031
和待检测图像的双流特征
Figure FDA0003770422720000032
3.根据权利要求2所述的一种基于模态差异补偿的RGBT目标跟踪方法,其特征在于,步骤2.1中,模态差异补偿模块通过单模态RGB特征Frgb∈RC×H×W减去单模态红外特征Ft∈RC ×H×W以获得差异特征Fr-t∈RC×H×W,同时通过单模态红外特征Ft∈RC×H×W减去单模态RGB特征Frgb∈RC×H×W以获得差异特征Ft-r∈RC×H×W,即:
Fr-t=(Frgb-Ft) (1)
Ft-r=(Ft-Frgb) (2)
其中,差异特征Fr-t∈RC×H×W表示RGB模态特异性特征表示;差异特征Ft-r∈RC×H×W表示红外模态特异性特征表示。
4.根据权利要求3所述的一种基于模态差异补偿的RGBT目标跟踪方法,其特征在于,步骤2.2中,空间权重图Sr-t∈R1×H×W是通过卷积层和一个sigmoid函数生成以反映RGB和红外模态在空间位置上的差异信息;这里的卷积层是由一个卷积核为3×3的卷积操作、批归一化层、ReLu激活函数组成;空间权重图Sr-t∈R1×H×W和St-r∈R1×H×W分别反映了RGB模态特异性特征和红外模态特异性特征的空间位置,同时,通道权重图Cr-t∈RC×1×1(Ct-r∈RC×1×1)是通过由全局平均池化和全局最大池化组成的池化层和一个sigmoid函数生成以反映RGB和红外模态在目标类别上的差异信息通道权重图Cr-t和Ct-r分别反映RGB模态特异性特征和红外模态特异性特征的目标类别;最终,通过空间权重图Sr-t(St-r)和通道权值图Cr-t(Ct-r)之间的元素乘法生成差异特征权重图Wr-t(Wt-r);差异特征权重图Wr-t的权重生成过程表述为:
Sr-t=σ(connv(Fr-t)) (3)
Cr-t=′σ(GAP(Fr-t)+GMP(Fr-t)) (4)
Figure FDA0003770422720000041
其中,connv(*)表示由卷积核大小为3×3的卷积操作,批归一化层BatchNorm和ReLu激活函数组成的卷积层,σ(*)表示sigmoid函数,GAP(*)表示全局平均池化操作,GMP(*)表示全局最大池化操作,
Figure FDA0003770422720000042
表示元素乘法操作;差异特征权重图Wr-t和Wt-r分别反映了RGB模态特异性特征和红外模态特异性特征的空间位置和目标类别。
5.根据权利要求4所述的一种基于模态差异补偿的RGBT目标跟踪方法,其特征在于,步骤3.1中,通过对跨模态RGBT特征Frgbt、原始单模态RGB特征Frgb和原始单模态红外特征Ft进行级联和卷积运算得到融合特征Fc∈R2C×H×W,即:
Fc=conv(cat(Frgbt,Frgb,Ft)) (9)
其中,cat(*)表示级联操作,conv(*)表示卷积核大小为1×1的卷积操作。
6.根据权利要求5所述的一种基于模态差异补偿的RGBT目标跟踪方法,其特征在于,步骤3.2中,给定融合特征Fc∈R2C×H×W作为输入,首先同时使用全局平均池化和全局最大池化以获得包含每个通道全局信息的更精细的特征描述符;然后,通过执行卷积核大小为3的快速一维卷积和sigmoid函数生成通道权值Wc∈R2C×1×1;通道注意力的计算方法为:
Wc=σ(CID(GAP(Fc)+GMP(Fc))) (10)
其中,CID(*)表示一维卷积,在获得通道权值Wc后,通过将融合特征Fc与权值Wc相乘,得到通道级特征选择输出Fcc∈R2C×H×W,即:
Figure FDA0003770422720000051
7.根据权利要求6所述的一种基于模态差异补偿的RGBT目标跟踪方法,其特征在于,步骤3.3中,在获得通道级特征选择输出Fcc∈R2C×H×W后,沿通道应用平均池化和最大池化操作以生成一个有效的特征描述符;然后通过级联、卷积和sigmoid函数生成空间注意图Ws∈R1 ×H×W;空间注意力的计算方法为:
Ws=σ(conv(cat(Avgpool(Fcc)+Maxpool(Fcc)))) (12)
其中,Avgpool(*)表示沿通道的平均池化操作,Maxpool(*)表示沿通道的最大池化操作;获得空间权值Ws后,将通道级特征选择输出Fcc与空间权值Ws相乘,得到空间特征选择输出Fcs∈R2C×H×W,即:
Figure FDA0003770422720000052
8.根据权利要求7所述的一种基于模态差异补偿的RGBT目标跟踪方法,其特征在于,步骤5.1中,首先使用参考分支和测试分支分别提取目标特征表示和搜索特征表示;参考分支输入特征为
Figure FDA0003770422720000061
和目标边界框注释B0,其中
Figure FDA0003770422720000062
表示特征选择模块输出的参考帧特征,返回RoI目标特征为
Figure FDA0003770422720000063
这个分支由一个卷积层和PrPool组成;测试分支通过从特征选择模块输出的待检测帧特征
Figure FDA0003770422720000064
和边界框估计B=(cx,cy,(λw),(λh)),提取RoI搜索特征
Figure FDA0003770422720000065
其中(cx,cy)表示边界框的中心坐标,w和h表示边界框估计的宽度和高度,λ是用以扩大候选区域边界以覆盖整个目标的比例因子,且λ>1;在获得ROI目标特征
Figure FDA0003770422720000066
和ROI搜索特性
Figure FDA0003770422720000067
后,基于边界定位的二次回归网络采用互相关以调整边界框估计B;互相关输入ROI目标特征
Figure FDA0003770422720000068
和ROI搜索特性
Figure FDA0003770422720000069
并返回一个得分图以反映目标特征与搜索特征的相似性;以得分最大的二维位置为中心,结合边界框估计B的宽度和高度,重新调整边界框B1被生成;然后,将重新调整边界框B1和经过两层卷积的搜索特征输入PrPool获得新的搜索特征Fp∈R256×7×7;;新的搜索特征Fp包含目标特征并且目标位于Fp中心。
9.根据权利要求8所述的一种基于模态差异补偿的RGBT目标跟踪方法,其特征在于,步骤5.2中,首先对特征Fp分别沿x轴和y轴聚合并通过1×3和3×1卷积层进一步细化,提取水平和垂直特征Fx∈R1×7和Fy∈R7×1;然后,分别将水平和垂直特征Fx∈R1×7和Fy∈R7×1上采样后平均划分为两部分,得到边界特征Fl∈R1×7、Fr∈R1×7、Ft∈R7×1和Fd∈R7×1;对于每个边界特征,同时使用一个分类器和回归器,分类器以边界特征作为输入,输出每个边界响应位置的置信图,回归器以每个边界特征作为输入,输出目标边界位置与真值之间的偏移以细化边界框位置预测。
CN202210904342.0A 2022-07-28 2022-07-28 一种基于模态差异补偿的rgbt目标跟踪方法 Pending CN115205337A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210904342.0A CN115205337A (zh) 2022-07-28 2022-07-28 一种基于模态差异补偿的rgbt目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210904342.0A CN115205337A (zh) 2022-07-28 2022-07-28 一种基于模态差异补偿的rgbt目标跟踪方法

Publications (1)

Publication Number Publication Date
CN115205337A true CN115205337A (zh) 2022-10-18

Family

ID=83583361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210904342.0A Pending CN115205337A (zh) 2022-07-28 2022-07-28 一种基于模态差异补偿的rgbt目标跟踪方法

Country Status (1)

Country Link
CN (1) CN115205337A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628249A (zh) * 2021-08-16 2021-11-09 电子科技大学 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法
CN116402858A (zh) * 2023-04-11 2023-07-07 合肥工业大学 基于transformer的时空信息融合的红外目标跟踪方法
CN116758117A (zh) * 2023-06-28 2023-09-15 云南大学 可见光与红外图像下的目标跟踪方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628249A (zh) * 2021-08-16 2021-11-09 电子科技大学 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法
CN113628249B (zh) * 2021-08-16 2023-04-07 电子科技大学 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法
CN116402858A (zh) * 2023-04-11 2023-07-07 合肥工业大学 基于transformer的时空信息融合的红外目标跟踪方法
CN116402858B (zh) * 2023-04-11 2023-11-21 合肥工业大学 基于transformer的时空信息融合的红外目标跟踪方法
CN116758117A (zh) * 2023-06-28 2023-09-15 云南大学 可见光与红外图像下的目标跟踪方法及系统
CN116758117B (zh) * 2023-06-28 2024-02-09 云南大学 可见光与红外图像下的目标跟踪方法及系统

Similar Documents

Publication Publication Date Title
CN111553205B (zh) 无车牌信息车辆重识别方法、系统、介质、视频监控系统
Christiansen et al. Unsuperpoint: End-to-end unsupervised interest point detector and descriptor
CN115205337A (zh) 一种基于模态差异补偿的rgbt目标跟踪方法
CN102640185B (zh) 图像序列中对象实时表示的混合跟踪的方法和设备
US11699290B1 (en) Pedestrian re-identification method and apparatus based on local feature attention
CN111444764A (zh) 一种基于深度残差网络的手势识别方法
US8718362B2 (en) Appearance and context based object classification in images
CN114898403A (zh) 一种基于Attention-JDE网络的行人多目标跟踪方法
Dai et al. GCD-YOLOv5: An armored target recognition algorithm in complex environments based on array lidar
Gao et al. A Task-Balanced Multi-Scale Adaptive Fusion Network for Object Detection in Remote Sensing Images
CN113076891B (zh) 基于改进高分辨率网络的人体姿态预测方法及系统
CN114170526A (zh) 基于轻量化网络的遥感影像多尺度目标检测识别方法
Yang et al. SiamMMF: multi-modal multi-level fusion object tracking based on Siamese networks
Mitzel et al. Real-Time Multi-Person Tracking with Time-Constrained Detection.
CN116311353A (zh) 基于特征融合的密集行人多目标跟踪方法、计算机设备和存储介质
Woo et al. Robust Horizon and Peak Extraction for Vision-based Navigation.
Cui et al. Siamese cascaded region proposal networks with channel-interconnection-spatial attention for visual tracking
Mangale et al. Gray level co-occurrence matrix feature based object tracking in thermal infrared imagery
CN111833384A (zh) 一种可见光和红外图像快速配准方法及装置
Song et al. Object tracking with dual field-of-view switching in aerial videos
Han et al. Crowded pedestrian detection with optimal bounding box relocation
Kapoor et al. Multi-sensor based object tracking using enhanced particle swarm optimized multi-cue granular fusion
Xu et al. A two-stage progressive shadow removal network
CN114821356B (zh) 一种精确定位的光学遥感目标检测方法
Xu et al. A-RetinaNet: A novel RetinaNet with an asymmetric attention fusion mechanism for dim and small drone detection in infrared images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination