CN113628249A - 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法 - Google Patents

基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法 Download PDF

Info

Publication number
CN113628249A
CN113628249A CN202110937175.5A CN202110937175A CN113628249A CN 113628249 A CN113628249 A CN 113628249A CN 202110937175 A CN202110937175 A CN 202110937175A CN 113628249 A CN113628249 A CN 113628249A
Authority
CN
China
Prior art keywords
target
image
network
tracking
bbox
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110937175.5A
Other languages
English (en)
Other versions
CN113628249B (zh
Inventor
张萍
罗金
季晓天
李洁
高椿明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110937175.5A priority Critical patent/CN113628249B/zh
Publication of CN113628249A publication Critical patent/CN113628249A/zh
Application granted granted Critical
Publication of CN113628249B publication Critical patent/CN113628249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

本发明提供了一种基于跨模态注意力机制与孪生结构的RGBT目标跟踪方法。模型包括基于跨模态注意引导的特征提取网络、基于前后景分类与边框回归的孪生跟踪网络;利用公开数据集对网络进行两阶段的迁移训练,包括基于可见光目标跟踪数据集的预训练、基于可见光与红外目标跟踪数据集的微调训练。本发明利用可见光与红外图像信息一致性与互补性特点,设计特征提取网络并集成为孪生的跟踪网络;跨模态注意力机制对于光照变化剧烈、低可见度等复杂场景的特征提取具有较强的稳定性,进而增强跟踪模型的稳定性与鲁棒性。

Description

基于跨模态注意力机制与孪生结构的RGBT目标跟踪方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于跨模态注意力机制与孪生结构的RGBT目标跟踪方法。
背景技术
目标跟踪是计算机视觉研究领域中的一个重要任务和研究分支,在第一帧图像中初始化感兴趣目标,算法逐帧地标记出所跟踪目标位置与尺寸等信息,一般以目标的外界矩形进行标定。目标跟踪技术在社区安防、智能交通监控、自动驾驶等民用领域、军事武器精确制导、反导系统等军事领域具有十分重要的作用和价值。
常规情况下的可见光的目标跟踪技术已经取得了明显的进展,可见光图像的空间分辨率较高,能较好的描述目标,如纹理、颜色、边界等内容。但是受限于可见光成像原理,基于可见光的跟踪方法无法较好地应对低可见度、低照度的问题,跟踪算法在光照复杂的场景下鲁棒性较低、在低照度或者夜间环境下完全失效。红外成像系统通过被动的方式根据目标的热辐射来检测目标,对于雾霾等恶劣情况有良好的抗干扰能力。但由于红外传感器的检测范围有限、背景杂波干扰等因素,红外图像只含灰度信息且信噪比低。同时红外热成像图像分辨率非常低,导致图像细节模糊,物体特征不明显,纹理和形状信息严重丢失。除了成像分辨率低的因素外,红外图像的跟踪任务存在细节特征丢失和热交叉等挑战因素。
在单一成像器件及单一模态图像模板满足跟踪任务的需求时,研究人员进而研究利用不同类型的成像器件得到的多模态图像进行目标跟踪,两种成像器件协同工作以获取基本配准的图像对,利用可见光图像和红外图像完成跟踪任务。面向可见光与红外图像的跟踪方法有三种思路:像素级融合的方法、特征级融合的方法、响应级融合方法。像素级图像融合方法先将配准的图像对进行融合,得到新的图像之后对目标进行建模和跟踪;但图像融合对图像配准精度要求高,且无法保证融合图像与跟踪任务的兼容性、融合后特征的完备性及准确性。特征级融合是可受益于深度模型较强的表征能力,能够保证对目标的准确建模。响应级决策融合方法是分别在两个模态下进行独立的跟踪,再将可见光和红外模态的跟踪结果进行融合或加权,得到最终的目标预测;该方法割裂了不同模态的协同特性,无法充分利用模态间的互补特性。
目前特征级融合方法的融合方式多是将两个模态下的特征直接进行简单级联,或者设计局部共享参数的特征提取模型,无法充分发挥模态间的一致性与互补性。
发明内容
针对可见光与红外图像的目标跟踪中跨模态信息利用问题,本发明提供了一种基于跨模态注意力机制与孪生结构的RGBT目标跟踪方法,利用注意力机制实现模态间互补信息的交互与融合,结合两种成像方式优势与特点,提高目标跟踪算法的抗干扰能力和稳定性。
本发明采用的技术方案为:
基于跨模态注意力机制与孪生结构的RGBT目标跟踪方法,包括以下步骤:
步骤1:构建数据集,对公开的RGB、RGBT目标跟踪数据集进行筛选,得到对应训练集;
步骤2:构建网络,包括特征提取网络、双模态孪生跟踪网络;
步骤2.1:构建特征提取网络:
所述特征提取网络是基于跨模态注意力机制构建的特征提取网络φ(*),包括深度特征提取与同级特征融合;采用双分支结构分别输入RGB图像和红外T图像,得到RGBT融合特征F:
F=φ(Iv,It)
其中Iv,It代表可见光图像、红外图像。所述两个分支结构相同:
{C(64,7,2)BR}-{C(128,3,2)BR}-{C(256,3,2)BR}-{C(512,3,1)BR}-{C(512,3,1)BR}
其中,C表示卷积层,括号内三位数字依次表示卷积核数量、卷积核尺寸、卷积步长,B表示批标准化层、R表示线性整流函数(ReLU)激活层,{*}表示一个层级结构。
通过注意力引导同级特征融合并反馈到双分支结构:特征级联、注意力加权,反馈。将两模态特征级联并输入到通道注意力求权函数fca(*):
Fconcat=[Fv,Ft]
Figure BDA0003213242960000021
其中[*,*]表示通道级联,Fv表示可见光图像特征,Ft红外图像特征,Fconcat为级联输出;加权函数fca(*)中,
Figure BDA0003213242960000022
分别表示在通道方向上对特征Fconcat的全局平均值池化和全局最大值池化,L0、L0表示两层全连接层,R表示线性整流函数(ReLU)激活层,σ表示sigmoid激活函数。
将求权函数fca(*)的输出和输入相乘,得到注意力特征Fa
Fa=fca(Fconcat)⊙Fconcat
其中⊙表示通道对应乘法。进一步将Fa输入两层卷积结构,得到融合特征Faf
Faf=W1(R(B(W0(Fa))))
其中W0、W1表示卷积层、B表示批标准化层、R表示线性整流函数(ReLU)激活层。进一步地,将Faf分别和同级可见光模态特征Fv、红外模态特征Ft进行通道级联。人为调整Faf和Fv、Ft的通道比例,得到同级模态特征
Figure BDA0003213242960000031
Figure BDA0003213242960000032
i∈{1,2,3}表示特征的层级,C1/C2表示Fv与Faf的通道比例:
Figure BDA0003213242960000033
步骤2.2:构建双模态孪生跟踪网络;
双模态孪生跟踪网络为双分支、4输入:
Figure BDA0003213242960000034
Iv,It代表可见光图像、红外图像,Z表示模板,X表示搜索区域;根据
Figure BDA0003213242960000035
得到模板特征FZ,根据
Figure BDA0003213242960000036
得到搜索区域特征FX
Figure BDA0003213242960000037
剪切FZ得到运算核,对搜索区域特征FX进行互相关运算,得到响应特征R:
Figure BDA0003213242960000038
其中
Figure BDA0003213242960000039
表示获取运算核的操作。
利用如下子分支对响应特征R进行解码:目标位置预测分支fcls(*)、目标边框预测分支fbbox(*);并进行多任务输出:前后景二分类响应图Rcls、目标中心位置响应图Rcen、目标尺寸预测响应图Rbbox
Rclc=Cclc(fcls(R))
Rcen=Ccen(fcls(R))
Rbbox=Cbbox(fbbox(R))
其中Cclc、Ccen、Cbbox为输出层。
步骤3:两阶段训练:
网络输入数据:
Figure BDA0003213242960000041
模板图像对、
Figure BDA0003213242960000042
搜索区域图像对;模型输出响应图:Rcls、Rcen、Rbbox。对分类分支的Rcls、Rcen采用交叉熵损失函数,对边框预测的Rbbox采用IOU损失函数。
步骤3.1:利用步骤1中可见光下RGB目标跟踪数据进行预训练,将RGB图像转为灰度图代替相应的红外图像;采用梯度下降法训练至损失值基本收敛。
步骤3.2:利用步骤1中RGBT目标跟踪数据进行微调训练;加载前述步骤3.1中的预训练参数并降低学习率进行训练,采用梯度下降法训练至损失值基本收敛。
步骤4:目标跟踪:将所述网络集成为离线跟踪器,对可见光与红外视频数据进行跟踪。
步骤4.1:初始化第一帧可见光图像和红外图像中待跟踪目标的模板,计算下一帧红外图像和可见光图像的搜索区域。
步骤4.2:解析模型输出:前后景分类响应Rcls、目标中心位置响应Rcen、目标尺寸预测响应Rbbox
目标最终位置估计响应图Rloc如下计算:
Rloc=(1-η)*Rcls*Rcen+η*Hhamming
其中η是人为设定的加权系数,Hhamming为汉明窗口;Rloc最大值位置为目标位置预测。目标边框计算如下:
(l,t,r,b)=Locmax(Rloc)⊙Rbbox
其中Locmax(Rloc)表示取Rloc最大值位置并置为1,其它置0;⊙表示二维对应位置相乘,得到中心点距离边界框左、上、右、下的距离向量:(l,t,r,b);进而得到目标矩形边框。
步骤4.3:根据步骤4.1的处理过程,逐帧迭代计算图像中目标位置以及边框,实现RGBT下目标连续跟踪。
本发明的有益效果为,本发明利用可见光与红外图像信息一致性与互补性特点,设计特征提取网络并集成为孪生的跟踪网络;跨模态注意力机制对于光照变化剧烈、低可见度等复杂场景的特征提取具有较强的稳定性,进而增强跟踪模型的稳定性与鲁棒性。
附图说明
图1为本发明实施例中的特征提取网络示意图;
图2为本发明实施例中的双模态孪生跟踪网络示意图;
图3为本发明实施例中RGBT跟踪结果示意图,(a)是对车辆跟踪,(b)是对人物进行跟踪。
具体实施方式
下面结合附图详细描述本发明的技术方案。
本发明提供的一种基于跨模态注意力机制与孪生结构的RGBT目标跟踪方法,技术方案流程图如图1所示,模型框架如图2所示,具体包括以下步骤
步骤1:构建数据集,对公开的RGB目标跟踪数据集GOT-10k进行筛选,去除目标可见度低、目标线性尺度过大、目标消失的数据,得到RGB训练集,共4624个序列。对公开的RGBT目标跟踪数据集GTOT进行筛选,去除红外图像噪声过大的数据,得到RGBT训练集,共30个序列。将RGB-T234作为完整的测试集。
步骤2:构建网络,包括特征提取网络、双模态孪生跟踪网络;
步骤2.1:构建特征提取网络
所述特征提取网络是基于跨模态注意力机制构建的特征提取网络φ(*),包括深度特征提取与同级特征融合;采用双分支结构分别输入RGB图像和红外T图像,得到RGBT融合特征F:
F=φ(Iv,It)
其中Iv,It分别代表可见光图像、红外图像。图像对Iv,It中的内容基本对准,像素误差在10像素距离以内。两个分支采用相同5层堆叠式卷积结构,具体层次如下:
{C(64,7,2)BR}-{C(128,3,2)BR}-{C(256,3,2)BR}-{C(512,3,1)BR}-{C(512,3,1)BR}
其中,C表示卷积层,括号内三位数字依次表示卷积核数量、卷积核尺寸、卷积步长,B表示批标准化层、R表示线性整流函数(ReLU)激活层,{*}表示一层所含结构,前两层卷积操作不进行张量填充,后三层卷积操作进行0填充,以维持特征的空间分辨率。
进一步地,注意力引导同级特征融合再反馈到双分支结构,且只在前述前三层进行:具体融合方法为:特征级联、注意力加权,反馈到双分支特征。
首先将两模态特征级联并输入到通道注意力求权函数fca(*):
Fconcat=[Fv,Ft]
Figure BDA0003213242960000061
其中[*,*]表示通道级联,Fv表示可见光图像特征,Ft红外图像特征,Fconcat为级联输出;加权函数fca(*)中,
Figure BDA0003213242960000062
分别表示在通道方向上对特征Fconcat的全局平均值池化和全局最大值池化,L0、L1表示两层全连接层,R表示线性整流函数(ReLU)激活层,σ表示sigmoid激活函数。L0的节点数量为Fconcat通道数乘压缩率,本实施例中压缩率为1/8;L1节点数量等于Fconcat通道数。
将求权函数fca(*)的输出和对应输入相乘,得到注意力特征输出Fa
Fa=fca(Fconcat)⊙Fconcat
其中⊙表示通道对应乘法。进一步将Fa输入两层卷积结构,得到融合特征Faf
Faf=W1(R(B(W0(Fa))))
其中W0、W1表示卷积层、B表示批标准化层、R表示线性整流函数(ReLU)激活层,W0卷积核数量为Fa通道数的1/4,W1卷积核数量根据后续通道比例确定。进一步地,将Faf分别和同级可见光模态特征Fv、红外模态特征Ft进行通道级联。人为调整Faf和Fv、Ft的通道比例,得到同级模态特征
Figure BDA0003213242960000063
Figure BDA0003213242960000064
其中[*,*]表示通道级联,i∈{1,2,3}表示特征的层级,C1/C2表示Fv与Faf的通道比例:
Figure BDA0003213242960000071
即在前三层逐级增大融合特征通道数相较于模态特征通道数的比例,后续结构加深模型深度并增大感受野但不进行上述融合。
步骤2.2:构建双模态孪生跟踪网络;
进一步地,利用前述深度特征提取模块构建参数共享的孪生网络,结构示意如图二所示,双模态孪生跟踪网络为双分支、4输入:
Figure BDA0003213242960000072
Iv,It代表可见光图像、红外图像,Z表示模板,X表示搜索区域。
根据目标位置与大小对可见光和红外图像进行中心缩放和裁剪,得到基本对准的图像对:
Figure BDA0003213242960000073
Iv,It代表可见光图像、红外图像,Z表示模板,X表示搜索区域;模板图像尺寸为127×127;搜索区域图像尺寸为255×255;缩放比例根据目标尺寸计算得到,使裁剪后的模板图像包含2倍目标大小的内容。上述图像输入值特征提取网络得到FZ、FX
Figure BDA0003213242960000074
进一步地,对模板特征FZ进行中心剪切,得到运算核,本实施例中裁剪比例为1/2。使用该运算核对搜索区域特征FX进行通道对应的互相关运算,得到响应特征R:
Figure BDA0003213242960000075
其中
Figure BDA0003213242960000076
表示获取运算核的操作。
进一步地,利用两个子分支对前述响应特征R进行解码:目标位置预测分支fcls(*)、目标边框预测分支fbbox(*);并进行多任务输出:前后景二分类任务、目标中心位置预测、目标尺寸预测。
fcls(*)和fbbox(*)为结构相同的4层卷积结构,每层结构为{CGR},其中C表示卷积层,G表示组标准化层、R表示线性整流函数(ReLU)激活层。多任务输出为前后景二分类响应图Rcls、目标中心位置响应图Rcen、目标尺寸预测响应图Rbbox
Rclc=Cclc(fcls(R))
Rcen=Ccen(fcls(R))
Rbbox=Cbbox(fbbox(R))
其中Cclc、Ccen、Cbbox为输出卷积层,将对应特征图通道数分别压缩至2、1、4。
步骤3:模型分两阶段训练:基于可见光RGB目标跟踪数据的预训练、基于可见光与红外RGBT目标跟踪数据的微调训练。
输入数据:
Figure BDA0003213242960000081
模板图像对、
Figure BDA0003213242960000082
搜索区域图像对;模型输出响应图:Rcls、Rcen、Rbbox。对分类分支的Rcls、Rcen采用交叉熵损失函数,对边框预测的Rbbox采用IOU损失函数。三个损失进行加权求和为总损失值:
loss=λ1lcls2lcen3lbbox
其中lcls、lcen、lbbox分别代表Rcls、Rcen、Rbbox对应损失值。λi,i∈{1,2,3}为权值,本实施例中λ1=1.0,λ2=1.0,λ3=4.0。
首先,利用可见光下目标跟踪数据进行预训练,将RGB图像转为灰度图代替相应的红外图像。从可见光目标跟踪数据集GOT-10k中筛选4623个序列作为训练集,使用Adam优化器,全局学习率设置为0.0001,在数据集进行200次完整迭代。
然后,利用真实的可见光图像与红外图像进行微调训练;本实施例使用RGBT跟踪数据集中的978个视频序列作为训练数据。加载前述预训练模型并调整学习率,将响应图解码网络参数的学习率调整为0.00005,特征提取模块参数的学习率为0.0001,在数据集上进行1000次完整迭代。
步骤4:目标跟踪:将所述模型集成为离线跟踪器,对可见光与红外视频数据进行跟踪。
初始化第一帧可见光图像和红外图像中待跟踪目标,经过图像预处理之后作为后续跟踪过程的模板,固定不变。根据当前目标中心位置,计算下一帧红外图像和可见光图像的搜索区域,输入到孪生结构对应的搜索区域特征提取分支。
模型逐层进行运算得到三个响应图:前后景分类响应Rcls、目标中心位置响应Rcen、目标尺寸预测响应Rbbox。目标最终位置估计响应图Rloc如下计算:
Rloc=(1-η)*Rcls*Rcen+η*Hhamming
其中加权系数η设置为0.55,Hhamming为汉明窗口;Rloc最大值位置为目标位置预测。目标边框计算如下:
(l,t,r,b)=Locmax(Rloc)⊙Rbbox
其中Locmax(Rloc)表示取Rloc最大值位置并置为1,其它置0;⊙表示二维对应位置相乘,得到中心点距离边界框左、上、右、下的距离向量:(l,t,r,b);进而得到预测的矩形边框bboxpred。在跟踪过程中可根据实际跟踪任务对预测的矩形边框进行平滑计算:
bboxcur=μ*bboxpred+(1-μ)*bboxprev
其中μ为边框变化的学习率,本实施例中为0.2,bboxprev为上一帧跟踪结果的边框,将平滑之后的结果bboxcur作为最终预测。
按照上述处理流程,逐帧迭代计算图像中目标位置以及边框大小,实现RGBT下目标的连续跟踪。
根据上述实施方案所述,在RGBT目标跟踪数据集RGB-T234上测试模型的客观指标与性能。与其他9个跟踪算法进行对比,准确率与成功率指标的量化对比如下表所示。
方法 JSR L1-PF KCF DSST SAMF CFnet MEEM SOWP SRDCF ours
准确率 0.333 0.424 0.450 0.516 0.496 0.544 0.621 0.682 0.636 0.637
成功率 0.224 0.280 0.291 0.328 0.349 0.380 0.389 0.434 0.453 0.440
测试表明,得益于跨模态注意力机制的信息融合增益,本实施例的RGBT目标跟踪方法具有更好的跟踪效果与量化指标;跟踪结果示意如图3所示,(a)、(b)各表示一个序列,第一行为可见光图像,第二行为红外图像。

Claims (1)

1.基于跨模态注意力机制与孪生结构的RGBT目标跟踪方法,其特征在于,包括以下步骤:
步骤1:构建数据集:从公开的RGB、RGBT目标跟踪数据集中按需筛选出数据,得到对应训练集;
步骤2:构建网络,包括特征提取网络、双模态孪生跟踪网络,具体为:
步骤2.1:构建特征提取网络:
特征提取网络为基于跨模态注意力机制构建的特征提取网络φ(*),包括深度特征提取与同级特征融合;特征提取网络采用双分支结构分别输入RGB图像和红外图像,得到RGBT融合特征F:
F=φ(Iv,It)
其中Iv,It代表可见光图像、红外图像;两个分支结构相同:
{C(64,7,2)BR}-{C(128,3,2)BR}-{C(256,3,2)BR}-{C(512,3,1)BR}-{C(512,3,1)BR}
其中,C表示卷积层,括号内三位数字依次表示卷积核数量、卷积核尺寸、卷积步长,B表示批标准化层、R表示线性整流函数激活层,{*}表示一个层级结构;
通过注意力引导同级特征融合并反馈到双分支结构,具体为:
将两模态特征级联并输入到通道注意力求权函数fca(*):
Fconcat=[Fv,Ft]
Figure FDA0003213242950000011
其中[*,*]表示通道级联,Fv表示可见光图像特征,Ft红外图像特征,Fconcat为级联输出;加权函数fca(*)中,
Figure FDA0003213242950000012
分别表示在通道方向上对特征Fconcat的全局平均值池化和全局最大值池化,L0、L0表示两层全连接层,R表示线性整流函数激活层,σ表示sigmoid激活函数;
将求权函数fca(*)的输出和输入相乘,得到注意力特征Fa
Fa=fca(Fconcat)⊙Fconcat
其中⊙表示通道对应乘法;
将Fa输入两层卷积结构,得到融合特征Faf
Faf=W1(R(B(W0(Fa))))
其中W0和W1表示卷积层、B表示批标准化层、R表示线性整流函数激活层;
将Faf分别和同级可见光模态特征Fv、红外模态特征Ft进行通道级联,调整Faf和Fv、Ft的通道比例,得到同级模态特征
Figure FDA0003213242950000021
Figure FDA0003213242950000022
i∈{1,2,3}表示特征的层级,C1/C2表示Fv与Faf的通道比例:
Figure FDA0003213242950000023
步骤2.2:构建双模态孪生跟踪网络:
双模态孪生跟踪网络为双分支、4输入:
Figure FDA0003213242950000024
Iv,It代表可见光图像、红外图像,Z表示模板,X表示搜索区域;根据
Figure FDA0003213242950000025
得到模板特征FZ,根据
Figure FDA0003213242950000026
得到搜索区域特征FX
Figure FDA0003213242950000027
剪切FZ得到运算核,对搜索区域特征FX进行互相关运算,得到响应特征R:
Figure FDA0003213242950000028
其中
Figure FDA0003213242950000029
表示获取运算核的操作;
利用如下子分支对响应特征R进行解码:目标位置预测分支fcls(*)、目标边框预测分支fbbox(*);并进行多任务输出:前后景二分类响应图Rcls、目标中心位置响应图Rcen、目标尺寸预测响应图Rbbox
Rclc=Cclc(fcls(R))
Rcen=Ccen(fcls(R))
Rbbox=Cbbox(fbbox(R))
其中Cclc、Ccen、Cbbox为输出层;
步骤3:两阶段训练:
输入数据:
Figure FDA0003213242950000031
模板图像对、
Figure FDA0003213242950000032
搜索区域图像对;网络输出响应图:Rcls、Rcen、Rbbox;对分类分支的Rcls、Rcen采用交叉熵损失函数,对边框预测的Rbbox采用IOU损失函数,具体为:
步骤3.1:利用步骤1中可见光下RGB目标跟踪数据进行预训练,将RGB图像转为灰度图代替相应的红外图像;采用梯度下降法训练至损失值基本收敛;
步骤3.2:利用步骤1中RGBT目标跟踪数据进行微调训练;加载所述步骤3.1中的预训练参数并降低学习率进行训练,采用梯度下降法训练至损失值基本收敛;获得训练好的网络;
步骤4:利用训练好的网络对可见光与红外视频数据进行跟踪:
步骤4.1:初始化第一帧可见光图像和红外图像中待跟踪目标的模板,计算下一帧红外图像和可见光图像的搜索区域。;
步骤4.2:解析模型输出:前后景分类响应Rcls、目标中心位置响应Rcen、目标尺寸预测响应Rbbox
目标最终位置估计响应图Rloc如下计算:
Rloc=(1-η)*Rcls*Rcen+η*Hhamming
其中η是人为设定的加权系数,Hhamming为汉明窗口;Rloc最大值位置为目标位置预测,目标边框计算如下:
(l,t,r,b)=Locmax(Rloc)⊙Rbbox
其中Locmax(Rloc)表示取Rloc最大值位置并置为1,其它置0;⊙表示二维对应位置相乘,得到中心点距离边界框左、上、右、下的距离向量:(l,t,r,b);进而得到目标矩形边框;
步骤4.3:重复步骤4.1,逐帧迭代计算图像中目标位置以及边框,实现RGBT下目标连续跟踪。
CN202110937175.5A 2021-08-16 2021-08-16 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法 Active CN113628249B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110937175.5A CN113628249B (zh) 2021-08-16 2021-08-16 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110937175.5A CN113628249B (zh) 2021-08-16 2021-08-16 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法

Publications (2)

Publication Number Publication Date
CN113628249A true CN113628249A (zh) 2021-11-09
CN113628249B CN113628249B (zh) 2023-04-07

Family

ID=78385787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110937175.5A Active CN113628249B (zh) 2021-08-16 2021-08-16 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法

Country Status (1)

Country Link
CN (1) CN113628249B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113920171A (zh) * 2021-12-09 2022-01-11 南京理工大学 基于特征级和决策级融合的双模态目标跟踪算法
CN114241003A (zh) * 2021-12-14 2022-03-25 成都阿普奇科技股份有限公司 一种全天候轻量化高实时性海面船只检测与跟踪方法
CN114897941A (zh) * 2022-07-13 2022-08-12 长沙超创电子科技有限公司 基于Transformer和CNN的目标跟踪方法
CN115294176A (zh) * 2022-09-27 2022-11-04 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种双光多模型长时间目标跟踪方法、系统及存储介质
CN115393679A (zh) * 2022-08-01 2022-11-25 国网江苏省电力有限公司南通供电分公司 一种rgb-红外输电线路缺陷图像特征融合方法及系统
CN116188528A (zh) * 2023-01-10 2023-05-30 中国人民解放军军事科学院国防科技创新研究院 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统
CN116758117A (zh) * 2023-06-28 2023-09-15 云南大学 可见光与红外图像下的目标跟踪方法及系统
CN116912649A (zh) * 2023-09-14 2023-10-20 武汉大学 基于相关注意力引导的红外与可见光图像融合方法及系统
CN117474957A (zh) * 2023-12-28 2024-01-30 常熟理工学院 一种基于目标感知增强融合结构的rgbt目标跟踪方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291679A (zh) * 2020-02-06 2020-06-16 厦门大学 一种基于孪生网络的目标特定响应注意力目标跟踪方法
CN112703457A (zh) * 2018-05-07 2021-04-23 强力物联网投资组合2016有限公司 用于使用工业物联网进行数据收集、学习和机器信号流传输实现分析和维护的方法和系统
US20210192220A1 (en) * 2018-12-14 2021-06-24 Tencent Technology (Shenzhen) Company Limited Video classification method and apparatus, computer device, and storage medium
CN115205337A (zh) * 2022-07-28 2022-10-18 西安热工研究院有限公司 一种基于模态差异补偿的rgbt目标跟踪方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112703457A (zh) * 2018-05-07 2021-04-23 强力物联网投资组合2016有限公司 用于使用工业物联网进行数据收集、学习和机器信号流传输实现分析和维护的方法和系统
US20210192220A1 (en) * 2018-12-14 2021-06-24 Tencent Technology (Shenzhen) Company Limited Video classification method and apparatus, computer device, and storage medium
CN111291679A (zh) * 2020-02-06 2020-06-16 厦门大学 一种基于孪生网络的目标特定响应注意力目标跟踪方法
CN115205337A (zh) * 2022-07-28 2022-10-18 西安热工研究院有限公司 一种基于模态差异补偿的rgbt目标跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QIN XU 等: "Multimodal Cross-Layer Bilinear Pooling for RGBT Tracking" *
马睿妍 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113920171A (zh) * 2021-12-09 2022-01-11 南京理工大学 基于特征级和决策级融合的双模态目标跟踪算法
CN114241003A (zh) * 2021-12-14 2022-03-25 成都阿普奇科技股份有限公司 一种全天候轻量化高实时性海面船只检测与跟踪方法
CN114897941A (zh) * 2022-07-13 2022-08-12 长沙超创电子科技有限公司 基于Transformer和CNN的目标跟踪方法
CN115393679A (zh) * 2022-08-01 2022-11-25 国网江苏省电力有限公司南通供电分公司 一种rgb-红外输电线路缺陷图像特征融合方法及系统
CN115294176A (zh) * 2022-09-27 2022-11-04 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种双光多模型长时间目标跟踪方法、系统及存储介质
CN116188528A (zh) * 2023-01-10 2023-05-30 中国人民解放军军事科学院国防科技创新研究院 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统
CN116188528B (zh) * 2023-01-10 2024-03-15 中国人民解放军军事科学院国防科技创新研究院 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统
CN116758117A (zh) * 2023-06-28 2023-09-15 云南大学 可见光与红外图像下的目标跟踪方法及系统
CN116758117B (zh) * 2023-06-28 2024-02-09 云南大学 可见光与红外图像下的目标跟踪方法及系统
CN116912649A (zh) * 2023-09-14 2023-10-20 武汉大学 基于相关注意力引导的红外与可见光图像融合方法及系统
CN116912649B (zh) * 2023-09-14 2023-11-28 武汉大学 基于相关注意力引导的红外与可见光图像融合方法及系统
CN117474957A (zh) * 2023-12-28 2024-01-30 常熟理工学院 一种基于目标感知增强融合结构的rgbt目标跟踪方法

Also Published As

Publication number Publication date
CN113628249B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN113628249B (zh) 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法
CN110070107B (zh) 物体识别方法及装置
CN111612008B (zh) 基于卷积网络的图像分割方法
CN111291809B (zh) 一种处理装置、方法及存储介质
WO2021147325A1 (zh) 一种物体检测方法、装置以及存储介质
CN113221641B (zh) 基于生成对抗网络和注意力机制的视频行人重识别方法
CN111160407B (zh) 一种深度学习目标检测方法及系统
CN112561027A (zh) 神经网络架构搜索方法、图像处理方法、装置和存储介质
WO2023030182A1 (zh) 图像生成方法及装置
Grigorev et al. Depth estimation from single monocular images using deep hybrid network
Manssor et al. Real-time human detection in thermal infrared imaging at night using enhanced Tiny-yolov3 network
CN115187786A (zh) 一种基于旋转的CenterNet2目标检测方法
Hua et al. Cascaded panoptic segmentation method for high resolution remote sensing image
CN115239765A (zh) 基于多尺度可形变注意力的红外图像目标跟踪系统及方法
Duan [Retracted] Deep Learning‐Based Multitarget Motion Shadow Rejection and Accurate Tracking for Sports Video
CN117197438A (zh) 一种基于视觉显著性的目标检测方法
Chacon-Murguia et al. Moving object detection in video sequences based on a two-frame temporal information CNN
CN117173595A (zh) 基于改进YOLOv7的无人机航拍图像目标检测方法
CN115761240B (zh) 一种混沌反向传播图神经网络的图像语义分割方法及装置
Shahbaz et al. Convolutional neural network based foreground segmentation for video surveillance systems
CN111862156A (zh) 一种基于图匹配的多目标跟踪方法和系统
CN117011640A (zh) 基于伪标签滤波的模型蒸馏实时目标检测方法及装置
CN116597263A (zh) 图像合成模型的训练方法及相关装置
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN113627245B (zh) Crts目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant