CN115375948A - 基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络 - Google Patents

基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络 Download PDF

Info

Publication number
CN115375948A
CN115375948A CN202211113015.XA CN202211113015A CN115375948A CN 115375948 A CN115375948 A CN 115375948A CN 202211113015 A CN202211113015 A CN 202211113015A CN 115375948 A CN115375948 A CN 115375948A
Authority
CN
China
Prior art keywords
convolution
layer
transformer
rgb
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211113015.XA
Other languages
English (en)
Inventor
姚睿
仇甲柱
周勇
王鹏
张艳宁
胡伏原
祝汉城
赵佳琦
刘兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202211113015.XA priority Critical patent/CN115375948A/zh
Publication of CN115375948A publication Critical patent/CN115375948A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于全局注意力的卷积‑Transformer的RGB‑T目标跟踪网络方法,输入是一对来自视频流中的可见光和红外图像,通过构建卷积‑Transformer特征提取网络,共享参数的Transformer分支处理多模态数据的共享特征并建立全局信息模型。独立的卷积分支则处理各个模态的独立特征。结合全局与局部、共享和独立信息特征以充分挖掘多模态数据的可利用信息。然后通过交叉注意融合模块利用交叉注意力建立模态之间全局对应关系以加强模态间的信息交互,实现深度融合。通过ROIAlign层将候选样本映射成固定大小的特征。最后,由每个候选样本映射的融合特征被送入全连接层以预测分数由二元分类层获得。

Description

基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络
技术领域
本发明涉及图像处理技术领域,是一种基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法,属于多模态的RGB-T目标跟踪技术。
背景技术
目标跟踪作为计算机视觉领域的一个重要任务,其目的是在一个视频中第一帧给定目标位置坐标的情况下实现对后续帧目标位置的预测。然而,跟踪任务通常面临着很多外界环境干扰的挑战,比如遮挡、低光照、快速移动等等。
RGB-T跟踪是近几年目标跟踪领域的一个重要研究方向,可以在上述挑战下仍能取得良好的跟踪性能,主要原因就是其同时利用了RGB图像和红外图像的优势。由于成像方式和原理不同,RGB图像和红外图像具有不同的特点。RGB图像分辨率高、纹理清晰,在正常环境中可以提供完整的视觉信息,而红外图像分辨率低,可提供信息单一,但可以在极度暗等恶劣环境下为RGB图像提供补充信息。因此RGB-T跟踪的主要目的是利用RGB图像和红外图像的互补优势克服环境的干扰,获取更多特征表示实现视频的稳健跟踪。近年来,许多人致力于推动RGB-T跟踪的进展,但由于对RGB和热红外信息的利用不足,仍有很大的研究空间。
Transformer是近几年兴起的一种以注意力机制为核心的结构,和卷积网络对局部占优的特点不同,Transformer有着出色的全局信息建模能力。
发明内容
发明目的:为了提高RGB-T跟踪算法的跟踪性能,本发明提供一种基于全局注意力的卷积-Transformer RGB-T目标跟踪网络来充分挖掘模态信息;该方法采用实时多域的目标跟踪模型RT-MDNet作为主干网络,将其改造成双流的多分支网络同时处理多模态数据,同时利用Transformer和卷积的不同特性充分利用全局与局部信息;该方法在交叉注意力结构的基础上,同时对两种模态及逆行交叉注意力的运算以构建不同模态间的全局对应关系,实现深度交互与融合,能够获得更好的跟踪性能。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法,包括如下步骤:
(1)从RGB-T数据流中获取训练样本集,每个训练样本包括相对应的一幅RGB图像R和一幅红外图像T;
(2)构建卷积-Transformer网络分步提取RGB图像R和红外图像T的多模态图像特征,并聚合卷积特征和Transformer特征,得到RGB特征Fvis和红外特征Finf
(3)构建交叉注意融合模块对RGB特征Fvis和红外特征Finf进行融合,加强RGB图像R和红外图像T的信息交互,得到融合特征Fout
(4)将待预测的候选样本映射在融合特征上,通过全连接层执行二元分类预测,待预测的候选样本属于RGB-T数据流中某一帧图片或某一帧图片中的部分;
(5)使用二元分类损失和嵌入损失对二元分类预测进行监督训练,得到训练好的卷积-Transformer跟踪网络;
(6)将视频流及待跟踪图像输入到训练好的卷积-Transformer跟踪网络,在视频流中对待跟踪图像进行跟踪,待跟踪图像属于视频流中某一帧图片或某一帧图片中的部分。
具体的,所述步骤(2)中,通过卷积-Transformer网络分步提取训练样本中RGB图像R和红外图像T的多模态图像特征,包括如下步骤:
(21)卷积分支网络通过三个卷积块逐层对输入图像进行特征提取,依次得到第一、二、三层模态特征f1、f2、f3,将f3作为卷积特征;RGB图像R经卷积分支网络得到f1 vis
Figure BDA0003844327220000021
红外图像T经卷积分支网络得到f1 inf
Figure BDA0003844327220000022
(22)Transformer分支网络对输入图像进行输入处理得到X0,再通过四组Transformer模块逐层对输入图像进行特征提取,依次得到第一、二、三、四层全局共享特征X1、X2、X3、X4,最后进行输出处理得到X,将X作为Transformer特征;RGB图像R经Transformer分支网络得到
Figure BDA0003844327220000023
和Xvis,红外图像T经Transformer分支网络得到
Figure BDA0003844327220000024
和Xinf
(23)逐元素相加
Figure BDA0003844327220000025
和Xvis,再经过层归一化运算后得到RGB特征Fvis;逐元素相加
Figure BDA0003844327220000026
和Xinf,再经过层归一化运算后得到红外特征Finf
具体的,所述步骤(21)中,卷积分支网络由两个不共享参数的卷积分支组成,其中一个卷积分支用于提取RGB图像R的特征,另一个卷积分支用于处理红外图像T的特征;每个卷积分支由三个依次连接的卷积块组成;
第一个卷积块包括一个滤波器、一个ReLU激活函数、一个局部响应归一化层和一个最大池化层,用于获取第一层模态特征,滤波器为输出通道数为96、卷积核大小为7×7的滤波器;
第二个卷积块包括一个滤波器、一个ReLU激活函数、一个局部响应归一化层和一个最大池化层,用于获取第二层模态特征,滤波器为输出通道数为256、卷积核大小为5×5的滤波器;
第三个卷积块包括一个滤波器和一个ReLU激活函数,用于获取第三层模态特征,滤波器为输出通道数为512、卷积核大小为3×3的滤波器。
具体的,所述步骤(22)中,Transformer分支网络按照如下方法获得全局共享特征:
(221)对不固定尺寸的输入图像进行输入处理,将输入图像的通道数由3变为64,得到X0
(222)通过四个阶段完成全局共享特征的提取,在每一个阶段,使用一组Transformer模块对输入特征进行处理;在第一、二、三阶段,先使用Transformer模块组处理输入特征,再对Transformer模块组的输出进行下采样,下采样的结果作为下一Transformer模块组的输入特征;
在每个Transformer模块中,输入特征先经展平处理,再经由层归一化运算形成特征向量I,然后通过不同的线性变换层执行线性映射获取查询集Q、键集K和值集V,接着对查询集Q、键集K和值集V进行自注意力操作,再接着通过残差连接输入特征和自注意力操作结果,最后再由层归一化运算形成Transformer模块的输出;表示为:
Q=LQ(I),K=LK(I),V=LV(I)
Attention(Q,K,V)=softmamax(QKT)V
SA(I)=Attention(Q,K,V)
其中:LQ、LK、LV分别表示Transformer模块中查询集、键集、值集的线性变换层;Attention表示自注意力机制的运算函数,softmamax表示多分类的归一化指数函数,SA表示Transformer模块中自注意力的过程函数;
(223)第一、二、三、四阶段的输出分别为X1、X2、X3、X4,对X4进行输出处理得到X,即使用池化层将X4变为与f3尺寸相同的X,实现特征间的对齐,在后续操作中可以实现元素间的聚合操作。
具体的,所述步骤(222)中,通过四个阶段完成全局共享特征的提取,在第一、二、三、四阶段,Transformer模块组中Transformer模块的数量分别为2、2、2、1,同一Transformer模块组中的Transformer模块顺序连接。
具体的,所述步骤(222)中,通过四个阶段完成全局共享特征的提取,在第一、二、三阶段,先使用Transformer模块组处理输入特征,再对Transformer模块组的输出进行下采样,通过下采样,将第一、二、三阶段Transformer模块组输出的特征尺寸分别调整为
Figure BDA0003844327220000041
H、W和C分别表示X0的长、宽和通道数。
具体的,所述步骤(3)中,构建交叉注意融合模块加强RGB图像R和红外图像T的信息交互与融合,包括如下步骤:
(31)通过键集、值集的线性变换层获取RGB特征Fvis的键集
Figure BDA0003844327220000042
和值
Figure BDA0003844327220000043
通过查询集的线性变换层获取红外特征Finf的查询集
Figure BDA0003844327220000044
执行交叉注意力运算得到交叉特征
Figure BDA0003844327220000045
Figure BDA0003844327220000046
CA(Fvis,Finf)=Attention(Qinf,Kvis,Vvis)
其中:CA表示交叉注意力的运算函数,LN表示层归一化运算;
Figure BDA0003844327220000047
分别表示计算交叉特征
Figure BDA0003844327220000048
的交叉注意力分支中查询集、键集及值集的线性变换层;
(32)通过键集、值集的线性变换层获取红外特征Finf的键集
Figure BDA0003844327220000049
和值集
Figure BDA00038443272200000410
通过查询集的线性变换层获取RGB特征Fvis的查询集
Figure BDA00038443272200000411
执行交叉注意力运算得到交叉特征
Figure BDA00038443272200000412
Figure BDA00038443272200000413
CA(Finf,Fvis)=Attention(Qvis,Kinf,Vinf)
其中:
Figure BDA00038443272200000414
分别表示计算交叉特征
Figure BDA00038443272200000415
的交叉注意力分支中查询集、键集及值集的线性变换层;
(33)执行融合操作得到融合特征Fout
Figure BDA0003844327220000051
其中:Concat表示特征融合的运算函数。
具体的,所述步骤(4),先通过ROIAlign层将待预测的候选样本在融合特征Fout上映射成设定大小(3×3),再通过连续的一组全连接层预测候选样本的二元分类得分。
具体的,所述连续的一组全连接层包括两个一般全连接层(FC4、FC5)和一个多域全连接层(FC6),多域全连接层由一组并列的二元分类层构成,候选图片的二元分类得分通过二元分类层获得。
具体的,所述步骤(5)中,采用二元分类损失和嵌入损失对二元分类预测进行监督训练:
Figure BDA0003844327220000052
Figure BDA0003844327220000053
L=Lcls+λLinst
其中:Lcls表示二元分类损失;Linst表示嵌入损失,用以克服候选样本与某些分类类别不同但是过分相似的情况;L表示总损失函数,λ表示权值;
i=1,2,…,N,N表示候选样本总数;c∈{0,1},c=1表示候选样本的真实标签为正,c=0表示候选样本的真实标签为负;yi表示系统对第i个候选样本为真实标签判断正确的概率;fi d表示第i个候选样本在分类d上的二元分类得分,d=1,2,…,D,D表示类别总数;[·]cd表示针对分类d,在c=1和c=0情况下均对·进行归一化运算;[·]d表示针对分类d,在c=1情况下对·进行归一化运算;σ表示softmax函数。
有益效果:本发明提供的基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法,结合全局与局部、共享和独立信息特征,能够充分挖掘多模态数据的可利用信息;同时,交叉融合模块利用交叉注意力建立模态之间全局对应关系以加强信息交互,能够实现深度融合,可以提升跟踪性能和跟踪速度。
附图说明
图1为本发明方法的实施流程图;
图2为本发明系统的结构示意图;
图3为第一、二、三层Transformer模块组的结构框图;
图4为第四层Transformer模块组的结构框图;
图5为交叉融合模块的结构框图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
如图1所示为一种基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法,下面就各个步骤加以具体说明。
步骤S01:从RGB-T数据流中获取训练样本集,每个训练样本包括相对应的一幅RGB图像R和一幅红外图像T。
步骤S02:构建卷积-Transformer网络分步提取RGB图像R和红外图像T的多模态图像特征,并聚合卷积特征和Transformer特征,得到RGB特征Fvis和红外特征Finf
(21)卷积分支网络通过三个卷积块逐层对输入图像进行特征提取,依次得到第一、二、三层模态特征f1、f2、f3,将f3作为卷积特征;RGB图像R经卷积分支网络得到f1 vis
Figure BDA0003844327220000061
红外图像T经卷积分支网络得到f1 inf
Figure BDA0003844327220000062
如图2所示,所述卷积分支网络由两个不共享参数的卷积分支组成,其中一个卷积分支用于提取RGB图像R的特征,另一个卷积分支用于处理红外图像T的特征;每个卷积分支由三个依次连接的卷积块组成;第一个卷积块包括一个滤波器、一个ReLU激活函数、一个局部响应归一化层(LRN)和一个最大池化层,用于获取第一层模态特征f1,滤波器为输出通道数为96、卷积核大小为7×7的滤波器;第二个卷积块包括一个滤波器、一个ReLU激活函数、一个局部响应归一化层(LRN)和一个最大池化层,用于获取第二层模态特征f2,滤波器为输出通道数为256、卷积核大小为5×5的滤波器;第三个卷积块包括一个滤波器和一个ReLU激活函数,用于获取第三层模态特征f3,滤波器为输出通道数为512、卷积核大小为3×3的滤波器。
(22)Transformer分支网络对输入图像进行输入处理得到X0,再通过四组Transformer模块逐层对输入图像进行特征提取,依次得到第一、二、三、四层全局共享特征X1、X2、X3、X4,最后进行输出处理得到X,将X作为Transformer特征;RGB图像R经Transformer分支网络得到
Figure BDA0003844327220000071
和Xvis,红外图像T经Transformer分支网络得到
Figure BDA0003844327220000072
和Xinf
如图2所示,Transformer分支网络由两个共享参数的Transformer分支组成,其中一个卷积分支用于提取RGB图像R的特征,另一个卷积分支用于处理红外图像T的特征;Transformer分支的具体运算过程如下:
(221)对H×W×3的输入图像进行输入处理,将输入图像的通道数由3变为64,得到X0
(222)通过四个阶段完成全局共享特征的提取,在每一个阶段,使用一组Transformer模块对输入特征进行处理。
如图3所示,在第一、二、三阶段,Transformer模块组均包括两个顺序连接的Transformer模块,先使用Transformer模块组处理输入特征,再对Transformer模块组的输出进行下采样,下采样的结果作为下一Transformer模块组的输入特征。
如图4所示,在第四阶段,Transformer模块组仅包括一个Transformer模块。
在每个Transformer模块中,输入特征先经展平处理,再经由层归一化运算形成特征向量I,然后通过不同的线性变换层执行线性映射获取查询集Q、键集K和值集V,接着对查询集Q、键集K和值集V进行自注意力操作,再接着通过残差连接输入特征和自注意力操作结果,最后再由层归一化运算形成Transformer模块的输出。Transformer模块的处理过程可以表示为:
Q=LQ(I),K=LK(I),V=LV(I)
Attention(Q,K,V)=softmamax(QKT)V
SA(I)=Attention(Q,K,V)
其中:LQ、LK、LV分别表示Transformer模块中查询集、键集、值集的线性变换层;Attention表示自注意力机制的运算函数,softmamax表示多分类的归一化指数函数,SA表示Transformer模块中自注意力的过程函数。
在第一、二、三阶段,先使用Transformer模块组处理输入特征,再对Transformer模块组的输出进行下采样,通过下采样,将第一、二、三阶段Transformer模块组输出的特征尺寸分别调整为
Figure BDA0003844327220000081
H、W和C分别表示X0的长、宽和通道数。
(223)第一、二、三、四阶段的输出分别为X1、X2、X3、X4,对X4进行输出处理得到X,即使用池化层将X4变为与f3尺寸相同的X,实现特征间的对齐。
在步骤(22)中,针对RGB图像R和红外图像T的具体运算过程可以描述为:
Figure BDA0003844327220000082
Figure BDA0003844327220000083
其中:LN表示层归一化运算,Downsample表示下采样运算,上标vis表示针对RGB图像R的运算,上标inf表示针对红外图像T的运算,下标i_j表示第i阶段中的第j个Transformer模块的输出特征。
(23)逐元素相加
Figure BDA0003844327220000084
和Xvis,再经过层归一化运算后得到RGB特征Fvis;逐元素相加
Figure BDA0003844327220000085
和Xinf,再经过层归一化运算后得到红外特征Finf
步骤S03:构建交叉注意融合模块对RGB特征Fvis和红外特征Finf进行融合,加强RGB图像R和红外图像T的信息交互,得到融合特征Fout
如图5所示,融合过程包括如下步骤:
(31)通过键集、值集的线性变换层获取RGB特征Fvis的键集
Figure BDA0003844327220000091
和值集
Figure BDA0003844327220000092
通过查询集的线性变换层获取红外特征Finf的查询集
Figure BDA0003844327220000093
执行交叉注意力运算得到交叉特征
Figure BDA0003844327220000094
Figure BDA0003844327220000095
CA(Fvis,Finf)=Attention(Qinf,Kvis,Vvis)
其中:CA表示交叉注意力的运算函数,LN表示层归一化运算;
Figure BDA0003844327220000096
分别表示计算交叉特征
Figure BDA0003844327220000097
的交叉注意力分支中查询集、键集及值集的线性变换层。
(32)通过键集、值集的线性变换层获取红外特征Finf的键集
Figure BDA0003844327220000098
和值集
Figure BDA0003844327220000099
通过查询集的线性变换层获取RGB特征Fvis的查询集
Figure BDA00038443272200000910
执行交叉注意力运算得到交叉特征
Figure BDA00038443272200000911
Figure BDA00038443272200000912
CA(Finf,Fvis)=Attention(Qvis,Kinf,Vinf)
其中:
Figure BDA00038443272200000913
分别表示计算交叉特征
Figure BDA00038443272200000914
的交叉注意力分支中查询集、键集及值集的线性变换层。
(33)执行融合操作得到融合特征Fout
Figure BDA00038443272200000915
其中:Concat表示特征融合的运算函数。
步骤S04:将待预测的候选样本映射在融合特征上,通过全连接层执行二元分类预测,待预测的候选样本属于RGB-T数据流中某一帧图片或某一帧图片中的部分。
先通过ROIAlign层将待预测的候选样本在融合特征Fout上映射成3×3大小的特征,再通过连续的一组全连接层预测候选样本的二元分类得分;所述连续的一组全连接层包括两个一般全连接层(FC4、FC5)和一个多域全连接层(FC6),多域全连接层由一组并列的二元分类层构成,候选图片的二元分类得分通过二元分类层获得。
步骤S05:使用二元分类损失和嵌入损失对二元分类预测进行监督训练,得到训练好的卷积-Transformer跟踪网络。
Figure BDA0003844327220000101
Figure BDA0003844327220000102
L=Lcls+λLinst
其中:Lcls表示二元分类损失;Linst表示嵌入损失,用以克服候选样本与某些分类类别不同但是过分相似的情况;L表示总损失函数,λ表示权值(本例中取0.1);
i=1,2,…,N,N表示候选样本总数;c∈{0,1},c=1表示候选样本的真实标签为正,c=0表示候选样本的真实标签为负;yi表示系统对第i个候选样本为真实标签判断正确的概率;fi d表示第i个候选样本在分类d上的二元分类得分,d=1,2,…,D,D表示类别总数;[·]cd表示针对分类d,在c=1和c=0情况下均对·进行归一化运算;[·]d表示针对分类d,在c=1情况下对·进行归一化运算;σ表示softmax函数。
步骤S06:将视频流及待跟踪图像输入到训练好的卷积-Transformer跟踪网络,在视频流中对待跟踪图像进行跟踪,待跟踪图像属于视频流中某一帧图片或某一帧图片中的部分。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (10)

1.一种基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法,其特征在于:包括如下步骤:
(1)从RGB-T数据流中获取训练样本集,每个训练样本包括相对应的一幅RGB图像R和一幅红外图像T;
(2)构建卷积-Transformer网络分步提取RGB图像R和红外图像T的多模态图像特征,并聚合卷积特征和Transformer特征,得到RGB特征Fvis和红外特征Finf
(3)构建交叉注意融合模块对RGB特征Fvis和红外特征Finf进行融合,加强RGB图像R和红外图像T的信息交互,得到融合特征Fout
(4)将待预测的候选样本映射在融合特征上,通过全连接层执行二元分类预测,待预测的候选样本属于RGB-T数据流中某一帧图片或某一帧图片中的部分;
(5)使用二元分类损失和嵌入损失对二元分类预测进行监督训练,得到训练好的卷积-Transformer跟踪网络;
(6)将视频流及待跟踪图像输入到训练好的卷积-Transformer跟踪网络,在视频流中对待跟踪图像进行跟踪,待跟踪图像属于视频流中某一帧图片或某一帧图片中的部分。
2.根据权利要求1所述的基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法,其特征在于:所述步骤(2)中,通过卷积-Transformer网络分步提取训练样本中RGB图像R和红外图像T的多模态图像特征,包括如下步骤:
(21)卷积分支网络通过三个卷积块逐层对输入图像进行特征提取,依次得到第一、二、三层模态特征f1、f2、f3,将f3作为卷积特征;RGB图像R经卷积分支网络得到f1 vis
Figure FDA0003844327210000011
红外图像T经卷积分支网络得到f1 inf
Figure FDA0003844327210000012
(22)Transformer分支网络对输入图像进行输入处理得到X0,再通过四组Transformer模块逐层对输入图像进行特征提取,依次得到第一、二、三、四层全局共享特征X1、X2、X3、X4,最后进行输出处理得到X,将X作为Transformer特征;RGB图像R经Transformer分支网络得到
Figure FDA0003844327210000013
和Xvis,红外图像T经Transformer分支网络得到
Figure FDA0003844327210000014
和Xinf
(23)逐元素相加
Figure FDA0003844327210000015
和Xvis,再经过层归一化运算后得到RGB特征Fvis;逐元素相加
Figure FDA0003844327210000016
和Xinf,再经过层归一化运算后得到红外特征Finf
3.根据权利要求2所述的基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法,其特征在于:所述步骤(21)中,卷积分支网络由两个不共享参数的卷积分支组成,其中一个卷积分支用于提取RGB图像R的特征,另一个卷积分支用于处理红外图像T的特征;每个卷积分支由三个依次连接的卷积块组成;
第一个卷积块包括一个滤波器、一个ReLU激活函数、一个局部响应归一化层和一个最大池化层,用于获取第一层模态特征,滤波器为输出通道数为96、卷积核大小为7×7的滤波器;
第二个卷积块包括一个滤波器、一个ReLU激活函数、一个局部响应归一化层和一个最大池化层,用于获取第二层模态特征,滤波器为输出通道数为256、卷积核大小为5×5的滤波器;
第三个卷积块包括一个滤波器和一个ReLU激活函数,用于获取第三层模态特征,滤波器为输出通道数为512、卷积核大小为3×3的滤波器。
4.根据权利要求2所述的基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法,其特征在于:所述步骤(22)中,Transformer分支网络按照如下方法获得全局共享特征:
(221)对不固定尺寸的输入图像进行输入处理,将输入图像的通道数由3变为64,得到X0
(222)通过四个阶段完成全局共享特征的提取,在每一个阶段,使用一组Transformer模块对输入特征进行处理;在第一、二、三阶段,先使用Transformer模块组处理输入特征,再对Transformer模块组的输出进行下采样,下采样的结果作为下一Transformer模块组的输入特征;
在每个Transformer模块中,输入特征先经展平处理,再经由层归一化运算形成特征向量I,然后通过不同的线性变换层执行线性映射获取查询集Q、键集K和值集V,接着对查询集Q、键集K和值集V进行自注意力操作,再接着通过残差连接输入特征和自注意力操作结果,最后再由层归一化运算形成Transformer模块的输出;表示为:
Q=LQ(I),K=LK(I),V=LV(I)
Attention(Q,K,V)=softmamax(QKT)V
SA(I)=Attention(Q,K,V)
其中:LQ、LK、LV分别表示Transformer模块中查询集、键集、值集的线性变换层;Attention表示自注意力机制的运算函数,softmamax表示多分类的归一化指数函数,SA表示Transformer模块中自注意力的过程函数;
(223)第一、二、三、四阶段的输出分别为X1、X2、X3、X4,对X4进行输出处理得到X,即使用池化层将X4变为与f3尺寸相同的X,实现特征间的对齐。
5.根据权利要求4所述的基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法,其特征在于:所述步骤(222)中,通过四个阶段完成全局共享特征的提取,在第一、二、三、四阶段,Transformer模块组中Transformer模块的数量分别为2、2、2、1,同一Transformer模块组中的Transformer模块顺序连接。
6.根据权利要求4所述的基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法,其特征在于:所述步骤(222)中,通过四个阶段完成全局共享特征的提取,在第一、二、三阶段,先使用Transformer模块组处理输入特征,再对Transformer模块组的输出进行下采样,通过下采样,将第一、二、三阶段Transformer模块组输出的特征尺寸分别调整为
Figure FDA0003844327210000031
H、W和C分别表示X0的长、宽和通道数。
7.根据权利要求1所述的基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法,其特征在于:所述步骤(3)中,构建交叉注意融合模块加强RGB图像R和红外图像T的信息交互与融合,包括如下步骤:
(31)通过键集、值集的线性变换层获取RGB特征Fvis的键集
Figure FDA0003844327210000032
和值集
Figure FDA0003844327210000033
通过查询集的线性变换层获取红外特征Finf的查询集
Figure FDA0003844327210000034
执行交叉注意力运算得到交叉特征
Figure FDA0003844327210000035
Figure FDA0003844327210000036
CA(Fvis,Finf)=Attention(Qinf,Kvis,Vvis)
其中:CA表示交叉注意力的运算函数,LN表示层归一化运算;
Figure FDA0003844327210000037
分别表示计算交叉特征
Figure FDA0003844327210000038
的交叉注意力分支中查询集、键集及值集的线性变换层;
(32)通过键集、值集的线性变换层获取红外特征Finf的键集
Figure FDA0003844327210000039
和值集
Figure FDA0003844327210000041
通过查询集的线性变换层获取RGB特征Fvis的查询集
Figure FDA0003844327210000042
执行交叉注意力运算得到交叉特征
Figure FDA0003844327210000043
Figure FDA0003844327210000044
CA(Finf,Fvis)=Attention(Qvis,Kinf,Vinf)
其中:
Figure FDA0003844327210000045
分别表示计算交叉特征
Figure FDA0003844327210000046
的交叉注意力分支中查询集、键集及值集的线性变换层;
(33)执行融合操作得到融合特征Fout
Figure FDA0003844327210000047
其中:Concat表示特征融合的运算函数。
8.根据权利要求1所述的基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法,其特征在于:所述步骤(4),先通过ROIAlign层将待预测的候选样本在融合特征Fout上映射成设定大小,再通过连续的一组全连接层预测候选样本的二元分类得分。
9.根据权利要求8所述的基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法,其特征在于:所述连续的一组全连接层包括两个一般全连接层和一个多域全连接层,多域全连接层由一组并列的二元分类层构成,候选图片的二元分类得分通过二元分类层获得。
10.根据权利要求1所述的基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法,其特征在于:所述步骤(5)中,采用二元分类损失和嵌入损失对二元分类预测进行监督训练:
Figure FDA0003844327210000048
Figure FDA0003844327210000049
L=Lcls+λLinst
其中:Lcls表示二元分类损失;Linst表示嵌入损失,用以克服候选样本与某些分类类别不同但是过分相似的情况;L表示总损失函数,λ表示权值;
i=1,2,…,N,N表示候选样本总数;c∈{0,1},c=1表示候选样本的真实标签为正,c=0表示候选样本的真实标签为负;yi表示系统对第i个候选样本为真实标签判断正确的概率;fi d表示第i个候选样本在分类d上的二元分类得分,d=1,2,…,D,D表示类别总数;[·]cd表示针对分类d,在c=1和c=0情况下均对·进行归一化运算;[·]d表示针对分类d,在c=1情况下对·进行归一化运算;σ表示softmax函数。
CN202211113015.XA 2022-09-14 2022-09-14 基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络 Pending CN115375948A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211113015.XA CN115375948A (zh) 2022-09-14 2022-09-14 基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211113015.XA CN115375948A (zh) 2022-09-14 2022-09-14 基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络

Publications (1)

Publication Number Publication Date
CN115375948A true CN115375948A (zh) 2022-11-22

Family

ID=84071476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211113015.XA Pending CN115375948A (zh) 2022-09-14 2022-09-14 基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络

Country Status (1)

Country Link
CN (1) CN115375948A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116168322A (zh) * 2023-01-10 2023-05-26 中国人民解放军军事科学院国防科技创新研究院 一种基于多模态融合的无人机长时跟踪方法及系统
CN117115061A (zh) * 2023-09-11 2023-11-24 北京理工大学 一种多模态图像融合方法、装置、设备及存储介质
CN117636074A (zh) * 2024-01-25 2024-03-01 山东建筑大学 基于特征交互融合的多模态图像分类方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116168322A (zh) * 2023-01-10 2023-05-26 中国人民解放军军事科学院国防科技创新研究院 一种基于多模态融合的无人机长时跟踪方法及系统
CN116168322B (zh) * 2023-01-10 2024-02-23 中国人民解放军军事科学院国防科技创新研究院 一种基于多模态融合的无人机长时跟踪方法及系统
CN117115061A (zh) * 2023-09-11 2023-11-24 北京理工大学 一种多模态图像融合方法、装置、设备及存储介质
CN117115061B (zh) * 2023-09-11 2024-04-09 北京理工大学 一种多模态图像融合方法、装置、设备及存储介质
CN117636074A (zh) * 2024-01-25 2024-03-01 山东建筑大学 基于特征交互融合的多模态图像分类方法及系统
CN117636074B (zh) * 2024-01-25 2024-04-26 山东建筑大学 基于特征交互融合的多模态图像分类方法及系统

Similar Documents

Publication Publication Date Title
Yin et al. Recurrent convolutional network for video-based smoke detection
CN115375948A (zh) 基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络
WO2021155792A1 (zh) 一种处理装置、方法及存储介质
CN113408492B (zh) 一种基于全局-局部特征动态对齐的行人重识别方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN111639544A (zh) 基于多分支跨连接卷积神经网络的表情识别方法
CN112395442A (zh) 移动互联网上的低俗图片自动识别与内容过滤方法
CN113743544A (zh) 一种跨模态神经网络构建方法、行人检索方法及系统
Hu et al. Multi-scale graph fusion for co-saliency detection
CN113361549A (zh) 一种模型更新方法以及相关装置
CN114663707A (zh) 基于Faster RCNN改进的少样本目标检测方法
CN114694089A (zh) 一种新型的多模态融合的行人重识别算法
CN112200110A (zh) 一种基于深度干扰分离学习的人脸表情识别方法
CN112084952A (zh) 一种基于自监督训练的视频点位跟踪方法
CN117058456A (zh) 一种基于多相注意力机制的视觉目标跟踪方法
CN115439884A (zh) 一种基于双分支自注意力网络的行人属性识别方法
CN115063832A (zh) 一种基于全局与局部特征的对抗学习跨模态行人重识别方法
CN114724251A (zh) 一种在红外视频下基于骨架序列的老人行为识别方法
Echoukairi et al. Improved Methods for Automatic Facial Expression Recognition.
CN116797948A (zh) 一种用于无人机图像和卫星图像的跨视角景象匹配方法
CN112613442A (zh) 基于主角检测和光流转换的视频序列情感识别方法
Castro et al. AttenGait: Gait recognition with attention and rich modalities
CN116246305A (zh) 一种基于混合部件变换网络的行人检索方法
CN113486718B (zh) 一种基于深度多任务学习的指尖检测方法
US20230072445A1 (en) Self-supervised video representation learning by exploring spatiotemporal continuity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination