CN113920171B - 基于特征级和决策级融合的双模态目标跟踪方法 - Google Patents

基于特征级和决策级融合的双模态目标跟踪方法 Download PDF

Info

Publication number
CN113920171B
CN113920171B CN202111499743.4A CN202111499743A CN113920171B CN 113920171 B CN113920171 B CN 113920171B CN 202111499743 A CN202111499743 A CN 202111499743A CN 113920171 B CN113920171 B CN 113920171B
Authority
CN
China
Prior art keywords
image
attention
classification
module
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111499743.4A
Other languages
English (en)
Other versions
CN113920171A (zh
Inventor
何丰郴
柏连发
陈霄宇
韩静
张权
魏驰恒
张靖远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202111499743.4A priority Critical patent/CN113920171B/zh
Publication of CN113920171A publication Critical patent/CN113920171A/zh
Application granted granted Critical
Publication of CN113920171B publication Critical patent/CN113920171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

发明涉及一种基于特征级和决策级融合的双模态目标跟踪算法,包括构建SiamDL双级融合注意网络结构;获取模板图像;获取搜索区域图像;提取图像深度特征;对多域的深度特征进行交互;对交互后的特征进行分类约束;对分类结果进行调制;特征融合;调制融合特征;分类回归。本发明通过引入双层融合注意机制,提出了一种双级平衡模块,它可以利用决策级和特征级的信息更合理地平衡两种模式的权重比;引入跨域孪生注意机制,提出一个多域感知模块,能够自适应地更新模板特征,利用模式域和时域丰富的上下文信息,提高网络的特征表示能力,实现了高速运转和优异的跟踪结果,提升了跟踪器应对复杂场景的能力。

Description

基于特征级和决策级融合的双模态目标跟踪方法
技术领域
本发明涉及一种基于特征级和决策级融合的双模态目标跟踪方法,属于目标跟踪技术领域。
背景技术
目标跟踪给定初始目标模板,在后续帧中估计其位置和大小,是计算机视觉领域的一项重要任务。随着相关滤波和深度学习的出现,可见光目标跟踪实现了长足的发展。但可见光模态特征不足以揭露目标信息的时候,如暗光、曝光或淹没在背景当中时,可见光跟踪效果将大大降低。
大多数时候,红外模态富含目标的结构信息,可见光模态富含目标的结构、纹理信息。增加红外模态信息对于一个跟踪器而言,可见光可以对红外模态信息进行补充,红外模态信息在一定程度上又弥补可见光跟踪的缺陷。
由于缺乏大规模成对RGBT数据集,一些研究使用灰度图像代替红外图像进行预训练,然后在RGB-T数据集上进行微调。灰度图像是由可见光图像生成的,因此网络对可见光图像有很强的依赖性。
许多工作直接使用特征级融合策略来计算融合特征的信道权重比,这不可避免地包含大量的背景信息,极大地影响了该权重比的计算。
因此,本文提出一种基于特征级和决策级融合的双模态目标跟踪方法。
发明内容
为了解决上述技术问题,本发明提供一种基于特征级和决策级融合的双模态目标跟踪方法,其具体技术方案如下:
一种基于特征级和决策级融合的双模态目标跟踪方法,包括以下步骤:
步骤1:构建SiamDL双级融合注意网络结构:引入双层融合注意机制和跨域孪生注意机制,所述双层融合注意机制通过在SiamBAN网络基础上增加双级平衡模块实现,所述双级平衡模块包括两个paddingconv模块和一个双级融合注意平衡模块,所述跨域孪生注意机制通过在SiamBAN网络基础上增加多域感知模块实现,所述多域感知模块包括一个跨域孪生注意模块和两个分类头,所述跨域孪生注意模块由通道注意模块和空间注意模块组成,所述多域包括模态域和时域,所述模态域包括可见光模态分支和红外模态分支,所述时域包括模板分支和图像分支;
步骤2:获取模板图像:利用可见光相机和红外相机获取图像序列,对裁剪目标周围方形区域z,作为模板图像,提取模板特征;
步骤3:获取搜索区域图像:利用每帧的目标跟踪结果,在当前图像序列的结果周围裁剪方形区域x作为搜索区域图像,x的边长约为z边长的两倍,提取搜索区域特征;对于首帧图像,选取原始模板代替目标跟踪结果;
步骤4:提取图像深度特征:把resnet50当作主干提取网络,将第三和第四层网络的输出结果一起送入后续网络参与计算,以获取不同感受野下的特征,记
Figure 100002_DEST_PATH_IMAGE001
Figure 100002_DEST_PATH_IMAGE002
Figure 100002_DEST_PATH_IMAGE003
Figure 100002_DEST_PATH_IMAGE004
依次为可见光模板,红外模板,可见光搜索图像和红外搜索图像经过特征提取网络得到的特征;
步骤5:对多域的深度特征进行交互,将特征提取网络得到的特征输入,利用空间注意模块和通道注意模块对其调制,交互多域的上下文相关信息;将空间注意力调制用
Figure 100002_DEST_PATH_IMAGE005
描述,通道注意力调制用
Figure 100002_DEST_PATH_IMAGE006
描述,其中Y代表被调制的对象,X代表调制特征的来源,则有
Figure 100002_DEST_PATH_IMAGE007
(1),
其中
Figure 100002_DEST_PATH_IMAGE008
Figure 100002_DEST_PATH_IMAGE009
Figure 100002_DEST_PATH_IMAGE010
Figure 100002_DEST_PATH_IMAGE011
依次代表经过特征增强网络后的可见光模板,红外模板,可见光搜索图像和红外搜索图像特征,属于特征级信息;
步骤6:对交互后的特征进行分类约束,将
Figure 962723DEST_PATH_IMAGE008
送入可见光分类模块
Figure 100002_DEST_PATH_IMAGE012
,得到可见光分类结果
Figure 100002_DEST_PATH_IMAGE013
,将
Figure 564737DEST_PATH_IMAGE010
送入红外分类模块
Figure 100002_DEST_PATH_IMAGE014
,得到红外分类结果
Figure 100002_DEST_PATH_IMAGE015
步骤7:对分类结果进行调制:通过paddingconv模块对分类结果进行调制,得到可见光关键信息
Figure 100002_DEST_PATH_IMAGE016
和红外关键信息
Figure 100002_DEST_PATH_IMAGE017
,属于决策级信息;
步骤8:特征融合,通过concat操作将特征级信息和决策级信息进行融合,使
Figure 666685DEST_PATH_IMAGE008
Figure 642732DEST_PATH_IMAGE009
生成
Figure 100002_DEST_PATH_IMAGE018
,使
Figure 730905DEST_PATH_IMAGE010
Figure 171113DEST_PATH_IMAGE011
生成
Figure 100002_DEST_PATH_IMAGE019
,使
Figure 100002_DEST_PATH_IMAGE020
Figure 100002_DEST_PATH_IMAGE021
生成
Figure 100002_DEST_PATH_IMAGE022
步骤9:利用决策级信息和特征级信息调制融合特征,权重配比通过注意力机制实现,将空间注意力调制用
Figure 909875DEST_PATH_IMAGE005
描述,通道注意力调制用
Figure 920687DEST_PATH_IMAGE006
描述,Y代表被调制的对象,X代表调制特征的来源,则有
Figure 100002_DEST_PATH_IMAGE023
(2),
其中,
Figure 100002_DEST_PATH_IMAGE024
Figure 100002_DEST_PATH_IMAGE025
代表经过双级平衡网络后的模板特征和搜索图像特征;
步骤10:分类回归:参考SiamBAN,对互相关的结果构建分类与回归头,依照分类与回归结果得到当前搜索区域中的目标所在位置与紧致的目标框,所述目标框即为分类结果,下一帧可见光与红外图像输入后,转到步骤3继续执行。
进一步的,所述主干网络的前两层参数设置为在所有域中共享,所有参数在时域中共享。
进一步的,所述特征提取网络包括上采样操作和下采样操作,所述第四层网络的下采样操作以atrous卷积操作代替。
进一步的,所述paddingconv模块由两个带有填充操作的卷积层和一个激活层组成,所述paddingconv自适应地扩展分类结果。
进一步的,所述步骤7的具体过程为:
步骤7.1:将分类结果
Figure 100002_DEST_PATH_IMAGE026
Figure 100002_DEST_PATH_IMAGE027
喂入paddingconv模块,生成
Figure 100002_DEST_PATH_IMAGE028
Figure 100002_DEST_PATH_IMAGE029
掩膜,将分类结果的尺寸对齐搜索区域特征的尺寸;
步骤7.2:提取搜图区域图像特征中的目标自身信息和目标与背景的差异程度信息;
步骤7.3:得到决策级信息中的可见光关键信息
Figure 468343DEST_PATH_IMAGE016
和红外关键信息
Figure 248211DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE030
(3)。
进一步的,所述对交互后的特征进行分类约束,对各自模态的模板特征和搜索区域特征采用深度自相关。
进一步的,所述回归采用anchor-free的方式,避免anchor-base锚框的超参数调教。
进一步的,所述空间注意力调制和通道注意力调制的实现方式采用自注意力方式。
本发明的有益效果是:本发明通过引入双层融合注意机制,提出了一种双级平衡模块,它可以利用决策级和特征级的信息更合理地平衡两种模式的权重比;引入跨域孪生注意机制,提出一个多域感知模块,能够自适应地更新模板特征,利用模式域和时域丰富的上下文信息,提高网络的特征表示能力,实现了高速运转和优异的跟踪结果,提升了跟踪器应对复杂场景的能力。
附图说明
图1是本发明的流程图,
图2是本发明的跨域孪生注意模块示意图,
图3是本发明的双级融合注意模块示意图,
图4是本发明SiamDL的框架图,
图5是本发明与各种跟踪器在GTOT上的速度和PR比较图,
图6是本发明与各种跟踪器在GTOT上的速度和SR比较图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明的基于特征级和决策级融合的双模态目标跟踪方法,包括以下步骤:
步骤1:构建SiamDL双级融合注意网络结构:引入双层融合注意机制和跨域孪生注意机制,双层融合注意机制通过在SiamBAN网络基础上增加双级平衡模块实现,双级平衡模块包括两个paddingconv模块和一个双级融合注意平衡模块, paddingconv模块由两个带有填充操作的卷积层和一个激活层组成,所述paddingconv自适应地扩展分类结果,如图2所示,跨域孪生注意机制通过在SiamBAN网络基础上增加多域感知模块实现,多域感知模块包括一个跨域孪生注意模块和两个分类头,跨域孪生注意模块由通道注意模块和空间注意模块组成,多域包括模态域和时域,模态域包括可见光模态分支和红外模态分支,时域包括模板分支和图像分支;
步骤2:获取模板图像:利用可见光相机和红外相机获取图像序列,对裁剪目标周围方形区域z,作为模板图像,提取模板特征;
步骤3:获取搜索区域图像:利用每帧的目标跟踪结果,在当前图像序列的结果周围裁剪方形区域x作为搜索区域图像,x的边长约为z边长的两倍,提取搜索区域特征;对于首帧图像,选取原始模板代替目标跟踪结果;
步骤4:提取图像深度特征:把resnet50当作主干提取网络,将第三和第四层网络的输出结果一起送入后续网络参与计算,以获取不同感受野下的特征,第四层网络的下采样操作以atrous卷积操作代替,记
Figure 285437DEST_PATH_IMAGE001
Figure 767234DEST_PATH_IMAGE002
Figure 180898DEST_PATH_IMAGE003
Figure 77923DEST_PATH_IMAGE004
依次为可见光模板,红外模板,可见光搜索图像和红外搜索图像经过特征提取网络得到的特征;
主干网络的前两层参数设置为在所有域中共享,所有参数在时域中共享。
步骤5:对多域的深度特征进行交互,将特征提取网络得到的特征输入,利用空间注意模块和通道注意模块对其调制,交互多域的上下文相关信息;将空间注意力调制用
Figure 551629DEST_PATH_IMAGE005
描述,通道注意力调制用
Figure 520722DEST_PATH_IMAGE006
描述,其中Y代表被调制的对象,X代表调制特征的来源,则有
Figure 472498DEST_PATH_IMAGE007
(1),
其中
Figure 679488DEST_PATH_IMAGE008
Figure 74829DEST_PATH_IMAGE009
Figure 531218DEST_PATH_IMAGE010
Figure 286684DEST_PATH_IMAGE011
依次代表经过特征增强网络后的可见光模板,红外模板,可见光搜索图像和红外搜索图像特征,属于特征级信息,其中空间注意力调制和通道注意力调制的实现方式采用自注意力方式;
步骤6:对交互后的特征进行分类约束,对各自模态的模板特征和搜索区域特征采用深度自相关,将
Figure 879339DEST_PATH_IMAGE008
送入可见光分类模块
Figure 711160DEST_PATH_IMAGE012
,得到可见光分类结果
Figure 654846DEST_PATH_IMAGE026
,将
Figure 214003DEST_PATH_IMAGE010
送入红外分类模块
Figure 130006DEST_PATH_IMAGE014
,得到红外分类结果
Figure 850838DEST_PATH_IMAGE027
步骤7:对分类结果进行调制:通过paddingconv模块对分类结果进行调制,得到可见光关键信息
Figure 32551DEST_PATH_IMAGE016
和红外关键信息
Figure 129820DEST_PATH_IMAGE017
,属于决策级信息;
步骤7.1:将分类结果
Figure 228226DEST_PATH_IMAGE026
Figure 119959DEST_PATH_IMAGE027
喂入paddingconv模块,生成
Figure 786039DEST_PATH_IMAGE028
Figure 686999DEST_PATH_IMAGE029
掩膜,将分类结果的尺寸对齐搜索区域特征的尺寸;
步骤7.2:提取搜图区域图像特征中的目标自身信息和目标与背景的差异程度信息;
步骤7.3:得到决策级信息中的可见光关键信息
Figure 312015DEST_PATH_IMAGE016
和红外关键信息
Figure 640229DEST_PATH_IMAGE017
Figure 45802DEST_PATH_IMAGE030
(3);
步骤8:特征融合,通过concat操作将特征级信息和决策级信息进行融合,使
Figure 501185DEST_PATH_IMAGE008
Figure 43025DEST_PATH_IMAGE009
生成
Figure 542140DEST_PATH_IMAGE018
,使
Figure 169430DEST_PATH_IMAGE010
Figure 615455DEST_PATH_IMAGE011
生成
Figure 762534DEST_PATH_IMAGE019
,使
Figure 432549DEST_PATH_IMAGE020
Figure 547136DEST_PATH_IMAGE021
生成
Figure 593589DEST_PATH_IMAGE022
步骤9:利用决策级信息和特征级信息调制融合特征,权重配比通过注意力机制实现,将空间注意力调制用
Figure 595174DEST_PATH_IMAGE005
描述,通道注意力调制用
Figure 701671DEST_PATH_IMAGE006
描述,Y代表被调制的对象,X代表调制特征的来源,则有
Figure 303553DEST_PATH_IMAGE023
(2),
其中,
Figure 91381DEST_PATH_IMAGE024
Figure 462319DEST_PATH_IMAGE025
代表经过双级平衡网络后的模板特征和搜索图像特征;
步骤10:分类回归:参考SiamBAN,对互相关的结果构建分类与回归头,依照分类与回归结果得到当前搜索区域中的目标所在位置与紧致的目标框,目标框即为分类结果,回归采用anchor-free的方式,避免anchor-base锚框的超参数调教。
在下一帧可见光与红外图像输入后,转到步骤3继续执行。
如图4所示SiamDL的框架图,将resnet50中第3层和第4层的特征输入到多域感知模块中,以增强每个模态特征,然后对每个模态特征进行分类以获得决策级信息,双级平衡模块调制决策级和特征级信息以获得融合特征,最后,将融合特征输入分类回归头。
如图3所示,双级平衡模块由两个paddingconv模块和一个双级融合注意平衡模块组成。
对目标跟踪模型进行训练,模板图像大小为127×127,搜索区域图像大小为255×255。我们的模型使用Adam进行20个阶段的训练,小批量16对,权重衰减设置为0.0001,我们在前5个epoch使用0.001到0.005的热身学习率,在最后15个epoch使用从0.005到0.00005的指数衰减学习率。我们的主干网络由ImageNet上预先训练的权重初始化,交替降低两种模式的图像质量,这有助于提高跟踪器的性能。
采用GOT10K和LaSOT预训练网络,用灰度图像代替红外图像进行端到端训练,在测试GTOT时,我们使用准确率PR和成功率SR作为评估指标,其中PR是输出位置和地面真值位置之间的距离在阈值内的帧的百分比,我们将该阈值设置为5像素,SR是输出边界框和地面真实边界框之间的重叠率大于重叠阈值的帧百分比,我们将曲线下面积AUC计算作为SR分数,如表1所示为各网络跟踪器对GTOT数据集的测试结果,包括SiamDL、SiamBAN+RGBT、MANet、DAFNet、DAPNet、MACNet、SGT、M5L和FANet。
表1
Figure DEST_PATH_IMAGE031
如图5和图6所示为GTOT上各种跟踪器在GTOT上的速度比较图,我们的SiamDL跟踪器的PR为0.921,SR为0.756。此前,性能最好的跟踪器是MANet,图5中得到其PR为0.894,图6中得到SR为0.724;与之相比,我们的跟踪器超过了2.7%的PR和3.2%的SR,我们的FPS也超过了它;与基准SiamBAN+RGBT相比,我们的跟踪器的PR超过了6.1%,SR超过了5%。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (1)

1.一种基于特征级和决策级融合的双模态目标跟踪方法,其特征在于:包括以下步骤:
步骤1:构建SiamDL双级融合注意网络结构:在特征提取网络后引入双级融合注意机制和跨域孪生注意机制,所述特征提取网络包括上采样操作和下采样操作,第四层网络的下采样操作以atrous卷积操作代替,所述双级融合注意机制通过在SiamBAN网络基础上增加双级平衡模块实现,所述双级平衡模块包括两个paddingconv模块和一个双级融合注意平衡模块,所述paddingconv模块由两个带有填充操作的卷积层和一个激活层组成,paddingconv自适应地扩展分类结果,所述跨域孪生注意机制通过在SiamBAN网络基础上增加多域感知模块实现,所述多域感知模块包括一个跨域孪生注意模块和两个分类头,所述跨域孪生注意模块由通道注意模块和空间注意模块组成,所述多域包括模态域和时域,所述模态域包括可见光模态分支和红外模态分支,所述时域包括模板分支和图像分支;
步骤2:获取模板图像:利用可见光相机和红外相机获取图像序列,对裁剪目标周围方形区域z,作为模板图像,提取模板特征;
步骤3:获取搜索区域图像:利用每帧的目标跟踪结果,在当前图像序列的结果周围裁剪方形区域x作为搜索区域图像,x的边长为z边长的两倍,提取搜索区域特征;对于首帧图像,选取原始模板代替目标跟踪结果;
步骤4:提取图像深度特征:把resnet50当作主干提取网络,所述主干提取网络的前两层参数设置为在所有域中共享,所有参数在时域中共享,将第三和第四层网络的输出结果一起送入后续网络参与计算,以获取不同感受野下的特征,记
Figure DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE004
依次为可见光模板,红外模板,可见光搜索图像和红外搜索图像经过特征提取网络得到的特征;
步骤5:对多域的深度特征进行交互,将特征提取网络得到的特征输入,利用空间注意模块和通道注意模块对其调制,交互多域的上下文相关信息,空间注意力调制和通道注意力调制的实现方式采用自注意力方式,将空间注意力调制用
Figure DEST_PATH_IMAGE005
描述,通道注意力调制用
Figure DEST_PATH_IMAGE006
描述,其中Y代表被调制的对象,X代表调制特征的来源,则有
Figure DEST_PATH_IMAGE007
(1),
其中
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
依次代表经过特征增强网络后的可见光模板,红外模板,可见光搜索图像和红外搜索图像特征,属于特征级信息;
步骤6:对交互后的特征进行分类约束,所述对交互后的特征进行分类约束,对各自模态的模板特征和搜索区域特征采用深度自相关,将
Figure 783642DEST_PATH_IMAGE008
送入可见光分类模块
Figure DEST_PATH_IMAGE012
,得到可见光分类结果
Figure DEST_PATH_IMAGE013
,将
Figure 28679DEST_PATH_IMAGE010
送入红外分类模块
Figure DEST_PATH_IMAGE014
,得到红外分类结果
Figure DEST_PATH_IMAGE015
步骤7:对分类结果进行调制:通过paddingconv模块对分类结果进行调制,得到可见光关键信息
Figure DEST_PATH_IMAGE016
和红外关键信息
Figure DEST_PATH_IMAGE017
,属于决策级信息;
步骤7.1:将分类结果
Figure 198629DEST_PATH_IMAGE013
Figure 859417DEST_PATH_IMAGE015
送入paddingconv模块,生成
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
掩膜,将分类结果的尺寸对齐搜索区域特征的尺寸;
步骤7.2:提取搜图区域图像特征中的目标自身信息和目标与背景的差异程度信息;
步骤7.3:得到决策级信息中的可见光关键信息
Figure 1686DEST_PATH_IMAGE016
和红外关键信息
Figure 355307DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE020
(3);
步骤8:特征融合,通过concat操作将特征级信息和决策级信息进行融合,使
Figure 684657DEST_PATH_IMAGE008
Figure 149136DEST_PATH_IMAGE009
生成
Figure DEST_PATH_IMAGE021
,使
Figure 880332DEST_PATH_IMAGE010
Figure 404854DEST_PATH_IMAGE011
生成
Figure DEST_PATH_IMAGE022
,使
Figure DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE024
生成
Figure DEST_PATH_IMAGE025
步骤9:利用决策级信息和特征级信息调制融合特征,权重配比通过注意力机制实现,将空间注意力调制用
Figure DEST_PATH_IMAGE026
描述,通道注意力调制用
Figure 86414DEST_PATH_IMAGE006
描述,Y代表被调制的对象,X代表调制特征的来源,则有
Figure DEST_PATH_IMAGE027
(2),
其中,
Figure DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
代表经过双级平衡网络后的模板特征和搜索图像特征;
步骤10:分类回归:参考SiamBAN,对互相关的结果构建分类与回归头,依照分类与回归结果得到当前搜索区域中的目标所在位置与紧致的目标框,所述目标框即为分类结果,所述回归采用anchor-free的方式,避免anchor-base锚框的超参数调教,下一帧可见光与红外图像输入后,转到步骤3继续执行。
CN202111499743.4A 2021-12-09 2021-12-09 基于特征级和决策级融合的双模态目标跟踪方法 Active CN113920171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111499743.4A CN113920171B (zh) 2021-12-09 2021-12-09 基于特征级和决策级融合的双模态目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111499743.4A CN113920171B (zh) 2021-12-09 2021-12-09 基于特征级和决策级融合的双模态目标跟踪方法

Publications (2)

Publication Number Publication Date
CN113920171A CN113920171A (zh) 2022-01-11
CN113920171B true CN113920171B (zh) 2022-10-25

Family

ID=79248475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111499743.4A Active CN113920171B (zh) 2021-12-09 2021-12-09 基于特征级和决策级融合的双模态目标跟踪方法

Country Status (1)

Country Link
CN (1) CN113920171B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116229317B (zh) * 2023-02-24 2024-07-19 长春理工大学 一种自适应模板更新的孪生红外目标跟踪方法
CN116758117B (zh) * 2023-06-28 2024-02-09 云南大学 可见光与红外图像下的目标跟踪方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034371A (zh) * 2021-05-27 2021-06-25 四川轻化工大学 一种基于特征嵌入的红外与可见光图像融合方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11605231B2 (en) * 2018-09-17 2023-03-14 Syracuse University Low power and privacy preserving sensor platform for occupancy detection
CN112258554B (zh) * 2020-10-07 2022-11-18 大连理工大学 基于注意力机制的双流层次孪生网络目标跟踪方法
CN112949451B (zh) * 2021-02-24 2022-09-09 安徽大学 通过模态感知特征学习的跨模态目标跟踪方法及系统
CN113256677A (zh) * 2021-04-16 2021-08-13 浙江工业大学 一种图注意力视觉目标跟踪方法
CN113628249B (zh) * 2021-08-16 2023-04-07 电子科技大学 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法
CN113744311A (zh) * 2021-09-02 2021-12-03 北京理工大学 基于全连接注意力模块的孪生神经网络运动目标跟踪方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034371A (zh) * 2021-05-27 2021-06-25 四川轻化工大学 一种基于特征嵌入的红外与可见光图像融合方法

Also Published As

Publication number Publication date
CN113920171A (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN112734696B (zh) 基于多域特征融合的换脸视频篡改检测方法及系统
CN113920171B (zh) 基于特征级和决策级融合的双模态目标跟踪方法
US11928957B2 (en) Audiovisual secondary haptic signal reconstruction method based on cloud-edge collaboration
CN112150493B (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN111754446A (zh) 一种基于生成对抗网络的图像融合方法、系统及存储介质
CN113313657A (zh) 一种用于低光照图像增强的非监督学习方法和系统
CN110175986A (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN111489405B (zh) 基于条件增强生成对抗网络的人脸草图合成系统
CN115035003A (zh) 交互补偿注意力的红外与可见光图像对抗融合方法
CN111652864A (zh) 一种基于条件式生成对抗网络的铸件缺陷图像生成方法
CN114463176B (zh) 基于改进esrgan的图像超分辨重建方法
CN113689382A (zh) 基于医学影像和病理图像的肿瘤术后生存期预测方法及系统
CN116563693A (zh) 基于轻量级注意力机制的水下图像色彩复原方法
Liu et al. Toward visual quality enhancement of dehazing effect with improved Cycle-GAN
CN116167920A (zh) 一种基于超分辨率和先验知识的图像压缩与重建方法
CN113393434A (zh) 一种基于非对称双流网络架构的rgb-d显著性检测方法
CN116664435A (zh) 一种基于多尺度人脸解析图融入的人脸复原方法
CN112085717A (zh) 一种用于腹腔镜手术的视频预测方法及其系统
CN115984323A (zh) 基于空频域均衡的双级融合rgbt跟踪算法
Zhou et al. A superior image inpainting scheme using Transformer-based self-supervised attention GAN model
Lian et al. Multitask learning for image translation and salient object detection from multimodal remote sensing images
CN113066074A (zh) 一种基于双目视差偏移融合的视觉显著性预测方法
CN117689592A (zh) 一种基于级联自适应网络的水下图像增强方法
Jiang et al. DeepCT: A novel deep complex-valued network with learnable transform for video saliency prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant