CN117689692A - 注意力机制引导匹配关联的高光谱和rgb视频融合跟踪方法 - Google Patents

注意力机制引导匹配关联的高光谱和rgb视频融合跟踪方法 Download PDF

Info

Publication number
CN117689692A
CN117689692A CN202311753368.0A CN202311753368A CN117689692A CN 117689692 A CN117689692 A CN 117689692A CN 202311753368 A CN202311753368 A CN 202311753368A CN 117689692 A CN117689692 A CN 117689692A
Authority
CN
China
Prior art keywords
hyperspectral
rgb
branch
image
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311753368.0A
Other languages
English (en)
Inventor
徐从安
孙炜玮
高龙
刘红娇
宿南
闫奕名
林云
吴俊峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naval Aeronautical University
Original Assignee
Naval Aeronautical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naval Aeronautical University filed Critical Naval Aeronautical University
Priority to CN202311753368.0A priority Critical patent/CN117689692A/zh
Publication of CN117689692A publication Critical patent/CN117689692A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • G06T2207/10036Multispectral image; Hyperspectral image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法。本方法基于融合跟踪模型,它包括高光谱模态分支、RGB模态分支、融合模块、高光谱预测模块和RGB预测模块等。其中,融合模块基于Transformer,将高光谱模态特定表征和RGB模态特定表征进行融合得到多模态融合表征。本发明通过更新高光谱搜索区域和RGB搜索区域,得到同一目标在空间不匹配的多模态数据中的模态特定表征,缓解了两种模态空间差异导致的多模态信息跟踪困难的问题;同时,利用Transformer中的注意力机制自适应地捕捉两种模态信息之间的关系,实现两种模态信息的自适应聚合,提高了跟踪性能。

Description

注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法
技术领域
本发明属于计算机视觉领域,涉及一种视频跟踪方法,具体是一种基于高光谱视频和RGB视频的融合跟踪方法。
背景技术
目标跟踪是计算机视觉领域的一项重要任务,它需要根据目标的外观特征来预测其在视频中的位置。目前,大多数目标跟踪算法都是基于RGB模态数据开发的,但这种模态数据在一些复杂场景下可能无法提供足够的信息来区分不同的目标。高光谱图像则是一种能够同时记录物体的空间位置和光谱信息的数据,它可以在目标外观相似的情况下提供更多的材质信息,从而增强目标跟踪的性能。然而,高光谱图像的空间分辨率通常低于RGB图像,因此如何将高光谱信息与RGB信息有效地融合起来,利用两种模态数据的优势,是目前的研究重点。
现有的多模态融合跟踪方式虽然可以将不同模态的视频信息进行融合,但是此类算法都需要对不同模态的视频数据进行严格的匹配和对齐。而实际的高光谱-RGB多模态视频数据集中的两种模态数据并没有完全对齐,存在一定的空间差异,这就导致必须通过多模态视频数据配准等大量的前期工作,才能实现高光谱-RGB多模态视频数据的有效融合。此外,如何充分利用高光谱和RGB模态数据的互补信息,提升目标跟踪的性能,也是融合跟踪工作中亟待解决的问题。
发明内容
本发明提出了一种注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,其目的是:1、解决未完全配准和对齐的高光谱和RGB模态视频数据无法进行有效的多模态信息融合的问题;2、解决高光谱和RGB模态数据的互补信息无法被充分利用,导致目标跟踪性能差的问题。
本发明技术方案如下:
一种注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,步骤包括:
步骤1、建立融合跟踪模型,所述融合跟踪模型包括高光谱模态分支、RGB模态分支、融合模块、划分模块、高光谱预测模块和RGB预测模块;
所述高光谱模态分支用于根据高光谱图像获取高光谱模态特定表征,RGB模态分支用于根据RGB图像获取RGB模态特定表征;所述融合模块基于Transformer,用于将高光谱模态特定表征和RGB模态特定表征进行融合得到多模态融合表征,所述划分模块用于将多模态融合表征为高光谱子表征和RGB子表征;所述高光谱预测模块用于根据高光谱子表征得到高光谱目标结果即当前输入的高光谱图像中的目标位置,所述RGB预测模块用于根据RGB子表征得到RGB目标结果即当前输入的RGB图像中的目标位置;
步骤2、获取高光谱模态视频数据a以及高光谱模态视频数据a中第1帧高光谱图像中的目标位置Pa1,并基于目标位置Pa1得到第1帧高光谱图像中的高光谱模板补丁a′1以及第2帧高光谱图像中的高光谱搜索区域a2;将高光谱模板补丁a′1作为高光谱模态分支的第一输入,将高光谱搜索区域a2作为高光谱模态分支的第二输入;
同时,获取RGB模态视频数据b以及RGB模态视频数据b中第1帧RGB图像中的目标位置Pb1,并基于目标位置Pb1得到第1帧RGB图像中RGB模板补丁b′1以及第2帧RGB图像中的RGB搜索区域b2;将RGB模板补丁b′1作为RGB模态分支的第一输入,将RGB搜索区域b2作为RGB模态分支的第二输入;
步骤3、设定计数值i=2;
步骤4、将当前的高光谱模态分支的第一输入和第二输入共同输入到高光谱模态分支中,将当前的RGB模态分支的第一输入和第二输入共同输入到RGB模态分支中,得到融合跟踪模型输出的第i帧高光谱图像中的目标位置Pai和第i帧RGB图像中的目标位置Pbi
步骤5、令i=i+1:如果i大于高光谱模态视频数据a的总帧数或i大于RGB模态视频数据b的总帧数,则执行步骤8;否则,获取下一帧即第i帧的高光谱图像和第i帧的RGB图像,然后执行步骤6;
步骤6、对于第i帧高光谱图像,基于第i-1帧的高光谱图像中的目标位置Pai-1得到第i帧高光谱图像的搜索区域ai,然后将高光谱模板补丁a′1作为高光谱模态分支的第一输入,将第i帧高光谱图像的搜索区域ai作为当前的高光谱模态分支的第二输入;
对于第i帧RGB图像,基于第i-1帧的RGB图像中的目标位置得到第i帧RGB图像的搜索区域bi,然后将RGB模板补丁b′1作为RGB模态分支的第一输入,将第i帧RGB图像的搜索区域bi作为当前的RGB模态分支的第二输入;
步骤7、返回执行步骤4;
步骤8、基于每一帧RGB图像对应的目标位置得到跟踪结果。
作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进:对于第1帧高光谱图像,获得其高光谱模板补丁的方式为:以该帧高光谱图像中的目标位置为中心扩展得到边长为目标位置两倍的区域,然后整形得到高光谱模板补丁;
对于某一帧高光谱图像,获得其高光谱搜索区域的方式为:以前一帧高光谱图像的目标位置为中心扩展得到边长为目标位置四倍的区域,然后整形得到高光谱搜索区域;
对于第1帧RGB图像,获得其RGB模板补丁的方式为:以该帧RGB图像中的目标位置为中心扩展得到边长为目标位置两倍的区域,然后整形得到RGB模板补丁;
对于某一帧RGB图像,获得其RGB搜索区域的方式为:以前一帧RGB图像的目标位置为中心扩展得到边长为目标位置四倍的区域,然后整形得到RGB搜索区域。
作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进:高光谱模态分支包含一个高光谱模板子分支、一个高光谱搜索子分支和一个互相关操作符;
高光谱模板子分支和高光谱搜索子分支结构一致、权值共享;所述高光谱模板子分支用于处理高光谱模态分支的第一输入a1,高光谱搜索子分支用于处理高光谱模态分支的第二输入a2,互相关操作符基于高光谱模板子分支的输出Fa1和高光谱搜索子分支的输出Fa2进行卷积操作得到结果表示将Fa1作为卷积核与Fa2进行卷积操作。
作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进:高光谱模态分支还包含一个特征自增强模块,所述特征自增强模块利用Transformer的多头自注意机制抑制高光谱模态特定表征的冗余噪声、增强高光谱模态特定表征信息,得到增强后的高光谱模态特定表征REa
作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进:RGB模态分支包含一个RGB模板子分支、一个RGB搜索子分支和一个互相关操作符;
RGB模板子分支和RGB搜索子分支结构一致、权值共享;所述RGB模板子分支用于处理RGB模态分支的第一输入b1,RGB搜索子分支用于处理RGB模态分支的第二输入b2,互相关操作符基于RGB模板子分支的输出Fb1和RGB搜索子分支的输出Fb2进行卷积操作得到结果 表示将Fb1作为卷积核与Fb2进行卷积操作。
作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进:RGB模态分支还包含一个特征自增强模块,所述特征自增强模块利用Transformer的多头自注意机制抑制RGB模态特定表征的冗余噪声、增强RGB模态特定表征信息,得到增强后的RGB模态特定表征REb
作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进,所述融合模块的处理过程为:将高光谱模态特定表征REa和RGB模态特定表征REb分别在空间维度的方向上解构为语义单元、然后进行拼接并对拼接结果进行融合得到多模态融合表征Rab
作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进,所述划分模块的处理过程为:将融合模块输出的多模态融合表征Rab划分为两部分:对应REa得到高光谱子表征raba,对应REb得到RGB子表征Rabb
作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进:
高光谱预测模块和RGB预测模块均包含一个分类头和一个回归头;
高光谱预测模块基于输入的高光谱子表征,通过分类头和回归头分别得到高光谱分类响应图ClRa和高光谱回归响应图ReRa,然后基于高光谱分类响应图ClRa和高光谱回归响应图ReRa得到当前高光谱图像的目标位置;
RGB预测模块基于输入的RGB子表征,通过分类头和回归头分别得到RGB分类响应图ClRb和RGB回归响应图ReRb,然后基于RGB分类响应图ClRb和RGB回归响应图ReRb得到当前RGB图像的目标位置。
相对于现有技术,本发明具有以下有益效果:
1、本方法中设置了高光谱模态分支和RGB模态分支,通过采用分别更新两个模态分支中第二输入的搜索区域的方式得到了同一目标在空间不匹配的多模态数据中的模态特定表征,实现了未完全配准和对齐的高光谱和RGB模态视频数据的有效多模态信息融合,缓解了两种模态空间差异导致的多模态信息跟踪困难的问题。
2、本方法利用Transformer中的注意力机制自适应地捕捉两种模态信息之间的关系,通过将高光谱模态分支和RGB模态分支获取的高光谱模态特定表征和RGB模态特定表征分别输入到两个特征自增强模块增强模态特定语义信息,然后在空间维度的方向上将其分别解构为语义单元,最后利用基于Transformer的注意力机制将两个模态数据的所有语义单元进行全局匹配关联,实现两种模态信息的自适应聚合,提高了跟踪性能。
附图说明
图1为本发明中融合跟踪模型的整体结构示意图;
图2为特征自增强模块的结构示意图;
图3为基于Transformer的融合模块的结构示意图。
具体实施方式
下面结合附图详细说明本发明的技术方案:
如图1,一种注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,步骤包括:
步骤1、建立融合跟踪模型,所述融合跟踪模型包括高光谱模态分支、RGB模态分支、融合模块、划分模块、高光谱预测模块和RGB预测模块。
(一)所述高光谱模态分支用于根据高光谱图像获取高光谱模态特定表征。
具体的,高光谱模态分支包含一个高光谱模板子分支、一个高光谱搜索子分支和一个互相关操作符。
高光谱模板子分支和高光谱搜索子分支结构一致、权值共享。
所述高光谱模板子分支fa1(·)用于处理高光谱模态分支的第一输入a1,高光谱搜索子分支fa2(·)用于处理高光谱模态分支的第二输入a2,互相关操作符基于高光谱模板子分支的输出Fa1=fa1(a1)和高光谱搜索子分支的输出Fa2=fa2(a2)进行卷积操作得到结果 表示将Fa1作为卷积核与Fa2进行卷积操作。
进一步的,高光谱模态分支还包含一个特征自增强模块FSE(·)。如图2,所述特征自增强模块利用Transformer的多头自注意机制抑制高光谱模态特定表征的冗余噪声、增强高光谱模态特定表征信息,得到增强后的高光谱模态特定表征REa=FSE(Ra)。
(二)RGB模态分支用于根据RGB图像获取RGB模态特定表。
具体的,RGB模态分支包含一个RGB模板子分支、一个RGB搜索子分支和一个互相关操作符。
RGB模板子分支和RGB搜索子分支结构一致、权值共享。
所述RGB模板子分支fb1(·)用于处理RGB模态分支的第一输入b1,RGB搜索子分支fb2(·)用于处理RGB模态分支的第二输入b2,互相关操作符基于RGB模板子分支的输出Fb1=fb1(b1)和RGB搜索子分支的输出Fb2=fb2(b2)进行卷积操作得到结果 表示将Fb1作为卷积核与Fb2进行卷积操作。
进一步的,RGB模态分支还包含一个特征自增强模块FSE(·)。如图2,同上,所述特征自增强模块利用Transformer的多头自注意机制抑制RGB模态特定表征的冗余噪声、增强RGB模态特定表征信息,得到增强后的RGB模态特定表征REb=FSE(Rb)。
(三)所述融合模块基于Transformer,用于将高光谱模态特定表征和RGB模态特定表征进行融合得到多模态融合表征。
具体的,如图3,所述融合模块的处理过程为:将高光谱模态特定表征REa和RGB模态特定表征REb分别在空间维度的方向上解构为语义单元、然后进行拼接并对拼接结果进行融合得到多模态融合表征Rab。该过程可表示为Rab=TrFM(REa,REb)。
(四)所述划分模块用于将多模态融合表征为高光谱子表征和RGB子表征。
具体的,所述划分模块的处理过程为:将融合模块输出的多模态融合表征Rab划分为两部分:对应REa得到高光谱子表征Raba,对应REb得到RGB子表征Rabb
(五)高光谱预测模块和RGB预测模块均包含一个分类头和一个回归头。
所述高光谱预测模块用于根据高光谱子表征得到高光谱目标结果即当前输入的高光谱图像中的目标位置。
高光谱预测模块基于输入的高光谱子表征,通过分类头和回归头分别得到高光谱分类响应图ClRa和高光谱回归响应图ReRa,然后基于高光谱分类响应图ClRa和高光谱回归响应图ReRa得到当前高光谱图像的目标位置。
同理,所述RGB预测模块用于根据RGB子表征得到RGB目标结果即当前输入的RGB图像中的目标位置。
RGB预测模块基于输入的RGB子表征,通过分类头和回归头分别得到RGB分类响应图ClRb和RGB回归响应图ReRb,然后基于RGB分类响应图ClRb和RGB回归响应图ReRb得到当前RGB图像的目标位置。
步骤2、获取高光谱模态视频数据a以及高光谱模态视频数据a中第1帧高光谱图像中的目标位置Pa1,并基于目标位置Pa1得到第1帧高光谱图像中的高光谱模板补丁a′1以及第2帧高光谱图像中的高光谱搜索区域a2。目标位置Pa1可表示为(xa,ya,wa,ha),其中(xa,ya)为高光谱模态第1帧图像中目标框的左上角顶点的坐标,wa和ha分别为高光谱模态第1帧图像中目标框的宽和高。
具体的,对于第1帧高光谱图像,获得其高光谱模板补丁a′1的方式为:以该帧高光谱图像中的目标位置为中心扩展得到边长为目标位置两倍的区域,然后整形为128×128的大小得到高光谱模板补丁。
对于某一帧高光谱图像,获得其高光谱搜索区域的方式为:以前一帧高光谱图像的目标位置为中心扩展得到边长为目标位置四倍的区域,然后整形为256×256的大小得到高光谱搜索区域。
将高光谱模板补丁a′1作为高光谱模态分支的第一输入,将高光谱搜索区域a2作为高光谱模态分支的第二输入。
同时,获取RGB模态视频数据b以及RGB模态视频数据b中第1帧RGB图像中的目标位置Pb1,并基于目标位置Pb1得到第1帧RGB图像中RGB模板补丁b′1以及第2帧RGB图像中的RGB搜索区域b2。目标位置Pb1可表示为(xb,yb,wb,hb),其中(xb,yb)为RGB模态第1帧图像中目标框的左上角顶点的坐标,wb和hb分别为RGB模态第1帧图像中目标框的宽和高。
同上,对于第1帧RGB图像,获得其RGB模板补丁b′1的方式为:以该帧RGB图像中的目标位置为中心扩展得到边长为目标位置两倍的区域,然后整形为128×128的大小得到RGB模板补丁。
对于某一帧RGB图像,获得其RGB搜索区域的方式为:以前一帧RGB图像的目标位置为中心扩展得到边长为目标位置四倍的区域,然后整形为256×256的大小得到RGB搜索区域。
将RGB模板补丁b′1作为RGB模态分支的第一输入,将RGB搜索区域b2作为RGB模态分支的第二输入。
步骤3、设定计数值i=2。
步骤4、将当前的高光谱模态分支的第一输入和第二输入共同输入到高光谱模态分支中,将当前的RGB模态分支的第一输入和第二输入共同输入到RGB模态分支中,得到融合跟踪模型输出的第i帧高光谱图像中的目标位置Pai和第i帧RGB图像中的目标位置Pbi
步骤5、令i=i+1:如果i大于高光谱模态视频数据a的总帧数或i大于RGB模态视频数据b的总帧数,则执行步骤8。否则,获取下一帧即第i帧的高光谱图像和第i帧的RGB图像,然后执行步骤6。
步骤6、对于第i帧高光谱图像,基于第i-1帧的高光谱图像中的目标位置Pai-1得到第i帧高光谱图像的搜索区域ai,然后将高光谱模板补丁a′1作为高光谱模态分支的第一输入,将第i帧高光谱图像的搜索区域ai作为当前的高光谱模态分支的第二输入。
对于第i帧RGB图像,基于第i-1帧的RGB图像中的目标位置得到第u帧RGB图像的搜索区域bi,然后将RGB模板补丁b′1作为RGB模态分支的第一输入,将第i帧RGB图像的搜索区域bi作为当前的RGB模态分支的第二输入。
步骤7、返回执行步骤4。
步骤8、基于每一帧RGB图像对应的目标位置得到跟踪结果。

Claims (9)

1.一种注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,其特征在于步骤包括:
步骤1、建立融合跟踪模型,所述融合跟踪模型包括高光谱模态分支、RGB模态分支、融合模块、划分模块、高光谱预测模块和RGB预测模块;
所述高光谱模态分支用于根据高光谱图像获取高光谱模态特定表征,RGB模态分支用于根据RGB图像获取RGB模态特定表征;所述融合模块基于Transformer,用于将高光谱模态特定表征和RGB模态特定表征进行融合得到多模态融合表征,所述划分模块用于将多模态融合表征为高光谱子表征和RGB子表征;所述高光谱预测模块用于根据高光谱子表征得到高光谱目标结果即当前输入的高光谱图像中的目标位置,所述RGB预测模块用于根据RGB子表征得到RGB目标结果即当前输入的RGB图像中的目标位置;
步骤2、获取高光谱模态视频数据a以及高光谱模态视频数据a中第1帧高光谱图像中的目标位置Pa1,并基于目标位置Pa1得到第1帧高光谱图像中的高光谱模板补丁a′1以及第2帧高光谱图像中的高光谱搜索区域a2;将高光谱模板补丁a′1作为高光谱模态分支的第一输入,将高光谱搜索区域a2作为高光谱模态分支的第二输入;
同时,获取RGB模态视频数据b以及RGB模态视频数据b中第1帧RGB图像中的目标位置Pb1,并基于目标位置Pb1得到第1帧RGB图像中RGB模板补丁b′1以及第2帧RGB图像中的RGB搜索区域b2;将RGB模板补丁b′1作为RGB模态分支的第一输入,将RGB搜索区域b2作为RGB模态分支的第二输入;
步骤3、设定计数值i=2;
步骤4、将当前的高光谱模态分支的第一输入和第二输入共同输入到高光谱模态分支中,将当前的RGB模态分支的第一输入和第二输入共同输入到RGB模态分支中,得到融合跟踪模型输出的第i帧高光谱图像中的目标位置Pai和第i帧RGB图像中的目标位置Pbi
步骤5、令i=i+1:如果i大于高光谱模态视频数据a的总帧数或i大于RGB模态视频数据b的总帧数,则执行步骤8;否则,获取下一帧即第i帧的高光谱图像和第i帧的RGB图像,然后执行步骤6;
步骤6、对于第i帧高光谱图像,基于第i-1帧的高光谱图像中的目标位置Pai-1得到第i帧高光谱图像的搜索区域ai,然后将高光谱模板补丁a′1作为高光谱模态分支的第一输入,将第i帧高光谱图像的搜索区域ai作为当前的高光谱模态分支的第二输入;
对于第i帧RGB图像,基于第i-1帧的RGB图像中的目标位置得到第i帧RGB图像的搜索区域bi,然后将RGB模板补丁b′1作为RGB模态分支的第一输入,将第i帧RGB图像的搜索区域bi作为当前的RGB模态分支的第二输入;
步骤7、返回执行步骤4;
步骤8、基于每一帧RGB图像对应的目标位置得到跟踪结果。
2.如权利要求1所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,其特征在于:对于第1帧高光谱图像,获得其高光谱模板补丁的方式为:以该帧高光谱图像中的目标位置为中心扩展得到边长为目标位置两倍的区域,然后整形得到高光谱模板补丁;
对于某一帧高光谱图像,获得其高光谱搜索区域的方式为:以前一帧高光谱图像的目标位置为中心扩展得到边长为目标位置四倍的区域,然后整形得到高光谱搜索区域;
对于第1帧RGB图像,获得其RGB模板补丁的方式为:以该帧RGB图像中的目标位置为中心扩展得到边长为目标位置两倍的区域,然后整形得到RGB模板补丁;
对于某一帧RGB图像,获得其RGB搜索区域的方式为:以前一帧RGB图像的目标位置为中心扩展得到边长为目标位置四倍的区域,然后整形得到RGB搜索区域。
3.如权利要求1所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,其特征在于:高光谱模态分支包含一个高光谱模板子分支、一个高光谱搜索子分支和一个互相关操作符;
高光谱模板子分支和高光谱搜索子分支结构一致、权值共享;所述高光谱模板子分支用于处理高光谱模态分支的第一输入a1,高光谱搜索子分支用于处理高光谱模态分支的第二输入a2,互相关操作符基于高光谱模板子分支的输出Fa1和高光谱搜索子分支的输出Fa2进行卷积操作得到结果 表示将Fa1作为卷积核与Fa2进行卷积操作。
4.如权利要求3所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,其特征在于:高光谱模态分支还包含一个特征自增强模块,所述特征自增强模块利用Transformer的多头自注意机制抑制高光谱模态特定表征的冗余噪声、增强高光谱模态特定表征信息,得到增强后的高光谱模态特定表征REa
5.如权利要求1所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,其特征在于:RGB模态分支包含一个RGB模板子分支、一个RGB搜索子分支和一个互相关操作符;
RGB模板子分支和RGB搜索子分支结构一致、权值共享;所述RGB模板子分支用于处理RGB模态分支的第一输入b1,RGB搜索子分支用于处理RGB模态分支的第二输入b2,互相关操作符基于RGB模板子分支的输出Fb1和RGB搜索子分支的输出Fb2进行卷积操作得到结果 表示将Fb1作为卷积核与Fb2进行卷积操作。
6.如权利要求5所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,其特征在于:RGB模态分支还包含一个特征自增强模块,所述特征自增强模块利用Transformer的多头自注意机制抑制RGB模态特定表征的冗余噪声、增强RGB模态特定表征信息,得到增强后的RGB模态特定表征REb
7.如权利要求1所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,其特征在于,所述融合模块的处理过程为:将高光谱模态特定表征REa和RGB模态特定表征REb分别在空间维度的方向上解构为语义单元、然后进行拼接并对拼接结果进行融合得到多模态融合表征Rab
8.如权利要求1至7任一所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,其特征在于,所述划分模块的处理过程为:将融合模块输出的多模态融合表征Rab划分为两部分:对应REa得到高光谱子表征Raba,对应REb得到RGB子表征Rabb
9.如权利要求8所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,其特征在于:
高光谱预测模块和RGB预测模块均包含一个分类头和一个回归头;高光谱预测模块基于输入的高光谱子表征,通过分类头和回归头分别得到高光谱分类响应图ClRa和高光谱回归响应图ReRa,然后基于高光谱分类响应图ClRa和高光谱回归响应图ReRa得到当前高光谱图像的目标位置;
RGB预测模块基于输入的RGB子表征,通过分类头和回归头分别得到RGB分类响应图ClRb和RGB回归响应图ReRb,然后基于RGB分类响应图ClRb和RGB回归响应图ReRb得到当前RGB图像的目标位置。
CN202311753368.0A 2023-12-20 2023-12-20 注意力机制引导匹配关联的高光谱和rgb视频融合跟踪方法 Pending CN117689692A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311753368.0A CN117689692A (zh) 2023-12-20 2023-12-20 注意力机制引导匹配关联的高光谱和rgb视频融合跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311753368.0A CN117689692A (zh) 2023-12-20 2023-12-20 注意力机制引导匹配关联的高光谱和rgb视频融合跟踪方法

Publications (1)

Publication Number Publication Date
CN117689692A true CN117689692A (zh) 2024-03-12

Family

ID=90133400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311753368.0A Pending CN117689692A (zh) 2023-12-20 2023-12-20 注意力机制引导匹配关联的高光谱和rgb视频融合跟踪方法

Country Status (1)

Country Link
CN (1) CN117689692A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112258554A (zh) * 2020-10-07 2021-01-22 大连理工大学 基于注意力机制的双流层次孪生网络目标跟踪方法
CN112766102A (zh) * 2021-01-07 2021-05-07 武汉大学 一种基于空谱特征融合的无监督高光谱视频目标跟踪方法
CN112816474A (zh) * 2021-01-07 2021-05-18 武汉大学 一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法
CN116168322A (zh) * 2023-01-10 2023-05-26 中国人民解放军军事科学院国防科技创新研究院 一种基于多模态融合的无人机长时跟踪方法及系统
CN116523956A (zh) * 2023-02-28 2023-08-01 安徽大学 基于渐进式融合Transformer与动态指导学习的RGBT跟踪方法及系统
CN117197676A (zh) * 2023-10-18 2023-12-08 中国人民解放军海军航空大学 一种基于特征融合的目标检测识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112258554A (zh) * 2020-10-07 2021-01-22 大连理工大学 基于注意力机制的双流层次孪生网络目标跟踪方法
CN112766102A (zh) * 2021-01-07 2021-05-07 武汉大学 一种基于空谱特征融合的无监督高光谱视频目标跟踪方法
CN112816474A (zh) * 2021-01-07 2021-05-18 武汉大学 一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法
CN116168322A (zh) * 2023-01-10 2023-05-26 中国人民解放军军事科学院国防科技创新研究院 一种基于多模态融合的无人机长时跟踪方法及系统
CN116523956A (zh) * 2023-02-28 2023-08-01 安徽大学 基于渐进式融合Transformer与动态指导学习的RGBT跟踪方法及系统
CN117197676A (zh) * 2023-10-18 2023-12-08 中国人民解放军海军航空大学 一种基于特征融合的目标检测识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHUNHUI ZHAO 等: "RANet: A Reliability-Guided Aggregation Network for Hyperspectral and RGB Fusion Tracking", 《REMOTE SENSING》, vol. 14, no. 2765, 9 June 2022 (2022-06-09), pages 1 - 22 *
HONGJIAO LIU 等: "AN ATTENTION-GUIDED MATCHING ASSOCIATION NETWORK FOR HYPERSPECTRAL AND RGB FUSION TRACKING", 《 IGARSS 2023》, 20 October 2023 (2023-10-20), pages 1138 - 1141 *

Similar Documents

Publication Publication Date Title
US9563953B2 (en) Systems and methods for determining a seam
US10325351B2 (en) Systems and methods for normalizing an image
JP4952625B2 (ja) 透視変換歪み発生文書画像補正装置および方法
US6961466B2 (en) Method and apparatus for object recognition
EP4109392A1 (en) Image processing method and image processing device
CN108154149B (zh) 基于深度学习网络共享的车牌识别方法
Zhang et al. ReYOLO: A traffic sign detector based on network reparameterization and features adaptive weighting
US20210390282A1 (en) Training data increment method, electronic apparatus and computer-readable medium
Farag A lightweight vehicle detection and tracking technique for advanced driving assistance systems
CN113989604B (zh) 基于端到端深度学习的轮胎dot信息识别方法
US20150023607A1 (en) Gesture recognition method and apparatus based on analysis of multiple candidate boundaries
US20070014433A1 (en) Image processing apparatus and image processing method
Ling et al. Optimization of autonomous driving image detection based on RFAConv and triplet attention
Wang et al. Plug-and-play: Improve depth prediction via sparse data propagation
Salem A Survey on Various Image Inpainting Techniques.
Li et al. Vehicle re-identification method based on Swin-Transformer network
Cai et al. Learning modality feature fusion via transformer for RGBT-tracking
Ragb et al. Multi-feature fusion and PCA based approach for efficient human detection
KR102467010B1 (ko) 이미지 복원에 기반한 상품 검색 방법 및 시스템
JP2006323779A (ja) 画像処理方法、画像処理装置
CN117689692A (zh) 注意力机制引导匹配关联的高光谱和rgb视频融合跟踪方法
RU2647645C1 (ru) Способ устранения швов при создании панорамных изображений из видеопотока кадров в режиме реального времени
CN114863199A (zh) 一种基于优化锚框机制的目标检测方法
KR20210153235A (ko) 딥매칭을 이용한 콘크리트 구조물 또는 교량의 파노라마 이미지 생성 및 업데이트 시스템, 이의 파노라마 이미지 생성 및 업데이트 방법 및 파노라마 이미지 생성 및 업데이트 프로그램
Bonny et al. A technique for panorama-creation using multiple images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination