CN117689692A - 注意力机制引导匹配关联的高光谱和rgb视频融合跟踪方法 - Google Patents
注意力机制引导匹配关联的高光谱和rgb视频融合跟踪方法 Download PDFInfo
- Publication number
- CN117689692A CN117689692A CN202311753368.0A CN202311753368A CN117689692A CN 117689692 A CN117689692 A CN 117689692A CN 202311753368 A CN202311753368 A CN 202311753368A CN 117689692 A CN117689692 A CN 117689692A
- Authority
- CN
- China
- Prior art keywords
- hyperspectral
- rgb
- branch
- image
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000007246 mechanism Effects 0.000 title claims abstract description 31
- 238000012512 characterization method Methods 0.000 claims abstract description 50
- 230000004044 response Effects 0.000 claims description 24
- 238000007493 shaping process Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 abstract description 2
- 230000002776 aggregation Effects 0.000 abstract description 2
- 238000004220 aggregation Methods 0.000 abstract description 2
- 230000006872 improvement Effects 0.000 description 8
- 230000000295 complement effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
- G06T2207/10036—Multispectral image; Hyperspectral image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法。本方法基于融合跟踪模型,它包括高光谱模态分支、RGB模态分支、融合模块、高光谱预测模块和RGB预测模块等。其中,融合模块基于Transformer,将高光谱模态特定表征和RGB模态特定表征进行融合得到多模态融合表征。本发明通过更新高光谱搜索区域和RGB搜索区域,得到同一目标在空间不匹配的多模态数据中的模态特定表征,缓解了两种模态空间差异导致的多模态信息跟踪困难的问题;同时,利用Transformer中的注意力机制自适应地捕捉两种模态信息之间的关系,实现两种模态信息的自适应聚合,提高了跟踪性能。
Description
技术领域
本发明属于计算机视觉领域,涉及一种视频跟踪方法,具体是一种基于高光谱视频和RGB视频的融合跟踪方法。
背景技术
目标跟踪是计算机视觉领域的一项重要任务,它需要根据目标的外观特征来预测其在视频中的位置。目前,大多数目标跟踪算法都是基于RGB模态数据开发的,但这种模态数据在一些复杂场景下可能无法提供足够的信息来区分不同的目标。高光谱图像则是一种能够同时记录物体的空间位置和光谱信息的数据,它可以在目标外观相似的情况下提供更多的材质信息,从而增强目标跟踪的性能。然而,高光谱图像的空间分辨率通常低于RGB图像,因此如何将高光谱信息与RGB信息有效地融合起来,利用两种模态数据的优势,是目前的研究重点。
现有的多模态融合跟踪方式虽然可以将不同模态的视频信息进行融合,但是此类算法都需要对不同模态的视频数据进行严格的匹配和对齐。而实际的高光谱-RGB多模态视频数据集中的两种模态数据并没有完全对齐,存在一定的空间差异,这就导致必须通过多模态视频数据配准等大量的前期工作,才能实现高光谱-RGB多模态视频数据的有效融合。此外,如何充分利用高光谱和RGB模态数据的互补信息,提升目标跟踪的性能,也是融合跟踪工作中亟待解决的问题。
发明内容
本发明提出了一种注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,其目的是:1、解决未完全配准和对齐的高光谱和RGB模态视频数据无法进行有效的多模态信息融合的问题;2、解决高光谱和RGB模态数据的互补信息无法被充分利用,导致目标跟踪性能差的问题。
本发明技术方案如下:
一种注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,步骤包括:
步骤1、建立融合跟踪模型,所述融合跟踪模型包括高光谱模态分支、RGB模态分支、融合模块、划分模块、高光谱预测模块和RGB预测模块;
所述高光谱模态分支用于根据高光谱图像获取高光谱模态特定表征,RGB模态分支用于根据RGB图像获取RGB模态特定表征;所述融合模块基于Transformer,用于将高光谱模态特定表征和RGB模态特定表征进行融合得到多模态融合表征,所述划分模块用于将多模态融合表征为高光谱子表征和RGB子表征;所述高光谱预测模块用于根据高光谱子表征得到高光谱目标结果即当前输入的高光谱图像中的目标位置,所述RGB预测模块用于根据RGB子表征得到RGB目标结果即当前输入的RGB图像中的目标位置;
步骤2、获取高光谱模态视频数据a以及高光谱模态视频数据a中第1帧高光谱图像中的目标位置Pa1,并基于目标位置Pa1得到第1帧高光谱图像中的高光谱模板补丁a′1以及第2帧高光谱图像中的高光谱搜索区域a2;将高光谱模板补丁a′1作为高光谱模态分支的第一输入,将高光谱搜索区域a2作为高光谱模态分支的第二输入;
同时,获取RGB模态视频数据b以及RGB模态视频数据b中第1帧RGB图像中的目标位置Pb1,并基于目标位置Pb1得到第1帧RGB图像中RGB模板补丁b′1以及第2帧RGB图像中的RGB搜索区域b2;将RGB模板补丁b′1作为RGB模态分支的第一输入,将RGB搜索区域b2作为RGB模态分支的第二输入;
步骤3、设定计数值i=2;
步骤4、将当前的高光谱模态分支的第一输入和第二输入共同输入到高光谱模态分支中,将当前的RGB模态分支的第一输入和第二输入共同输入到RGB模态分支中,得到融合跟踪模型输出的第i帧高光谱图像中的目标位置Pai和第i帧RGB图像中的目标位置Pbi;
步骤5、令i=i+1:如果i大于高光谱模态视频数据a的总帧数或i大于RGB模态视频数据b的总帧数,则执行步骤8;否则,获取下一帧即第i帧的高光谱图像和第i帧的RGB图像,然后执行步骤6;
步骤6、对于第i帧高光谱图像,基于第i-1帧的高光谱图像中的目标位置Pai-1得到第i帧高光谱图像的搜索区域ai,然后将高光谱模板补丁a′1作为高光谱模态分支的第一输入,将第i帧高光谱图像的搜索区域ai作为当前的高光谱模态分支的第二输入;
对于第i帧RGB图像,基于第i-1帧的RGB图像中的目标位置得到第i帧RGB图像的搜索区域bi,然后将RGB模板补丁b′1作为RGB模态分支的第一输入,将第i帧RGB图像的搜索区域bi作为当前的RGB模态分支的第二输入;
步骤7、返回执行步骤4;
步骤8、基于每一帧RGB图像对应的目标位置得到跟踪结果。
作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进:对于第1帧高光谱图像,获得其高光谱模板补丁的方式为:以该帧高光谱图像中的目标位置为中心扩展得到边长为目标位置两倍的区域,然后整形得到高光谱模板补丁;
对于某一帧高光谱图像,获得其高光谱搜索区域的方式为:以前一帧高光谱图像的目标位置为中心扩展得到边长为目标位置四倍的区域,然后整形得到高光谱搜索区域;
对于第1帧RGB图像,获得其RGB模板补丁的方式为:以该帧RGB图像中的目标位置为中心扩展得到边长为目标位置两倍的区域,然后整形得到RGB模板补丁;
对于某一帧RGB图像,获得其RGB搜索区域的方式为:以前一帧RGB图像的目标位置为中心扩展得到边长为目标位置四倍的区域,然后整形得到RGB搜索区域。
作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进:高光谱模态分支包含一个高光谱模板子分支、一个高光谱搜索子分支和一个互相关操作符;
高光谱模板子分支和高光谱搜索子分支结构一致、权值共享;所述高光谱模板子分支用于处理高光谱模态分支的第一输入a1,高光谱搜索子分支用于处理高光谱模态分支的第二输入a2,互相关操作符基于高光谱模板子分支的输出Fa1和高光谱搜索子分支的输出Fa2进行卷积操作得到结果表示将Fa1作为卷积核与Fa2进行卷积操作。
作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进:高光谱模态分支还包含一个特征自增强模块,所述特征自增强模块利用Transformer的多头自注意机制抑制高光谱模态特定表征的冗余噪声、增强高光谱模态特定表征信息,得到增强后的高光谱模态特定表征REa。
作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进:RGB模态分支包含一个RGB模板子分支、一个RGB搜索子分支和一个互相关操作符;
RGB模板子分支和RGB搜索子分支结构一致、权值共享;所述RGB模板子分支用于处理RGB模态分支的第一输入b1,RGB搜索子分支用于处理RGB模态分支的第二输入b2,互相关操作符基于RGB模板子分支的输出Fb1和RGB搜索子分支的输出Fb2进行卷积操作得到结果 表示将Fb1作为卷积核与Fb2进行卷积操作。
作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进:RGB模态分支还包含一个特征自增强模块,所述特征自增强模块利用Transformer的多头自注意机制抑制RGB模态特定表征的冗余噪声、增强RGB模态特定表征信息,得到增强后的RGB模态特定表征REb。
作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进,所述融合模块的处理过程为:将高光谱模态特定表征REa和RGB模态特定表征REb分别在空间维度的方向上解构为语义单元、然后进行拼接并对拼接结果进行融合得到多模态融合表征Rab。
作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进,所述划分模块的处理过程为:将融合模块输出的多模态融合表征Rab划分为两部分:对应REa得到高光谱子表征raba,对应REb得到RGB子表征Rabb。
作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进:
高光谱预测模块和RGB预测模块均包含一个分类头和一个回归头;
高光谱预测模块基于输入的高光谱子表征,通过分类头和回归头分别得到高光谱分类响应图ClRa和高光谱回归响应图ReRa,然后基于高光谱分类响应图ClRa和高光谱回归响应图ReRa得到当前高光谱图像的目标位置;
RGB预测模块基于输入的RGB子表征,通过分类头和回归头分别得到RGB分类响应图ClRb和RGB回归响应图ReRb,然后基于RGB分类响应图ClRb和RGB回归响应图ReRb得到当前RGB图像的目标位置。
相对于现有技术,本发明具有以下有益效果:
1、本方法中设置了高光谱模态分支和RGB模态分支,通过采用分别更新两个模态分支中第二输入的搜索区域的方式得到了同一目标在空间不匹配的多模态数据中的模态特定表征,实现了未完全配准和对齐的高光谱和RGB模态视频数据的有效多模态信息融合,缓解了两种模态空间差异导致的多模态信息跟踪困难的问题。
2、本方法利用Transformer中的注意力机制自适应地捕捉两种模态信息之间的关系,通过将高光谱模态分支和RGB模态分支获取的高光谱模态特定表征和RGB模态特定表征分别输入到两个特征自增强模块增强模态特定语义信息,然后在空间维度的方向上将其分别解构为语义单元,最后利用基于Transformer的注意力机制将两个模态数据的所有语义单元进行全局匹配关联,实现两种模态信息的自适应聚合,提高了跟踪性能。
附图说明
图1为本发明中融合跟踪模型的整体结构示意图;
图2为特征自增强模块的结构示意图;
图3为基于Transformer的融合模块的结构示意图。
具体实施方式
下面结合附图详细说明本发明的技术方案:
如图1,一种注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,步骤包括:
步骤1、建立融合跟踪模型,所述融合跟踪模型包括高光谱模态分支、RGB模态分支、融合模块、划分模块、高光谱预测模块和RGB预测模块。
(一)所述高光谱模态分支用于根据高光谱图像获取高光谱模态特定表征。
具体的,高光谱模态分支包含一个高光谱模板子分支、一个高光谱搜索子分支和一个互相关操作符。
高光谱模板子分支和高光谱搜索子分支结构一致、权值共享。
所述高光谱模板子分支fa1(·)用于处理高光谱模态分支的第一输入a1,高光谱搜索子分支fa2(·)用于处理高光谱模态分支的第二输入a2,互相关操作符基于高光谱模板子分支的输出Fa1=fa1(a1)和高光谱搜索子分支的输出Fa2=fa2(a2)进行卷积操作得到结果 表示将Fa1作为卷积核与Fa2进行卷积操作。
进一步的,高光谱模态分支还包含一个特征自增强模块FSE(·)。如图2,所述特征自增强模块利用Transformer的多头自注意机制抑制高光谱模态特定表征的冗余噪声、增强高光谱模态特定表征信息,得到增强后的高光谱模态特定表征REa=FSE(Ra)。
(二)RGB模态分支用于根据RGB图像获取RGB模态特定表。
具体的,RGB模态分支包含一个RGB模板子分支、一个RGB搜索子分支和一个互相关操作符。
RGB模板子分支和RGB搜索子分支结构一致、权值共享。
所述RGB模板子分支fb1(·)用于处理RGB模态分支的第一输入b1,RGB搜索子分支fb2(·)用于处理RGB模态分支的第二输入b2,互相关操作符基于RGB模板子分支的输出Fb1=fb1(b1)和RGB搜索子分支的输出Fb2=fb2(b2)进行卷积操作得到结果 表示将Fb1作为卷积核与Fb2进行卷积操作。
进一步的,RGB模态分支还包含一个特征自增强模块FSE(·)。如图2,同上,所述特征自增强模块利用Transformer的多头自注意机制抑制RGB模态特定表征的冗余噪声、增强RGB模态特定表征信息,得到增强后的RGB模态特定表征REb=FSE(Rb)。
(三)所述融合模块基于Transformer,用于将高光谱模态特定表征和RGB模态特定表征进行融合得到多模态融合表征。
具体的,如图3,所述融合模块的处理过程为:将高光谱模态特定表征REa和RGB模态特定表征REb分别在空间维度的方向上解构为语义单元、然后进行拼接并对拼接结果进行融合得到多模态融合表征Rab。该过程可表示为Rab=TrFM(REa,REb)。
(四)所述划分模块用于将多模态融合表征为高光谱子表征和RGB子表征。
具体的,所述划分模块的处理过程为:将融合模块输出的多模态融合表征Rab划分为两部分:对应REa得到高光谱子表征Raba,对应REb得到RGB子表征Rabb。
(五)高光谱预测模块和RGB预测模块均包含一个分类头和一个回归头。
所述高光谱预测模块用于根据高光谱子表征得到高光谱目标结果即当前输入的高光谱图像中的目标位置。
高光谱预测模块基于输入的高光谱子表征,通过分类头和回归头分别得到高光谱分类响应图ClRa和高光谱回归响应图ReRa,然后基于高光谱分类响应图ClRa和高光谱回归响应图ReRa得到当前高光谱图像的目标位置。
同理,所述RGB预测模块用于根据RGB子表征得到RGB目标结果即当前输入的RGB图像中的目标位置。
RGB预测模块基于输入的RGB子表征,通过分类头和回归头分别得到RGB分类响应图ClRb和RGB回归响应图ReRb,然后基于RGB分类响应图ClRb和RGB回归响应图ReRb得到当前RGB图像的目标位置。
步骤2、获取高光谱模态视频数据a以及高光谱模态视频数据a中第1帧高光谱图像中的目标位置Pa1,并基于目标位置Pa1得到第1帧高光谱图像中的高光谱模板补丁a′1以及第2帧高光谱图像中的高光谱搜索区域a2。目标位置Pa1可表示为(xa,ya,wa,ha),其中(xa,ya)为高光谱模态第1帧图像中目标框的左上角顶点的坐标,wa和ha分别为高光谱模态第1帧图像中目标框的宽和高。
具体的,对于第1帧高光谱图像,获得其高光谱模板补丁a′1的方式为:以该帧高光谱图像中的目标位置为中心扩展得到边长为目标位置两倍的区域,然后整形为128×128的大小得到高光谱模板补丁。
对于某一帧高光谱图像,获得其高光谱搜索区域的方式为:以前一帧高光谱图像的目标位置为中心扩展得到边长为目标位置四倍的区域,然后整形为256×256的大小得到高光谱搜索区域。
将高光谱模板补丁a′1作为高光谱模态分支的第一输入,将高光谱搜索区域a2作为高光谱模态分支的第二输入。
同时,获取RGB模态视频数据b以及RGB模态视频数据b中第1帧RGB图像中的目标位置Pb1,并基于目标位置Pb1得到第1帧RGB图像中RGB模板补丁b′1以及第2帧RGB图像中的RGB搜索区域b2。目标位置Pb1可表示为(xb,yb,wb,hb),其中(xb,yb)为RGB模态第1帧图像中目标框的左上角顶点的坐标,wb和hb分别为RGB模态第1帧图像中目标框的宽和高。
同上,对于第1帧RGB图像,获得其RGB模板补丁b′1的方式为:以该帧RGB图像中的目标位置为中心扩展得到边长为目标位置两倍的区域,然后整形为128×128的大小得到RGB模板补丁。
对于某一帧RGB图像,获得其RGB搜索区域的方式为:以前一帧RGB图像的目标位置为中心扩展得到边长为目标位置四倍的区域,然后整形为256×256的大小得到RGB搜索区域。
将RGB模板补丁b′1作为RGB模态分支的第一输入,将RGB搜索区域b2作为RGB模态分支的第二输入。
步骤3、设定计数值i=2。
步骤4、将当前的高光谱模态分支的第一输入和第二输入共同输入到高光谱模态分支中,将当前的RGB模态分支的第一输入和第二输入共同输入到RGB模态分支中,得到融合跟踪模型输出的第i帧高光谱图像中的目标位置Pai和第i帧RGB图像中的目标位置Pbi。
步骤5、令i=i+1:如果i大于高光谱模态视频数据a的总帧数或i大于RGB模态视频数据b的总帧数,则执行步骤8。否则,获取下一帧即第i帧的高光谱图像和第i帧的RGB图像,然后执行步骤6。
步骤6、对于第i帧高光谱图像,基于第i-1帧的高光谱图像中的目标位置Pai-1得到第i帧高光谱图像的搜索区域ai,然后将高光谱模板补丁a′1作为高光谱模态分支的第一输入,将第i帧高光谱图像的搜索区域ai作为当前的高光谱模态分支的第二输入。
对于第i帧RGB图像,基于第i-1帧的RGB图像中的目标位置得到第u帧RGB图像的搜索区域bi,然后将RGB模板补丁b′1作为RGB模态分支的第一输入,将第i帧RGB图像的搜索区域bi作为当前的RGB模态分支的第二输入。
步骤7、返回执行步骤4。
步骤8、基于每一帧RGB图像对应的目标位置得到跟踪结果。
Claims (9)
1.一种注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,其特征在于步骤包括:
步骤1、建立融合跟踪模型,所述融合跟踪模型包括高光谱模态分支、RGB模态分支、融合模块、划分模块、高光谱预测模块和RGB预测模块;
所述高光谱模态分支用于根据高光谱图像获取高光谱模态特定表征,RGB模态分支用于根据RGB图像获取RGB模态特定表征;所述融合模块基于Transformer,用于将高光谱模态特定表征和RGB模态特定表征进行融合得到多模态融合表征,所述划分模块用于将多模态融合表征为高光谱子表征和RGB子表征;所述高光谱预测模块用于根据高光谱子表征得到高光谱目标结果即当前输入的高光谱图像中的目标位置,所述RGB预测模块用于根据RGB子表征得到RGB目标结果即当前输入的RGB图像中的目标位置;
步骤2、获取高光谱模态视频数据a以及高光谱模态视频数据a中第1帧高光谱图像中的目标位置Pa1,并基于目标位置Pa1得到第1帧高光谱图像中的高光谱模板补丁a′1以及第2帧高光谱图像中的高光谱搜索区域a2;将高光谱模板补丁a′1作为高光谱模态分支的第一输入,将高光谱搜索区域a2作为高光谱模态分支的第二输入;
同时,获取RGB模态视频数据b以及RGB模态视频数据b中第1帧RGB图像中的目标位置Pb1,并基于目标位置Pb1得到第1帧RGB图像中RGB模板补丁b′1以及第2帧RGB图像中的RGB搜索区域b2;将RGB模板补丁b′1作为RGB模态分支的第一输入,将RGB搜索区域b2作为RGB模态分支的第二输入;
步骤3、设定计数值i=2;
步骤4、将当前的高光谱模态分支的第一输入和第二输入共同输入到高光谱模态分支中,将当前的RGB模态分支的第一输入和第二输入共同输入到RGB模态分支中,得到融合跟踪模型输出的第i帧高光谱图像中的目标位置Pai和第i帧RGB图像中的目标位置Pbi;
步骤5、令i=i+1:如果i大于高光谱模态视频数据a的总帧数或i大于RGB模态视频数据b的总帧数,则执行步骤8;否则,获取下一帧即第i帧的高光谱图像和第i帧的RGB图像,然后执行步骤6;
步骤6、对于第i帧高光谱图像,基于第i-1帧的高光谱图像中的目标位置Pai-1得到第i帧高光谱图像的搜索区域ai,然后将高光谱模板补丁a′1作为高光谱模态分支的第一输入,将第i帧高光谱图像的搜索区域ai作为当前的高光谱模态分支的第二输入;
对于第i帧RGB图像,基于第i-1帧的RGB图像中的目标位置得到第i帧RGB图像的搜索区域bi,然后将RGB模板补丁b′1作为RGB模态分支的第一输入,将第i帧RGB图像的搜索区域bi作为当前的RGB模态分支的第二输入;
步骤7、返回执行步骤4;
步骤8、基于每一帧RGB图像对应的目标位置得到跟踪结果。
2.如权利要求1所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,其特征在于:对于第1帧高光谱图像,获得其高光谱模板补丁的方式为:以该帧高光谱图像中的目标位置为中心扩展得到边长为目标位置两倍的区域,然后整形得到高光谱模板补丁;
对于某一帧高光谱图像,获得其高光谱搜索区域的方式为:以前一帧高光谱图像的目标位置为中心扩展得到边长为目标位置四倍的区域,然后整形得到高光谱搜索区域;
对于第1帧RGB图像,获得其RGB模板补丁的方式为:以该帧RGB图像中的目标位置为中心扩展得到边长为目标位置两倍的区域,然后整形得到RGB模板补丁;
对于某一帧RGB图像,获得其RGB搜索区域的方式为:以前一帧RGB图像的目标位置为中心扩展得到边长为目标位置四倍的区域,然后整形得到RGB搜索区域。
3.如权利要求1所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,其特征在于:高光谱模态分支包含一个高光谱模板子分支、一个高光谱搜索子分支和一个互相关操作符;
高光谱模板子分支和高光谱搜索子分支结构一致、权值共享;所述高光谱模板子分支用于处理高光谱模态分支的第一输入a1,高光谱搜索子分支用于处理高光谱模态分支的第二输入a2,互相关操作符基于高光谱模板子分支的输出Fa1和高光谱搜索子分支的输出Fa2进行卷积操作得到结果 表示将Fa1作为卷积核与Fa2进行卷积操作。
4.如权利要求3所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,其特征在于:高光谱模态分支还包含一个特征自增强模块,所述特征自增强模块利用Transformer的多头自注意机制抑制高光谱模态特定表征的冗余噪声、增强高光谱模态特定表征信息,得到增强后的高光谱模态特定表征REa。
5.如权利要求1所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,其特征在于:RGB模态分支包含一个RGB模板子分支、一个RGB搜索子分支和一个互相关操作符;
RGB模板子分支和RGB搜索子分支结构一致、权值共享;所述RGB模板子分支用于处理RGB模态分支的第一输入b1,RGB搜索子分支用于处理RGB模态分支的第二输入b2,互相关操作符基于RGB模板子分支的输出Fb1和RGB搜索子分支的输出Fb2进行卷积操作得到结果 表示将Fb1作为卷积核与Fb2进行卷积操作。
6.如权利要求5所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,其特征在于:RGB模态分支还包含一个特征自增强模块,所述特征自增强模块利用Transformer的多头自注意机制抑制RGB模态特定表征的冗余噪声、增强RGB模态特定表征信息,得到增强后的RGB模态特定表征REb。
7.如权利要求1所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,其特征在于,所述融合模块的处理过程为:将高光谱模态特定表征REa和RGB模态特定表征REb分别在空间维度的方向上解构为语义单元、然后进行拼接并对拼接结果进行融合得到多模态融合表征Rab。
8.如权利要求1至7任一所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,其特征在于,所述划分模块的处理过程为:将融合模块输出的多模态融合表征Rab划分为两部分:对应REa得到高光谱子表征Raba,对应REb得到RGB子表征Rabb。
9.如权利要求8所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,其特征在于:
高光谱预测模块和RGB预测模块均包含一个分类头和一个回归头;高光谱预测模块基于输入的高光谱子表征,通过分类头和回归头分别得到高光谱分类响应图ClRa和高光谱回归响应图ReRa,然后基于高光谱分类响应图ClRa和高光谱回归响应图ReRa得到当前高光谱图像的目标位置;
RGB预测模块基于输入的RGB子表征,通过分类头和回归头分别得到RGB分类响应图ClRb和RGB回归响应图ReRb,然后基于RGB分类响应图ClRb和RGB回归响应图ReRb得到当前RGB图像的目标位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311753368.0A CN117689692A (zh) | 2023-12-20 | 2023-12-20 | 注意力机制引导匹配关联的高光谱和rgb视频融合跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311753368.0A CN117689692A (zh) | 2023-12-20 | 2023-12-20 | 注意力机制引导匹配关联的高光谱和rgb视频融合跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117689692A true CN117689692A (zh) | 2024-03-12 |
Family
ID=90133400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311753368.0A Pending CN117689692A (zh) | 2023-12-20 | 2023-12-20 | 注意力机制引导匹配关联的高光谱和rgb视频融合跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117689692A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112258554A (zh) * | 2020-10-07 | 2021-01-22 | 大连理工大学 | 基于注意力机制的双流层次孪生网络目标跟踪方法 |
CN112766102A (zh) * | 2021-01-07 | 2021-05-07 | 武汉大学 | 一种基于空谱特征融合的无监督高光谱视频目标跟踪方法 |
CN112816474A (zh) * | 2021-01-07 | 2021-05-18 | 武汉大学 | 一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法 |
CN116168322A (zh) * | 2023-01-10 | 2023-05-26 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于多模态融合的无人机长时跟踪方法及系统 |
CN116523956A (zh) * | 2023-02-28 | 2023-08-01 | 安徽大学 | 基于渐进式融合Transformer与动态指导学习的RGBT跟踪方法及系统 |
CN117197676A (zh) * | 2023-10-18 | 2023-12-08 | 中国人民解放军海军航空大学 | 一种基于特征融合的目标检测识别方法 |
-
2023
- 2023-12-20 CN CN202311753368.0A patent/CN117689692A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112258554A (zh) * | 2020-10-07 | 2021-01-22 | 大连理工大学 | 基于注意力机制的双流层次孪生网络目标跟踪方法 |
CN112766102A (zh) * | 2021-01-07 | 2021-05-07 | 武汉大学 | 一种基于空谱特征融合的无监督高光谱视频目标跟踪方法 |
CN112816474A (zh) * | 2021-01-07 | 2021-05-18 | 武汉大学 | 一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法 |
CN116168322A (zh) * | 2023-01-10 | 2023-05-26 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于多模态融合的无人机长时跟踪方法及系统 |
CN116523956A (zh) * | 2023-02-28 | 2023-08-01 | 安徽大学 | 基于渐进式融合Transformer与动态指导学习的RGBT跟踪方法及系统 |
CN117197676A (zh) * | 2023-10-18 | 2023-12-08 | 中国人民解放军海军航空大学 | 一种基于特征融合的目标检测识别方法 |
Non-Patent Citations (2)
Title |
---|
CHUNHUI ZHAO 等: "RANet: A Reliability-Guided Aggregation Network for Hyperspectral and RGB Fusion Tracking", 《REMOTE SENSING》, vol. 14, no. 2765, 9 June 2022 (2022-06-09), pages 1 - 22 * |
HONGJIAO LIU 等: "AN ATTENTION-GUIDED MATCHING ASSOCIATION NETWORK FOR HYPERSPECTRAL AND RGB FUSION TRACKING", 《 IGARSS 2023》, 20 October 2023 (2023-10-20), pages 1138 - 1141 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9563953B2 (en) | Systems and methods for determining a seam | |
US10325351B2 (en) | Systems and methods for normalizing an image | |
JP4952625B2 (ja) | 透視変換歪み発生文書画像補正装置および方法 | |
US6961466B2 (en) | Method and apparatus for object recognition | |
EP4109392A1 (en) | Image processing method and image processing device | |
CN108154149B (zh) | 基于深度学习网络共享的车牌识别方法 | |
Zhang et al. | ReYOLO: A traffic sign detector based on network reparameterization and features adaptive weighting | |
US20210390282A1 (en) | Training data increment method, electronic apparatus and computer-readable medium | |
Farag | A lightweight vehicle detection and tracking technique for advanced driving assistance systems | |
CN113989604B (zh) | 基于端到端深度学习的轮胎dot信息识别方法 | |
US20150023607A1 (en) | Gesture recognition method and apparatus based on analysis of multiple candidate boundaries | |
US20070014433A1 (en) | Image processing apparatus and image processing method | |
Ling et al. | Optimization of autonomous driving image detection based on RFAConv and triplet attention | |
Wang et al. | Plug-and-play: Improve depth prediction via sparse data propagation | |
Salem | A Survey on Various Image Inpainting Techniques. | |
Li et al. | Vehicle re-identification method based on Swin-Transformer network | |
Cai et al. | Learning modality feature fusion via transformer for RGBT-tracking | |
Ragb et al. | Multi-feature fusion and PCA based approach for efficient human detection | |
KR102467010B1 (ko) | 이미지 복원에 기반한 상품 검색 방법 및 시스템 | |
JP2006323779A (ja) | 画像処理方法、画像処理装置 | |
CN117689692A (zh) | 注意力机制引导匹配关联的高光谱和rgb视频融合跟踪方法 | |
RU2647645C1 (ru) | Способ устранения швов при создании панорамных изображений из видеопотока кадров в режиме реального времени | |
CN114863199A (zh) | 一种基于优化锚框机制的目标检测方法 | |
KR20210153235A (ko) | 딥매칭을 이용한 콘크리트 구조물 또는 교량의 파노라마 이미지 생성 및 업데이트 시스템, 이의 파노라마 이미지 생성 및 업데이트 방법 및 파노라마 이미지 생성 및 업데이트 프로그램 | |
Bonny et al. | A technique for panorama-creation using multiple images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |