CN117274883B - 基于多头注意力优化特征融合网络的目标跟踪方法与系统 - Google Patents
基于多头注意力优化特征融合网络的目标跟踪方法与系统 Download PDFInfo
- Publication number
- CN117274883B CN117274883B CN202311543165.9A CN202311543165A CN117274883B CN 117274883 B CN117274883 B CN 117274883B CN 202311543165 A CN202311543165 A CN 202311543165A CN 117274883 B CN117274883 B CN 117274883B
- Authority
- CN
- China
- Prior art keywords
- head
- features
- attention
- feature
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000005457 optimization Methods 0.000 title claims abstract description 18
- 230000009467 reduction Effects 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims description 42
- 238000000605 extraction Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于多头注意力优化特征融合网络的目标跟踪方法与系统,该方法包括:在孪生网络框架下构建特征提取网络和特征融合网络模型并进行训练,利用特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板图像特征和搜索区域特征,采用缩小模板图像特征在空间维度上尺度的方式进行多头自注意力计算,得到编码后模板特征,采用搜索区域特征降维的方式进行多头自注意力计算,得到局部特征增强的搜索区域特征,再将二者进行特征融合,将融合结果送入分类分支和回归分支上获取目标在搜索区域的最大响应位置以进行目标跟踪。本发明利用高效自注意力和高效空间约简注意力构建了特征融合网络,有效地提高了目标跟踪的准确性和鲁棒性。
Description
技术领域
本发明涉及计算机视觉与图像处理技术领域,特别涉及一种基于多头注意力优化特征融合网络的目标跟踪方法与系统。
背景技术
目标跟踪是计算机视觉领域中的主要研究方向之一,在给定视频序列中目标的初始状态后,在后续视频帧中利用边界框标定目标的位置,实现对目标的持续定位以及状态估计。目前,目标跟踪被广泛应用于公共安防、自动驾驶、智能机器人、人机智能交互、医学诊断等领域。
在真实场景的目标跟踪中,目标受到各种挑战因素的影响,主要表现为跟踪目标为非特定物体,目标跟踪器无法预先对跟踪目标进行预先训练或建模。而且,在跟踪过程中目标会发生各种变化、并受到周围环境的干扰,如目标消失、外观变化、背景干扰、快速移动等。这些因素对跟踪算法提出了很大的挑战。
近年来,基于Transformer的跟踪器取得了令人鼓舞的跟踪性能。Transformer可用于对各种基本视觉元素(包括像素-像素、对象-像素和对象-对象)之间的关系进行建模。卷积是一种局部运算,一个卷积层通常只对相邻像素之间的关系进行建模。Transformer是一个全局操作,Transformer层可以对所有像素之间的关系进行建模,并且两者可以很好地互补。卷积可以看作是一种模板匹配,使用相同的模板来过滤图像中的不同位置。Transformer中的注意单元是一个自适应滤波器,该自适应计算模块具有较强的建模能力。与CNN相比,Transformer在一些视觉任务上更具竞争力,表现出更好的性能。
然而,基于变压器的跟踪器的跟踪精度和速度可以进一步提高。在特征融合阶段,特征融合网络将特征映射分割成多个图像块作为其输入,并对其进行直接处理。一方面,不可避免地要处理大量的背景特征。另一方面,它可能会影响多头注意力的计算效率,导致计算成本和内存成本随着通道数量的增加呈二次增长。
如何能够在不丢失局部信息的情况下过滤掉大量背景信息,并有效降低计算量,成为提升Transformer跟踪器的关键因素。
发明内容
鉴于上述状况,本发明的主要目的是为了提出一种基于多头注意力优化特征融合网络的目标跟踪方法与系统,以解决上述技术问题。
本发明提出了一种基于多头注意力优化特征融合网络的目标跟踪方法,所述方法包括如下步骤:
步骤1、在孪生网络框架下,基于ResNet骨干网络构建特征提取网络,基于高效多头自注意力构建Transformer编码器,基于高效多头空间简约自注意力构建Transformer解码器,Transformer编码器和Transformer解码器构成特征融合网络模型;
步骤2、利用大规模数据集,对特征融合网络模型进行预训练,并在训练过程中调整特征融合网络模型中的参数,以得到训练后的特征融合网络模型;
步骤3、初始化第一帧的模板图像以及后续搜索帧的搜索图像,利用特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板图像特征和搜索区域特征;
步骤4、将模板图像特征输入Transformer编码器中,采用缩小模板图像特征在空间维度上尺度的方式进行多头自注意力计算,以对模板特征图中的特征进行学习,得到包含更少背景信息且特征表示能力更强的编码后模板特征;
将搜索区域特征输入Transformer解码器中,采用搜索区域特征降维的方式进行多头自注意力计算,以对搜索区域特征图中的特征进行学习,得到局部特征增强的搜索区域特征;
步骤5、通过多头交叉注意力对编码后模板特征和局部特征增强的搜索区域特征进行特征融合,以得到包含大量全局上下文信息的融合特征;
步骤6、将融合特征送入分类分支和回归分支上获取目标在搜索区域的最大响应位置以进行目标跟踪。
本发明还提出了一种基于多头注意力优化特征融合网络的目标跟踪系统,所述系统应用上述基于多头注意力优化特征融合网络的目标跟踪方法,所述系统包括:
构建模块,用于:
在孪生网络框架下,基于ResNet骨干网络构建特征提取网络,基于高效多头自注意力构建Transformer编码器,基于高效多头空间简约自注意力构建Transformer解码器,Transformer编码器和Transformer解码器构成特征融合网络模型;
预训练模块,用于:
用大规模数据集,对特征融合网络模型进行预训练,并在训练过程中调整特征融合网络模型中的参数,以得到训练后的特征融合网络模型;
提取模块,用于:
初始化第一帧的模板图像以及后续搜索帧的搜索图像,利用特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板图像特征和搜索区域特征;
学习模块,用于:
将模板图像特征输入Transformer编码器中,采用缩小模板图像特征在空间维度上尺度的方式进行多头自注意力计算,以对模板特征图中的特征进行学习,得到包含更少背景信息且特征表示能力更强的编码后模板特征;
将搜索区域特征输入Transformer解码器中,采用搜索区域特征降维的方式进行多头自注意力计算,以对搜索区域特征图中的特征进行学习,得到局部特征增强的搜索区域特征;
计算模块,用于:
通过多头交叉注意力对编码后模板特征和局部特征增强的搜索区域特征进行特征融合,以得到包含大量全局上下文信息的融合特征;
跟踪模块,用于:
将融合特征送入分类分支和回归分支上获取目标在搜索区域的最大响应位置以进行目标跟踪。
相较于现有技术,本发明的有益效果如下:
1、利用高效多头自注意力和高效空间约简注意力对提取到的模板特征和搜索区域特征进行特征增强。增强后的特征不仅降低输入到特征融合网络的特征的空间维度,还过滤掉大量的背景信息,在很大程度上提高了多头注意力的计算效率。
2、利用深度可分离卷积对模板特征进行空间降维,经过空间降维后的模板特征图不仅包含更少的背景特征,也具备更强的特征表示。此外,该方法可以让多头自注意力的内存和计算成本大大降低,使得编码器可以并行处理更高分辨率的模板特征,这不仅提高了多头自注意力的特征表示多样性的能力,而且进一步增强了特征融合网络的性能。
本发明的附加方面与优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明提出的基于多头注意力优化特征融合网络的目标跟踪方法的流程图;
图2为本发明提出的基于多头注意力优化特征融合网络的目标跟踪方法的总体框架;
图3为本发明提出的基于多头注意力优化特征融合网络的目标跟踪方法系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。
请参阅图1和图2,本发明提出一种基于多头注意力优化特征融合网络的目标跟踪方法,其中,所述方法包括如下步骤:
步骤1、在孪生网络框架下,基于ResNet骨干网络构建特征提取网络,基于高效多头自注意力构建Transformer编码器,基于高效多头空间简约自注意力构建Transformer解码器,Transformer编码器和Transformer解码器构成特征融合网络模型;
步骤2、利用大规模数据集,对特征融合网络模型进行预训练,并在训练过程中调整特征融合网络模型中的参数,以得到训练后的特征融合网络模型;
步骤3、初始化第一帧的模板图像以及后续搜索帧的搜索图像,利用特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板图像特征和搜索区域特征;
步骤4、将模板图像特征输入Transformer编码器中,采用缩小模板图像特征在空间维度上尺度的方式进行多头自注意力计算,以对模板特征图中的特征进行学习,得到包含更少背景信息且特征表示能力更强的编码后模板特征;
该方案的具体步骤如下:
将二维的模板图像特征沿着空间维度重塑为三维输入标记/>,其中,/>,,/>表示空间维度,/>表示模板特征图的通道数,/>表示模板特征图的高度,/>表示模板特征图的宽度;
将三维输入标记输入深度可分离卷积进行空间约简,将高度和宽度尺寸缩小/>倍,得到三维特征序列/>其中,/>,/>表示约简后的模板特征图的高度,/>表示约简后的模板特征图的宽度,其中填充大小、核大小、步长分别为/>;
将三维特征序列再沿着空间维度重塑,获得新的二维特征/>,其中,/>,/>重塑后的空间维度;
对二维的模板图像特征采用线性投影得到第一查询/>,对新的二维模板特征/>进行线性投影得到重塑后的第一键/>和第一值/>;
将重塑后的第一键和第一值与第一查询进行多头自注意力计算,得到每个头的输出,将每个头的输出串联,再进行线性投影,得到编码后的特征模板。
在本方案中,倍率由特征图大小自适应设置,倍率/>与特征图大小之间存在如下关系式:
;
其中,,/>表示键向量/>的维度;
在本方案中,将重塑后的第一键和第一值与第一查询进行多头自注意力计算,得到每个头的输出,将每个头的输出串联的过程存在如下关系式:
;
其中,分别表示第一查询、第一键和第一值,/>表示第/>个注意力头,/>表示编码部分的多头自注意力的计算,/>表示编码过程中所聚合/>个头所输出的特征图的结果,/>表示编码过程中第/>个注意力头的输出。
其中,本发明中的每个头的输出的计算过程存在如下关系式:
;
其中,表示编码部分的单头自注意力的计算,/>表示归一化函数,/>表示实例归一化操作,/>表示矩阵转置,/>表示键向量/>的维度,/>表示/>卷积运算。
上述表达式模拟了不同头之间的相互作用,因此每个头部的注意力都能依赖于所有的键和查询。然而,这将削弱多头自注意力在不同位置共同处理来自不同表示子集的信息的能力。为了恢复这种多样性能力,在操作之后在进行实例规范化操作。
在本方案中,所使用的方法优化了自注意力的计算方式,先使用深度可分离卷积降低键和值的维度,但这会削弱多头自注意力的特征表示多样性的能力。为了解决这一问题,随后使用卷积和实例归一化操作进行优化,优化后所得降维后的模板特征图不仅包含更少的背景特征,而且具有更强的特征表示能力。此外,由于键和值的维度降低,编码器可以并行处理具有更高分辨率的特征图。此方法不仅提高了多头自注意力的特征表示多样性能力,而且大大增强了特征融合网络的性能。
将搜索区域特征输入Transformer解码器中,采用搜索区域特征降维的方式进行多头自注意力计算,以对搜索区域特征图中的特征进行学习,得到局部特征增强的搜索区域特征。
该方案的具体步骤如下:
对提取到的搜索区域特征进行线性投影得到第二查询、键向量和值向量;
降低键向量和值向量的空间尺度,得到空间尺度约简的第二键和第二值;
将空间尺度约简的第二键和第二值与第二查询进行多头自注意力计算,得到每个头的输出,将每个头的输出串联,再进行线性投影,得到局部特征增强的搜索区域特征。
在本发明中,降低键向量和值向量的空间尺度的计算过程存在如下关系式:
;
其中,表示空间简约函数,/>表示搜索区域特征,/>,/>分别表示搜索区域特征图的高度,搜索区域特征图的宽度和搜索区域特征图的通道数,/>表示空间尺度约简因子,/>表示层归一化,/>表示将输入的搜索区域特征重塑为/>,/>表示将重塑后的特征序列维度经过投影再度缩减到/>。
在本方案中,将空间尺度约简的第二键和第二值与第二查询进行多头自注意力计算,得到每个头的输出,将每个头的输出串联的过程存在如下关系式:
;
其中,分别表示第二查询、第二键和第二值,/>表示解码部分的多头自注意力计算,/>表示解码过程中第/>个注意力头的输出,/>表示解码过程中所聚合/>个头所输出的特征图的结果。
其中,本发明中的每个头的输出的计算过程存在如下关系式:
;
其中,表示深度可分离卷积运算,/>表示解码部分的单头自注意力计算。
步骤5、通过多头交叉注意力对编码后模板特征和局部特征增强的搜索区域特征进行特征融合,以得到包含大量全局上下文信息的融合特征;
步骤6、将融合特征送入分类分支和回归分支上获取目标在搜索区域的最大响应位置以进行目标跟踪。
请参照图3,本发明还提出一种基于多头注意力优化特征融合网络的目标跟踪系统,其中,所述系统应用如上所述的基于多头注意力优化特征融合网络的目标跟踪方法,所述系统包括:
构建模块,用于:
在孪生网络框架下,基于ResNet骨干网络构建特征提取网络,基于高效多头自注意力构建Transformer编码器,基于高效多头空间简约自注意力构建Transformer解码器,Transformer编码器和Transformer解码器构成特征融合网络模型;
预训练模块,用于:
用大规模数据集,对特征融合网络模型进行预训练,并在训练过程中调整特征融合网络模型中的参数,以得到训练后的特征融合网络模型;
提取模块,用于:
初始化第一帧的模板图像以及后续搜索帧的搜索图像,利用特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板图像特征和搜索区域特征;
学习模块,用于:
将模板图像特征输入Transformer编码器中,采用缩小模板图像特征在空间维度上尺度的方式进行多头自注意力计算,以对模板特征图中的特征进行学习,得到包含更少背景信息且特征表示能力更强的编码后模板特征;
将搜索区域特征输入Transformer解码器中,采用搜索区域特征降维的方式进行多头自注意力计算,以对搜索区域特征图中的特征进行学习,得到局部特征增强的搜索区域特征;
计算模块,用于:
通过多头交叉注意力对编码后模板特征和局部特征增强的搜索区域特征进行特征融合,以得到包含大量全局上下文信息的融合特征;
跟踪模块,用于:
将融合特征送入分类分支和回归分支上获取目标在搜索区域的最大响应位置以进行目标跟踪。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种基于多头注意力优化特征融合网络的目标跟踪方法,其特征在于,所述方法包括如下步骤:
步骤1、在孪生网络框架下,基于ResNet骨干网络构建特征提取网络,基于高效多头自注意力构建Transformer编码器,基于高效多头空间约简自注意力构建Transformer解码器,Transformer编码器和Transformer解码器构成特征融合网络模型;
步骤2、利用大规模数据集,对特征融合网络模型进行预训练,并在训练过程中调整特征融合网络模型中的参数,以得到训练后的特征融合网络模型;
步骤3、初始化第一帧的模板图像以及后续搜索帧的搜索图像,利用特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板图像特征和搜索区域特征;
步骤4、将模板图像特征输入Transformer编码器中,采用缩小模板图像特征在空间维度上尺度的方式进行多头自注意力计算,以对模板特征图中的特征进行学习,得到包含更少背景信息且特征表示能力更强的编码后模板特征;
将搜索区域特征输入Transformer解码器中,采用搜索区域特征降维的方式进行多头自注意力计算,以对搜索区域特征图中的特征进行学习,得到局部特征增强的搜索区域特征;
步骤5、通过多头交叉注意力对编码后模板特征和局部特征增强的搜索区域特征进行特征融合,以得到包含大量全局上下文信息的融合特征;
步骤6、将融合特征送入分类分支和回归分支上获取目标在搜索区域的最大响应位置以进行目标跟踪;
其中,采用缩小模板图像特征在空间维度上尺度的方式进行多头自注意力计算,以对模板特征图中的特征进行学习,得到包含更少背景信息且特征表示能力更强的编码后模板特征的方法具体包括如下步骤:
将二维的模板图像特征沿着空间维度重塑为三维输入标记/>,其中,/>,,/>表示空间维度,/>表示模板特征图的通道数,/>表示模板特征图的高度,/>表示模板特征图的宽度;
将三维输入标记输入深度可分离卷积进行空间约简,将高度和宽度尺寸缩小/>倍,得到三维特征序列/>,其中,/>,/>表示约简后的模板特征图的高度,/>表示约简后的模板特征图的宽度,其中填充大小、核大小、步长分别为/>;
将三维特征序列再沿着空间维度重塑,获得新的二维特征/>,其中,/>,/>表示重塑后的空间维度;
对二维的模板图像特征采用线性投影得到第一查询/>,对新的二维模板特征/>进行线性投影得到重塑后的第一键/>和第一值/>;
将重塑后的第一键和第一值与第一查询进行多头自注意力计算,得到每个头的输出,将每个头的输出串联,再进行线性投影,得到编码后的特征模板。
2.根据权利要求1所述的基于多头注意力优化特征融合网络的目标跟踪方法,其特征在于,倍率由特征图大小自适应设置,倍率/>与特征图大小之间存在如下关系式:
;
其中,,/>表示键向量/>的维。
3.根据权利要求2所述的基于多头注意力优化特征融合网络的目标跟踪方法,其特征在于,将重塑后的第一键和第一值与第一查询进行多头自注意力计算,得到每个头的输出,将每个头的输出串联的过程存在如下关系式:
;
其中,分别表示第一查询、第一键和第一值,/>表示第/>个注意力头,/>表示编码部分的多头自注意力的计算,/>表示编码过程中所聚合/>个头所输出的特征图的结果,/>表示编码过程中第/>个注意力头的输出。
4.根据权利要求3所述的基于多头注意力优化特征融合网络的目标跟踪方法,其特征在于,将重塑后的第一键和第一值与第一查询进行多头自注意力计算,得到每个头的输出,每个头的输出的计算过程存在如下关系式:
;
其中,表示编码部分的单头自注意力的计算,/>表示归一化函数,/>表示实例归一化操作,/>表示矩阵转置,/>表示键向量/>的维度,/>表示/>卷积运算。
5.根据权利要求4所述的基于多头注意力优化特征融合网络的目标跟踪方法,其特征在于,在所述步骤4中,将搜索区域特征输入Transformer解码器中,采用搜索区域特征降维的方式进行多头自注意力计算,以对搜索区域特征图中的特征进行学习,得到局部特征增强的搜索区域特征的方法具体包括如下步骤:
对提取到的搜索区域特征进行线性投影得到第二查询、键向量和值向量;
降低键向量和值向量的空间尺度,得到空间尺度约简的第二键和第二值;
将空间尺度约简的第二键和第二值与第二查询进行多头自注意力计算,得到每个头的输出,将每个头的输出串联,再进行线性投影,得到局部特征增强的搜索区域特征。
6.根据权利要求5所述的基于多头注意力优化特征融合网络的目标跟踪方法,其特征在于,降低键向量和值向量的空间尺度的计算过程存在如下关系式:
;
其中,表示空间简约函数,/>表示搜索区域特征,/>,/>分别表示搜索区域特征图的高度,搜索区域特征图的宽度和搜索区域特征图的通道数,/>表示空间尺度约简因子,/>表示层归一化,/>表示将输入的搜索区域特征重塑为/>,/>表示将重塑后的特征序列维度经过投影再度缩减到/>。
7.根据权利要求6所述的基于多头注意力优化特征融合网络的目标跟踪方法,其特征在于,将空间尺度约简的第二键和第二值与第二查询进行多头自注意力计算,得到每个头的输出,将每个头的输出串联的过程存在如下关系式:
;
其中,分别表示第二查询、第二键和第二值,/>表示解码部分的多头自注意力计算,/>表示解码过程中第/>个注意力头的输出,/>表示解码过程中所聚合/>个头所输出的特征图的结果。
8.根据权利要求7所述的基于多头注意力优化特征融合网络的目标跟踪方法,其特征在于,将空间尺度约简的第二键和第二值与第二查询进行多头自注意力计算,得到每个头的输出,每个头的输出的计算过程存在如下关系式:
;
其中,表示深度可分离卷积运算,/>表示解码部分的单头自注意力计算。
9.一种基于多头注意力优化特征融合网络的目标跟踪系统,其特征在于,所述系统应用权利要求1至8任一项所述的基于多头注意力优化特征融合网络的目标跟踪方法,所述系统包括:
构建模块,用于:
在孪生网络框架下,基于ResNet骨干网络构建特征提取网络,基于高效多头自注意力构建Transformer编码器,基于高效多头空间简约自注意力构建Transformer解码器,Transformer编码器和Transformer解码器构成特征融合网络模型;
预训练模块,用于:
用大规模数据集,对特征融合网络模型进行预训练,并在训练过程中调整特征融合网络模型中的参数,以得到训练后的特征融合网络模型;
提取模块,用于:
初始化第一帧的模板图像以及后续搜索帧的搜索图像,利用特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板图像特征和搜索区域特征;
学习模块,用于:
将模板图像特征输入Transformer编码器中,采用缩小模板图像特征在空间维度上尺度的方式进行多头自注意力计算,以对模板特征图中的特征进行学习,得到包含更少背景信息且特征表示能力更强的编码后模板特征;
将搜索区域特征输入Transformer解码器中,采用搜索区域特征降维的方式进行多头自注意力计算,以对搜索区域特征图中的特征进行学习,得到局部特征增强的搜索区域特征;
计算模块,用于:
通过多头交叉注意力对编码后模板特征和局部特征增强的搜索区域特征进行特征融合,以得到包含大量全局上下文信息的融合特征;
跟踪模块,用于:
将融合特征送入分类分支和回归分支上获取目标在搜索区域的最大响应位置以进行目标跟踪。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311543165.9A CN117274883B (zh) | 2023-11-20 | 2023-11-20 | 基于多头注意力优化特征融合网络的目标跟踪方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311543165.9A CN117274883B (zh) | 2023-11-20 | 2023-11-20 | 基于多头注意力优化特征融合网络的目标跟踪方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117274883A CN117274883A (zh) | 2023-12-22 |
CN117274883B true CN117274883B (zh) | 2024-01-26 |
Family
ID=89210827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311543165.9A Active CN117274883B (zh) | 2023-11-20 | 2023-11-20 | 基于多头注意力优化特征融合网络的目标跟踪方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117274883B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649582B (zh) * | 2024-01-25 | 2024-04-19 | 南昌工程学院 | 基于级联注意力的单流单阶段网络目标跟踪方法与系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218818A (zh) * | 2013-04-19 | 2013-07-24 | 中国科学院深圳先进技术研究院 | 三维模型分割方法和系统 |
CN113705588A (zh) * | 2021-10-28 | 2021-11-26 | 南昌工程学院 | 基于卷积自注意力模块的孪生网络目标跟踪方法与系统 |
WO2022155842A1 (en) * | 2021-01-21 | 2022-07-28 | Alibaba Group Holding Limited | Quality estimation for automatic speech recognition |
CN115063445A (zh) * | 2022-08-18 | 2022-09-16 | 南昌工程学院 | 基于多尺度层次化特征表示的目标跟踪方法与系统 |
CN115359557A (zh) * | 2022-08-16 | 2022-11-18 | 齐鲁工业大学 | 一种基于Transformer的跌倒检测方法与系统 |
WO2023273290A1 (zh) * | 2021-06-29 | 2023-01-05 | 山东建筑大学 | 基于多特征信息捕捉和相关性分析的物品图像重识别方法 |
CN115690152A (zh) * | 2022-10-18 | 2023-02-03 | 南京航空航天大学 | 一种基于注意力机制的目标追踪方法 |
WO2023030513A1 (zh) * | 2021-09-05 | 2023-03-09 | 汉熵通信有限公司 | 物联网系统 |
WO2023098289A1 (zh) * | 2021-12-01 | 2023-06-08 | 浙江大学 | 一种基于对抗学习的无标签胰腺影像自动分割系统 |
CN116703980A (zh) * | 2023-08-04 | 2023-09-05 | 南昌工程学院 | 基于金字塔池化Transformer主干网络的目标跟踪方法与系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033478A (zh) * | 2019-04-12 | 2019-07-19 | 北京影谱科技股份有限公司 | 基于深度对抗训练的视觉目标跟踪方法和装置 |
US20220147585A1 (en) * | 2020-11-06 | 2022-05-12 | QGNai Inc. | Systems and methods for categorical representation learning |
-
2023
- 2023-11-20 CN CN202311543165.9A patent/CN117274883B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218818A (zh) * | 2013-04-19 | 2013-07-24 | 中国科学院深圳先进技术研究院 | 三维模型分割方法和系统 |
WO2022155842A1 (en) * | 2021-01-21 | 2022-07-28 | Alibaba Group Holding Limited | Quality estimation for automatic speech recognition |
WO2023273290A1 (zh) * | 2021-06-29 | 2023-01-05 | 山东建筑大学 | 基于多特征信息捕捉和相关性分析的物品图像重识别方法 |
WO2023030513A1 (zh) * | 2021-09-05 | 2023-03-09 | 汉熵通信有限公司 | 物联网系统 |
CN113705588A (zh) * | 2021-10-28 | 2021-11-26 | 南昌工程学院 | 基于卷积自注意力模块的孪生网络目标跟踪方法与系统 |
WO2023098289A1 (zh) * | 2021-12-01 | 2023-06-08 | 浙江大学 | 一种基于对抗学习的无标签胰腺影像自动分割系统 |
CN115359557A (zh) * | 2022-08-16 | 2022-11-18 | 齐鲁工业大学 | 一种基于Transformer的跌倒检测方法与系统 |
CN115063445A (zh) * | 2022-08-18 | 2022-09-16 | 南昌工程学院 | 基于多尺度层次化特征表示的目标跟踪方法与系统 |
CN115690152A (zh) * | 2022-10-18 | 2023-02-03 | 南京航空航天大学 | 一种基于注意力机制的目标追踪方法 |
CN116703980A (zh) * | 2023-08-04 | 2023-09-05 | 南昌工程学院 | 基于金字塔池化Transformer主干网络的目标跟踪方法与系统 |
Non-Patent Citations (4)
Title |
---|
Depthwise Over-parameterized Siamese Network for Visual Tracking;Yuanyun Wang;《 2021 International Conference on Information Technology and Biomedical Engineering (ICITBE)》;全文 * |
基于Transformer增强架构的中文语法纠错方法;王辰成;杨麟儿;王莹莹;杜永萍;杨尔弘;;中文信息学报(06);全文 * |
基于Transformer的蒙汉神经机器翻译研究;高芬;苏依拉;牛向华;赵亚平;范婷婷;仁庆道尔吉;;计算机应用与软件(02);全文 * |
基于改进RPN网络的电力设备图像识别方法研究;马静怡;崔昊杨;;供用电(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117274883A (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113705588B (zh) | 基于卷积自注意力模块的孪生网络目标跟踪方法与系统 | |
Melekhov et al. | Dgc-net: Dense geometric correspondence network | |
CN110335337B (zh) | 一种基于端到端半监督生成对抗网络的视觉里程计的方法 | |
CN117274883B (zh) | 基于多头注意力优化特征融合网络的目标跟踪方法与系统 | |
CN115063445B (zh) | 基于多尺度层次化特征表示的目标跟踪方法与系统 | |
CN110909591B (zh) | 用编码向量的行人图像检测自适应非极大值抑制处理方法 | |
CN115082293A (zh) | 一种基于Swin Transformer和CNN双分支耦合的图像配准方法 | |
CN104077742A (zh) | 基于Gabor特征的人脸素描合成方法及系统 | |
CN115965789A (zh) | 一种基于场景感知类注意力的遥感图像语义分割方法 | |
CN116222577A (zh) | 闭环检测方法、训练方法、系统、电子设备及存储介质 | |
Ke et al. | Mdanet: Multi-modal deep aggregation network for depth completion | |
Fu et al. | Pt-flownet: Scene flow estimation on point clouds with point transformer | |
CN114529793A (zh) | 一种基于门控循环特征融合的深度图像修复系统及方法 | |
CN116229394A (zh) | 一种自动驾驶图像识别方法、装置及识别设备 | |
CN115205233A (zh) | 一种基于端对端架构的光伏表面缺陷识别方法及系统 | |
Dao et al. | Attention-based proposals refinement for 3D object detection | |
CN115272450A (zh) | 一种基于全景分割的目标定位方法 | |
CN114821631A (zh) | 基于注意力机制与多尺度特征融合的行人特征提取方法 | |
CN115240121B (zh) | 一种用于增强行人局部特征的联合建模方法和装置 | |
CN116486203B (zh) | 一种基于孪生网络和在线模板更新的单目标跟踪方法 | |
CN116229275A (zh) | 基于球形两栖机器人的遮挡目标6d位姿识别系统及方法 | |
Gu et al. | Curvature-driven deformable convolutional networks for end-to-end object detection | |
CN116844004A (zh) | 一种面向数字孪生场景的点云自动语义化建模方法 | |
Lin et al. | Enhance Local Feature Consistency with Structure Similarity Loss for 3D Semantic Segmentation | |
CN117690111A (zh) | 轨道交通障碍物检测方法、装置、存储介质及处理器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |