CN117333515A - 基于区域感知注意力的目标跟踪方法与系统 - Google Patents
基于区域感知注意力的目标跟踪方法与系统 Download PDFInfo
- Publication number
- CN117333515A CN117333515A CN202311636914.2A CN202311636914A CN117333515A CN 117333515 A CN117333515 A CN 117333515A CN 202311636914 A CN202311636914 A CN 202311636914A CN 117333515 A CN117333515 A CN 117333515A
- Authority
- CN
- China
- Prior art keywords
- target
- model
- region
- module
- regional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000008447 perception Effects 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000005457 optimization Methods 0.000 claims abstract description 30
- 238000012360 testing method Methods 0.000 claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims description 25
- 238000010606 normalization Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000001351 cycling effect Effects 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 12
- 239000000284 extract Substances 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/223—Analysis of motion using block-matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于区域感知注意力的目标跟踪方法与系统,该方法包括:在孪生双分支结构下,基于区域感知编码器模块构建区域感知注意力特征提取器;基于模型初始化模块以及模型优化模块构建模型预测器,基于卷积模块构建目标分类器;区域感知注意力特征提取器、模型预测器以及目标分类器共同构成目标跟踪框架;区域感知注意力特征提取器分别从训练集以及测试帧中提取模板特征以及搜索特征,模型预测器利用模板特征以及目标边界框信息生成目标模型,目标分类器利用目标模型在搜索特征中定位目标位置。本发明采用动态性的区域感知稀疏注意力机制,可以实现区域自适应,实时动态选择目标感兴趣区域,从而有效减低多头自注意力机制的计算复杂度。
Description
技术领域
本发明属于计算机视觉与图像处理技术领域,特别涉及一种基于区域感知注意力的目标跟踪方法与系统。
背景技术
在计算机视觉领域中,目标跟踪一直都是一个重要研究课题。目标跟踪通过在连续的视频图像序列中估计跟踪目标的大小及位置信息,确定目标的运动速度、方向等运动信息,实现对运动目标行为的分析和理解。
目标跟踪在自动驾驶、视频监控、人机交互等领域都具有重要的研究意义和广阔的应用前景。经过几十年的发展,目标跟踪技术已取得了较好的跟踪效果和实时性。
近年来,注意力机制在计算机视觉社区得到了长足发展。首先,注意力机制可以对序列图像块进行全局建模,进而去捕捉图像块之间的长期上下文依赖。其次注意力机制在特征建模过程中,不存在归纳偏差,可以使得模型适应于各种训练数据。
传统注意力机制的高计算复杂度和空间占用率,无法达到实时性的要求。大量研究者提出了许多稀疏注意力机制,比如局部窗口注意力、轴向条纹注意力以及扩展窗口注意力等。虽然上述稀疏注意力机制在特征建模方面达到了不错的性能,但是这些策略都是手工设计的,无法做到区域自适应。
发明内容
本发明提供了一种基于区域感知注意力的目标跟踪方法与系统,采用动态性的区域感知稀疏注意力机制,可以实现区域自适应,实时动态选择目标感兴趣区域,从而有效减低多头自注意力机制的计算复杂度,最终实现更加高效且准确的目标跟踪。
一种基于区域感知注意力的目标跟踪方法,其中,所述方法包括如下步骤:
步骤1、在孪生双分支结构下,基于区域感知编码器模块构建区域感知注意力特征提取器;基于模型初始化模块以及模型优化模块构建模型预测器,基于卷积模块构建目标分类器;区域感知注意力特征提取器、模型预测器以及目标分类器共同构成目标跟踪模型;
步骤2、采集跟踪数据,跟踪数据由一系列视频序列组成,从跟踪数据中获取训练集和测试帧;测试帧为视频序列中即将要跟踪的图像,训练集由同一视频序列中多帧带目标边界框注释的图像组成;利用区域感知注意力特征提取器分别对训练集和测试帧进行特征提取,获得模板特征和搜索特征;
步骤3、从模板特征中获取目标区域特征,并将目标区域特征输入到模型初始化模块中获得初始化模型;将初始化模型以及模板特征输入到模型优化模块中,经过迭代优化获得最终的目标模型;
步骤4、将目标模型以及搜索特征输入到目标分类器中,获得目标置信度得分,并根据目标置信度得分确定跟踪目标所在位置;
步骤5、以采集的大量跟踪数据为基础重复步骤2至步骤4,对目标跟踪模型进行端到端的离线训练,得到训练好的目标跟踪模型;
步骤6、利用所述训练好的目标跟踪模型对视频序列进行目标在线跟踪。
一种基于区域感知注意力的目标跟踪系统,所述系统应用如上述的一种基于区域感知注意力的目标跟踪方法,所述系统包括:
网络构建模块,用于在孪生双分支结构下,基于区域感知编码模块构建区域感知注意力特征提取器;基于模型初始化模块以及模型优化模块构建模型预测器,基于卷积模块构建目标分类器;区域感知注意力特征提取器、模型预测器以及目标分类器共同构成目标跟踪模型;
特征提取模块,用于采集跟踪数据,跟踪数据由一系列视频序列组成,从跟踪数据中获取训练集和测试帧;测试帧为视频序列中即将要跟踪的图像,训练集由同一视频序列中多帧带目标边界框注释的图像组成;利用区域感知注意力特征提取器分别对训练集和测试帧进行特征提取,获得模板特征和搜索特征;
模型预测模块,用于从模板特征中获取目标区域特征,并将目标区域特征输入到模型预测器的模型初始化模块中获得初始化模型;将初始化模型以及模板特征输入到模型预测器的模型优化模块中,经过迭代优化获得最终的目标模型;
目标分类模块,用于将目标模型以及搜索特征输入到目标分类器中,获得目标置信度得分,并根据目标置信度得分确定跟踪目标所在位置;
离线训练模块,用于以采集的大量跟踪数据为基础对目标跟踪模型进行端到端的离线训练,得到训练好的目标跟踪模型;
目标跟踪模块,用于利用所述训练好的目标跟踪模型对视频序列进行目标在线跟踪。
相较于现有技术,本发明的有益效果如下:
1、本发明基于区域感知注意力特征提取器,可以过滤掉与跟踪目标不相关的区域,只保留与目标具有相似性的区域,并在此区域内进行细粒度的注意力运算,从而有效减低计算复杂度和空间占用率;
2、本发明在区域感知注意力特征提取器中加入Dropkey技术,通过在进行注意力计算时对权重矩阵进行裁剪,进而抑制模型的过拟合现象,并且提高模型的泛化能力;
3、本发明根据目标跟踪过程的特性,由于每一帧图像中,目标位置可能会发生改变,而特征提取器会跟随目标移动位置确定目标感兴趣区域,实现动态选择目标感兴趣区域,从而有效减低多头自注意力机制的计算复杂度,最终实现更加高效且准确的目标跟踪。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明提出的基于区域感知注意力的目标跟踪方法的流程图;
图2为本发明提出的基于区域感知注意力的目标跟踪方法的结构图;
图3为本发明提出的区域感知编码器模块的结构图;
图4为本发明中区域感知注意力模块的原理图;
图5为本发明提出的基于区域感知注意力的目标跟踪系统的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
请参阅图1至图4,本发明实施例提供一种基于区域感知注意力的目标跟踪方法,其中,所述方法包括如下步骤:
步骤1、在孪生双分支结构下,基于区域感知编码器模块构建区域感知注意力特征提取器;基于模型初始化模块以及模型优化模块构建模型预测器,基于卷积模块构建目标分类器;区域感知注意力特征提取器、模型预测器以及目标分类器共同构成目标跟踪模型,其结构如图2所示;
步骤2、采集跟踪数据,跟踪数据由一系列视频序列组成。从跟踪数据中获取训练集和测试帧;测试帧为视频序列中即将要跟踪的图像,训练集由同一视频序列中多帧带目标边界框注释的图像组成;将训练集和测试帧输入到区域感知注意力特征提取器中,获得模板特征和搜索特征;
在本步骤中,区域感知注意力特征提取器由三个阶段组成,每个阶段堆叠了不同块数的区域感知编码器,堆叠块数分别为4、12和4。每个阶段利用所述区域感知编码器充分提取输入特征的全局上下文信息,并且对输入特征进行下采样操作;输入一张RGB图像,三个阶段的输出特征尺寸分别为、/>以及/>,其中H和W由输入图像大小确定,C为手动确定,本实施例中设定为64。
所述区域感知编码器由深度可分离卷积、批量归一化、区域感知注意力模块以及多层感知器组成,其结构如图3所示;
在上述方案中,利用区域感知注意力特征提取器分别对训练集和测试帧进行特征提取,获得模板特征和搜索特征的方法具体包括如下步骤:
给定输入图像,将输入图像经过深度可分离卷积下采样后,获得局部增强特征;
对局部增强特征进行批量归一化,将批量归一化后的局部增强特征输入到区域感知注意力模块中进行注意力计算,进而获得全局上下文特征;
将全局上下文特征进行批量归一化后输入到多层感知器中,在多层感知器中依次通过全连接层以及relu激活函数后,得到特征图;
由于本实施例的区域感知注意力特征提取器由三个阶段组成,因此采用上一阶段输出作为下一阶段输入的方式,分别以训练集、测试帧作为输入图像循环上述步骤3次,即可获得模板特征和搜索特征。
在上述方案中,多层感知器包含全连接层以及relu激活函数,可以有效提高全局上下文特征的表征能力与泛化能力。
其结构如图4所示,在本步骤中,将批量归一化后的局部增强特征输入到区域感知注意力模块中进行注意力计算的方法具体包括如下步骤:
所述区域感知注意力模块包含区域分割,区域感知以及注意力计算三个模块,将批量归一化后的局部增强特征通过区域分割模块划分为等同大小的区域;
区域感知模块以区域为单位计算区域关系图,并且在区域关系图中过滤掉不相关的区域,只保留具有密切联系的区域;
对保留的区域进行细粒度的注意力计算,获得全局上下文特征。
在上述方案中,将批量归一化后的局部增强特征通过区域分割模块划分为等同大小的区域的方法具体包括如下步骤:
给定一张二维的批量归一化后的局部增强特征,/>,然后将/>平均分割为N×N个不重叠的局部区域,并且对其进行平铺操作生成特征/>,其中,/>,表示矩阵维度;
经过线性投影分别生成查询点Q、关键点K以及价值点V;/>,/>,/>的生成表达式为:/>;
其中,、/>、/>分别表示生成/>、/>、/>的线性投影权重矩阵。
在上述方案中,区域感知模块以区域为单位计算区域关系图,并且在区域关系图中过滤掉不相关的区域,只保留具有密切联系的区域的具体包括如下步骤:
对所述、/>以区域为单位分别进行平均计算,分别生成/>、/>,/>,/>、/>生成表示式如下:
;
其中,表示全局平均函数,/>和/>分别表示/>、/>的区域级特征映射;
将与/>进行相乘,得到区域级关系图/>,/>,区域级关系图/>的生成表示式如下:
;
其中,表示矩阵相乘,T表示矩阵转置操作,区域级关系图/>可以反应出不同区域之间的相似度;
在上述方案中,根据区域的相似度关系对区域级关系图进行过滤操作,将区域级关系图/>中相似度低的区域过滤掉,仅保留前M个相似度最高的区域,根据区域的相似度关系对区域级关系图/>进行过滤操作的过程存在如下关系式:/>;
其中,表示区域级过滤函数,可以计算出在区域级关系图/>中前M个相似度最高的区域的位置索引,/>表示区域级位置索引矩阵。
在上述方案中,对保留的区域进行细粒度的注意力计算的方法具体包括如下步骤:利用所述区域级位置索引矩阵,在关键点/>和价值点/>中推导出相应的区域级特征映射,相应的区域级特征映射生成过程存在如下关系式:/>;
其中,分别表示按照矩阵/>的位置索引在/>和/>中筛选出的区域级特征映射,/>,/>表示特征选择与堆叠操作;
对与查询点/>做矩阵乘法,并且进行随机裁剪操作,用于在训练阶段提高模型的泛化能力以及减少过拟合,得到权重矩阵,权重矩阵的生成表达式如下:
;
其中,表示/>与/>相乘后且经过裁剪的权重矩阵,/>表示随机裁剪操作,表示矩阵相乘,T表示矩阵转置操作;
对进行归一化操作后与/>做点积运算,并且加上通过深度可分离卷积进行局部增强的/>后,获得最终的全局上下文特征,全局上下文特征生成表达式如下:;
其中,表示全局上下文特征,D表示/>的通道维度,/>表示归一化指数函数,/>表示深度可分离卷积,/>表示点积运算。
步骤3、从模板特征中获取目标区域特征,并将目标区域特征输入到模型预测器的模型初始化模块中获得初始化模型;将初始化模型以及模板特征输入到模型预测器的模型优化模块中,经过迭代优化获得最终的目标模型;
在本步骤中,利用训练集中给定的目标边界框从模板特征中分离出目标区域特征;
以目标区域特征作为模型初始化模块的输入,模型初始化模块由卷积层以及ROI池化层组成,目标区域特征经过卷积层以及ROI池化层后,得到初始化模型;
将初始化模型输入到模型优化模块中,模型优化模块利用模板特征对初始化模型进行少量迭代优化,获得最优的目标模型,初始化模型的迭代优化过程存在如下关系式:
;
其中,表示第i次迭代优化后的目标模型,/>表示模型/>所对应的分类损失的梯度信息,/>表示学习速率。
步骤4、将目标模型以及搜索特征输入到目标分类器中,获得目标置信度得分,进而确定跟踪目标所在位置;
在本步骤中,将目标模型以及搜索特征输入到目标分类器中,获得目标置信度得分,并根据目标置信度得分确定跟踪目标所在位置的方法具体包括如下步骤:
将目标模型与搜索特征作为目标分类器的输入,目标分类器由一个卷积层组成;
将目标模型作为卷积核与搜索特征做卷积运算,获得目标置信度得分,目标置信度得分的生成表达式如下:;
其中,表示目标置信度得分,/>表示搜索特征,/>表示目标模型;目标置信度得分中最大值所在位置的索引即为目标所在位置。
本发明依据区域感知注意力特征提取器充分提取输入图像块的全局上下文信息,并且本发明根据目标跟踪过程的特性,由于每一帧图像中,目标位置可能会发生改变,而特征提取器会跟随目标移动位置确定目标感兴趣区域,实现动态选择目标感兴趣区域,从而有效减低多头自注意力机制的计算复杂度,最终实现更加高效且准确的目标跟踪。
请参阅图5,本发明实施例还提供了一种基于区域感知注意力的目标跟踪系统,所述系统应用如上述的一种基于区域感知注意力的目标跟踪方法,所述系统包括:
网络构建模块,用于在孪生双分支结构下,基于区域感知编码器模块构建区域感知特征提取器;基于模型初始化模块以及模型优化模块构建模型预测器,基于卷积模块构建目标分类器;区域感知注意力特征提取器、模型预测器以及目标分类器共同构成目标跟踪模型;
特征提取模块,用于采集跟踪数据,跟踪数据由一系列视频序列组成,从跟踪数据中获取训练集和测试帧;测试帧为视频序列中即将要跟踪的图像,训练集由同一视频序列中多帧带目标边界框注释的图像组成;利用区域感知注意力特征提取器分别对训练集和测试帧进行特征提取,获得模板特征和搜索特征;
模型预测模块,用于从模板特征中获取目标区域特征,并将目标区域特征输入到模型预测器的模型初始化模块中获得初始化模型;将初始化模型以及模板特征输入到模型预测器的模型优化模块中,经过迭代优化获得最终的目标模型;
目标分类模块,用于将目标模型以及搜索特征输入到目标分类器中,获得目标置信度得分,并根据目标置信度得分确定跟踪目标所在位置;
离线训练模块,用于以采集的大量跟踪数据为基础对目标跟踪模型进行端到端的离线训练,得到训练好的目标跟踪模型;
目标跟踪模块,用于利用所述训练好的目标跟踪模型对视频序列进行目标在线跟踪。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于区域感知注意力的目标跟踪方法,其特征在于,所述方法包括如下步骤:
步骤1、在孪生双分支结构下,基于区域感知编码器模块构建区域感知注意力特征提取器;基于模型初始化模块以及模型优化模块构建模型预测器,基于卷积模块构建目标分类器;区域感知注意力特征提取器、模型预测器以及目标分类器共同构成目标跟踪模型;
步骤2、采集跟踪数据,跟踪数据由一系列视频序列组成,从跟踪数据中获取训练集和测试帧;测试帧为视频序列中即将要跟踪的图像,训练集由同一视频序列中多帧带目标边界框注释的图像组成;利用区域感知注意力特征提取器分别对训练集和测试帧进行特征提取,获得模板特征和搜索特征;
步骤3、从模板特征中获取目标区域特征,并将目标区域特征输入到模型初始化模块中获得初始化模型;将初始化模型以及模板特征输入到模型优化模块中,经过迭代优化获得最终的目标模型;
步骤4、将目标模型以及搜索特征输入到目标分类器中,获得目标置信度得分,并根据目标置信度得分确定跟踪目标所在位置;
步骤5、以采集的大量跟踪数据为基础重复步骤2至步骤4,对目标跟踪模型进行端到端的离线训练,得到训练好的目标跟踪模型;
步骤6、利用所述训练好的目标跟踪模型对视频序列进行目标在线跟踪。
2.根据权利要求1所述的基于区域感知注意力的目标跟踪方法,其特征在于,在所述步骤2中,区域感知注意力特征提取器由三个阶段组成,每个阶段堆叠了不同块数的区域感知编码器,堆叠块数分别为4、12和4,三个阶段的输出特征尺寸分别为、/>以及,其中,H、W和C分别表示高度、宽度和通道数,其中H和W由输入图像大小确定,C为手动确定。
3.根据权利要求2所述的基于区域感知注意力的目标跟踪方法,其特征在于,在所述步骤2中,利用区域感知注意力特征提取器分别对训练集和测试帧进行特征提取,获得模板特征和搜索特征的方法具体包括如下步骤:
给定输入图像,将输入图像经过深度可分离卷积下采样后,获得局部增强特征;
对局部增强特征进行批量归一化,将批量归一化后的局部增强特征输入到区域感知注意力模块中进行注意力计算,进而获得全局上下文特征;
将全局上下文特征进行批量归一化后输入到多层感知器中,在多层感知器中依次通过全连接层以及relu激活函数后,得到特征图;
采用上一阶段输出作为下一阶段输入的方式,分别以训练集、测试帧作为输入图像循环上述步骤3次,获得模板特征和搜索特征。
4.根据权利要求3所述的基于区域感知注意力的目标跟踪方法,其特征在于,将批量归一化后的局部增强特征输入到区域感知注意力模块中进行注意力计算的方法具体包括如下步骤:
所述区域感知注意力模块包含区域分割,区域感知以及注意力计算三个模块,将批量归一化后的局部增强特征通过区域分割模块划分为等同大小的区域;
区域感知模块以区域为单位计算区域关系图,并且在区域关系图中过滤掉不相关的区域,只保留具有密切联系的区域;
对保留的区域进行细粒度的注意力计算,获得全局上下文特征。
5.根据权利要求4所述的基于区域感知注意力的目标跟踪方法,其特征在于,将批量归一化后的局部增强特征通过区域分割模块划分为等同大小的区域的方法具体包括如下步骤:
给定一张二维的批量归一化后的局部增强特征,/>,然后将/>平均分割为N×N个不重叠的局部区域,并且对其进行平铺操作生成特征/>,其中,/>,表示矩阵维度;
经过线性投影分别生成查询点Q、关键点K以及价值点V;/>,/>,/>的生成表达式为:
;
其中,、/>、/>分别表示生成/>、/>、/>的线性投影权重矩阵。
6.根据权利要求5所述的基于区域感知注意力的目标跟踪方法,其特征在于,区域感知模块以区域为单位计算区域关系图,并且在区域关系图中过滤掉不相关的区域,只保留具有密切联系的区域的具体包括如下步骤:
对所述、/>以区域为单位分别进行平均计算,分别生成/>、/>,/>,/>、/>生成表示式如下:/>;
其中,表示全局平均函数,/>和/>分别表示/>、/>的区域级特征映射;
将与/>进行相乘,得到区域级关系图/>,/>,区域级关系图/>的生成表示式如下:
;
其中,表示矩阵相乘,T表示矩阵转置操作;
根据区域的相似度关系对区域级关系图进行过滤操作,将区域级关系图/>中相似度低的区域过滤掉,仅保留前M个相似度最高的区域,根据区域的相似度关系对区域级关系图/>进行过滤操作的过程存在如下关系式:/>;
其中,表示区域级过滤函数,/>表示区域级位置索引矩阵。
7.根据权利要求6所述的基于区域感知注意力的目标跟踪方法,其特征在于,对保留的区域进行细粒度的注意力计算的方法具体包括如下步骤:
利用所述区域级位置索引矩阵,在关键点/>和价值点/>中推导出相应的区域级特征映射,相应的区域级特征映射生成过程存在如下关系式:
;
其中,分别表示按照矩阵/>的位置索引在/>和/>中筛选出的区域级特征映射,,/>表示特征选择与堆叠操作;
对与查询点/>做矩阵乘法,并且进行随机裁剪操作,用于在训练阶段提高模型的泛化能力以及减少过拟合,得到权重矩阵,权重矩阵的生成表达式如下:
;
其中,表示/>与/>相乘后且经过裁剪的权重矩阵,/>表示随机裁剪操作,/>表示矩阵相乘,T表示矩阵转置操作;
对进行归一化操作后与/>做点积运算,并且加上通过深度可分离卷积进行局部增强的/>后,获得最终的全局上下文特征,全局上下文特征生成表达式如下:
;
其中,表示全局上下文特征,D表示/>的通道维度,/>表示归一化指数函数,表示深度可分离卷积,/>表示点积运算。
8.根据权利要求7所述的基于区域感知注意力的目标跟踪方法,其特征在于,在步骤3中,从模板特征中获取目标区域特征,并将目标区域特征输入到模型初始化模块中获得初始化模型;将初始化模型以及模板特征输入到模型优化模块中,经过迭代优化获得最终的目标模型的方法具体包括如下步骤:
利用训练集中给定的目标边界框从模板特征中分离出目标区域特征;
以目标区域特征作为模型初始化模块的输入,模型初始化模块由卷积层以及ROI池化层组成,目标区域特征经过卷积层以及ROI池化层后,得到初始化模型;
将初始化模型输入到模型优化模块中,模型优化模块利用模板特征对初始化模型进行迭代优化,获得最优的目标模型,初始化模型的迭代优化过程存在如下关系式:
;
其中,表示第i次迭代优化后的目标模型,/>表示模型/>所对应的分类损失的梯度信息,/>表示学习速率。
9.根据权利要求8所述的基于区域感知注意力的目标跟踪方法,其特征在于,在所述步骤4中,将目标模型以及搜索特征输入到目标分类器中,获得目标置信度得分,并根据目标置信度得分确定跟踪目标所在位置的方法具体包括如下步骤:
将目标模型与搜索特征作为目标分类器的输入,目标分类器由一个卷积层组成;
将目标模型作为卷积核与搜索特征做卷积运算,获得目标置信度得分,目标置信度得分的生成表达式如下:
;
其中,表示目标置信度得分,/>表示搜索特征,/>表示目标模型;
目标置信度得分中最大值所在位置的索引即为目标所在位置。
10.一种基于区域感知注意力的目标跟踪系统,其特征在于,所述系统应用如权利要求1至9任意一项所述的一种基于区域感知注意力的目标跟踪方法,所述系统包括:
网络构建模块,用于在孪生双分支结构下,基于区域感知编码模块构建区域感知注意力特征提取器;基于模型初始化模块以及模型优化模块构建模型预测器,基于卷积模块构建目标分类器;区域感知注意力特征提取器、模型预测器以及目标分类器共同构成目标跟踪模型;
特征提取模块,用于采集跟踪数据,跟踪数据由一系列视频序列组成,从跟踪数据中获取训练集和测试帧;测试帧为视频序列中即将要跟踪的图像,训练集由同一视频序列中多帧带目标边界框注释的图像组成;利用区域感知注意力特征提取器分别对训练集和测试帧进行特征提取,获得模板特征和搜索特征;
模型预测模块,用于从模板特征中获取目标区域特征,并将目标区域特征输入到模型预测器的模型初始化模块中获得初始化模型;将初始化模型以及模板特征输入到模型预测器的模型优化模块中,经过迭代优化获得最终的目标模型;
目标分类模块,用于将目标模型以及搜索特征输入到目标分类器中,获得目标置信度得分,并根据目标置信度得分确定跟踪目标所在位置;
离线训练模块,用于以采集的大量跟踪数据为基础对目标跟踪模型进行端到端的离线训练,得到训练好的目标跟踪模型;
目标跟踪模块,用于利用所述训练好的目标跟踪模型对视频序列进行目标在线跟踪。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311636914.2A CN117333515B (zh) | 2023-12-01 | 2023-12-01 | 基于区域感知注意力的目标跟踪方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311636914.2A CN117333515B (zh) | 2023-12-01 | 2023-12-01 | 基于区域感知注意力的目标跟踪方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117333515A true CN117333515A (zh) | 2024-01-02 |
CN117333515B CN117333515B (zh) | 2024-02-09 |
Family
ID=89283470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311636914.2A Active CN117333515B (zh) | 2023-12-01 | 2023-12-01 | 基于区域感知注意力的目标跟踪方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117333515B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8488877B1 (en) * | 2009-12-02 | 2013-07-16 | Hrl Laboratories, Llc | System for object recognition in colorized point clouds |
US20210319420A1 (en) * | 2020-04-12 | 2021-10-14 | Shenzhen Malong Technologies Co., Ltd. | Retail system and methods with visual object tracking |
CN113705588A (zh) * | 2021-10-28 | 2021-11-26 | 南昌工程学院 | 基于卷积自注意力模块的孪生网络目标跟踪方法与系统 |
CN113950702A (zh) * | 2019-06-03 | 2022-01-18 | 辉达公司 | 在视频分析应用中使用相关滤波器的多对象跟踪 |
CN114119669A (zh) * | 2021-11-30 | 2022-03-01 | 南昌工程学院 | 一种基于Shuffle注意力的图匹配目标跟踪方法与系统 |
CN114550040A (zh) * | 2022-02-18 | 2022-05-27 | 南京大学 | 一种基于混合注意力机制的端到端单目标跟踪方法及装置 |
CN116630850A (zh) * | 2023-05-17 | 2023-08-22 | 南京信息工程大学 | 基于多注意力任务融合与边界框编码的孪生目标跟踪方法 |
CN116703980A (zh) * | 2023-08-04 | 2023-09-05 | 南昌工程学院 | 基于金字塔池化Transformer主干网络的目标跟踪方法与系统 |
CN117058456A (zh) * | 2023-08-22 | 2023-11-14 | 中国科学院长春光学精密机械与物理研究所 | 一种基于多相注意力机制的视觉目标跟踪方法 |
WO2023216572A1 (zh) * | 2022-05-07 | 2023-11-16 | 深圳先进技术研究院 | 一种跨视频目标跟踪方法、系统、电子设备以及存储介质 |
-
2023
- 2023-12-01 CN CN202311636914.2A patent/CN117333515B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8488877B1 (en) * | 2009-12-02 | 2013-07-16 | Hrl Laboratories, Llc | System for object recognition in colorized point clouds |
CN113950702A (zh) * | 2019-06-03 | 2022-01-18 | 辉达公司 | 在视频分析应用中使用相关滤波器的多对象跟踪 |
US20210319420A1 (en) * | 2020-04-12 | 2021-10-14 | Shenzhen Malong Technologies Co., Ltd. | Retail system and methods with visual object tracking |
CN113705588A (zh) * | 2021-10-28 | 2021-11-26 | 南昌工程学院 | 基于卷积自注意力模块的孪生网络目标跟踪方法与系统 |
CN114119669A (zh) * | 2021-11-30 | 2022-03-01 | 南昌工程学院 | 一种基于Shuffle注意力的图匹配目标跟踪方法与系统 |
CN114550040A (zh) * | 2022-02-18 | 2022-05-27 | 南京大学 | 一种基于混合注意力机制的端到端单目标跟踪方法及装置 |
WO2023216572A1 (zh) * | 2022-05-07 | 2023-11-16 | 深圳先进技术研究院 | 一种跨视频目标跟踪方法、系统、电子设备以及存储介质 |
CN116630850A (zh) * | 2023-05-17 | 2023-08-22 | 南京信息工程大学 | 基于多注意力任务融合与边界框编码的孪生目标跟踪方法 |
CN116703980A (zh) * | 2023-08-04 | 2023-09-05 | 南昌工程学院 | 基于金字塔池化Transformer主干网络的目标跟踪方法与系统 |
CN117058456A (zh) * | 2023-08-22 | 2023-11-14 | 中国科学院长春光学精密机械与物理研究所 | 一种基于多相注意力机制的视觉目标跟踪方法 |
Non-Patent Citations (3)
Title |
---|
SHUO WANG, ET AL.: "Classification of Hyperspectral and LiDAR Data Using Multi-Modal Transformer Cascaded Fusion Net", 《REMOTE SENSING》 * |
YUTAO CUI, ET AL.: "MixFormer: End-to-End Tracking with Iterative Mixed Attention", 《IEEE》 * |
李子万 等: "基于互相关-Transformer 双层特征融合的目标跟踪算法", 《机器人》 * |
Also Published As
Publication number | Publication date |
---|---|
CN117333515B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112949673B (zh) | 一种基于全局注意力的特征融合目标检测与识别方法 | |
CN108090919B (zh) | 一种基于超像素光流和自适应学习因子改进的核相关滤波跟踪方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN108665481B (zh) | 多层深度特征融合的自适应抗遮挡红外目标跟踪方法 | |
CN107967451B (zh) | 一种对静止图像进行人群计数的方法 | |
CN110866896B (zh) | 基于k-means与水平集超像素分割的图像显著性目标检测方法 | |
CN113052210A (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN111080675B (zh) | 一种基于时空约束相关滤波的目标跟踪方法 | |
CN113011329A (zh) | 一种基于多尺度特征金字塔网络及密集人群计数方法 | |
CN111104903A (zh) | 一种深度感知交通场景多目标检测方法和系统 | |
CN113592894B (zh) | 一种基于边界框和同现特征预测的图像分割方法 | |
CN112861970B (zh) | 一种基于特征融合的细粒度图像分类方法 | |
CN107067410A (zh) | 一种基于增广样本的流形正则化相关滤波目标跟踪方法 | |
CN111797841A (zh) | 一种基于深度残差网络的视觉显著性检测方法 | |
CN114419732A (zh) | 基于注意力机制优化的HRNet人体姿态识别方法 | |
CN107808391B (zh) | 一种基于特征选择与光滑表示聚类的视频动态目标提取方法 | |
CN114723010B (zh) | 一种异步事件数据的自动学习增强方法及系统 | |
Zheng et al. | Online depth image-based object tracking with sparse representation and object detection | |
CN117333515B (zh) | 基于区域感知注意力的目标跟踪方法与系统 | |
CN110111358B (zh) | 一种基于多层时序滤波的目标跟踪方法 | |
CN108765384B (zh) | 一种联合流形排序和改进凸包的显著性检测方法 | |
CN115953736A (zh) | 一种基于视频监控与深度神经网络的人群密度估计方法 | |
CN115631412A (zh) | 基于坐标注意力和数据相关上采样的遥感图像建筑物提取方法 | |
Mohanapriya et al. | A novel foreground region analysis using NCP-DBP texture pattern for robust visual tracking | |
Gou | Urban road flooding detection system based on SVM algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |