CN117333515A

CN117333515A - 基于区域感知注意力的目标跟踪方法与系统

Info

Publication number: CN117333515A
Application number: CN202311636914.2A
Authority: CN
Inventors: 王军; 杨帅; 王员云
Original assignee: Nanchang Institute of Technology
Current assignee: Nanchang Institute of Technology
Priority date: 2023-12-01
Filing date: 2023-12-01
Publication date: 2024-01-02
Anticipated expiration: 2043-12-01
Also published as: CN117333515B

Abstract

本发明提出一种基于区域感知注意力的目标跟踪方法与系统，该方法包括：在孪生双分支结构下，基于区域感知编码器模块构建区域感知注意力特征提取器；基于模型初始化模块以及模型优化模块构建模型预测器，基于卷积模块构建目标分类器；区域感知注意力特征提取器、模型预测器以及目标分类器共同构成目标跟踪框架；区域感知注意力特征提取器分别从训练集以及测试帧中提取模板特征以及搜索特征，模型预测器利用模板特征以及目标边界框信息生成目标模型，目标分类器利用目标模型在搜索特征中定位目标位置。本发明采用动态性的区域感知稀疏注意力机制，可以实现区域自适应，实时动态选择目标感兴趣区域，从而有效减低多头自注意力机制的计算复杂度。

Description

基于区域感知注意力的目标跟踪方法与系统

技术领域

本发明属于计算机视觉与图像处理技术领域，特别涉及一种基于区域感知注意力的目标跟踪方法与系统。

背景技术

在计算机视觉领域中，目标跟踪一直都是一个重要研究课题。目标跟踪通过在连续的视频图像序列中估计跟踪目标的大小及位置信息，确定目标的运动速度、方向等运动信息，实现对运动目标行为的分析和理解。

目标跟踪在自动驾驶、视频监控、人机交互等领域都具有重要的研究意义和广阔的应用前景。经过几十年的发展，目标跟踪技术已取得了较好的跟踪效果和实时性。

近年来，注意力机制在计算机视觉社区得到了长足发展。首先，注意力机制可以对序列图像块进行全局建模，进而去捕捉图像块之间的长期上下文依赖。其次注意力机制在特征建模过程中，不存在归纳偏差，可以使得模型适应于各种训练数据。

传统注意力机制的高计算复杂度和空间占用率，无法达到实时性的要求。大量研究者提出了许多稀疏注意力机制，比如局部窗口注意力、轴向条纹注意力以及扩展窗口注意力等。虽然上述稀疏注意力机制在特征建模方面达到了不错的性能，但是这些策略都是手工设计的，无法做到区域自适应。

发明内容

本发明提供了一种基于区域感知注意力的目标跟踪方法与系统，采用动态性的区域感知稀疏注意力机制，可以实现区域自适应，实时动态选择目标感兴趣区域，从而有效减低多头自注意力机制的计算复杂度，最终实现更加高效且准确的目标跟踪。

一种基于区域感知注意力的目标跟踪方法，其中，所述方法包括如下步骤：

步骤1、在孪生双分支结构下，基于区域感知编码器模块构建区域感知注意力特征提取器；基于模型初始化模块以及模型优化模块构建模型预测器，基于卷积模块构建目标分类器；区域感知注意力特征提取器、模型预测器以及目标分类器共同构成目标跟踪模型；

步骤2、采集跟踪数据，跟踪数据由一系列视频序列组成，从跟踪数据中获取训练集和测试帧；测试帧为视频序列中即将要跟踪的图像，训练集由同一视频序列中多帧带目标边界框注释的图像组成；利用区域感知注意力特征提取器分别对训练集和测试帧进行特征提取，获得模板特征和搜索特征；

步骤3、从模板特征中获取目标区域特征，并将目标区域特征输入到模型初始化模块中获得初始化模型；将初始化模型以及模板特征输入到模型优化模块中，经过迭代优化获得最终的目标模型；

步骤4、将目标模型以及搜索特征输入到目标分类器中，获得目标置信度得分，并根据目标置信度得分确定跟踪目标所在位置；

步骤5、以采集的大量跟踪数据为基础重复步骤2至步骤4，对目标跟踪模型进行端到端的离线训练，得到训练好的目标跟踪模型；

步骤6、利用所述训练好的目标跟踪模型对视频序列进行目标在线跟踪。

一种基于区域感知注意力的目标跟踪系统，所述系统应用如上述的一种基于区域感知注意力的目标跟踪方法，所述系统包括：

网络构建模块，用于在孪生双分支结构下，基于区域感知编码模块构建区域感知注意力特征提取器；基于模型初始化模块以及模型优化模块构建模型预测器，基于卷积模块构建目标分类器；区域感知注意力特征提取器、模型预测器以及目标分类器共同构成目标跟踪模型；

特征提取模块，用于采集跟踪数据，跟踪数据由一系列视频序列组成，从跟踪数据中获取训练集和测试帧；测试帧为视频序列中即将要跟踪的图像，训练集由同一视频序列中多帧带目标边界框注释的图像组成；利用区域感知注意力特征提取器分别对训练集和测试帧进行特征提取，获得模板特征和搜索特征；

模型预测模块，用于从模板特征中获取目标区域特征，并将目标区域特征输入到模型预测器的模型初始化模块中获得初始化模型；将初始化模型以及模板特征输入到模型预测器的模型优化模块中，经过迭代优化获得最终的目标模型；

目标分类模块，用于将目标模型以及搜索特征输入到目标分类器中，获得目标置信度得分，并根据目标置信度得分确定跟踪目标所在位置；

离线训练模块，用于以采集的大量跟踪数据为基础对目标跟踪模型进行端到端的离线训练，得到训练好的目标跟踪模型；

目标跟踪模块，用于利用所述训练好的目标跟踪模型对视频序列进行目标在线跟踪。

相较于现有技术，本发明的有益效果如下：

1、本发明基于区域感知注意力特征提取器，可以过滤掉与跟踪目标不相关的区域，只保留与目标具有相似性的区域，并在此区域内进行细粒度的注意力运算，从而有效减低计算复杂度和空间占用率；

2、本发明在区域感知注意力特征提取器中加入Dropkey技术，通过在进行注意力计算时对权重矩阵进行裁剪，进而抑制模型的过拟合现象，并且提高模型的泛化能力；

3、本发明根据目标跟踪过程的特性，由于每一帧图像中，目标位置可能会发生改变，而特征提取器会跟随目标移动位置确定目标感兴趣区域，实现动态选择目标感兴趣区域，从而有效减低多头自注意力机制的计算复杂度，最终实现更加高效且准确的目标跟踪。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明提出的基于区域感知注意力的目标跟踪方法的流程图；

图2为本发明提出的基于区域感知注意力的目标跟踪方法的结构图；

图3为本发明提出的区域感知编码器模块的结构图；

图4为本发明中区域感知注意力模块的原理图；

图5为本发明提出的基于区域感知注意力的目标跟踪系统的结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

请参阅图1至图4，本发明实施例提供一种基于区域感知注意力的目标跟踪方法，其中，所述方法包括如下步骤：

步骤1、在孪生双分支结构下，基于区域感知编码器模块构建区域感知注意力特征提取器；基于模型初始化模块以及模型优化模块构建模型预测器，基于卷积模块构建目标分类器；区域感知注意力特征提取器、模型预测器以及目标分类器共同构成目标跟踪模型，其结构如图2所示；

步骤2、采集跟踪数据，跟踪数据由一系列视频序列组成。从跟踪数据中获取训练集和测试帧；测试帧为视频序列中即将要跟踪的图像，训练集由同一视频序列中多帧带目标边界框注释的图像组成；将训练集和测试帧输入到区域感知注意力特征提取器中，获得模板特征和搜索特征；

在本步骤中，区域感知注意力特征提取器由三个阶段组成，每个阶段堆叠了不同块数的区域感知编码器，堆叠块数分别为4、12和4。每个阶段利用所述区域感知编码器充分提取输入特征的全局上下文信息，并且对输入特征进行下采样操作；输入一张RGB图像，三个阶段的输出特征尺寸分别为、/>以及/>，其中H和W由输入图像大小确定，C为手动确定，本实施例中设定为64。

所述区域感知编码器由深度可分离卷积、批量归一化、区域感知注意力模块以及多层感知器组成，其结构如图3所示；

在上述方案中，利用区域感知注意力特征提取器分别对训练集和测试帧进行特征提取，获得模板特征和搜索特征的方法具体包括如下步骤：

给定输入图像，将输入图像经过深度可分离卷积下采样后，获得局部增强特征；

对局部增强特征进行批量归一化，将批量归一化后的局部增强特征输入到区域感知注意力模块中进行注意力计算，进而获得全局上下文特征；

将全局上下文特征进行批量归一化后输入到多层感知器中，在多层感知器中依次通过全连接层以及relu激活函数后，得到特征图；

由于本实施例的区域感知注意力特征提取器由三个阶段组成，因此采用上一阶段输出作为下一阶段输入的方式，分别以训练集、测试帧作为输入图像循环上述步骤3次，即可获得模板特征和搜索特征。

在上述方案中，多层感知器包含全连接层以及relu激活函数，可以有效提高全局上下文特征的表征能力与泛化能力。

其结构如图4所示，在本步骤中，将批量归一化后的局部增强特征输入到区域感知注意力模块中进行注意力计算的方法具体包括如下步骤：

所述区域感知注意力模块包含区域分割，区域感知以及注意力计算三个模块，将批量归一化后的局部增强特征通过区域分割模块划分为等同大小的区域；

区域感知模块以区域为单位计算区域关系图，并且在区域关系图中过滤掉不相关的区域，只保留具有密切联系的区域；

对保留的区域进行细粒度的注意力计算，获得全局上下文特征。

在上述方案中，将批量归一化后的局部增强特征通过区域分割模块划分为等同大小的区域的方法具体包括如下步骤：

给定一张二维的批量归一化后的局部增强特征，/>，然后将/>平均分割为N×N个不重叠的局部区域，并且对其进行平铺操作生成特征/>，其中，/>，表示矩阵维度；

经过线性投影分别生成查询点Q、关键点K以及价值点V；/>，/>，/>的生成表达式为：/>；

其中，、/>、/>分别表示生成/>、/>、/>的线性投影权重矩阵。

在上述方案中，区域感知模块以区域为单位计算区域关系图，并且在区域关系图中过滤掉不相关的区域，只保留具有密切联系的区域的具体包括如下步骤：

对所述、/>以区域为单位分别进行平均计算，分别生成/>、/>，/>，/>、/>生成表示式如下：

；

其中，表示全局平均函数，/>和/>分别表示/>、/>的区域级特征映射；

将与/>进行相乘，得到区域级关系图/>，/>，区域级关系图/>的生成表示式如下：

；

其中，表示矩阵相乘，T表示矩阵转置操作，区域级关系图/>可以反应出不同区域之间的相似度；

在上述方案中，根据区域的相似度关系对区域级关系图进行过滤操作，将区域级关系图/>中相似度低的区域过滤掉，仅保留前M个相似度最高的区域，根据区域的相似度关系对区域级关系图/>进行过滤操作的过程存在如下关系式：/>；

其中，表示区域级过滤函数，可以计算出在区域级关系图/>中前M个相似度最高的区域的位置索引，/>表示区域级位置索引矩阵。

在上述方案中，对保留的区域进行细粒度的注意力计算的方法具体包括如下步骤：利用所述区域级位置索引矩阵，在关键点/>和价值点/>中推导出相应的区域级特征映射，相应的区域级特征映射生成过程存在如下关系式：/>；

其中，分别表示按照矩阵/>的位置索引在/>和/>中筛选出的区域级特征映射，/>，/>表示特征选择与堆叠操作；

对与查询点/>做矩阵乘法，并且进行随机裁剪操作，用于在训练阶段提高模型的泛化能力以及减少过拟合，得到权重矩阵，权重矩阵的生成表达式如下：

；

其中，表示/>与/>相乘后且经过裁剪的权重矩阵，/>表示随机裁剪操作，表示矩阵相乘，T表示矩阵转置操作；

对进行归一化操作后与/>做点积运算，并且加上通过深度可分离卷积进行局部增强的/>后，获得最终的全局上下文特征，全局上下文特征生成表达式如下：；

其中，表示全局上下文特征，D表示/>的通道维度，/>表示归一化指数函数，/>表示深度可分离卷积，/>表示点积运算。

步骤3、从模板特征中获取目标区域特征，并将目标区域特征输入到模型预测器的模型初始化模块中获得初始化模型；将初始化模型以及模板特征输入到模型预测器的模型优化模块中，经过迭代优化获得最终的目标模型；

在本步骤中，利用训练集中给定的目标边界框从模板特征中分离出目标区域特征；

以目标区域特征作为模型初始化模块的输入，模型初始化模块由卷积层以及ROI池化层组成，目标区域特征经过卷积层以及ROI池化层后，得到初始化模型；

将初始化模型输入到模型优化模块中，模型优化模块利用模板特征对初始化模型进行少量迭代优化，获得最优的目标模型，初始化模型的迭代优化过程存在如下关系式：

；

其中，表示第i次迭代优化后的目标模型，/>表示模型/>所对应的分类损失的梯度信息，/>表示学习速率。

步骤4、将目标模型以及搜索特征输入到目标分类器中，获得目标置信度得分，进而确定跟踪目标所在位置；

在本步骤中，将目标模型以及搜索特征输入到目标分类器中，获得目标置信度得分，并根据目标置信度得分确定跟踪目标所在位置的方法具体包括如下步骤：

将目标模型与搜索特征作为目标分类器的输入，目标分类器由一个卷积层组成；

将目标模型作为卷积核与搜索特征做卷积运算，获得目标置信度得分，目标置信度得分的生成表达式如下：；

其中，表示目标置信度得分，/>表示搜索特征，/>表示目标模型；目标置信度得分中最大值所在位置的索引即为目标所在位置。

本发明依据区域感知注意力特征提取器充分提取输入图像块的全局上下文信息，并且本发明根据目标跟踪过程的特性，由于每一帧图像中，目标位置可能会发生改变，而特征提取器会跟随目标移动位置确定目标感兴趣区域，实现动态选择目标感兴趣区域，从而有效减低多头自注意力机制的计算复杂度，最终实现更加高效且准确的目标跟踪。

请参阅图5，本发明实施例还提供了一种基于区域感知注意力的目标跟踪系统，所述系统应用如上述的一种基于区域感知注意力的目标跟踪方法，所述系统包括：

网络构建模块，用于在孪生双分支结构下，基于区域感知编码器模块构建区域感知特征提取器；基于模型初始化模块以及模型优化模块构建模型预测器，基于卷积模块构建目标分类器；区域感知注意力特征提取器、模型预测器以及目标分类器共同构成目标跟踪模型；

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于区域感知注意力的目标跟踪方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的基于区域感知注意力的目标跟踪方法，其特征在于，在所述步骤2中，区域感知注意力特征提取器由三个阶段组成，每个阶段堆叠了不同块数的区域感知编码器，堆叠块数分别为4、12和4，三个阶段的输出特征尺寸分别为、/>以及，其中，H、W和C分别表示高度、宽度和通道数，其中H和W由输入图像大小确定，C为手动确定。

3.根据权利要求2所述的基于区域感知注意力的目标跟踪方法，其特征在于，在所述步骤2中，利用区域感知注意力特征提取器分别对训练集和测试帧进行特征提取，获得模板特征和搜索特征的方法具体包括如下步骤：

采用上一阶段输出作为下一阶段输入的方式，分别以训练集、测试帧作为输入图像循环上述步骤3次，获得模板特征和搜索特征。

4.根据权利要求3所述的基于区域感知注意力的目标跟踪方法，其特征在于，将批量归一化后的局部增强特征输入到区域感知注意力模块中进行注意力计算的方法具体包括如下步骤：

5.根据权利要求4所述的基于区域感知注意力的目标跟踪方法，其特征在于，将批量归一化后的局部增强特征通过区域分割模块划分为等同大小的区域的方法具体包括如下步骤：

经过线性投影分别生成查询点Q、关键点K以及价值点V；/>，/>，/>的生成表达式为：

；

其中，、/>、/>分别表示生成/>、/>、/>的线性投影权重矩阵。

6.根据权利要求5所述的基于区域感知注意力的目标跟踪方法，其特征在于，区域感知模块以区域为单位计算区域关系图，并且在区域关系图中过滤掉不相关的区域，只保留具有密切联系的区域的具体包括如下步骤：

对所述、/>以区域为单位分别进行平均计算，分别生成/>、/>，/>，/>、/>生成表示式如下：/>；

；

其中，表示矩阵相乘，T表示矩阵转置操作；

根据区域的相似度关系对区域级关系图进行过滤操作，将区域级关系图/>中相似度低的区域过滤掉，仅保留前M个相似度最高的区域，根据区域的相似度关系对区域级关系图/>进行过滤操作的过程存在如下关系式：/>；

其中，表示区域级过滤函数，/>表示区域级位置索引矩阵。

7.根据权利要求6所述的基于区域感知注意力的目标跟踪方法，其特征在于，对保留的区域进行细粒度的注意力计算的方法具体包括如下步骤：

利用所述区域级位置索引矩阵，在关键点/>和价值点/>中推导出相应的区域级特征映射，相应的区域级特征映射生成过程存在如下关系式：

；

其中，分别表示按照矩阵/>的位置索引在/>和/>中筛选出的区域级特征映射，，/>表示特征选择与堆叠操作；

；

其中，表示/>与/>相乘后且经过裁剪的权重矩阵，/>表示随机裁剪操作，/>表示矩阵相乘，T表示矩阵转置操作；

对进行归一化操作后与/>做点积运算，并且加上通过深度可分离卷积进行局部增强的/>后，获得最终的全局上下文特征，全局上下文特征生成表达式如下：

；

其中，表示全局上下文特征，D表示/>的通道维度，/>表示归一化指数函数，表示深度可分离卷积，/>表示点积运算。

8.根据权利要求7所述的基于区域感知注意力的目标跟踪方法，其特征在于，在步骤3中，从模板特征中获取目标区域特征，并将目标区域特征输入到模型初始化模块中获得初始化模型；将初始化模型以及模板特征输入到模型优化模块中，经过迭代优化获得最终的目标模型的方法具体包括如下步骤：

利用训练集中给定的目标边界框从模板特征中分离出目标区域特征；

将初始化模型输入到模型优化模块中，模型优化模块利用模板特征对初始化模型进行迭代优化，获得最优的目标模型，初始化模型的迭代优化过程存在如下关系式：

；

9.根据权利要求8所述的基于区域感知注意力的目标跟踪方法，其特征在于，在所述步骤4中，将目标模型以及搜索特征输入到目标分类器中，获得目标置信度得分，并根据目标置信度得分确定跟踪目标所在位置的方法具体包括如下步骤：

将目标模型作为卷积核与搜索特征做卷积运算，获得目标置信度得分，目标置信度得分的生成表达式如下：

；

其中，表示目标置信度得分，/>表示搜索特征，/>表示目标模型；

目标置信度得分中最大值所在位置的索引即为目标所在位置。

10.一种基于区域感知注意力的目标跟踪系统，其特征在于，所述系统应用如权利要求1至9任意一项所述的一种基于区域感知注意力的目标跟踪方法，所述系统包括：