CN117252904A

CN117252904A - 基于长程空间感知与通道增强的目标跟踪方法与系统

Info

Publication number: CN117252904A
Application number: CN202311516588.1A
Authority: CN
Inventors: 王军; 柴秉飞; 王员云
Original assignee: Nanchang Institute of Technology
Current assignee: Nanchang Institute of Technology
Priority date: 2023-11-15
Filing date: 2023-11-15
Publication date: 2023-12-19
Anticipated expiration: 2043-11-15
Also published as: CN117252904B

Abstract

本发明提出一种基于长程空间感知与通道增强的目标跟踪方法与系统，该方法在孪生双分支网络结构目标跟踪框架下，基于长程空间感知构和通道注意力分别构建特征提取网络和特征融合网络，利用特征提取网络分别提取模板特征和搜索特征，将模板特征送入特征融合网络中，利用通道映射之间的相互依赖来增强目标图像特征的语义表示，得到卷积权重，根据卷积权重信息结合模板特征和模板目标图像预测，将预测结果与搜索特征进行融合，得到得分图，将得分图中最高得分区域作为最终的跟踪结果。本发明利用通道映射之间的相互依赖来增强目标图像特征的语义表示来增强局部细节，抑制不相关区域，可获得具有判别性的背景前景特征和丰富的通道信息，提高跟踪效果。

Description

基于长程空间感知与通道增强的目标跟踪方法与系统

技术领域

本发明涉及计算机视觉与图像处理技术领域，特别涉及一种基于长程空间感知与通道增强的目标跟踪方法与系统。

背景技术

目标跟踪是计算机视觉领域的一个重要研究方向，在视频监控、自动驾驶等领域有广泛应用。目标跟踪的目的是在第一帧用边界框标记感兴趣目标后，在视频的后续帧中自动给出目标的位置和形状。跟踪算法需要面对光照变化和形变等挑战，随着时间跨度的增长,这些挑战会进一步加剧，因此设计一个鲁棒的高精度的跟踪器仍是一项具有挑战性的问题。

随着人工智能的发展和计算机视觉技术的进步，目标跟踪研究取得了显著进展。其中，基于孪生网络的目标跟踪算法因其具有训练速度快、精度高和能够进行端到端训练等优点，在目标跟踪领域获得了广泛的应用。基于孪生网络的目标跟踪算法通常以第一帧为模板，对目标区域进行图像特征提取，得到目标区域的特征表示。在后续的帧中，以目标前一帧的位置为中心，提取一个相对较大的搜索区域，通过互相关运算测量它们的相似度，相似度最大的区域候选作为下一帧的目标位置。

传统基于孪生网络的目标跟踪算法中的卷积运算倾向于用较小的卷积获得较小的感受野以降低计算复杂度，因此它们通常只关注目标的局部特征，对目标的长远程依赖关系有所忽略。在面对形变、光照变化和漂移等复杂的跟踪场景时，由于对背景和前景特征的判别能力不够鲁棒，很容易丢失目标。

发明内容

鉴于上述状况，本发明的主要目的是为了提出一种基于长程空间感知与通道增强的目标跟踪方法与系统，以解决上述技术问题。

本发明提供了一种基于长程空间感知与通道增强的目标跟踪方法，所述方法包括如下步骤：

步骤1、在孪生双分支网络结构目标跟踪框架下，基于长程空间感知构建得到特征提取网络，基于通道注意力构建特征融合网络；

步骤2、利用大规模数据集对特征提取网络和特征融合网络进行训练，得到训练后的特征提取网络和训练后的特征融合网络；

步骤3、利用训练后的特征提取网络分别对模板目标图像和搜索区域图像进行特征提取，得到包含目标图像信息的模板特征和搜索特征；

步骤4、将模板特征送入训练后的特征融合网络中进行通道注意力计算，以强化重要特征的注意力，弱化不重要特征的注意力，得到深层目标图像特征；将模板目标图像进行混合卷积操作，得到浅层目标图像特征，将深层目标图像特征与浅层目标图像特征进行融合，以利用通道映射之间的相互依赖来增强目标图像特征的语义表示，得到卷积权重；

步骤5、将模板特征、卷积权重与模板目标图像引入到模型预测器中进行预测，得到预测结果，将预测结果与给定的标签进行比较学习，经过迭代优化后，得到最终的卷积权重，并利用最终的卷积权重得到最终的预测结果；

步骤6、将最终的预测结果与搜索特征进行融合，得到得分图；

步骤7、将得分图中的最高分数区域作为目标的候选区域，并将其位置作为判定依据得到跟踪目标。

本发明还提出一种基于长程空间感知与通道增强的目标跟踪系统，所述系统应用如上述一种基于长程空间感知与通道增强的目标跟踪方法，所述系统包括：

网络构建模块，用于：

在孪生双分支网络结构目标跟踪框架下，基于长程空间感知构建得到特征提取网络，基于通道注意力构建特征融合网络；

特征训练模块，用于：

利用大规模数据集对特征提取网络和特征融合网络进行训练，得到训练后的特征提取网络和训练后的特征融合网络；

特征提取模块，用于：

利用训练后的特征提取网络分别对模板目标图像和搜索区域图像进行特征提取，得到包含目标图像信息的模板特征和搜索特征；

特征增强模块，用于：

将模板特征送入训练后的特征融合网络中进行通道注意力计算，以强化重要特征的注意力，弱化不重要特征的注意力，得到深层目标图像特征；将模板目标图像进行混合卷积操作，得到浅层目标图像特征，将深层目标图像特征与浅层目标图像特征进行融合，以利用通道映射之间的相互依赖来增强目标图像特征的语义表示，得到卷积权重；

特征融合模块，用于：

将模板特征、卷积权重与模板目标图像引入到模型预测器中进行预测，得到预测结果，将预测结果与给定的标签进行比较学习，经过迭代优化后，得到最终的卷积权重，并利用最终的卷积权重得到最终的预测结果；

将最终的预测结果与搜索特征进行融合，得到得分图；

目标跟踪模块，用于：

将得分图中的最高分数区域作为目标的候选区域，并将其位置作为判定依据得到跟踪目标。

相较于现有技术，本发明的有益效果如下：

1.在本发明利用递进混合卷积模块来增强特征的长程空间交互能力，建立长远程空间依赖关系，基于卷积的实现使得模型以较小的计算代价，构建了准确性高和鲁棒性强的特征提取网络。

2.在本发明利用通道映射之间的相互依赖来增强目标图像特征的语义表示来增强局部细节，抑制不相关区域，可获得具有判别性的背景前景特征和丰富的通道信息，实现更加鲁棒和精确的跟踪。

本发明的附加方面与优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明提出的基于长程空间感知与通道增强的目标跟踪方法的流程图；

图2为本发明中基于长程空间感知与通道增强的目标跟踪框架的结构示意图；

图3为本发明中基于长程空间感的特征提取网络原理示意图；

图4为图3中递进混合卷积的结构示意图；

图5为本发明中通道增强的原理示意图；

图6为本发明提出的基于长程空间感知与通道增强的目标跟踪系统的结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。

请参阅图1和图2，本发明实施例提供了一种基于长程空间感知与通道增强的目标跟踪方法，所述方法包括如下步骤：

步骤1、在孪生双分支网络结构目标跟踪框架下，基于长程空间感知构建得到特征提取网络，基于通道注意力构建特征融合网络。

步骤2、利用大规模数据集对特征提取网络和特征融合网络进行训练，得到训练后的特征提取网络和训练后的特征融合网络。

步骤3、利用训练后的特征提取网络分别对模板目标图像和搜索区域图像进行特征提取，得到包含目标图像信息的模板特征和搜索特征。

如图3和图4所示，从图3中可看出本发明中基于长程空间感知的特征提取网络的原理，并结合图4可理解本发明特征提取的原理。在上述方案中，利用特征提取网络分别对模板目标图像和搜索区域图像进行特征提取的方法具体包括如下步骤：

采用递归的设计结构，利用线性投影操作对输入特征进行通道映射为两路通道分支，得到两组不同的投影特征；

计算不同阶段的门控特征，利用递归的方式对两组不同的投影特征进行迭代交互，逐阶段增强图像特征的长程空间交互能力，以获得丰富的长程空间信息，得到包含目标图像信息的特征；

将模板目标图像和搜索区域图像分别作为两个不同的输入特征依次重复上述操作，得到包含目标图像信息的模板特征和搜索特征。

进一步的，采用递归的设计结构，利用线性投影操作对输入特征进行通道映射为两路通道分支，得到两组不同的投影特征的计算过程存如下关系式：

采用递归的设计结构，利用线性投影操作对输入特征进行通道映射为两路通道分支，得到两组不同的投影特征的计算过程存在如下关系式：

；

其中，表示所输入的特征，/>，/>表示实数矩阵，/>表示特征的通道数最大值，/>表示特征图的高度最大值，/>表示特征图的宽度最大值，/>表示线性投影层，/>表示进行递归操作的通道特征，/>表示进行门控卷积的/>个通道的特征，，/>，/>，/>表示特征线性变换的/>卷积，/>表示/>特征映射中的通道数，/>表示执行递归操作的次数，/>表示到/>特征映射中的通道数，为了减少计算开销，将/>控制为：

；

进一步的，计算不同阶段的门控特征，利用递归的方式对两组不同的投影特征进行迭代交互过程存在如下关系式：

；

其中，表示作为保证训练稳定性的比例因子，/>表示一组深度卷积层，/>表示迭代完成后得到的最后一阶的特征，/>表示递归操作中实现通道输出映射的线性投影层，/>表示通道输出映射的包含目标图像信息的特征，/>表示进行门控卷积的第/>阶通道的特征。

步骤4、将模板特征送入训练后的特征融合网络中进行通道注意力计算，以强化重要特征的注意力，弱化不重要特征的注意力，得到深层目标图像特征；将模板目标图像进行混合卷积操作，得到浅层目标图像特征，将深层目标图像特征与浅层目标图像特征进行融合，以利用通道映射之间的相互依赖来增强目标图像特征的语义表示，得到卷积权重。

请参阅图5，在上述方案中，利用通道注意力模块强化对重要特征的注意力，弱化对不重要特征的注意力的方法具体包括如下步骤：

将模板特征通过混合池化层映射为两路特征；

将两路特征分别通过平均池化层和最大池化层，利用最大池化层用于保留特征图中最显著的特征，并通过平均池化层提取特征图的平均响应，以获得更全面的局部特征，将局部特征引入权重共享的多层感知器中进行整合，获得全局特征表示，全局特征表示计算过程存在如下关系式；

；

其中，表示模板特征的映射特征，/>和/>分别表示平均池化层和最大池化层，/>表示权重共享的多层感知器，/>表示全局特征表示；

将全局特征表示经过激活函数，以提高特征的非线性表征能力，并与模板特征做逐元素相乘操作，得到深层目标图像特征，深层目标图像特征计算过程存在如下关系式：

；

其中，表示/>激活函数，/>表示深层目标图像特征。

在上述方案中，将模板目标图像进行混合卷积操作，得到浅层目标图像特征的方法具体包括如下步骤：

通过混合卷积操作对模板目标图像进行深度卷积与归一化操作，得到卷积特征图，卷积特征图计算过程存在如下关系式：

；

其中，表示卷积核为3×3的深度卷积运算，/>表示模板目标图像，/>表示层归一化，/>表示1×1卷积运算，/>表示卷积特征图；

将卷积特征图输入到激活函数中，得到浅层目标图像特征，浅层目标图像特征计算过程存在如下关系式：

；

其中，表示激活函数，/>表示浅层目标图像特征。

进一步的，将深层目标图像特征与浅层目标图像特征进行融合的计算过程存在如下关系式；

；

其中，表示级联操作，/>表示3×3的卷积运算，/>表示卷积权重。

请参阅图 6，本实施例还公开了一种基于长程空间感知与通道增强的目标跟踪系统，所述系统应用如上述的一种基于长程空间感知与通道增强的目标跟踪方法，所述系统包括：

网络构建模块，用于：

特征训练模块，用于：

利用大规模数据集对特征提取网络和特征融合网络进行训练，得到训练后的特征提取网络和训练后的特征融合网络

特征提取模块，用于：

特征增强模块，用于：

特征融合模块，用于：

将最终的预测结果与搜索特征进行融合，得到得分图；

目标跟踪模块，用于：

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于长程空间感知与通道增强的目标跟踪方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的基于长程空间感知与通道增强的目标跟踪方法，其特征在于，在所述步骤3中，利用训练后的特征提取网络分别对模板目标图像和搜索区域图像进行特征提取的方法具体包括如下步骤：

3.根据权利要求2所述的基于长程空间感知与通道增强的目标跟踪方法，其特征在于，采用递归的设计结构，利用线性投影操作对输入特征进行通道映射为两路通道分支，得到两组不同的投影特征的计算过程存在如下关系式：

；

其中，表示所输入的特征，/>，/>表示实数矩阵，/>表示特征的通道数最大值，/>表示特征图的高度最大值，/>表示特征图的宽度最大值，/>表示线性投影层，表示进行递归操作的通道特征，/>表示进行门控卷积的/>个通道的特征，，/>，/>，/>表示特征线性变换的卷积，/>表示/>特征映射中的通道数，/>表示执行递归操作的次数，/>表示/>到/>特征映射中的通道数。

4.根据权利要求3所述的基于长程空间感知与通道增强的目标跟踪方法，其特征在于，计算不同阶段的门控特征，利用递归的方式对两组不同的投影特征进行迭代交互过程存在如下关系式：

；

其中，表示作为保证训练稳定性的比例因子，/>表示一组深度卷积层，/>表示迭代完成后得到的最后一阶的特征，/>表示递归操作中实现通道输出映射的线性投影层，表示通道输出映射的包含目标图像信息的特征，/>表示进行门控卷积的第/>阶通道的特征。

5.根据权利要求1所述的基于长程空间感知与通道增强的目标跟踪方法，其特征在于，在所述步骤4中，将模板特征送入训练后的特征融合网络中进行通道注意力计算，以强化重要特征的注意力，弱化不重要特征的注意力，得到深层目标图像特征的方法具体包括如下步骤：

将模板特征通过混合池化层映射为两路特征；

；

其中，表示/>激活函数，/>表示深层目标图像特征。

6.根据权利要求5所述的基于长程空间感知与通道增强的目标跟踪方法，其特征在于，在所述步骤4中，将模板目标图像进行混合卷积操作，得到浅层目标图像特征的方法具体包括如下步骤：

；

其中，表示卷积核为3×3的深度卷积运算,/>表示模板目标图像，/>表示层归一化，/>表示1×1卷积运算，/>表示卷积特征图；

；

其中，表示激活函数，/>表示浅层目标图像特征。

7.根据权利要求6所述的基于长程空间感知与通道增强的目标跟踪方法，其特征在于，在所述步骤4中，将深层目标图像特征与浅层目标图像特征进行融合的计算过程存在如下关系式；

；

8.一种基于长程空间感知与通道增强的目标跟踪系统，其特征在于，所述系统应用如权利要求1至7任意一项所述的基于长程空间感知与通道增强的目标跟踪方法，所述系统包括：

网络构建模块，用于：

特征训练模块，用于：

特征提取模块，用于：

特征增强模块，用于：

特征融合模块，用于：

将最终的预测结果与搜索特征进行融合，得到得分图；

目标跟踪模块，用于：