CN114049381A

CN114049381A - 一种融合多层语义信息的孪生交叉目标跟踪方法

Info

Publication number: CN114049381A
Application number: CN202111573614.5A
Authority: CN
Inventors: 冯永; 黄旺辉; 程合晴
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-02-15

Abstract

本发明具体涉及一种融合多层语义信息的孪生交叉目标跟踪方法，包括：基于孪生神经网络构建孪生跟踪模型；获取跟踪目标的视频帧序列并输入经过训练的孪生跟踪模型中；首先通过孪生主干网络并行连接不同层次的语义信息；然后通过孪生区域推荐交互网络获取对应的分类图和回归图，并通过并行交叉注意机制融合不同分支间的互监督信息；最后通过自适应可形变卷积模块提供全局的目标描述辅助，并生成对应的分类得分图和回归得分图；基于跟踪目标的分类得分图定位中心位置，并根据回归得分图生成位置描述。本发明的孪生交叉目标跟踪方法能够充分探索分类特征和回归特征间的交互互补机制，充分挖掘孪生网络潜力并提升模型性能。

Description

一种融合多层语义信息的孪生交叉目标跟踪方法

技术领域

本发明涉及目标跟踪技术领域，具体涉及一种融合多层语义信息的孪生交叉目标跟踪方法。

背景技术

作为计算机视觉领域中的一个重要方向，目标跟踪一直以来都受到了高度的关注。在视频监控、增强现实和人机交互等领域中具有很广泛的应用。虽然，在最近的研究过程中跟踪算法的性能已经得到了提升，但是，由于光照变化、遮挡和相似干扰等复杂场景的存在，目标跟踪任务依旧充满了挑战。

随着深度卷积神经网络的引入，自适应提取的语义信息丰富的高维特征使目标跟踪算法获得了很大的提升。但是，由于深度神经网络结构的复杂性及卷积特征的高维性，使得跟踪算法的端到端训练和在线微调变得尤为复杂。同时，深度神经网络中计算量的大幅增加会导致跟踪速度的减慢，即使算法满足了精度的要求也无法达到实时性的要求。为了解决上述问题，基于孪生神经网络的目标跟踪算法获得了较快的进展。

其中，公开号为CN112446900A的中国专利就公开了《一种孪生神经网络目标跟踪方法及系统》，其包括：将模板分支图像与搜索区域分支图像输入到离线训练过的孪生神经网络中；利用孪生神经网络中的卷积层对上述输入的模板分支图像与搜索区域分支图像进行特征提取，得到三个卷积块的特征图；对特征提取得到的三个卷积块的特征图，采用多层信息融合得到响应图；在多层信息融合得到的响应图中寻找最大峰值，并映射到搜索区域分支图像中确定目标的精确位置。

上述现有的目标跟踪方法通过孪生神经网络提取语义信息更加丰富的深度特征，进而能够提高目标跟踪的精度。现有的目标跟踪方法一般直接对每个像素直接进行分类和回归，使得生成的分类特征集中于局部图像特征信息，对目标中心位置具有很强的鲁棒性，回归特征能够通过学习目标的空间位置全局信息来获得准确的状态估计。然而，现有方法没有充分探索分类特征和回归特征间的交互互补机制，进而难以充分挖掘孪生网络的潜力，限制了模型性能的提高，导致目标跟踪的准确性不够好。因此，如何设计一种能够充分挖掘孪生网络的潜力并提升模型性能的目标跟踪方法是亟需解决的技术问题。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：如何提供一种融合多层语义信息的孪生交叉目标跟踪方法，以充分探索分类特征和回归特征间的交互互补机制，充分挖掘孪生网络潜力，提升模型性能，从而提升目标跟踪的准确性。

为了解决上述技术问题，本发明采用了如下的技术方案：

一种融合多层语义信息的孪生交叉目标跟踪方法，包括以下步骤：

S1：基于孪生神经网络构建孪生跟踪模型，并对孪生跟踪模型进行训练；

S2：获取跟踪目标的视频帧序列，将视频帧序列的首帧作为模板帧，后续帧作为搜索帧；

S3：将跟踪目标的模板帧和搜索帧输入经过训练的孪生跟踪模型中；

所述孪生跟踪模型通过孪生主干网络并行连接不同层次的语义信息；然后通过孪生区域推荐交互网络获取对应的分类图和回归图，并通过并行交叉注意机制融合不同分支间的互监督信息；最后通过自适应可形变卷积模块提供全局的目标描述辅助，并生成对应的分类得分图和回归得分图；

S4：基于跟踪目标的分类得分图定位中心位置，并根据回归得分图生成位置描述。

优选的，步骤S3中，孪生主干网络从模板帧和搜索帧中提取对应的模板帧特征和搜索帧特征；然后对模板帧特征和搜索帧特征进行互相关操作计算，生成对应的分类特征图和回归特征图。

优选的，步骤S3中，通过如下步骤生成分类得分图和回归得分图：

S301：通过通道注意力模块强化分类特征图的语义通道信息，生成分类注意力特征图；

S302：通过空间注意力模块强化回归特征图的空间维度信息，生成回归注意力特征图；

S303：将分类注意力特征图和回归注意力特征图进行交互融合，生成更鲁棒的回归特征；然后将更鲁棒的回归特征输入自适应可形变卷积模块中降低背景语义信息，生成对应的自适应回归特征；

S304：将更鲁棒的回归特征经过回归头，生成对应的回归得分图；

S305：将分类注意力特征图经过分类头，并与自适应回归特征融合，生成对应的分类得分图。

优选的，通道注意力模块包括并行的平均池化层和最大池化层，具有隐藏层的共享多层感知器，以及用于将输出的特征值映射到区间(0,1)中的Sigmoid函数。

优选的，空间注意力模块包括并行的平均池化层和最大池化层，用于学习不同维度空间信息的并行的四个单层感知器，以及用于将输出的特征值映射到区间(0,1)中的Sigmoid函数。

优选的，自适应可形变卷积模块包括可形变卷积层和1×1卷积层。

优选的，步骤S1中，通过如下步骤训练孪生跟踪模型：

S101：将训练数据视频集分为训练模板帧和训练搜索帧；

S102：将训练模板帧和训练搜索帧输入孪生跟踪模型中；然后使用随机梯度下降法迭代优化孪生跟踪模型，并通过三元损失将孪生跟踪模型的参数进行梯度反方向更新；

S103：根据指定的训练帧对数和迭代次数，重复步骤S101至S103，直至训练完成。

优选的，三元损失的计算公式如下：

式中：L_cls和L_reg表示孪生跟踪模型的分类损失函数，分别代表基于常规规则区域特征和可形变卷积特征的二值交叉嫡损失；p_i,j和q_i,j分别表示位置(i,j)对应于常规规则区域特征和可形变卷积特征的分类得分值；

和

分别表示p_i,j和q_i,j对应的真值标签；L_reg表示边界框的IoU损失；t_i,j表示孪生跟踪模型预测的回归距离向量；λ₁＝λ₂＝λ₃＝1。

优选的，训练孪生跟踪模型时，单独训练自适应可形变卷积模块。

优选的，构建孪生跟踪模型时，首先搭建Pytorch深度学习开源框架，然后在Pytorch深度学习开源框架上部署孪生跟踪模型。

本发明的孪生交叉目标跟踪方法与现有技术相比，具有如下有益效果：

本发明通过孪生区域推荐交互网络获取分类图和回归图，并通过并行交叉注意机制融合不同分支间的互监督信息，通过自适应可形变卷积模块提供全局的目标描述辅助，使得能够充分探索分类特征和回归特征间的交互互补机制，充分挖掘孪生架构网络的潜力，提升孪生跟踪模型的性能及复杂场景下的鲁棒，从而能够提升目标跟踪的准确性。同时，本发明通过孪生主干网络并行连接不同层次的语义信息，能够提取语义信息更加丰富的深度特征，从而能够提高目标跟踪的精度。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为孪生交叉目标跟踪方法的逻辑框图；

图2为孪生跟踪模型的网络结构图；

图3为HRNet的网络结构图；

图4为通道注意力模块和空间注意力模块组成的并行交叉注意力模块。

具体实施方式

下面通过具体实施方式进一步详细的说明：

实施例：

本实施例中公开了一种融合多层语义信息的孪生交叉目标跟踪方法。

如图1所示，融合多层语义信息的孪生交叉目标跟踪方法，包括以下步骤：

S2：获取视频帧序列S＝{S₀,S₁,...,S_N}，并将视频帧序列的首帧(第一帧)作为模板帧z，后续帧(第一帧之后的其他帧)作为搜索帧x_i。将模板帧z裁剪的大小为127x127，搜索帧x_i裁剪的大小为255x255，模板帧状态为B₀，初始化目标状态B＝B₀，i＝1。

S4：基于跟踪目标的分类得分图定位中心位置，并根据回归得分图生成位置描述。重复以上步骤直至所有视频帧序列的搜索帧被跟踪完成。

本发明通过孪生区域推荐交互网络获取分类图和回归图，并通过并行交叉注意机制融合不同分支间的互监督信息，通过自适应可形变卷积模块提供全局的目标描述辅助，使得能够充分探索分类特征和回归特征间的交互互补机制，充分挖掘孪生架构网络的潜力，提升孪生跟踪模型的性能及复杂场景下的鲁棒，从而能够提升目标跟踪的准确性。同时，本发明通过孪生主干网络并行连接不同层次的语义信息，能够提取语义信息更加丰富的深度特征，从而能够提高目标跟踪的精度。此外，本发明基于跟踪目标的分类得分图定位中心位置，并根据回归得分图生成位置描述的方式，能够准确的定位跟踪目标的位置。

具体实施过程中，构建孪生跟踪模型时，首先搭建Pytorch深度学习开源框架，然后在Pytorch深度学习开源框架上部署孪生跟踪模型。

PyTorch是一个清晰而高效的开源机器学习库，用于自然语言处理、计算机视觉等应用程序。PyTorch的优势有：1)简洁优雅：PyTorch的设计追求最少的封装，尽量避免重复造轮子；2)速度快：PyTorch的灵活性不以速度为代价，在众多评测中，PyTorch的速度表现胜过TensorFlow和Keras等框架；3)易用上手快：PyTorch的设计最符合人们的思维，它让用户尽可能地专注于实现自己的想法，即所思即所得，不需要考虑太多关于框架本身的束缚；4)动态计算图：Pytorch提供了出色的计算平台，可提供动态计算图，用户可在运行时进行更改；5)高度可扩展：Pytorch与C++代码深度集成，它与深度学习框架Torch共享一些C++后端。因此，允许用户使用基于cFFI for Python的扩展API在C/C++中编程，并为CPU操作编译CPU。

结合图2所示，孪生主干网络从模板帧和搜索帧中提取对应的模板帧特征f(z)和搜索帧特征f(x_i)；然后对模板帧特征f(z)和搜索帧特征f(x_i)进行互相关操作计算，得到对应的分类特征图F_cls和回归特征图F_reg。

孪生主干网络选用结合图3所示的HRNet(全称Deep High-ResolutionRepresentation Learning for Human Pose Estimation)。HRNet是最近提出的新型高分辨率网络，在整个网络处理过程中，能够保持高分辨率表示。

HRNet的特点有：1)HRNet并行连接高分辨率与低分辨率网络。因此，网络能够在加深的同时依旧保持高分辨率，而不需要通过一个低到高的过程恢复分辨率，因此预测的结果在空间上会更精确。2)HRNet重复地进行多尺度融合，利用相同深度、相似水平的低分辨率表示，来提高高分辨率表示，这使得高分辨率的表示对于姿态估计也很丰富，目标的几何和语义信息相对也会更加丰富。

具体的，通过如下步骤生成回归得分图和分类得分图：

S301：通过通道注意力模块强化分类特征图F_cls的语义通道信息，生成分类注意力特征图；

S302：通过空间注意力模块强化回归特征图F_reg的空间维度信息，生成回归注意力特征图；

S303：将分类注意力特征图和回归注意力特征图进行交互融合，生成更鲁棒的回归特征；然后将更鲁棒的回归特征输入自适应可形变卷积模块中降低背景语义信息，生成对应的自适应回归特征

S304：将更鲁棒的回归特征经过回归头，生成对应的回归得分图

S305：将分类注意力特征图经过分类头，并与自适应回归特征

融合，生成对应的分类得分图

分类头和回归头都是一个1×1卷积。

其中，

式中：f(:)表示孪生主干网络(HRNet)；*表示深度互相关操作；φ_cls和φ_reg分别表示并行交叉注意力子模块的通道注意力模块和空间注意力模块；

表示分类得分图，

表示回归得分图。

具体实施过程中，结合图4所示，通道注意力模块包括并行的平均池化层(AvgPool)和最大池化层(MaxPool)，具有隐藏层的共享多层感知器(MLP)，以及用于将输出的特征值映射到区间(0，1)中的Sigmoid函数。空间注意力模块包括并行的平均池化层(AvgPool)和最大池化层(MaxPool)，用于学习不同维度空间信息的并行的四个单层感知器(SLP)，以及用于将输出的特征值映射到区间(0,1)中的Sigmoid函数。

自适应可形变卷积模块包括可形变卷积层和1×1卷积层。

其中，可形变卷积相对于在n×n固定网格区域的常规卷积而言，卷积的位置是可形变的。其目的是为了更好地提取到我们感兴趣的区域特征。具体实现，可形变卷积会在固定规则区域每一个采样点加上偏移量Δp_n：

其中，p_o表示中心采样点；p_n表示固定网格区域

的采样点位置；Δp_n表示偏移向量；w(·)表示固定采样点的位置权重；x(·)表示采样点位置的取值；y(·)表示最终输出值；

可以表示为：

对于卷积核大小为k可形变卷积，采样时便是从

上k×k个采样位置加上偏移量Δp_n，向外扩散进行采样。

本发明通过上述步骤，能够实现通过孪生区域推荐交互网络获取分类图和回归图，并通过并行交叉注意机制融合不同分支间的互监督信息，通过自适应可形变卷积模块提供全局的目标描述辅助，使得能够充分探索分类特征和回归特征间的交互互补机制，充分挖掘孪生架构网络的潜力，提升孪生跟踪模型的性能及在复杂场景的鲁棒，从而能够提升目标跟踪的准确性。

具体实施过程中，通过如下步骤训练孪生跟踪模型：

S101：将训练数据视频集分为训练模板帧和训练搜索帧；采用COCO、GOT10k和LaSOT等大型数据集来进行训练。

其中，COCO数据集是一个大型的、丰富的物体检测，分割和字幕数据集。数据集包括91类目标，328,000影像和2,500,000个label。COCO数据集专为对象检测、分割、人体关键点检测、语义分割和字幕生成而设计。

GOT10k是一个包含10,000个训练子集和180个测试子集的大型多类别跟踪基准。GOT10k以WordNet英文词汇数据库作为骨架搭建，分成5个大类：动物(Animal)、人造物体(Artifact)、人物(Person)、自然物体(NaturalObject)，以及Part。

LaSOT针对当前数据集规模小、缺少高质量标注、多为短视频、类别少等问题，是迄今为止被提出最大的具有高质量手动密集注释的对象跟踪数据集。LaSOT包含1400个视频，每个序列平均2512帧，此外LaSOT包含70个类别，每个类别包含20个序列。

其中，采用随机梯度下降法对网络进行优化目标求解，即对损失函数L求其关于参数θ的梯度，再将参数向梯度的反方向更新，计算公式如下：

式中：θ表示深度哈希编码网络中的任意一个参数；θ′表示更新后的参数；λ表示θ的更新幅度，称为学习率，设置为0.0001；L表示损失函数；

表示L关于θ的梯度。

三元损失的计算公式如下：

和

使用训练数据视频集对孪生跟踪模型进行预训练，具体训练过程包括：

1、HRNet作为孪生网络骨干，并使用的预训练参数来初始化模型参数。

2、模板帧的输入分辨率为127×127像素，搜索帧的输入分别率为255×255像素。

3、mini-batch训练，batch ize是128，epoch是30。

4、训练时，前5个回合进行预热，学习率固定为0.001；在剩下的回合中，学习率指数从0.005逐渐下降到0.00001以避免过拟合。

5、权重衰减系数和动量参数则分别设置为0.001和0.9，来防止震荡和不稳定。

本发明通过上述训练方式，能够有效的训练孪生跟踪模型，从而能够保证孪生跟踪模型的性能和精度。

具体实施过程中，训练孪生跟踪模型时，单独训练自适应可形变卷积模块。

本发明单独训练自适应可形变卷积模块，能够减少训练难度，提高孪生跟踪模型的训练效果。

需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管通过参照本发明的优选实施例已经对本发明进行了描述，但本领域的普通技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离所附权利要求书所限定的本发明的精神和范围。同时，实施例中公知的具体结构及特性等常识在此未作过多描述。最后，本发明要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种融合多层语义信息的孪生交叉目标跟踪方法，其特征在于，包括以下步骤：

2.如权利要求1所述的融合多层语义信息的孪生交叉目标跟踪方法，其特征在于：步骤S3中，孪生主干网络从模板帧和搜索帧中提取对应的模板帧特征和搜索帧特征；然后对模板帧特征和搜索帧特征进行互相关操作计算，生成对应的分类特征图和回归特征图。

3.如权利要求2所述的融合多层语义信息的孪生交叉目标跟踪方法，其特征在于，步骤S3中，通过如下步骤生成分类得分图和回归得分图：

4.如权利要求3所述的融合多层语义信息的孪生交叉目标跟踪方法，其特征在于：通道注意力模块包括并行的平均池化层和最大池化层，具有隐藏层的共享多层感知器，以及用于将输出的特征值映射到区间(0，1)中的Sigmoid函数。

5.如权利要求3所述的融合多层语义信息的孪生交叉目标跟踪方法，其特征在于：空间注意力模块包括并行的平均池化层和最大池化层，用于学习不同维度空间信息的并行的四个单层感知器，以及用于将输出的特征值映射到区间(0,1)中的Sigmoid函数。

6.如权利要求1所述的融合多层语义信息的孪生交叉目标跟踪方法，其特征在于：自适应可形变卷积模块包括可形变卷积层和1×1卷积层。

7.如权利要求1所述的融合多层语义信息的孪生交叉目标跟踪方法，其特征在于：步骤S1中，通过如下步骤训练孪生跟踪模型：

S101：将训练数据视频集分为训练模板帧和训练搜索帧；

S103：根据指定的训练帧对数和迭代次数重复步骤S101至S103，直至训练完成。

8.如权利要求7所述的融合多层语义信息的孪生交叉目标跟踪方法，其特征在于，三元损失的计算公式如下：

和

9.如权利要求7所述的融合多层语义信息的孪生交叉目标跟踪方法，其特征在于：训练孪生跟踪模型时，单独训练自适应可形变卷积模块。

10.如权利要求1所述的融合多层语义信息的孪生交叉目标跟踪方法，其特征在于：构建孪生跟踪模型时，首先搭建Pytorch深度学习开源框架，然后在Pytorch深度学习开源框架上部署孪生跟踪模型。