CN115564801A

CN115564801A - 一种基于注意力的单目标跟踪方法

Info

Publication number: CN115564801A
Application number: CN202211263801.8A
Authority: CN
Inventors: 黄丹丹; 杨明婷; 陈广秋; 段锦; 刘智; 于斯宇; 胡力洲; 秦霖
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2023-01-03

Abstract

本发明涉及一种基于注意力的单目标跟踪方法，属于深度学习中的计算机视觉领域。包括数据预处理，模型的训练，将构造好的网络模型进行训练，在整个训练过程中通过降低网络的损失函数来优化网络的参数，从而获得基于注意力的单目标网络架构的网络权重；在新的视频序列中，使用通过训练而获得的网络权重，来测试跟踪目标的效果。优点是将主干网络输出的低层特征与高层特征结合，让最后的特征图在具有高级语义信息的同时补充一些细节信息；利用分类增强模块辅助分类分支，使其得到更加精准的目标定位信息，增加的设计可以让跟踪器在相似物干扰时，还能进行精准的跟踪，在众多复杂的场景中都可以精准稳定的跟踪目标。

Description

一种基于注意力的单目标跟踪方法

技术领域

本发明属于深度学习中的计算机视觉领域，尤其涉及一种基于注意力的单目标跟踪方法。

背景技术

目标跟踪一直是计算机视觉领域热门研究方向，在人机交互、智能控制、自动导航以及安全监控等领域都有着广泛的应用。虽然现如今，跟踪方法虽然已经取得了一定的成就，但在面临光照变化、非刚性变形以及相似物干扰等复杂场景时，跟踪器的跟踪效果会产生一定的影响。因此，能够实现长期稳定并且精准的目标跟踪依旧是一场具有挑战性的任务。

目前主流的目标跟踪器大多都是基于孪生网络架构。该网络架构它将目标跟踪问题转化为匹配问题，通过目标模板与搜索区域的互相关操作来学习一般相似度映射。SINT是首个将孪生网络运用在目标跟踪上，将目标跟踪问题转换成一个图像块匹配问题。同年，Bertinetto等人提出SiamFC，提出一种新的全卷积孪生网络作为基本的跟踪算法，高速的同时保证了一定的准确度。SiamRPN借鉴了区域推荐网络RPN，在孪生网络提取特征后将特征图送入分类分支和回归分支，使跟踪器可以回归目标位置、形状。之后的DaSiamRPN、C-RPN、SiamRPN++等方法都对SiamRPN做出了不同的改进。几乎所有当前先进的跟踪器都是使用互相关来进行信息嵌入，尽管这些跟踪器已经取得了良好的跟踪性能，但在面对相似物干扰、光照变化等复杂场景时仍会出现目标跟踪错误的情况。在对现有的跟踪器分析得到以下两个结论：(1)对于大多数基于孪生网络的跟踪器(如SiamFC、SiamRPN和ATOM)，都是通过目标与搜索区域进行卷积互相关操作来实现相似度学习的。然而，这样的方法本身是一个简单的线性匹配过程，会导致语义信息丢失(2)由孪生网络的相似性映射产生的互相关联特征容易受到搜索区域内相似物体的干扰。

发明内容

本发明提供一种基于注意力的单目标跟踪方法，在基于深度学习的方法中，鉴于现有的一些先进孪生网络的单目标跟踪器存在上述的缺陷，通过基于注意力来突出所需要关注的目标信息，并且在回归部分增加了分类增强模块辅助分类部分分类得更加准确，从而促使后续的分类回归子网络对目标进行更加精确地定位和边界盒回归。

本发明采取的技术方案是，包括下列步骤：

步骤一：数据预处理，为后续的网络模型训练提供数据准备；

步骤二：模型的训练，将构造好的网络模型进行训练，在整个训练过程中通过降低网络的损失函数来优化网络的参数，从而获得基于注意力的单目标网络架构的网络权重；

步骤三：模型的测试，在新的视频序列中，使用通过训练而获得的网络权重，来测试跟踪目标的效果。

本发明所述步骤一中的数据预处理包括：

S11、通过数据预处理操作将各数据集中的每张视频图片裁剪成一对固定的大小后放置于重新生成的文件夹里，文件夹中全是裁剪后用于训练的模板以及搜索区域的样本图片，其中模板图片Z大小为127×127，搜索区域图片X大小为511×511。

本发明所述步骤二中模型的训练包括下列步骤：

S21、将准备好的样本图片送入到网络模型中进行训练，此网络模型包括三个部分：一个是用于特征提取的孪生子网络，一个是嵌入模板图片与搜索区域图片信息的特征融合结构，一个是用于分类以及回归目标位置的分类回归子网络；

S22、第一部分是用于特征提取的孪生子网络，分别对模板图片Z以及搜索区域图片X进行特征的提取；主干网络是由两个分支共享相同的CNN结构，其中一分支目标模板Z作为输入，另一分支搜索区域X作为输入；通过主干网络得到两个特征映射，分别为模板图像特征图

以及搜索区域特征图

S23、第二部分是特征融合结构，用于嵌入目标模板以及搜索区域的特征；将主干网络输出的两分支特征图

以及

进行深度互相关来嵌入二者信息，将通过深度互相关得到的响应图R通过一个注意力机制，来提取需要关注的目标信息，以此来将更多的注意力关注于目标信息区域，最后将3、4、5层特征图

进行拼接的响应图R_all用于后续的分类回归子网络，深度互相关以及拼接式子分别定义如下：

上式表示深度互相关操作，其中

与

分别表示模板特征图以及搜索区域特征图；

其中，

分别表示主干网络3,4,5层输出特征图，通过深度互相关以及注意力机制的输出部分；

S24、第三部分是分类回归子网络，主要用于特征图位置分类以及目标位置的回归；首先响应图R_all中的每个位置(i,j)可以映射回搜索区域为(x,y)，响应图R_all通过卷积会得到分类分支以及回归分支；分类分支会得到分类特征图

和中心特征图

分类特征图是用于预测每个位置的类别，分类特征图

上每个点(i,j,:)都包含一个2D向量，分别表示相应的前景和背景得分，在分类部分还增加了一个增强模块，辅助分类得更加准确；同时与该分类特征图并行的还有中心特征图，中心特征图

中给出每个像素点的中心的得分，得分高的就是中心位置，中心可以用于删除异常值，远离中心的位置往往会产生低质量的预测边界框；

S25、分类回归网络的回归分支输出回归特征图

回归特征图

每个点(i,j,:)都包含一个4D向量t(i,j)＝(l,t,r,b)，其表示从相应位置到输入搜索区域中边界框四边的距离，设(x₀,y₀)和(x₁,y₁)表示真值边界框的左上角和右下角，(x,y)表示点(i,j)对应位置，回归特征图上某个点

的回归目标

可以通过以下公式计算得到：

其中(x₀,y₀)和(x₁,y₁)表示真值边界框的左上角和右下角，

表示回归特征图上相应点

的回归目标，

分别表示回归特征图上点到边界框四边的距离；

S26、采用端到端的方式，对整个网络进行训练；其中分类部分的损失函数值为

边界框回归函数值为

中心度损失为

按照相应的权重值加权在一起，作为整个系统加权后的损失函数；

上式中，采用的交叉熵损失进行分类，IOU损失进行回归，以及还有中心度损失；

S27、根据损失函数

的计算梯度，再使用优化器SGD来更新网络的参数，让整个网络损失函数降低直到收敛，那么整个训练结束，得到训练好了的一种基于注意力的单目标跟踪的网络权重。

本发明所述步骤S22中CNN网络采用的是改进过的Resnet-50，具体来说就是移除了两个卷积块中的下采样操作，并且使用空洞卷积，以此来增加感受野，通过修改conv4和conv5最后两块的有效步幅，将步幅设置为1；将conv4块的空洞率设置为2，conv5块的空洞率设置为4；在每一块后附加一个额外的1×1卷积层，使其输出信道减少到256。

本发明所述步骤S23中，注意力机制中运用到的是自注意力self-attention，其式子如下：

其中Q代表查询值，K代表键值，V代表提取到的信息值，d_k代表向量的长度，后续Q回和每个K值进行匹配，相当于是计算特征之间的相关性，再通过softmax函数进行归一化，得到了一个系数矩阵，相关性越大则对应V信息值得权重也就越大。

本发明所述步骤S23中，将主干网络后3、4、5层的特征经过注意力机制之后的响应图拼接起来，目的是让特征具有更加丰富的语义信息，有更多的细节信息，有助于目标的精准定位。

本发明所述步骤S24中增强模块具体是先经过卷积操作调整通道，再进行深度互相关操作嵌入信息，最后再通过卷积操作得到分类置信度辅助分类部分分类得更加准确。

本发明所述步骤S26中λ₁与λ₂的取值分别为1和3。

本发明所述步骤三模型的测试包括：

S31、将训练好的权重参数，在新的一段视频序列中测试跟踪效果。

在目标领域中，特征图的分辨率降低意味着目标的外观细节特征丢失，对相似度匹配不利，就容易发生跟踪错误的情况。本发明利用注意力来突出目标信息，并且该方法使用上下文信息增强原始特征；并且将使用到了主干网络的后三层特征图的输出，添加了一些细节细节信息，使提取到的特征更加的丰富。

本发明的优点是，本发明将主干网络输出的低层特征与高层特征结合，让最后的特征图在具有高级语义信息的同时补充一些细节信息；再者利用分类增强模块辅助分类分支，使其得到更加精准的目标定位信息，增加的设计可以让跟踪器在相似物干扰时，还能进行精准的跟踪，并且在测试对比实验中，本发明和其他方法相对比具有更加鲁棒的跟踪效果，并且在众多复杂的场景中都可以精准稳定的跟踪目标。

附图说明

图1是本发明的网络结构框图；

图2是本发明增强模块的结构流程图；

图3是一对模板与搜索区域样本图片；

图4是在GOT-10k测试数据集上不同算法的结果对比图。

具体实施方式

为了进一步更加的了解这个发明技术的各个部分，下面结合附图来做进一步的阐述与说明，让本发明更加的清楚明白。

如图1所示，包括下列步骤：

其中所述的数据预处理具体操作包括如下内容：

S11、通过数据预处理操作将各数据集中的每张视频图片裁剪成一对固定的大小后放置于重新生成的文件夹里，文件夹中全是裁剪后用于训练的模板以及搜索区域的样本图片，其中模板图片Z大小为127×127，搜索区域图片X大小为511×511，见图3；

所述模型的训练包括下列步骤：

以及搜索区域特征图

以及

上式表示深度互相关操作，其中

与

分别表示模板特征图以及搜索区域特征图；

其中，

和中心特征图

分类特征图是用于预测每个位置的类别，分类特征图

S25、分类回归网络的回归分支输出回归特征图

回归特征图

每个点(i,j,:)都包含一个4D向量t(i,j)＝(l,t,r,b)，其表示从相应位置到输入搜索区域中边界框四边的距离，设(x₀,y₀)和(x₁,y₁)表示真值边界框的左上角和右下角，(x,y)表示点(i,j)对应位置。回归特征图上某个点

的回归目标

可以通过以下公式计算得到：

其中(x₀,y₀)和(x₁,y₁)表示真值边界框的左上角和右下角，

表示回归特征图上相应点

的回归目标，

分别表示回归特征图上点到边界框四边的距离；

边界框回归函数值为

中心度损失为

S27、根据损失函数

所述步骤S22中主干网络CNN采用的是改进过的Resnet-50，也就是移除了后两个卷积块中的下采样操作，并且使用空洞卷积，以此来增加感受野，具体来说就是通过修改conv4和conv5最后两块的有效步幅，将步幅设置为1；将conv4块的空洞率设置为2，conv5块的空洞率设置为4；在每一块后附加一个额外的1×1卷积层，使其输出信道减少到256，见表1。

表1对主干网络后三层参数的具体设置

所述步骤S23中，注意力机制中运用到的是自注意力self-attention，其式子如下：

式中Q代表查询值，K代表键值，V代表提取到的信息值，d_k代表向量的长度，后续Q回和每个K值进行匹配，相当于是计算特征之间的相关性，再通过softmax函数进行归一化，得到了一个系数矩阵，相关性越大则对应V信息值得权重也就越大；

所述步骤S23中，将主干网络后3、4、5层的特征经过注意力机制之后的响应图拼接起来，目的是让特征具有更加丰富的语义信息，有更多的细节信息，有助于目标的精准定位；

所述步骤S24中增强模块如图2所示，具体是先经过卷积操作调整通道，再进行深度互相关操作嵌入信息，最后再通过卷积操作得到分类置信度辅助分类部分分类得更加准确；

所述步骤S26中λ₁与λ₂的取值分别为1和3。。

所述步骤三模型的测试包括以下的步骤：

S31、将训练好的权重参数，在未曾出现过的新的视频序列中测试跟踪效果。

在目标领域中，特征图的分辨率降低意味着目标的外观细节特征丢失，对相似度匹配不利，就容易发生跟踪错误的情况。本发明将主干网络输出的低层特征与高层特征结合，让最后的特征图在具有高级语义信息的同时补充一些细节信息。再者利用分类增强模块辅助分类分支，使其得到更加精准的目标定位信息。增加的设计可以让跟踪器在相似物干扰时，还能进行精准的跟踪。并且在测试对比实验中，本发明和其他方法相对比具有更加鲁棒的跟踪效果，并且在众多复杂的场景中都可以精准稳定的跟踪目标。

采用GOT-10k官网提供的数据进行训练网络模型，根据GOT-10k数据集的评测工具，测试该方法的训练效果。从表2中的数据可以发现，本发明所提出的单目标跟踪算法比其他算法训练出来的权重参数，在该数据测试数据上具有更优的表现。

表2对GOT-10k测试数据集的评价

为了有一个比较直接的视觉感官，将测试结果展示在视频序列上，并且与以前的一些算法进行比较，如下图4所示。不同的弧度灰度程度边界框代表了不同的跟踪算法在GOT-10k数据集上的测试结果。在第一个视频序列中，可以看出SiamRPN++算法跟踪错误，将岸边的形态误以为是船只和游艇一起框了起来；在第二个视频序列中可以看出，动物的颜色与周围的环境极其的相似，SiamRPN++和ECO都出现了跟踪的错误的情况，而SiamCAR只跟踪到了动物的头部，本发明的跟踪算法是将整个动物整体跟踪到了；在第三个视频序列中，ECO跟踪完全丢失，SiamRPN++跟踪到了物体的一部分，本发明提出的算法跟踪比较成功。因此，本发明提出的算法在不同的复杂场景，都能够有长期稳定的跟踪效果。

上述实施例为本发明最佳的实施方式，但本发明的实施方式不受上述实施例的限制，其他任何未背离本发明的精神实质与原理下所做的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本方面的保护范围之内。更具体地说，在本申请公开、附图和权利要求的范围内，可以对主题组合布局的组成部件和/或布局进行多种变型和改进。

Claims

1.一种基于注意力的单目标跟踪方法，其特征在于，包括下列步骤：

2.根据权利要求1所述的一种基于注意力的单目标跟踪方法，其特征在于，所述步骤一中的数据预处理包括：

3.根据权利要求1所述的一种基于注意力的单目标跟踪方法，其特征在于，所述步骤二中模型的训练包括下列步骤：

以及搜索区域特征图

以及

上式表示深度互相关操作，其中

与

分别表示模板特征图以及搜索区域特征图；

其中，

和中心特征图

分类特征图是用于预测每个位置的类别，分类特征图

S25、分类回归网络的回归分支输出回归特征图

回归特征图

的回归目标

可以通过以下公式计算得到：

其中(x₀,y₀)和(x₁,y₁)表示真值边界框的左上角和右下角，

表示回归特征图上相应点

的回归目标，

分别表示回归特征图上点到边界框四边的距离；

边界框回归函数值为

中心度损失为

S27、根据损失函数

4.根据权利要求3所述的一种基于注意力的单目标跟踪方法，其特征在于：所述步骤S22中CNN网络采用的是改进过的Resnet-50，具体来说就是移除了两个卷积块中的下采样操作，并且使用空洞卷积，以此来增加感受野，通过修改conv4和conv5最后两块的有效步幅，将步幅设置为1；将conv4块的空洞率设置为2，conv5块的空洞率设置为4；在每一块后附加一个额外的1×1卷积层，使其输出信道减少到256。

5.根据权利要求3所述的一种基于注意力的单目标跟踪方法，其特征在于：所述步骤S23中，注意力机制中运用到的是自注意力self-attention，其式子如下：

6.根据权利要求3所述的一种基于注意力的单目标跟踪方法，其特征在于：所述步骤S23中，将主干网络后3、4、5层的特征经过注意力机制之后的响应图拼接起来，目的是让特征具有更加丰富的语义信息，有更多的细节信息，有助于目标的精准定位。

7.根据权利要求3所述的一种基于注意力的单目标跟踪方法，其特征在于：所述步骤S24中增强模块具体是先经过卷积操作调整通道，再进行深度互相关操作嵌入信息，最后再通过卷积操作得到分类置信度辅助分类部分分类得更加准确。

8.根据权利要求3所述的一种基于注意力的单目标跟踪方法，其特征在于：所述步骤S26中λ₁与λ₂的取值分别为1和3。

9.根据权利要求1所述的一种基于注意力的单目标跟踪方法，其特征在于：所述步骤三模型的测试包括：