CN111724410A

CN111724410A - 一种基于残余注意力的目标跟踪方法

Info

Publication number: CN111724410A
Application number: CN202010448979.4A
Authority: CN
Inventors: 史再峰; 孙诚; 曹清洁; 罗韬; 王哲
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2020-09-29

Abstract

本发明公开了一种基于残余注意力的目标跟踪方法，步骤1：构建基于残余注意力的目标跟踪网络；步骤2：训练基于残余注意力的目标跟踪网络；步骤3：实施目标跟踪；其中，所述残余注意力的目标跟踪网络的构建由特征提取网络、残余注意力网络和二分类网络组成；本发明针对目标跟踪算法跟踪过程中背景物体响应度过高，背景物体和目标有时易混淆等问题，使用残余注意力机制增强目标特征的权重并抑制背景物体特征的权重，进而提高跟踪器的跟踪准确度，具有跟踪精度高、鲁棒性强等优点。

Description

一种基于残余注意力的目标跟踪方法

技术领域

本发明涉及计算机视觉的图像处理领域，尤其涉及一种基于残余注意力的目标跟踪方法。

背景技术

现代目标跟踪(Object Tracking)算法分为两类。一类基于相关滤波(CorrelationFilter)，该跟踪算法利用循环相关的属性并在傅立叶域中执行运算来训练回归器，它可以进行在线跟踪并同时有效地更新过滤器的权重。另一类基于强大的深度学习网络(Deep Learning Network)，其中二阶段的检测跟踪框架成为主流：第一阶段绘制目标对象周围的稀疏样本集，第二阶段使用卷积神经网络将每个样本分类为目标对象或背景。

2018年，有研究者在基于深度学习的图像处理领域中引入注意力机制(AttentionMechanism)。在图像处理领域，注意力机制的工作方法是改变图像某些特征的权重，从而使感兴趣的特征得到更多关注，不感兴趣的特征得到更少关注。其中最常用的是空间注意力(Spatial Attention)机制和通道注意力(Channel Attention)机制。

首先被引入的是空间注意力机制：有学者在孪生网络中引入了空间注意力机制，提出了DA-Siam网络。利用神经网络的学习能力，得到一个与输入图像特征矩阵相同尺寸的权重矩阵，该矩阵能够自动学习哪些特征是重要的，哪些特征是不重要的。该权重矩阵被用来与输入图像特征矩阵相乘，以提高目标特征的数值并降低背景特征的数值。

然后被引入的是通道注意力机制：有学者在孪生网络中加入通道注意力模块，提出了SA-Siam网络。利用神经网络的学习能力，得到一个与输入通道数量相同的权重数列，该数列能够学习不同图像通道的重要性，并以权重的形式表现出来。该权重数列被用来与每个输入通道相乘，以提高一些重要通道对最终跟踪结果的影响。

还有一些混合注意力机制被引入，这类注意力机制主要是对上述两种注意力机制的混合。

在基于检测跟踪框架的目标跟踪网络中，一个关键步骤是在上一帧目标框的周围生成大量的提议框，而杂乱的背景会使很多区域的响应度太高，影响提议框的选择，降低跟踪网络的速度和精度。以上这些注意力机制只能提高被跟踪目标的权重，而不能做到抑制大多数的背景物体。因为在目标跟踪网络中多次使用相同的注意力机制会导致梯度消失，反而会使跟踪效果变差。而只在网络中使用一次注意力机制无法抑制所有的背景物体。因此需要一种能够叠加使用而不会降低跟踪效果的注意力机制，来抑制大部分背景物体的权重，提高被跟踪目标的权重，从而提高目标跟踪的效果。

发明内容

本发明的目的在于提出一种基于残余注意力的目标跟踪方法，适合在背景物体特征杂乱的视频中进行稳定的跟踪。针对目标跟踪算法跟踪过程中背景物体响应度过高，背景物体和目标有时易混淆等问题，使用残余注意力机制增强目标特征的权重并抑制背景物体特征的权重，进而提高跟踪器的跟踪准确度，具有跟踪精度高、鲁棒性强等优点。

有益效果

利用本发明提出的一种基于残余注意力的目标跟踪方法，引入残余注意力机制，增强目标特征的权重并抑制背景物体特征的权重，适合在背景物体特征杂乱或与被跟踪目标相似的视频中进行稳定的跟踪。该方法可以有效提高跟踪器的准确度和鲁棒性。

附图说明

图1残余注意力计算模块计算过程图

具体实施方式

以下结合附图，对本发明做出详细说明如下。

基于残余注意力的目标跟踪方法流程如下：

步骤1：构建基于残余注意力的目标跟踪网络。该目标跟踪网络由检测跟踪框架的目标跟踪网络和残余注意力网络组合而成。基于残余注意力的目标跟踪网络的构建由2步构成：

1.建立残余注意力计算模块

每个残余注意力计算模块用于增强部分目标特征或抑制部分背景物体特征，其计算过程如图1所示。输入图像特征矩阵，经过三个3×3卷积层和三个3×3反卷积层，将得到一个与输入图像特征矩阵大小相同的权重矩阵。将该权重矩阵与输入图像特征矩阵相乘，再与输入图像特征矩阵相加，得到部分目标特征被增强、部分背景物体特征被抑制的图像特征矩阵。

在网络中引入多个残余注意力计算模块可以增强整个目标的特征并抑制大部分的背景物体特征。

图1中，输入的图像特征矩阵大小为n×n，连续使用3个步长为1的3×3卷积核进行卷积操作，得到(n-6)×(n-6)的矩阵，然后连续使用3个步长为1的3×3反卷积核进行反卷积操作，得到n×n的矩阵。将n×n的矩阵与输入的图像特征矩阵相乘，再与输入的图像特征矩阵相加，得到输出的n×n图像特征矩阵。

步骤1的第2步：选择VGG-16网络作为主要网络结构，其中特征提取网络采用VGG-16网络的前8层，二分类网络采用VGG-16网络的后11层；引入3个残余注意力计算模块，权重使用浮点数格式代替二值格式以使包含更多细节。

步骤2的第2、3步：网络的训练中，初始学习率为0.001，权重衰减为0.0005，批量大小为64，迭代f＝10000次后将学习率改为0.0001，训练至焦点损失函数值在y＝50次迭代内最大值与最小值相差小于h＝1％。

2.构建残余注意力目标跟踪网络。

该网络采用特征提取网络、残余注意力网络和二分类网络组成。

特征提取网络用于提取输入图像的深度特征。可直接使用VGG、ImageNet等结构完善的网络的卷积层部分作为特征提取网络，然后将提取出的图像特征矩阵输入残余注意力网络。

残余注意力网络由多个残余注意力计算模块组成，用前一个残余注意力计算模块的输出作为下一个残余注意力计算模块的输入。残余注意力网络用于增强目标特征并抑制背景物体特征。残余注意力网络将权重更改后的图像特征矩阵输出至二分类网络。

二分类网络用于计算出目标坐标。该网络首先根据前一帧的跟踪框坐标，在以该框为中心的一定范围内生成大量的样本框，然后根据每个样本框中的图像特征矩阵，计算出每个框的分类概率，将分类概率最高的样本框作为目标的位置并输出坐标。

3.设置损失函数。基于残余注意力的目标跟踪网络使用焦点损失来训练，焦点损失函数可以使二分类网络的分类准确度得到提升，从而提升跟踪网络的跟踪效果。焦点损失函数被定义为：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t)

其中，p_t是对跟踪目标的分类概率，γ是个大于0的值，α_t是个[0,1]区间内的小数，γ和α_t都是固定值。γ和α_t的最优值是相互影响的，所以在评估准确度时需要把两者组合起来调节。在训练的过程中将γ设置为2，将α_t设置为0.25。

步骤2：训练基于残余注意力的目标跟踪网络。网络利用随机梯度下降法进行训练。网络的训练步骤如下：

1.构建数据集，将数据集划分为训练集和测试集。

2.初始化目标跟踪网络。不引入残余注意力网络，直接将特征提取网络与二分类网络相连组成目标跟踪网络，利用训练集和焦点损失函数训练网络，训练至f次迭代以上且焦点损失函数值在y次迭代内数值最大值与最小值相差小于h。

3.训练残余注意力网络。在上一步得到的网络中引入残余注意力网络，将特征提取网络和二分类网络中的所有参数固定，利用训练集和焦点损失函数训练残余注意力网络，训练至f次迭代以上且焦点损失函数值在y次迭代内最大值与最小值相差小于h。

4.重复第1步到第3步，训练多个基于残余注意力的目标跟踪网络，用测试集比较网络输出的坐标与真实坐标间的平均欧式距离，选择平均欧式距离最低的网络实施目标跟踪。

步骤3：实施目标跟踪。首先将第一帧的跟踪图像和目标位置标签输入跟踪网络，利用焦点损失函数训练二分类网络中的全连接层。输入后续图像，跟踪网络将输出目标的坐标，以此对目标物体进行准确、鲁棒的跟踪定位。

通过以上3步，便可利用本发明实现准确、鲁棒的目标跟踪定位。

Claims

1.一种基于残余注意力的目标跟踪方法，包括如下步骤：

步骤1：构建基于残余注意力的目标跟踪网络；

步骤2：训练基于残余注意力的目标跟踪网络；

步骤3：实施目标跟踪；

其中，所述残余注意力的目标跟踪网络的构建包括：

建立残余注意力计算模块：每个所述的残余注意力计算模块用于增强部分目标特征或抑制部分背景物体特征，其计算过程输入图像特征矩阵，经过三个3×3卷积层和三个3×3反卷积层，将得到一个与输入图像特征矩阵大小相同的权重矩阵；将该权重矩阵与输入图像特征矩阵相乘，再与输入图像特征矩阵相加，得到部分目标特征被增强、部分背景物体特征被抑制的图像特征矩阵；

构建由特征提取网络、残余注意力网络和二分类网络组成的残余注意力目标跟踪网络。

2.根据权利要求1所述的一种基于残余注意力的目标跟踪方法，其特征在于:所述步骤2中训练基于残余注意力的目标跟踪网络包括如下步骤：

S1.构建数据集，将数据集划分为训练集和测试集；

S2.初始化目标跟踪网络：不引入残余注意力网络，直接将特征提取网络与二分类网络相连组成目标跟踪网络，利用训练集和焦点损失函数训练网络，训练至f次迭代以上且焦点损失函数值在y次迭代内数值最大值与最小值相差小于h；

S3.训练残余注意力网络:在上一步得到的网络中引入残余注意力网络，将特征提取网络和二分类网络中的所有参数固定，利用训练集和焦点损失函数训练残余注意力网络，训练至f次迭代以上且焦点损失函数值在y次迭代内最大值与最小值相差小于h；

S4.重复第1步到第3步，训练多个基于残余注意力的目标跟踪网络，用测试集比较网络输出的坐标与真实坐标间的平均欧式距离，选择平均欧式距离最低的网络实施目标跟踪。

3.根据权利要求1所述的一种基于残余注意力的目标跟踪方法，其特征在于:所述步骤3中实施目标跟踪包括如下步骤:

S1.将第一帧的跟踪图像和目标位置标签输入跟踪网络，利用焦点损失函数训练二分类网络中的全连接层；

S2.输入后续图像，跟踪网络将输出目标的坐标，以此对目标物体进行准确、鲁棒的跟踪定位。

4.根据权利要求1所述的一种基于残余注意力的目标跟踪方法，其特征在于:

所述特征提取网络用于提取输入图像的深度特征是直接完善的网络的卷积层部分作为特征提取网络，然后将提取出的图像特征矩阵输入残余注意力网络；

所述残余注意力网络由多个残余注意力计算模块组成，用前一个残余注意力计算模块的输出作为下一个残余注意力计算模块的输入，残余注意力网络用于增强目标特征并抑制背景物体特征，残余注意力网络将权重更改后的图像特征矩阵输出至二分类网络。

所述二分类网络用于计算出目标坐标：该网络首先根据前一帧的跟踪框坐标，在以该框为中心的一定范围内生成大量的样本框，然后根据每个样本框中的图像特征矩阵，计算出每个框的分类概率，将分类概率最高的样本框作为目标的位置并输出坐标。

5.根据权利要求1-4任一项所述的一种基于残余注意力的目标跟踪方法，其特征在于:

所述残余注意力的目标跟踪网络使用焦点损失函数损失来训练提高二分类网络的分类准确度，所述焦点损失函数被定义为：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t)