CN109493364A

CN109493364A - 一种结合残差注意力和上下文信息的目标跟踪算法

Info

Publication number: CN109493364A
Application number: CN201811124724.1A
Authority: CN
Inventors: 李伟生; 詹紫微
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-09-26
Filing date: 2018-09-26
Publication date: 2019-03-19

Abstract

本发明请求保护一种结合残差注意力网络和上下文信息的目标跟踪算法，该算法首先将跟踪的视频序列中的第一帧传到卷积层里面得到256张特征图，然后将第一帧的特征图传到残差注意力网络里面得到残差特征图。然后将残差特征图和卷积层特征图结合得到残差响应图。同时将上一帧和当前帧同时传到卷积网络层里面来提取特征图，然后将第一帧的残差响应图，上一帧和当前帧的特征图同时传到三个全连接层里面来预测当前帧中跟踪目标的位置。最后通多输出层来输出当前帧中跟踪目标左上角和右下角的坐标位置。本发明提高了跟踪算法在目标遮挡等复杂情况下的准确率和鲁棒性。

Description

一种结合残差注意力和上下文信息的目标跟踪算法

技术领域

本发明属于图像处理技术领域，特别涉及基于卷积神经网络的残差注意力机制和融合上下文信息的目标跟踪方法以及两种方法的结合。

背景技术

目标跟踪算法是计算机视觉领域里面的一个重要的方向有着广泛的应用。越来越多的学者都致力于目标跟踪算法的研究。目标跟踪算法主要分为以下两种：传统的目标跟踪算法、基于卷积神经网络的跟踪算法。

传统的目标跟踪算法主要分为产生式模型和判别式模型。生成式模型是将跟踪问题看做搜索与跟踪目标最相近的图像区域，主要包括采用稀疏表示模型、密度估计模型、增量子空间模型等等。判别式模型主要是利用在线学习或者离线训练检测器来区分背景和目标，找出目标所在的位置。这些跟踪算法通常基于多实例学习、P-N学习、结构化支持向量机(support vector machine SVM)等分类器。传统算法中由于相关滤波器在计算效率的优异性能，使其在目标跟踪领域备受关注。其中一种具有平均误差的滤波器跟踪速度可以达到每秒百帧。同时一种基于相关滤波的CSK跟踪算法，解决了密集采样问题，并利用了傅里叶变换快速实现了检测过程完成了跟踪。

基于卷积神经网络的目标跟踪算法主要分为三大类：基于分类的卷积神经网络目标跟踪、基于回归的卷积神经网络目标跟踪、基于相似度匹配的卷积神经网络目标跟踪。基于分类的卷积神经网络目标跟踪充分的利用了卷积神经网络特征提取和分类的强大能力，通过离线训练和再现微调的方法利用大量的数据离线训练网络，使网络获得通用特征表达能力，再利用第一帧目标周围的正负样本的信息在线微调，大大减少了对于样本的需求，基于回归的卷积神经网络目标跟踪通过输出的热度图直接回归出当前帧中跟踪目标所在的位置。基于相似度匹配的卷积神经网络目标跟踪是将跟踪视频序列中的第一帧或者上一帧作为模板，使用模板和候选区域来进行相似度匹配，相似度最高的区域就是我们要跟踪的目标位置。

虽然跟踪算法众多但是仍然存在着一些问题，在复杂场景中仍存在目标形变、光照变化、快速运动、相似背景干扰、遮挡和尺度变化等问题。基于卷积神经网络的跟踪算法虽然可以取得出色的跟踪效果，但是这些算法存在着计算量大，运行速度慢的问题很难达到实时跟踪。基于卷积神经网络的GOTURN算法虽然可以达到每秒百帧但是存在着准确率低，鲁棒性差的问题。我们的算法在孪生网络的基础上增加了残差注意网络和融合了上下文信息，使得我们的算法在兼顾速度的基础上提升了跟踪精度。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种提升了跟踪精度的结合残差注意力和上下文信息的目标跟踪算法。本发明的技术方案如下：

一种结合残差注意力和上下文信息的目标跟踪算法，其包括以下步骤：

S1、将第一帧已经标注好的的跟踪目标区域，上一帧已经预测的区域和当前帧的搜索区域同时传到卷积层，得到第一帧的卷积特征图、上一帧的卷积特征图及当前帧的卷积特征图；

S2、将第一帧的卷积特征图送到残差注意力网络经过五层卷积操作得到残差特征图；

S3、将第一帧的卷积特征图和残差特征图进行乘积操作得到残差响应特征图；

S4、将第一帧的残差特征响应图、上一帧和当前帧的卷积特征图传到全连接层，通过全连接层将卷积层二维的特征图转成一维的向量，通过全连接层来学习第一帧，上一帧和当前帧三者之间的时空关系；

S5、将全连接层的结果输出到输出层得到最后的跟踪结果。

进一步的，所述步骤S1的卷积层是使用的CaffeNet(一种深度学习网络结构)网络的前五层卷积层，使用CaffNet在Imagenet(深度学习一种用来训练分类的图片数据集)分类训练的参数模型来初始化网络参数。

进一步的，所述步骤S2的残差注意力网络主要是由5层卷积层组成，分别有两层下采样，一层1*1的卷积层，还有两层上采样。第一帧目标区域通过残差网络之后可以得到第一帧的残差特征图。

进一步的，所述步骤S3将得到的残差特征图M_i,c(x)和第一帧的卷积特征图F_i,c(x)进行元素乘积操作，得到第一帧跟踪目标的残差特征响应图 M_i,c(x)*F_i,c(x)。

进一步的，所述S4将第一帧的残差特征响应图、上一帧和当前帧的卷积特征图传到全连接层，通过全连接层将卷积层二维的特征图转成一维的向量，通过全连接层来学习第一帧，上一帧和当前帧三者之间的时空关系；

进一步的，所述步骤S5的输出层本质上是由全连接层组成，输出通道数为 4，4分别代表跟踪目标的左上角和右下角在当前帧的坐标值。

本发明的优点及有益效果如下：

本发明将残差注意力和跟踪目标上下文信息相结合，利用残差注意力网络来提取跟踪目标的高响应残差特征图提高跟踪算法在复杂场景下的鲁棒性。利用上下文信息具有很高的鲁棒性和实时性，建立跟踪目标和它周围信息的时空关系。时间上下文帮助我们目标位置，而空间上下文则能提供更精确的信息帮助我们区分目标和背景。基于以上两点我们的算法可以在兼顾速度的情况下提高跟踪的准确率。

附图说明

图1是本发明提供优选实施例结合残差注意力和上下文信息的目标跟踪算法的流程图；

图2A为其他主流算法的结果图；图2B为本算法的结果图；

图3为残差注意力网络结构。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明的方法流程如图1所示。

本发明涉及了我们跟踪算法的跟踪结果图例如图2、残差注意力网络的网络结构图如图3。

具体步骤：

步骤S1：我们将第一帧跟踪目标区域，上一帧的预测区域和当前帧的搜索区域同时传到卷积层来提取特征图，我们的卷积层是使用的CaffeNet网络的前五层卷积层，使用CaffNet在Imagenet分类训练的CaffeModel来初始化我们的网络参数。

步骤S2：将第一帧在卷积层里面得到的特征图传到残差注意力网络里面，残差注意力网络主要是由5层卷积层组成，分别有两层下采样，一层1*1的卷积层，还有两层上采样。第一帧目标区域通过残差网络之后可以得到第一帧的残差特征图。

步骤S3：将我们得到的残差特征图M_i,c(x)和第一帧的卷积特征图F_i,c(x) 进行元素乘积操作，得到第一帧跟踪目标的残差特征响应图M_i,c(x)*F_i,c(x)。

步骤S4：将第一帧的残差特征响应图、上一帧的预测区域和当前帧的搜索区域的卷积特征图同时传到全连接层里面。

步骤S5：将全连接层的结果传到输出层里面得到最后的跟踪结果。我们的输出层本质上是由全连接层组成，输出通道数为4。4分别代表跟踪目标的左上角和右下角在当前帧的坐标值。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种结合残差注意力和上下文信息的目标跟踪算法，其特征在于，包括以下步骤：

S1、将已经标注好的第一帧跟踪目标区域，上一帧已经预测的跟踪目标区域和当前帧的搜索区域同时传到卷积层，得到第一帧的卷积特征图、上一帧的卷积特征图及当前帧的卷积特征图；

S5、将全连接层的结果输出到输出层得到最后的跟踪结果。

2.根据权利要求1所述的一种结合残差注意力和上下文信息的目标跟踪算法，其特征在于，所述步骤S1的卷积层是使用的CaffeNet深度学习网络的前五层卷积层，使用CaffNet在Imagenet图片数据集分类训练的参数模型来初始化网络参数。

3.根据权利要求1或2所述的一种结合残差注意力和上下文信息的目标跟踪算法，其特征在于，所述步骤S2的残差注意力网络主要是由5层卷积层组成，分别有两层下采样，一层1*1的卷积层，还有两层上采样。第一帧目标区域通过残差网络之后可以得到第一帧的残差特征图。

4.根据权利要求3所述的一种结合残差注意力和上下文信息的目标跟踪算法，其特征在于，所述步骤S3将得到的残差特征图M_i,c(x)和第一帧的卷积特征图F_i,c(x)进行元素乘积操作，得到第一帧跟踪目标的残差特征响应图M_i,c(x)*F_i,c(x)。

5.根据权利要求4所述的一种结合残差注意力和上下文信息的目标跟踪算法，其特征在于，所述S4将第一帧的残差特征响应图、上一帧和当前帧的卷积特征图传到全连接层，通过全连接层将卷积层二维的特征图转成一维的向量，通过全连接层来学习第一帧，上一帧和当前帧三者之间的时空关系。

6.根据权利要求5所述的一种结合残差注意力和上下文信息的目标跟踪算法，其特征在于，所述步骤S5的输出层本质上是由全连接层组成，输出通道数为4，4分别代表跟踪目标的左上角和右下角在当前帧的坐标值。