CN111915644A

CN111915644A - 孪生导向锚框rpn网络的实时目标跟踪方法

Info

Publication number: CN111915644A
Application number: CN202010657633.5A
Authority: CN
Inventors: 胡伏原; 尚欣茹; 李林燕; 赵柳清; 韩菲; 颜梦芳; 孙云飞; 陶重犇; 夏振平
Original assignee: Suzhou Jiatu Intelligent Drawing Information Technology Co ltd; Suzhou University of Science and Technology
Current assignee: Suzhou Jiatu Intelligent Drawing Information Technology Co ltd; Suzhou University of Science and Technology
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-11-10
Anticipated expiration: 2040-07-09
Also published as: CN111915644B

Abstract

本发明公开了一种孪生导向锚框RPN网络的实时目标跟踪方法。本发明一种孪生导向锚框RPN网络的实时目标跟踪方法，包括：S1.分别将大小为127×127×3的模板帧和256×256×3的检测帧输入到孪生网络中的对应输入端口；S2.将通过孪生网络提取得到的特征分别输入到导向RPN(GA‑RPN)网络的目标分类分支和位置回归分支，得到对应的分数图；S3.将导向RPN网络得到的分类分数图和位置回归分数图结果融合，然后进行插值计算，即可得到跟踪的结果。本发明的有益效果：解决孪生RPN目标跟踪网络的精度较低和速度较低的问题。

Description

孪生导向锚框RPN网络的实时目标跟踪方法

技术领域

本发明涉及目标跟踪领域，具体涉及一种孪生导向锚框RPN网络的实时目标跟踪方法。

背景技术

目标跟踪是计算机视觉的一个重要分支，其利用视频或图像序列的上下文信息，对目标的外观和运动信息进行建模，从而对目标运动状态进行预测并标定目标的位置。目标跟踪融合了图像处理、机器学习、最优化等多个领域的理论和算法，是完成更高级的图像(如目标行为识别)任务的前提和基础。当前主要相关方法可以总结为以下三种：

基于生成式模型的方法：此方法首先提取目标特征学习出代表目标的外观模型，通过它搜索图像区域进行模型匹配，在图像中找到和模型最匹配的区域，即为目标。有的方法通过计算当前含有目标的图像和用特征向量重建的图像之间的仿射变换差异来跟踪目标。有的方法通过匹配角点来实现对目标的跟踪。

基于判别式模型的方法：此方法同时考虑了目标和背景信息，将跟踪问题看做分类或回归问题，目的是寻找一个判别函数，将目标从背景中分离出来，从而实现对目标的跟踪。有的方法利用线性判别分析自适应地选择对当前背景和目标最具区分力的颜色特征，从而分离出目标。有的方法将目标跟踪看成位置变化和尺度变化两个独立的问题，首先训练位置平移相关滤波器以检测目标中心平移，然后训练滤波器来检测目标的尺度变化，从而提高了对尺度变化目标跟踪的准确率。

基于深度学习的方法：此方法主要利用深度特征强大的表征能力来实现目标跟踪。有的方法将浅层信息和深层语义信息结合起来，根据不同空间分辨率的响应，在频率进行差值得到连续空间分辨率的响应图，通过迭代求得最佳位置。有的方法利用孪生网络直接学习目标模板和候选目标的匹配函数，在线跟踪过程中只用初始帧的目标作为模板来实现跟踪。

上述方法虽然在一定程度上实现了对视频中目标的跟踪，但仍然存在一定的缺陷：

基于生成式模型的方法：这种基于生成方式的目标跟踪方法，其本质是在目标表示的高维空间中，找到与目标模型最相邻的候选目标作为当前估计。但是该方法只关注了目标的信息，忽略了背景信息，从而影响了目标跟踪的准确率。

基于判别式模型的方法：这种基于判别式模型的目标跟踪方法，虽然同是考虑了目标信息和背景信息，在一定程度上解决了上述缺陷，但是在实际应用中，其对出现目标遮挡、光线变化和尺度变化等复杂场景中目标的跟踪能力有限。

基于深度学习的方法：这种基于深度学习的目标跟踪方法，虽然在一定程度上克服了上述两个缺陷，但是若仅从当前视频中提取样本的话，只能学到相对简单的模型，而在线学习需要大量的监督信息，给实时在线实现目标跟踪带来了一定的困难。

发明内容

本发明要解决的技术问题是提供一种孪生导向锚框RPN网络的实时目标跟踪方法，以深度神经网络、光学图像等为基础，总结传统的目标跟踪方法，探究基于孪生导向锚框RPN(region proposal network，RPN)网络的是视目标跟踪方法及其应用。

为了解决上述技术问题，本发明提供了一种孪生导向锚框RPN网络的实时目标跟踪方法，包括：

S1.分别将大小为127×127×3的模板帧和256×256×3的检测帧输入到孪生网络中的对应输入端口；

S2.将通过孪生网络提取得到的特征分别输入到导向RPN(GA-RPN)网络的目标分类分支和位置回归分支，得到对应的分数图；

S3.将导向RPN网络得到的分类分数图和位置回归分数图结果融合，然后进行插值计算，即可得到跟踪的结果。

本发明的有益效果：

解决孪生RPN目标跟踪网络的精度较低和速度较低的问题。

在其中一个实施例中，其中步骤S2的具体流程为:

S2-1.网络将孪生网络提取到的模板帧和检测帧的特征用一个新的卷积核进行卷积，缩小了特征图的大小；

S2-2.然后将缩小后的模板帧特征输入到导向锚框网络中，进行锚框预测；

S2-3.最后将缩小后的检测帧与新的模板特征进行卷积，得到对应的分数图。

在其中一个实施例中，在步骤S2中，导向RPN网络中的目标分类分支用于区分目标和背景，该分支将会给出每个样本被预测为目标和背景的分数；位置回归分支对目标候选区域进行微调。

在其中一个实施例中，在步骤S2-2锚框预测中，首先预测哪些区域应该作为中心点来生成锚框，这是一个二分类问题；锚框位置预测分支通过N_L网络，使用1×1的卷积核与输入特征图F₁进行卷积得到特征图关于被检测目标的分数图，再通过sigmoid函数得到每一点的概率值，最后输出一个与输入特征图F₁相同大小的概率图；概率图上点(i，j)表示该位置可能出现被检测目标的可能性，与原图I上位置((i+0.5)s，(j+0.5)s)相对应，其中s表示特征图的步幅，即相邻锚框之间的距离；根据概率图的结果，通过设置的阈值可以确定被检测目标可能存在的位置；然后对给定锚框的中心点学习最佳的高度h和宽度w，这是一个回归问题；

形状预测分支通过一个1×1×2的卷积网络N_S预测得到dh和dw，然后通过下式变换得到预测的高度h和宽度w：

h＝σ·s·e^dh (1)

w＝σ·s·e^dw (2)

式中s为步长，σ为经验系数；

最后解决不同形状锚框与特征图中感受野不匹配问题，将锚框的形状信息直接融入到特征图中，使得输出新的特征图F_i’中每个特征点都代表一个锚框信息。

在其中一个实施例中，该非线性变换将训练目标范围从约[0,1000]缩小到了[-1,1]。

在其中一个实施例中，经验系数取为8。

在其中一个实施例中，形状预测分支通过一个1×1的卷积得到其偏移量，然后再将该偏移量与原始特征图F_i通过一个3×3可变卷积结构网络NT得到新的特征图F_i’，并在新的特征图上进行接下来的操作；特征图上每个位置的变换如下：

F_i'＝N_T(F_i,w_i,h_i) (4)

式中F_i表示第i个位置的特征，(w_i，h_i)为第i个位置对应的锚框形状。

基于同样的发明构思，本申请还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

基于同样的发明构思，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

基于同样的发明构思，本申请还提供一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

附图说明

图1是本发明孪生导向锚框RPN网络的实时目标跟踪方法的VOT2015数据集实验结果图。

图2是本发明孪生导向锚框RPN网络的实时目标跟踪方法的VOT2016数据集实验结果图。

图3是本发明孪生导向锚框RPN网络的实时目标跟踪方法的在VOT 2017数据集上实时实验结果排名。

图4是本发明孪生导向锚框RPN网络的实时目标跟踪方法的孪生导向锚框RPN网络图。

图5是本发明孪生导向锚框RPN网络的实时目标跟踪方法的导向锚框网络图。

图6是传统的孪生导向锚框RPN网络图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

近年来，锚框(anchor boxes)受到了学术界的极大重视，是目标识别过程中最重要且最难理解的概念，成为近两年来目标识别中热门的研究领域之一。这个概念最初是在Faster R-CNN中提出，此后在SSD、YOLOv2、YOLOv3等优秀的目标识别模型中得到了广泛的应用，并且得到了进一步的扩展。与传统的目标识别方法相比，锚框最大的特点是可以在一个网格单元中检测多个目标，并且解决了多尺度问题。因此，锚框有望解决基于深度学习目标跟踪方法中的孪生RPN目标跟踪方法的精度较低和速度较低的问题。

为了解决孪生RPN目标跟踪网络的精度较低和速度较低的问题，本发明在传统孪生RPN目标跟踪方法的基础上引入了导向锚框网络，提出了基于导向锚框RPN网络的实时目标跟踪的方法，从而较好的解决了传统孪生RPN网络中的问题。

(1)孪生RPN网络

传统的孪生RPN网络结构如图6所示，其结构是由全卷积孪生网络结构(Full-convolutional Siamese Network)和RPN结构(region proposal network，RPN)组成。

全卷积孪生网络结构中上支路与下支路是由两个网络结构和参数完全相同的CNN降维映射分支组成。上支路称为模板分支，开始进行目标跟踪时将标记好回归边框(Bounding Box)的第一帧视频序列作为输入，后续将视频序列中完成目标跟踪的历史帧作为输入；下支路称为检测分支，该支路将视频序列中需要被检测的当前帧作为输入。

RPN的结构同样由两个分支组成，一个是用来区分目标和北京的分类分支，另外一个是微调候选区域的回归分支。分类分支的目的是给每个样本被预测为目标和背景的概率进行打分。RPN将对全卷积网络提取到的模板帧和检测帧的特征用一个新的卷积核进行卷积，在缩小了特征图的同时，也产生了大小为4×4×(2k×256)的模板帧特征

和大小为20×20×256的检测帧特征

,他们分别表示的含义是：模板帧特征的大小是4×4，并且k种不同的锚框有k种不同的变化，每一种变化的锚框都能产生一个新的特征；检测帧特征的大小是20×20×256。最后，以模板帧的特征作为卷积核去卷积检测帧的特征，从而产生响应图

回归分支和分类分支类似，不过它给出的是每个样本的位置回归值。

(2)本文算法

传统的孪生RPN目标跟踪方法中的锚框策略是通过滑动窗口产生的大量锚框来生成候选区域，然后再进行分类和边界框回归优化位置。该方法没有考虑目标图像的语义特征，造成锚框与特征的不一致；并且产生大量冗余的锚框，导致计算量大大增加。为了解决上述问题，本项目在传统的孪生RPN网络中引入导向锚框网络(Guided Anchoring)，该网络基于语义特征来指导生成稀疏的锚框。参阅图4和图5，该系统的具体流程为：

S1.分别将大小为127×127×3的模板帧和256×256×3的检测帧输入到孪生网络中的对应输入端口。

S2.将通过孪生网络提取得到的特征分别输入到导向RPN(GA-RPN)网络的目标分类分支和位置回归分支，得到对应的分数图。

其中步骤S2的具体流程为:

S2-1.网络将孪生网络提取到的模板帧和检测帧的特征用一个新的卷积核进行卷积，缩小了特征图的大小。

S2-2.然后将缩小后的模板帧特征输入到导向锚框网络中，进行锚框预测。

在步骤S2中，导向RPN网络中的目标分类分支用于区分目标和背景，该分支将会给出每个样本被预测为目标和背景的分数；位置回归分支对目标候选区域进行微调。

在步骤S2-2锚框预测中，首先通过位置预测模块来预测哪些区域应该作为中心点来生成锚框，这是一个二分类问题。锚框位置预测分支通过N_L网络，使用1×1的卷积核与输入特征图F₁进行卷积得到特征图关于被检测目标的分数图，再通过sigmoid函数得到每一点的概率值，最后输出一个与输入特征图F1相同大小的概率图。概率图上点(i，j)表示该位置可能出现被检测目标的可能性，与原图I上位置((i+0.5)s，(j+0.5)s)相对应，其中s表示特征图的步幅，即相邻锚框之间的距离。根据概率图的结果，通过设置的阈值可以确定被检测目标可能存在的位置。然后通过形状预测模块对给定锚框的中心点学习最佳的高度h和宽度w，这是一个回归问题。通过分析发现，由于高度h和宽度w的取值范围较大，直接预测存在一定的难度，所以形状预测分支通过一个1×1×2的卷积网络N_S预测得到dh和dw，然后通过下式变换得到预测的高度h和宽度w：

h＝σ·s·e^dh (1)

w＝σ·s·e^dw (2)

式中s为步长，σ为经验系数，在本文的实验中设为8，该非线性变换将训练目标范围从约[0,1000]缩小到了[-1,1]。与以前每个位置预测一系列不同形状锚框的方法相比，该方法每个位置只预测一个动态变换的锚框，具有更高的召回率，并且对于极大或极小形状的物体能够更好地捕捉其信息。最后通过特征自适应模块解决不同形状锚框与特征图中感受野不匹配问题，将锚框的形状信息直接融入到特征图中，使得输出新的特征图F_i’中每个特征点都代表一个锚框信息。首先形状预测分支通过一个1×1的卷积得到其偏移量，然后再将该偏移量与原始特征图F_i通过一个3×3可变卷积结构网络NT得到新的特征图F_i’，并在新的特征图上进行接下来的操作。特征图上每个位置的变换如下：

F_i'＝N_T(F_i,w_i,h_i) (4)

本发明在致力于克服传统孪生RPN目标跟踪方法中产生大量冗余锚框的缺陷，提出了基于孪生导向锚框RPN网络的实时目标跟踪模型，该模型在目标跟踪中具有广泛的适用性，可以应用在多个方面，例如：

交通监控：实时接收交通数据来指挥交通流动

机器人视觉导航：有助于计算拍摄物体的运动轨迹

医学诊断：有助于对超声波和核磁共振检查结果更准确的分析

通过引入导向锚框网络，我们有望改变传统孪生RPN目标跟踪方法中跟踪速度慢、精度低的问题，使得跟踪效果：

速度更快

精度更高

同时，目标跟踪技术是计算机视觉中的一项重要任务，其任务是通过在视频的每一帧中定位目标，以生成目标运动的轨迹，并在每一时刻提供完整的目标区域，在军事和民用方面都有着十分广泛的应用。

本发明的具体实现使用的是深度学习框架PyTorch，实验环境为ubantu14.04操作系统，使用4块NVIDIA 1080Ti图形处理器(GPU)加速运算。以ResNe-50-FPN网络作为基准网络，在视频目标跟踪检测数据集ILSVRC上进行训练，该数据集包含有4500个视频序列并且有大约130万个人工标注的边界框，被广泛应用在视频跟踪领域。本文在三个具有挑战性并被广泛使用的视频基准库上进行测试实验，分别是：VOT2015、VOT2016和VOT2017，并与基准算法SiamFC和几个经典的算法进行比较实验。实验使用随机梯度下降法进行训练，其中设置动量系数为0.9，权重衰减系数为0.0005，学习率以指数衰减方式从10^-2到10^-5。为了验证本发明的有效性，分别在三个具有挑战性的视频跟踪基准数据集VOT2015、VOT2016和VOT2017上进行了测试跟踪实验，并与多种优秀算法进行了定量比较。

如图1为本发明在VOT2015数据集上实验的结果图。序列Gymnastics中目标发生频繁的旋转和尺度变换，从第178帧开始由于目标的快速旋转和前面跟踪误差的累积导致算法EBT、SRDCF和DeepSRDCF的跟踪框都出现了不同程度的漂移，其余算法均能正常跟踪。序列Octopus中的目标发生了尺度变化以及受到光照的影响，在第168帧目标发生尺度变化时，算法RAJSSC的表现较差，只跟踪到目标的一小部分；在第246帧和第286帧目标再一次发生尺度变化时，算法DeepSRDCF和EBT已不能正常跟踪。序列Tiger中目标发生频繁旋转、遮挡和尺度变化，在第97帧目标发生旋转时，算法RAJSSC的表现较差，只跟踪到目标的一小部分；在第184帧目标发生尺度变化时，算法EBT和SRDCF均无法适应目标的尺度变化，出现了轻微的漂移；在第357帧目标出现了大面积的遮挡，算法EBT、SRDCF和DeepSRDCF无法正常跟踪。

如图2为本发明在VOT2016数据集上实验的结果图。序列basketball序列中目标发生了快速移动、尺度变化和遮挡，在第12帧时目标发生了遮挡，算法MD·Net·N的表现较差，只跟踪到了目标的一小部分；在第41帧和第96帧时目标快速移动，算法CCTO和EBT出现了轻微的漂移，不能很好地跟踪目标。序列butterfly中目标发生的尺度变化和光照影响，在第35帧时目标发生了尺度变换，算法Staple的表现较差，只跟踪到目标的一小部分；在第100帧和第139帧时目标发生了尺度变换并受到光照的影响，由于前面误差的累积导致算法CCTO、EBT和MD·Net·N的跟踪框出现了漂移，不能很好地进行跟踪。

本发明与VOT2017上排名靠前的几个实时跟踪器进行比较，结果排名如下图3所示。本发明虽然增加了网络的复杂度，但是在进行实时跟踪时仍然表现出了较好的跟踪效果，虽然跟踪效果稍差于排名第一的SiamRPN，但与排名第三的CSRDCF++相比却提高了17％。这足以验证本文孪生导向锚框RPN网络能够很好地适应于基于孪生网络的跟踪器。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种孪生导向锚框RPN网络的实时目标跟踪方法，其特征在于，包括：

S2.将通过孪生网络提取得到的特征分别输入到导向RPN网络的目标分类分支和位置回归分支，得到对应的分数图；

2.如权利要求1所述的孪生导向锚框RPN网络的实时目标跟踪方法，其特征在于，其中步骤S2的具体流程为:

3.如权利要求1所述的孪生导向锚框RPN网络的实时目标跟踪方法，其特征在于，在步骤S2中，导向RPN网络中的目标分类分支用于区分目标和背景，该分支将会给出每个样本被预测为目标和背景的分数；位置回归分支对目标候选区域进行微调。

4.如权利要求1所述的孪生导向锚框RPN网络的实时目标跟踪方法，其特征在于，在步骤S2-2锚框预测中，首先预测哪些区域应该作为中心点来生成锚框，这是一个二分类问题；锚框位置预测分支通过N_L网络，使用1×1的卷积核与输入特征图F₁进行卷积得到特征图关于被检测目标的分数图，再通过sigmoid函数得到每一点的概率值，最后输出一个与输入特征图F₁相同大小的概率图；概率图上点(i，j)表示该位置可能出现被检测目标的可能性，与原图I上位置((i+0.5)s，(j+0.5)s)相对应，其中s表示特征图的步幅，即相邻锚框之间的距离；根据概率图的结果，通过设置的阈值可以确定被检测目标可能存在的位置；然后对给定锚框的中心点学习最佳的高度h和宽度w，这是一个回归问题；

h＝σ·s·e^dh (1)

w＝σ·s·e^dw (2)

式中s为步长，σ为经验系数；

5.如权利要求4所述的孪生导向锚框RPN网络的实时目标跟踪方法，其特征在于，该非线性变换将训练目标范围从约[0,1000]缩小到了[-1,1]。

6.如权利要求4所述的孪生导向锚框RPN网络的实时目标跟踪方法，其特征在于，经验系数取为8。

7.如权利要求4所述的孪生导向锚框RPN网络的实时目标跟踪方法，其特征在于，形状预测分支通过一个1×1的卷积得到其偏移量，然后再将该偏移量与原始特征图F_i通过一个3×3可变卷积结构网络NT得到新的特征图F_i’，并在新的特征图上进行接下来的操作；特征图上每个位置的变换如下：

F_i'＝N_T(F_i,w_i,h_i) (4)

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1到7任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1到7任一项所述方法的步骤。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1到7任一项所述的方法。