CN110807793B

CN110807793B - 一种基于孪生网络的目标跟踪方法

Info

Publication number: CN110807793B
Application number: CN201910930500.8A
Authority: CN
Inventors: 申富饶; 姜少魁; 李俊; 赵健
Original assignee: Nanjing Heguang Intelligent Manufacturing Research Institute Co ltd; Nanjing University
Current assignee: Nanjing Heguang Intelligent Manufacturing Research Institute Co ltd; Nanjing University
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2022-04-22
Anticipated expiration: 2039-09-29
Also published as: CN110807793A

Abstract

本发明提供了一种基于孪生网络的目标跟踪方法，包括：步骤1，读入要跟踪的图像序列或者视频的第一帧，并通过框选的方式指定所要跟踪的目标的位置；步骤2：记录跟踪目标的位置，并将目标的RGB图像输入网络，得到特征图；步骤3：读入图像序列或者视频的下一帧，选择上一帧目标位置周围的部分图像输入网络，得到特征图；步骤四：将两张特征图进行卷积操作，获得新的特征图；步骤五：在新的特征图上用小卷积核进行卷积，得到更抽象的特征图；步骤六：将最后的特征图经过全连接层，输出目标在当前帧的坐标与图像中心的偏移量以及宽高比；步骤七：根据步骤六的输出，在当前帧画出目标的位置。

Description

一种基于孪生网络的目标跟踪方法

技术领域

本发明涉及一种基于孪生网络的目标跟踪方法。

背景技术

目标跟踪(Object Tracking)技术旨在通过计算机视觉在连续的图片序列或者视频中确定目标的位置。目标跟踪可以将不同帧联系起来，从而更加充分地利用视频或者图片序列的信息。不同于目标检测(object detection)，目标跟踪得到不仅仅是目标当前所在的位置，还可以分析出目标的运动以及移动轨迹，这也使得目标跟踪具有非常重要的研究价值。目标跟踪可以应用在无人驾驶当中，分析车辆或者行人的运动，通过预测轨迹判断是否存在安全隐患；以及监控人流密度大的区域，通过分析行人的行走路径判断是否有可疑人员等等。另外，在单目标跟踪中，可以通过模板更加快速地得到目标在当前帧的位置，还可以在目标检测失效的时候发生作用，找到目标的位置。

目前，单目标跟踪方法分为滤波类方法、检测与跟踪相结合的方法、深度学习方法三类。其中滤波类的方法主要是依靠引入了快速傅里叶变换，从而使算法有了很大提升；检测和跟踪相结合的方法则是利用了目标检测的结果于跟踪结果进行融合；深度学习方法主要是利用卷积神经网络，通过回归目标的位置，得到理想的结果。

滤波类的方法起源于信号处理领域，传统的滤波类方法例如粒子滤波，由于资源开销大没有被广泛使用，但是滤波的思想开始应用在目标跟踪上。随着时间的推移，相关滤波开始进入研究者的视线，最早的可用于目标跟踪的相关滤波算法是MOSSE，后来又在MOSSE的基础上引入了更多性能更好的算法。其中最先满足实时性的是CSK算法，通过使用高斯核计算两帧之间的相关性，得到响应最大的值作为目标在当前帧的中心点。在此基础之上，又有研究者加入了多颜色通道特征，KCF算法诞生了，KCF算法凭借相对较高的准确度以及较快的速度让研究者们看到了目标跟踪算法的希望。最近几年出现的ECO、UPDT算法等仍然在满足实时性的同时保持着较高准确度。参考文献：Bolme,David.Beveridge,J.Drapper,Bruce and Lui Yui.Visual Object Tracking using Adaptive CorrelatioFilters.CVPR,2010。

检测与跟踪相结合方法的典范便是TLD，该算法提出之时确实引起了不小轰动，结合了检测结果的跟踪效果确实不错。但同时这种方法也引来了较大争议，跟踪本应该是用来弥补检测的不足，而在跟踪中引入检测的结果，有些背离目标跟踪任务的初衷。参考文献：Zdenek Kalal,Krystian Mikolajczyk,and Jiri Matas,Tracking-Learning-Detection.IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,VOL.6,NO.1,JANUARY 2010。

现在主流的目标跟踪算法除了滤波类方法就是深度学习方法。深度学习近几年的崛起，让研究人员看到了它无穷的可能性，目标跟踪自然也不例外。最近比较火的Siamese系列则是一个很好的例子，端对端的设计可以大大降低使用难度。可惜美中不足的是，随着准确度越来越高，网络的层数和结构也愈加复杂起来，速度中等。在一些配置不高的环境下难以达到令人满意的效果。参考文献：Bo Li，Wei Wu，Qiang Wang，Fangyi Zhang，JunliangXing，Junjie Yan.SiamRPN++:Evolution of Siamese Visual Tracking with Very DeepNetworks.CVPR2019。

通过上述分析可以发现，传统滤波类方法技巧性较强，需要设计者有较高的数学功底，滤波类方法模板设计困难且繁琐，而深度学习则可以通过神经网络提取深度特征，大大提高跟踪效果。当前目标跟踪并没有发挥深度学习最好的效果，也就是在保持准确度的同时，速度也应该能够足够快。深度学习领域的跟踪发展方向不应该是过度追求准确度而牺牲速度，而是应该在保证速度的同时不损失较多的准确度。

发明内容

发明目的：滤波类单目标跟踪方法设计特征困难，技巧性强，很难达到较好的跟踪效果；结合检测的方法有违目标跟踪任务的初衷，加上检测方法的深网络会使跟踪速度更加缓慢；而主流的使用深度学习的网络大多用到了较深的网络提取图片特征，并且使用借鉴了目标检测的多个锚点用来回归目标的位置，速度和传统方法相比仍然有很大差距，没有将深度特征的优势完全发挥出来。

为了解决上述问题，本发明公开了一种基于孪生网络的和无锚点的单目标跟踪方法，该方法可以在保证不大幅度降低跟踪的效果下，明显提高跟踪的效率，并且在该方法在硬件环境不理想的情况下也能保证快速地运行。该方法可以使用在任何单目标跟踪的场景，包括如下步骤：

步骤1，使用ImageNetVID、GOT数据集生成训练集和验证集；

步骤2，使用步骤1生成的训练集和验证集训练网络N，所述网络N包括特征提取网络N₁、卷积核K₁、K₂、K₃以及全连接层C₁；

步骤3，读入即将跟踪的图像序列或者视频的第一帧F₁，并通过手动框选的方式指定所要跟踪的目标的位置L₁；

步骤4：记录跟踪目标在第一帧的位置L₁，并裁取视频的第一帧F₁中L₁位置的图像I₁，将其输入特征提取网络N₁，得到特征图M₁；

步骤5：读入图像序列或者视频的下一帧F₂，在上一帧的图像I₁中选择目标位置周围的图像X输入特征提取网络M，得到特征图M₂；

步骤6：将特征图M₁和特征图M₂分别使用卷积核K₁、K₂进行卷积，得到特征图M₃、M₄；

步骤7：将两张特征图M₃、M₄进行卷积操作，得到新的特征图M₅；

步骤8：在新的特征图M₅上用卷积核K₃进行卷积，得到更高抽象级别的特征图M₆；

步骤9：将最后的特征图M₆通过全连接层C₁，输出结果；

步骤10：根据步骤9的输出结果，在当前帧画出目标的位置(比如可以用opencv的函数)；

步骤11：重复步骤4至步骤10，直至处理完成整个视频或者图片序列。

本发明中，步骤1包括如下步骤：

步骤1-1：在当前长度为p的视频或者图片序列中随机选择n帧F₁，F₂...F_n，F_n表示第n帧的视频或者图片；

步骤1-2，对于步骤1-1中挑选的每一帧F_i，i取值为1～n，随机选择k_m帧

p＞k_j＞i；

步骤1-3，对于步骤1-2帧中的每一帧

在当前帧附近随机范围内选取区域，作为要寻找的范围x，对应的F_i中目标所在区域作为要跟踪的目标template；

步骤1-4：对两个数据集ImageNetVID、GOT分别执行步骤1-1到步骤1-3，数据集ImageNetVID中的图像执行完后得到的结果作为训练集，数据集GOT中的图像执行完后得到的结果作为验证集。

本发明中，步骤2包括如下步骤：

步骤2-1：将训练集中的数据划分为K(K建议取64或者128)个一组，每组训练数据包括要跟踪的目标template、要寻找的范围x以及目标位置L；

步骤2-2：将每一组数据对应的要跟踪的目标template和要寻找的范围x传入网络N中，计算得到网络输出O；

步骤2-3：计算输出O与目标位置的L1loss，L1loss表示预测值与真实值的绝对误差平均值，并通过反向传播算法更新网络N的参数，其中，每一组训练数据的L1loss计算公式为：

其中，1＜＝i＜＝K，1＜＝j＜＝4，L_ij表示第i个数据的目标位置(j代表第j个分量)，O_ij代表第i个数据对应的网络输出(j代表第j个分量)。

反向传播算法参考：

Rumelhart，David E.；Hinton，Geoffrey E.；Williams，Ronald J.(8 October1986).″Learning representations by back-propagating errors″.Nature.323(6088)：533-536.

步骤2-4：循环2-1至2-3，直至训练集中的数据均训练完成。

本发明中，步骤4中，目标的图像I₁是RGB(红绿蓝)三通道图片，并且不会经过任何其他图片处理。

本发明中，步骤4和步骤5中，所述特征提取网络N₁包括4个连续的卷积池化层，每个卷积池化层由一个大小为3*3的卷积核与大小与2的最大池化层组成。

本发明中，步骤5中，图像X并非I₁的全部内容，而是位于目标位置L₁，和完整的图像I₁之间所有可能的位置。

本发明中，步骤6中，卷积核K₁、K₂均为128通道大小为3*3的小卷积核。

本发明中，步骤7中，两张特征图M₁和M₂直接进行卷积操作，得到的新特征图M₃只有一层。

本发明中，步骤8中，K₃是通道为1大小为3*3的小型卷积核。

本发明中，步骤9中，设定网络N的输出结果为O₁、O₂、O₃、O₄，则当前帧中目标的位置target_x、target_y、target_w、target_h计算公式为：

target_x＝O₁*w+center_x/2，

target_y＝O₂*w+center_y/2，

target_w＝w*0₃，

targe_h＝h*O₄，

其中，target_x表示目标左上角在当前帧的x轴坐标，target_y表示目标左上角在当前帧的y轴坐标，target_w表示目标宽度target_w，target_h表示目标高度，w表示图像X的宽度，h表示图像X的高度。

有益效果：本发明提出的这种端到端的方法，充分发挥了深度特征的优点，能够比较准确地跟踪到目标，并且由于网络本身结构比较简单，效率也比较高，在普通配置的笔记本上也能达到20+fps的效果，速度远远超过现在主流的跟踪算法。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1为本发明从数据集中生成测试集和验证集的示意图。

图2为本发明图像X经过特征提取网络的示意图。

图3为本发明模板template经过特征提取网络的示意图。

图4是本发明实现目标跟踪的总体流程图。

图5a是本发明步骤3中在第一帧中选定目标的示意图。

图5b是本发明运行在该图片序列上某一帧的跟踪结果。

具体实施方式

图1是本发明方法的流程图，包括如下11个步骤：

步骤1，使用ImageNetVID、GOT数据集生成训练集和验证集，生成方式如图1所示，某一帧的目标作为模板(图1左方)，另一帧目标附近的范围作为目标跟踪的作用区域(图1右方)；

步骤2，使用步骤1生成的训练集和验证集训练网络N(如图4所示)，所述网络N包括特征提取网络N₁、卷积核K₁、K₂、K₃以及全连接层C₁；

步骤3，读入即将跟踪的图像序列或者视频的第一帧F₁，并通过框选的方式指定所要跟踪的目标的位置L₁，见图5a；

步骤4：记录跟踪目标在第一帧的位置L₁，并将图像中L₁位置的图像I₁输入特征提取网络N₁，得到特征图M₁，图2为图像进过特征提取网络最终生成特征图的过程；

步骤5：读入图像序列或者视频的下一帧F₂，在上一帧的图像I₁中选择目标位置周围的图像X输入特征提取网络N₁，得到特征图M₂，图3为图像进过特征提取网络最终生成特征图的过程；

步骤6：将特征图M₁和特征图M₂分别使用卷积核K₁、K₂进行卷积，得到特征图M₃、M₄，即图4左边部分；

步骤7：将两张特征图M₃、M₄进行卷积操作(图d中*所指)，得到新的特征图M₅；

步骤8：在新的特征图M₅上用卷积核K₃进行卷积，得到更高抽象级别的特征图M₆，见图d右方；

步骤9：将最后的特征图M₆通过全连接层C₁，输出四个值，分别为：目标左上角在当前帧的x轴坐标target_x和图像X中心x轴坐标center_x偏移量与X宽度的比例O₁、目标左上角在当前帧的y轴坐标target_y和图像X中心y轴坐标center_y偏移量与x高度的比例O₂、目标高度target_h与图像X高度h之比O₃以及输出目标宽度target_w与图像X宽度w之比O₄；

步骤10：根据步骤9的输出，在当前帧画出目标的位置，如图4下方和图5b所示；

实施例

为了验证本发明方法的有效性，实际采集了包括不同光照、场景的视频和图片序列进行实例验证，对每帧的图像进行处理，跟踪得到每帧目标的位置。本实施例现以VOT2015数据集中的一个图片序列为例，按照以下步骤进行追踪：

1、使用ImageNetVID、GOT数据集生成训练集和验证集；

2、使用生成的训练集和验证集训练特征提取网络N₁，卷积核K₁、K₂、K₃以及全连接层C₁；

3、读入该序列的第一帧，并通过框选的方式指定所要跟踪的目标的位置L₁，如图5a所示；

4、记录跟踪目标在第一帧的位置L₁，并将图像中L₁位置的图像I₁输入特征提取网络N₁，得到特征图M₁；

5、读入该序列的下一帧F₂，在上一帧的图像I₁中选择目标位置周围的图像X输入特征提取网络N₁，得到特征图M₂；

6、将特征图M₁和特征图M₂分别使用卷积核K₁、K₂进行卷积，得到特征图M₃、M₄；

7、将两张特征图M₃、M₄进行卷积操作，得到新的特征图M₅；

8、在新的特征图M₅上用卷积核K₃进行卷积，得到更高抽象级别的特征图M₆；

9、将最后的特征图M₆通过全连接层C₁，输出四个值，分别为O₁、O₂、O₃、O₄；

10、计算当前帧中目标的位置target_x、target_y、target_w、target_h，并显示在当前帧上，如图5b所示；

11、重复上述过程，直至处理完成整个图片序列。

本发明提供了一种基于孪生网络的目标跟踪方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。