CN113379787B

CN113379787B - 基于3d卷积孪生神经网络和模板更新的目标跟踪方法

Info

Publication number: CN113379787B
Application number: CN202110656004.5A
Authority: CN
Inventors: 鲁晓锋; 王轩; 王正洋; 柏晓飞; 李小鹏; 李思训; 刘家铭; 邹振华; 黑新宏; 姬文江
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2023-04-07
Anticipated expiration: 2041-06-11
Also published as: CN113379787A

Abstract

本发明公开了一种基于3D卷积孪生神经网络和模板更新的目标跟踪方法，首先训练神经网络，由给定的初始目标位置在视频序列的第一帧图片上截取并传入神经网络生成目标模板；对于当前跟踪任务进行到的时刻t对应的视频序列图片，以时刻t‑1所得到跟踪结果为中心截取出不同尺寸的搜索区域，再以目标模板为卷积核对搜索区域进行卷积运算得到响应图；计算出响应图的APCE参数，生成t+1时刻的响应图；计算响应图的APCE参数判断是否保留，最终得到整个视频的跟踪结果，生成视频序列中每一帧图片中目标的位置信息，完成跟踪任务。本发明解决了现有技术中存在的对于跟踪中物体外表形变鲁棒性较差的问题。

Description

基于3D卷积孪生神经网络和模板更新的目标跟踪方法

技术领域

本发明属于基于视频的单目标跟踪技术领域，具体涉及一种基于3D卷积孪生神经网络和模板更新的目标跟踪方法。

背景技术

单目标跟踪是指，对于一组视频序列，指定出在第一帧时目标所在位置后，根据目标跟踪算法计算出该目标在后续帧中的位置的过程。单目标跟踪时计算机视觉领域的一个重要研究方向，它旨在使得计算机能够拥有人类对于目标的持续捕捉的能力。而以深度学习为基础的基于孪生神经网络的目标跟踪算法是当前的一个主流研究方向，其成果在科研领域与生活应用中都起到重要作用。

目标跟踪算法在日常生活中用途广泛，无论在智能监控、无人驾驶、交通监视、医学诊断等领域中都扮演着重要的角色。在军事上也发挥着如无人机视觉、精确制导、空中预警等重要作用。

近些年来，深度学习算法的发展迅猛，并且不断与各种新兴或传统领域进行融合，促进相互的发展。于是，深度学习与目标跟踪算法的结合也成为了近期的研究热点。其中基于孪生神经网络结构的算法是主流方向。通过使用第一帧给出的目标图像生成模板，对后续的图像进行卷积运算，结果中的最大值就是目标最可能所在的位置。这种类型的算法往往都具有均衡的性能，但其缺点是模板没有得到更新，无法适应外观不断发生变化的目标，从而造成目标的丢失。

发明内容

本发明的目的是提供一种基于3D卷积孪生神经网络和模板更新的目标跟踪方法，解决了现有技术中存在的对于跟踪中物体外表形变鲁棒性较差的问题。

本发明所采用的技术方案是，基于3D卷积孪生神经网络和模板更新的目标跟踪方法，具体按照以下步骤实施：

步骤1、训练神经网络，由给定的初始目标位置在视频序列的第一帧图片上截取并传入神经网络生成目标模板；

步骤2、对于当前跟踪任务进行到的时刻t对应的视频序列图片，以时刻t-1所得到跟踪结果为中心截取出不同尺寸的搜索区域，再以目标模板为卷积核对搜索区域进行卷积运算得到响应图；

步骤3、根据步骤2得到响应图，计算出响应图的APCE参数，如果达到阈值则说明跟踪效果较好，根据t时刻跟踪结果在t时刻对应视频序列中的图片上截取出目标图片，存入可靠集合V；

步骤4、如果可靠集合V存满，即长度为2，则将可靠集合V中保留的跟踪结果与步骤1中的初始目标模板共同传入3D孪生神经网络的模板分支得到混合了三帧目标信息的更新模板；

步骤5、使用混合后的更新模板对t+1时刻对应的视频序列中的图片继续跟踪任务，生成t+1时刻的响应图；

步骤6、再计算出步骤5得到的响应图的APCE参数判断是否保留，若保留则将可靠集合V中最老的图片进行替换，不断重复以上步骤直至跟踪结束，最终得到整个视频的跟踪结果，生成视频序列中每一帧图片中目标的位置信息，完成跟踪任务。

本发明的特点还在于，

步骤1采用3D卷积神经网络结构，3D卷积神经网络结构共分为五层，每层分别由卷积层和池化层组成，3D卷积神经网络结构的卷积核尺寸分别为：

第一层：1*11*11；

第二层：1*5*5；

第三层：1*3*3；

第四层：1*3*3；

第五层：3*3*3。

步骤1训练过程使用GOT-10K数据集，从一个视频序列中随机抽取8对图片，然后进行数据增强，具体过程如下：

步骤1.1、首先对训练集中选择出的样本进行随机拉伸RandomStretch操作，拉伸后的尺寸倍数设置为0.095～1.005之间，放大后需要填充的部分使用线性插值法填充；然后进行中心裁剪CenterCrop操作，即从训练图片对的中心处裁剪出尺寸为263*263的区域，如果图片不够大，填充部分使用线性插值法，填充后再进行裁剪；接着进行随机裁剪RandomCrop操作，从训练图片对中的随机位置裁剪出大小为255*255的区域，同样，如果原图片不够大则先使用线性插值法填充后再进行裁剪；最后进行裁剪转换，原始的GOT-10K数据集中图片的BOX，即目标位置框，以(left、top、weight、height)形式给出，也就是目标框距离图片左边框与上边框的距离和目标框本身的宽与高，通过裁剪转换操作将目标框坐标形式转化为(y、x、h、w)即中心点的坐标与目标框的高和宽；

步骤1.2、经过步骤1.1后训练图片成为最终的训练数据，这些训练数据对的尺寸为127*127*3与255*255*3，在随机采样时会选取一个随机帧加上其前一帧与该视频序列第一帧以此模拟实际跟踪时的情形，将这三张处理后的127*127*3的图片进行堆叠得到尺寸为3*3*255*255的输入数据，在传入神经网络后最终得到模板其尺寸为6*6*128；

步骤1.3、将对应的255*255*3的训练图片传入神经网络最终得到22*22*128的特征图，此时使用模板作为卷积核对该特征图进行卷积，最终得到尺寸为17*17*1的响应图；

步骤1.4、训练过程中的损失函数使用交叉熵损失，损失函数公式为：

l(y，v)＝log(1+exp(-yv))

其中，v代表最终响应图中每个像素点的实际取值，y代表该像素点的标签；

步骤1.5、在实际的训练过程中按照所有侯选位置的平均训练损失值计算损失其公式如下：

y[u]∈{+1，-1}表示对于每一个位置u∈D的实际标签，v[u]表示D中u的值，D就是网络输出的最后的分数图；

步骤1.6、计算出交叉熵损失后，使用梯度下降法进行参数优化，SGD方法的计算公式如下：

argmin_θE_(z，x，y)L(y，f(z，x；θ))以此可得到最优参数θ；

步骤1.7、经过50个训练周期和80000对训练图片的训练后孪生神经网络的最终训练损失值稳定在0.1以下，则训练过程结束；

在跟踪任务的开始时，需要进行目标模板的初始化，矩形框BOX包括目标的中心点坐标和宽高数据，根据矩形框BOX数据从视频序列第一帧图片中截取出尺寸为3x127x127的包含目标的图片传入3D卷积孪生神经网络，其输出尺寸为256x6x6的目标特征图，即模板，在初始化时将截取出的3x127x127的目标图片复制三份后传入3D卷积神经网络，模板生成的计算公式如下：

其中，z表示视频序列第一帧中按照矩形框BOX数据所截取出的目标图片，

表示3D孪生神经网络。

步骤2具体如下：

步骤2.1、无论在截取搜索区域时按照多大的具体尺寸，都统一在截取后将图片拉伸或缩小为尺寸为3x255x255的三张图片，由此得到较小尺寸、原尺寸、较大尺寸三张尺寸为3x255x255的图片x1、x2、x3；

步骤2.2、同步骤1，将x1、x2、x3各复制成3份传入3D卷积孪生神经网络得到搜索区域特征图X1、X2、X3，尺寸均为256x22x22；

步骤2.3、以当前的目标模板Z为卷积核对X1、X2、X3分别做卷积运算得到三张响应图，其尺寸均为1x17x17，其中选择响应值最大点所在的响应图为最终的响应图，选择响应值最大处坐标位置作为最终的跟踪结果，而跟踪目标的宽高变化取决于最终选择的是三种不同尺度变化的响应屠中的哪一张响应图，最终得到当前帧的跟踪结果BOX-t(x,y,w,h)与响应图Rt(1x17x17)。

步骤3采用APCE参数判断当前跟踪结果的可靠程度，具体如下：

步骤3.1、APCE的计算公式如下：

其中：

F_max表示响应图中的最大值

F_min表示响应图中的最小值

F_w,h表示响应图中对应像素点的值

步骤3.2、使用步骤2中得到的响应图Rt(1x17x17)计算出峰值检测APCE值，与设定好的阈值λ进行对比，如果大于设定好的阈值则认为当前第t帧的视频序列跟踪效果较好，利用步骤2中的另一个结果BOX在第t帧的视频序列图像上截取出目标的图片，其尺寸为3x127x127，并加入集合V，若集合V中已有2张存放的目标图片，则将其中较老的图片替换；若响应图Rt计算出的峰值检测APCE值小于阈值，则认为此次跟踪结果的质量较低不能用来进行模板更新，但仍将此次跟踪生成的BOX作为跟踪结果返回。

步骤4具体如下：

在跟踪任务的进行中，每当视频序列的最新一帧图片依据步骤1～3计算完毕后就判断可靠集合V是否已经存满，即长度为2，若集合存满则进行模板更新流程，即将视频序列第一帧图片在步骤1中截取出的目标图片t0和可靠集合V中的目标图片t1、t2在堆叠后形成尺寸为3*3*127*127的输入向量，传入3D孪生神经网络，得到的输出是尺寸为256*6*6的更新后模板Zt+1。

步骤5具体如下：

假设在视频序列的第t帧完成跟踪时，满足了进行模板更新的条件，并按步骤4进行了模板更新生成新模板Zt+1，则对于视频序列的t+1帧，整体的跟踪流程仍然按照步骤1～3进行，但模板使用Zt+1，在得到第t+1帧的跟踪结果后，按照步骤4进行是否更新的判断。

本发明的有益效果是，一种基于3D卷积孪生神经网络和模板更新的目标跟踪方法，使用3D卷积神经网络融合前两次较好的跟踪结果和视频序列第一帧给出的真实值来生成最终模板，既能捕获到目标近期的外观信息也能拥有第一帧时最准确的目标外观信息，因此提高了模板对于目标外观形变的鲁棒性，提高了目标跟踪算法的性能，而利用APCE来判断是否保留跟踪结果的模板更新方法也为模板融合提供了较好的图像信息大大改善了跟踪算法的准确率。

附图说明

图1为本发明基于3D卷积孪生神经网络和模板更新的目标跟踪方法的初始化跟踪流程图；

图2为本发明基于3D卷积孪生神经网络和模板更新的目标跟踪方法的正常跟踪流程图；

图3为本发明基于3D卷积孪生神经网络和模板更新的目标跟踪方法的孪生神经网络网络结构图；

图4为本发明基于3D卷积孪生神经网络和模板更新的目标跟踪方法的模板更新方法流程图；

图5为本发明基于3D卷积孪生神经网络和模板更新的目标跟踪方法的多尺度跟踪流程图；

图6为本发明基于3D卷积孪生神经网络和模板更新的目标跟踪方法的训练过程中Label示意图；

图7为本发明基于3D卷积孪生神经网络和模板更新的目标跟踪方法的跟踪准确度变化示意图；

图8为本发明基于3D卷积孪生神经网络和模板更新的目标跟踪方法的跟踪成功率曲线示意图；

图9为本发明基于3D卷积孪生神经网络和模板更新的目标跟踪方法的困难情景下跟踪效果示意图，其中，图9(a)为视频中某一时刻t的跟踪效果展示图、图9(b)为视频序列t+1时刻的跟踪效果展示图、图9(c)为视频序列t+2时刻的跟踪效果展示图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于3D卷积孪生神经网络和模板更新的目标跟踪方法，历程图如图1所示，具体按照以下步骤实施：

步骤1采用3D卷积神经网络结构，3D卷积神经网络结构共分为五层，每层分别由卷积层和池化层组成，其作用分别为提取特征与降低维度。做为孪生神经网络，使用其实现跟踪的基本原理是训练网络使其能够辨别出相似目标。3D卷积神经网络结构的卷积核尺寸分别为：

第一层：1*11*11；

第二层：1*5*5；

第三层：1*3*3；

第四层：1*3*3；

第五层：3*3*3。

步骤1.4、在训练过程中，无论是搜索区域图片SearchImage还是模板图片ExemplarImage都是以目标为中心的，因此在计算损失时以响应图中心点作为中心的矩形内部属于目标，而矩形外部则不属于目标，Label具体见附图6。训练过程中的损失函数使用交叉熵损失，损失函数公式为：

l(y，v)＝log(1+exp(-yv))

步骤1.6、计算出交叉熵损失后，使用梯度下降法进行参数优化，其主要参数选择如下表：

SGD方法的计算公式如下：

argmin_θE_(z，x，y)L(y，f(z，x；θ))

以此可得到最优参数θ；

步骤1.7、经过50个训练周期和80000对训练图片的训练后孪生神经网络的最终训练损失值稳定在0.1以下，则训练过程结束。网络的整体框架见附图3.

在跟踪任务的开始时，需要进行目标模板的初始化，当要进行一次视频跟踪任务时，待跟踪目标会在视频序列的第一帧图片中用矩形框BOX标注出来，矩形框BOX包括目标的中心点坐标和宽高数据，根据矩形框BOX数据从视频序列第一帧图片中截取出尺寸为3x127x127的包含目标的图片传入3D卷积孪生神经网络，其输出尺寸为256x6x6的目标特征图，即模板，由于3D卷积孪生神经网络的输入值设定为三张3x127x127的图片，以达到捕捉时间序列信息的目的。因此，在初始化时将截取出的3x127x127的目标图片复制三份后传入3D卷积神经网络，以保证满足尺寸的要求。模板生成的计算公式如下：

表示3D孪生神经网络，模板初始化的流程图见附图1。

步骤2具体如下：

在步骤1中得到了此次跟踪任务的初始目标模板Z，并且由于跟踪任务中给出的BOX中含有目标在第一帧时的所有位置信息，第一帧已不需要在进行跟踪计算，直接对视频序列的第二帧进行跟踪运算。在视频序列的第二帧图像上根据上一帧，也就是第一帧的目标位置信息截取出三种不同大小尺寸的图片，称之为搜索区域，对于多尺度，目标在跟踪过程中与镜头的距离在不断变化之中，因此图像上的目标外观的大小也在不断变化，而多尺度方法在生成搜索区域图片时根据多尺度参数截取出三张不同尺寸的搜索区域图传入网络中，然后计算得出三张对应着不同尺寸的响应图，对于小尺寸和大尺寸的响应图还要对其施加惩罚项保证尺度变化的稳定。最终选择其中响应值最大的像素点所属的那张图作为最终响应图。

多尺度方法参数如下：

多尺度计算的流程图见附图5。

步骤2.2、同步骤1，由于3D卷积孪生神经网络对输入尺寸的要求，将x1、x2、x3各复制成3份传入3D卷积孪生神经网络得到搜索区域特征图X1、X2、X3，尺寸均为256x22x22；

步骤3.1、APCE的计算公式如下：

其中：

F_max表示响应图中的最大值

F_min表示响应图中的最小值

F_w,h表示响应图中对应像素点的值

峰值检测APCE可以反映出响应图的震荡程度，一旦APCE突然出现了骤降的情形说明目标可能出现了遮挡或丢失的情况，在这种情形下如果任然选择将跟踪的结果用来生成模板就会引入造成误差的背景信息，因此当APCE小于设定的阈值时就不会被选择用来更新模板，只用APCE的值以一定的比例大于历史值时才会被用来更新。APCE流程见附图4。

步骤4具体如下：

在跟踪任务的进行中，每当视频序列的最新一帧图片依据步骤1～3计算完毕后就判断可靠集合V是否已经存满，即长度为2，若集合存满则进行模板更新流程，即将视频序列第一帧图片在步骤1中截取出的目标图片t0和可靠集合V中的目标图片t1、t2在堆叠后形成尺寸为3*3*127*127的输入向量，传入3D孪生神经网络，得到的输出是尺寸为256*6*6的更新后模板Zt+1。步骤4的具体工作流程见附图2。

步骤5具体如下：

步骤6具体如下：

步骤1～5描述了跟踪任务如何初始化，以及对于整个视频序列中某一帧t的跟踪与模板更新流程，而对于整体的跟踪任务来说，便是在按照步骤1进行初始化后，不断地重复步骤2～5，直到跟踪任务的结束，也就是完成了对视频序列中每一帧的跟踪运算。由于每一帧的跟踪计算都会输出一个BOX，它在图片上展示出来就是一个矩形框，尽可能的将需要跟踪的目标沿着轮廓包含。其中跟踪的具体效果见附图9(a)～图9(c)。对于该算法我们在常用的视频跟踪算法测试集上进行了测试，结果见附图7、8。两图分别表示跟踪算法的精准率和成功率，其中精确率表示跟踪算法计算出的目标中心位置与人工标注的真实中心位置的距离差，成功率表示跟踪算法给出的BOX生成的矩形框中与人工标注的矩形框中重叠的像素的比率。

本发明是一种基于3D卷积孪生神经网络和模板更新的目标跟踪方法，能够在长时间跟踪目标是适应目标的外观变化，以及对于短时间遮挡和快速形变的鲁棒性。首先使用类似于SiamFC方法的初始模板对目标进行跟踪，然后使用APCE方法判断跟踪结果的可靠性，将效果较好的结果用于生成后续的模板。并且使用了3D卷积神经网络，提取出了时间序列上的目标特征，提高了方法的鲁棒性。本方法结构清晰简洁，具有良好的性能和运行速度，有助于提高目标跟踪项目的效果。

Claims

1.基于3D卷积孪生神经网络和模板更新的目标跟踪方法，其特征在于，具体按照以下步骤实施：

2.根据权利要求1所述的基于3D卷积孪生神经网络和模板更新的目标跟踪方法，其特征在于，所述步骤1采用3D卷积神经网络结构，3D卷积神经网络结构共分为五层，每层分别由卷积层和池化层组成，3D卷积神经网络结构的卷积核尺寸分别为：

第一层：1*11*11；

第二层：1*5*5；

第三层：1*3*3；

第四层：1*3*3；

第五层：3*3*3。

3.根据权利要求2所述的基于3D卷积孪生神经网络和模板更新的目标跟踪方法，其特征在于，所述步骤1训练过程使用GOT-10K数据集，从一个视频序列中随机抽取8对图片，然后进行数据增强，具体过程如下：

l(y，v)＝log(1+exp(-yv))

argmin_θE_(z，x，y)L(y，f(z，x；θ))

以此可得到最优参数θ；

表示3D孪生神经网络。

4.根据权利要求3所述的基于3D卷积孪生神经网络和模板更新的目标跟踪方法，其特征在于，所述步骤2具体如下：

5.根据权利要求4所述的基于3D卷积孪生神经网络和模板更新的目标跟踪方法，其特征在于，所述步骤3采用APCE参数判断当前跟踪结果的可靠程度，具体如下：

步骤3.1、APCE的计算公式如下：

其中：

F_max表示响应图中的最大值

F_min表示响应图中的最小值

F_w,h表示响应图中对应像素点的值

6.根据权利要求5所述的基于3D卷积孪生神经网络和模板更新的目标跟踪方法，其特征在于，所述步骤4具体如下：

7.根据权利要求6所述的基于3D卷积孪生神经网络和模板更新的目标跟踪方法，其特征在于，所述步骤5具体如下：