CN109543559B

CN109543559B - 基于孪生网络和动作选择机制的目标跟踪方法及系统

Info

Publication number: CN109543559B
Application number: CN201811286172.4A
Authority: CN
Inventors: 张毅锋; 张卓翼
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2021-12-28
Anticipated expiration: 2038-10-31
Also published as: CN109543559A

Abstract

本发明公开了一种基于孪生网络和动作选择机制的目标跟踪方法。该方法以孪生网络为框架，首先利用大量外部视频数据训练网络权重；训练完成后，在任意一段视频中，指定任一跟踪目标的情况下采集候选区域，输入到该孪生网络，将得到的候选区域的特征中根据动作选择机制选择与跟踪目标最相似的特征后，以矩形框的方式将其映射回原图的位置，作为当前帧的跟踪结果，最终得到的矩形框可以是任意长宽比和尺寸。本发明还提出了基于孪生网络和动作选择机制的目标跟踪系统，与传统的方法相比，本发明利用训练好的孪生网络，结合不同层的输出，能够通过匹配目标不同层次的特征，使得对目标的外观变化有更强的鲁棒性，同时本发明具有实时性、精度高等优点。

Description

基于孪生网络和动作选择机制的目标跟踪方法及系统

技术领域

本发明涉及一种目标跟踪方法及系统，属于图像处理、计算机视觉、深度学习技术领域。

背景技术

目标跟踪通常指单目标跟踪，其任务是在一段视频中的某一帧中指定一个被跟踪的目标，在之后帧中推断出该目标的位置。目标跟踪是计算机视觉的经典问题之一，在安防监控、无人驾驶、人机交互等方面有很大的应用场景。跟踪的难点在于，我们掌握的被跟踪目标的信息过少，当目标外观发生变化，或者受到光照、遮挡、运动模糊等因素的干扰时，很容易丢失目标。

传统的目标跟踪方法鲁棒性不高，对目标外观变化的适应性也不够强。基于深度学习的目标跟踪方法在很多方面弥补了传统方法上的不足，它能够在语义层面对目标进行描述，从而对目标的外观变化具有很强的鲁棒性。经典的基于深度学习的方法在目标跟踪领域表现较好的包括MDNet、SINT、SiamFC等，但它们通常不能在精确描述目标位置和跟踪速度上达到很好的权衡，在目标发生形变时不能有效地推断出其准确的位置，从而影响了跟踪的准确度。

发明内容

本发明所要解决的技术问题是：为了克服现有技术的缺点和不足，本发明提供了一种新的孪生网络结构，在此基础上执行针对特征的动作选择机制，从而使得目标的位置更加准确。

为解决以上技术问题，本发明采用的技术方案为：

本发明首先提出一种基于孪生网络和动作选择机制的目标跟踪方法，该方法包括以下步骤：

1)、数据预处理步骤：从一段视频中随机选择包含同一个目标的两帧图像，对这两帧图像，分别裁剪出目标和以目标为中心进行裁剪；

2)、基于孪生网络构建匹配函数，包括如下子步骤：

2.1)、设计孪生网络的网络结构；

2.2)、构建训练样本，从训练集中随机抽取成对的图片，作为孪生网络两个分支的输入；

2.3)、设计误差函数进行反向传播，优化网络的参数，直至收敛；

3)、在视频中进行目标跟踪：基于训练好的孪生网络，将要跟踪的目标区域裁剪出来输入进孪生网络的一支，另一支输入当前帧的候选区域，通过动作选择机制采集候选样本，比较后得到目标在当前帧的位置。

进一步的，本发明所提出的方法中，数据预处理步骤具体如下：

在训练集的每一段视频中，按照不同间隔两两配对，每对图片中，一张图片按照标记的目标框裁剪图像，作为目标图像z，另一张图片以标记的目标框为中心，裁剪出两倍大小的图像作为搜索区域图像x。

进一步的，本发明所提出的方法中，在步骤2.1)所述设计孪生网络的网络结构，具体为：

1)、基于VGG19网络，去掉所有全连接层和最后两个池化层。

2)、在conv3层后添加1×1的卷积层，用来将通道数调整到与conv5层的输出相同。将二者输出的平均值作为输出的卷积特征。将这种从输入图片得到其卷积特征的映射关系定义为f。

3)、在网络最后添加Roi池化层。

进一步的，本发明所提出的方法中，在步骤2.2)所述构建训练样本中，步骤为：

首先，将一对图片中的目标图片z输入进孪生网络中的一路，在Roi层之前得到表示目标的卷积特征图f(z)。

其次，将一堆图片中的搜索区域片x输入进孪生网络中的另一路，在Roi层之前得到表示搜索区域的卷积特征图f(x)。

进一步的，在搜索区域的卷积特征图中，采集代表正例和反例的卷积特征，采集方法为：在搜索区域的卷积特征图的中心，采集与目标区域卷积特征图尺寸相同的区域作为参考，与其重合率超过0.7的视为正例，小于0.5的视为反例，正例和反例各采集64个。

进一步的，本发明所提出的方法中，步骤2.3)设计误差函数进行反向传播，优化网络的参数，直至收敛。具体为：使用Triplet Loss，将目标的卷积特征图、正例的卷积特征图和反例的卷积特征图作为一个三元组。然后，使用随机梯度算法针对误差进行反向传播，优化网络参数，直至误差收敛。经过训练后可以使目标与正例之间的欧氏距离更近，与反例之间的欧氏距离更远。目标与样本间的欧氏距离为：

将要构建的匹配函数定义为g，则该函数g(z,x_i)可以反映候选样本与目标的相似程度，其中x_i是从搜索区域x中提取出的候选样本。构建出的匹配函数为：

g(z,x_i)＝d(f(z)f(x_i))

其中，f(x_i)为采集到的候选样本的卷积特征图。

进一步的，本发明所提出的方法中，在视频中进行目标跟踪步骤具体如下：

1)、在一段视频中，对于在某一帧中指定的目标，将其从图片中裁剪出来，输入进训练好的孪生网络的一路，得到其卷积特征图。

2)、在随后帧中，以前一帧推断出的目标位置为中心，在当前帧中裁剪出两倍于目标大小的区域作为搜索区域。将搜索区域输入进训练好的孪生网络的另一路，得到其卷积特征图。

3)、在搜索区域的卷积特征图上，执行动作选择机制的采样方法，步骤为：

A、在搜索区域的卷积特征图的中心采集与目标卷积特征图尺寸相同的卷积特征图作为候选特征，将此时的位置作为候选特征框执行动作选择的起点。

B、定义初始动作集合，共包含九个动作：静止、上、下、左、右、增加长、减小长、增加宽、减小宽。其中，上、下、左、右为候选特征框在候选区域的卷积特征图上向各个方向移动一个像素，长和宽的变化为框的两端各变化一个像素。

C、候选特征框在当前位置上执行当前动作集合中的N个动作：得到N个新的特征，将它们输入进Roi层，得到与目标特征图相同的尺寸，根据匹配函数比较N个新的特征与目标特征的相似度，将最相似的特征作为候选特征，即：

其中，

是在第t帧的第i个候选样本,g是学习到的匹配函数。将此时的位置作为下一步的起点。

D、过滤动作集合。将与上一步执行的动作相反的动作从动作集合中过滤除去，例如，执行了上，将动作下过滤除去。

E、执行剩余的动作集合中的动作，选择最优动作。

F、重复步骤C、D、E。当执行到动作静止或者执行的步数到达预设阈值(比如达到15)，则停止执行动作，将当前候选特征框在搜索区域卷积特征图上的位置映射到原图上，得到此帧的跟踪结果。

本发明还提出一种基于孪生网络和动作选择机制的目标跟踪系统，包括：

数据预处理单元，用于从一段视频中随机选择包含同一个目标的两帧图像，对于这两帧图像分别裁剪出目标和以目标为中心进行裁剪；

孪生网络训练单元，用于基于孪生网络构建匹配函数，训练设计好的孪生网络，被配置以执行以下步骤：

1)、设计孪生网络的网络结构；

2)、构建训练样本，从训练集中随机抽取成对的图片，作为孪生网络两个分支的输入；

3)、设计误差函数进行反向传播，优化网络的参数，直至收敛；

视频目标跟踪单元，被配置以执行以下动作：基于训练好的孪生网络，将要跟踪的目标区域裁剪出来输入进孪生网络的一支，另一支输入当前帧的候选区域，通过动作选择机制采集候选样本，比较后得到目标在当前帧的位置。

本发明相比现有技术，具有以下有益效果：

本发明提出的基于孪生网络和动作选择机制的目标跟踪方法可以用来在任意视频中跟踪单个任意的目标。与传统的方法相比，本发明利用训练好的孪生网络，结合不同层的输出，能够通过匹配目标不同层次的特征，使得对目标的外观变化有更强的鲁棒性。同时，本发明对传统采样方法做出改进，利用动作选择机制大大提高采样效率，并且跟踪得到的目标框更加准确，同时也能保证跟踪的实时性。

附图说明

图1是本发明所提出的基于孪生网络和动作选择机制的目标跟踪方法示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例和说明书附图1对本发明的技术方案进行清楚、完整的描述，显然，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本发明首先提出一种基于孪生网络和动作选择机制的目标跟踪方法，参考图1所示，该方法包括以下步骤：

1)、数据预处理步骤：从一段视频中随机选择包含同一个目标的两帧，分别裁剪出目标和以目标为中心进行裁剪；

2)、基于孪生网络构建匹配函数，包括如下子步骤：

2.1)、设计孪生网络的网络结构；

1)、基于VGG19网络，去掉所有全连接层和最后两个池化层。

3)、在网络最后添加Roi池化层。

进一步的，在搜索区域的卷积特征图中，采集代表正例和反例的卷积特征，采集方法为：在搜索区域的卷积特征图的中心，采集与目标区域卷积特征图尺寸相同的区域作为参考，与其重合率超过0.7的视为正例，小于0.5的视为反例，正例和反例各采集64个。采集到的候选样本的卷积特征图为f(x_i)。

进一步的，本发明所提出的方法中，步骤2.3)设计误差函数进行反向传播，优化网络的参数，直至收敛。具体为：使用Triplet Loss，将目标的卷积特征图、正例的卷积特征图和反例的卷积特征图作为一个三元组。使用随机梯度算法针对误差进行反向传播，优化网络参数，直至误差收敛。经过训练后可以使目标与正例之间的欧氏距离更近，与反例之间的欧氏距离更远。目标与样本间的欧氏距离为：

g(z,x_i)＝d(f(z)f(x_i))

A、在搜索区域的卷积特征图的中心采集与目标卷积特征图尺寸相同的卷积特征图作为候选特征，将此时的位置作为执行动作选择的起点。

其中，

E、执行剩余的动作集合中的动作，选择最优动作。

F、重复步骤C、D、E。当执行到动作静止或者执行的步数到达15，则停止执行动作，将当前候选特征框在搜索区域卷积特征图上的位置映射到原图上，得到此帧的跟踪结果。

数据预处理单元，从一段视频中随机选择包含同一个目标的两帧，分别裁剪出目标和以目标为中心进行裁剪；

基于孪生网络构建匹配函数单元，训练设计好的孪生网络，被配置以执行以下步骤：

1)、设计孪生网络的网络结构；

视频目标跟踪单元：基于训练好的孪生网络，将要跟踪的目标区域裁剪出来输入进孪生网络的一支，另一支输入当前帧的候选区域，通过动作选择机制采集候选样本，比较后得到目标在当前帧的位置。

本技术领域技术人员可以理解的是，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来生成机器，从而通过计算机或其他可编程数据处理方法的处理器来执行的指令创建了用于实现结构图和/或框图和/或流图的框或多个框中指定的方法。

本技术领域技术人员可以理解的是，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

上面结合附图对本发明的实施方式作了详细地说明，但是本发明并不局限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于孪生网络和动作选择机制的目标跟踪方法，其特征在于，该方法包括以下步骤：

2)、基于孪生网络构建匹配函数，包括如下子步骤：

2.1)、设计孪生网络的网络结构；具体为：

201)、基于VGG19网络，去掉所有全连接层和最后两个池化层；

202)、在conv3层后添加1×1的卷积层，用来将通道数调整到与conv5层的输出相同，将二者输出的平均值作为输出的卷积特征，将这种从输入图片得到其卷积特征的映射关系定义为f；

203)、在网络最后添加Roi池化层；

2.根据权利要求1所述的方法，其特征在于，数据预处理步骤具体如下：

3.根据权利要求1所述的方法，其特征在于，在步骤2.2)所述构建训练样本中，具体为：

首先，将一对图片中的目标图片z输入进孪生网络中的一路，在Roi层之前得到表示目标的卷积特征图f(z)；

4.根据权利要求3所述的方法，其特征在于，在搜索区域的卷积特征图中，采集代表正例和反例的卷积特征。

5.根据权利要求4所述的方法，其特征在于，所述采集代表正例和反例的卷积特征，具体采集方法为：在搜索区域的卷积特征图的中心，采集与目标区域卷积特征图尺寸相同的区域作为参考，与其重合率超过0.7的视为正例，小于0.5的视为反例，正例和反例各采集64个。

6.根据权利要求4所述的方法，其特征在于，步骤2.3)所述设计误差函数进行反向传播，优化网络的参数，直至收敛，具体为：

使用Triplet Loss，将目标的卷积特征图、正例的卷积特征图和反例的卷积特征图作为一个三元组，然后使用随机梯度算法针对误差进行反向传播，优化网络参数，直至误差收敛；经过训练后使目标与正例之间的欧氏距离更近，与反例之间的欧氏距离更远，目标与样本间的欧氏距离为：

将要构建的匹配函数定义为g，则该函数g(z,x_i)反映候选样本与目标的相似程度，其中x_i是从搜索区域x中提取出的候选样本，z代表目标图像，构建出的匹配函数为：

g(z,x_i)＝d(f(z)f(x_i))

其中，f(x_i)为采集到的候选样本的卷积特征图。

7.根据权利要求1所述的方法，其特征在于，步骤3)所述在视频中进行目标跟踪步骤具体如下：

301)、在一段视频中，对于在某一帧中指定的目标，将其从图片中裁剪出来，输入进训练好的孪生网络的一路，得到其卷积特征图；

302)、在随后帧中，以前一帧推断出的目标位置为中心，在当前帧中裁剪出两倍于目标大小的区域作为搜索区域，将搜索区域输入进训练好的孪生网络的另一路，得到其卷积特征图；

303)、在搜索区域的卷积特征图上，执行动作选择机制的采样方法，步骤为：

A、在搜索区域的卷积特征图的中心采集与目标卷积特征图尺寸相同的卷积特征图作为候选特征，将此时的位置作为候选特征框执行动作选择的起点；

B、定义初始动作集合，共包含九个动作：静止、上、下、左、右、增加长、减小长、增加宽、减小宽；其中，上、下、左、右为候选特征框在候选区域的卷积特征图上向各个方向移动一个像素，长和宽的变化为框的两端各变化一个像素；

其中，

是在第t帧的第i个候选样本,g是学习到的匹配函数，将此时的位置作为下一步的起点；

D、过滤动作集合：将与上一步执行的动作相反的动作从动作集合中过滤除去；

E、执行剩余的动作集合中的动作，选择最优动作；

F、重复步骤C、D、E，当执行到动作静止或者执行的步数到达预设阈值，则停止执行动作，将当前候选特征框在搜索区域卷积特征图上的位置映射到原图上，得到此帧的跟踪结果。

8.一种基于孪生网络和动作选择机制的目标跟踪系统，其特征在于，包括：

1)、设计孪生网络的网络结构；具体为：

基于VGG19网络，去掉所有全连接层和最后两个池化层；

在conv3层后添加1×1的卷积层，用来将通道数调整到与conv5层的输出相同，将二者输出的平均值作为输出的卷积特征，将这种从输入图片得到其卷积特征的映射关系定义为f；

在网络最后添加Roi池化层；