CN111105442B

CN111105442B - 切换式目标跟踪方法

Info

Publication number: CN111105442B
Application number: CN201911337671.6A
Authority: CN
Inventors: 李厚强; 周文罡; 王宁
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2022-07-15
Anticipated expiration: 2039-12-23
Also published as: CN111105442A

Abstract

本发明公开了一种切换式目标跟踪方法，包括：以带有锚点的区域候选网络的双路网络作为基准方法，构建多种不同的子跟踪器；在当前帧，利用预训练的智能体，根据当前的跟踪环境和历史动作决定当前帧的子跟踪器，并利用相应的子跟踪器进行当前帧的目标跟踪。该方法能够提高性能的同时，减少了不必要的运算，极大地保证了跟踪速度。

Description

切换式目标跟踪方法

技术领域

本发明涉及视觉目标跟踪技术领域，尤其涉及一种切换式目标跟踪方法。

背景技术

视觉目标跟踪是计算机视觉领域的一个基础且重要的任务。目标跟踪在安防监控、人机交互、自动驾驶等领域都发挥着重要作用。

在视觉目标跟踪任务中，跟踪器只能获得目标在第一帧中的信息(位置和尺度)，并且要求能够在后续帧中持续对目标进行跟踪，因此十分具有挑战性。尽管近年来视觉跟踪技术取得了明显的进步，但跟踪过程中目标的遮挡、形变、快速运动、形变等仍然极大地干扰着跟踪算法的性能。

近年来，视觉跟踪领域涌现出了许多不同的框架。相关滤波器的跟踪方法通过在频域求解岭回归，取得了良好的性能和效率。相比于使用传统的手工特征，基于深度特征(如VGG)的相关滤波器取得了更加良好的性能。进一步，通过融合网络不同层的输出特征，同时保留了底层的纹理细节和高层的语义信息，跟踪精度进一步提升。近期的改进还包括滤波器边界效应抑制、自适应融合多尺度特征、引入滤波器降维等操作来进一步发掘相关滤波器的优势。

此外，基于孪生网络的跟踪方法也得到了广泛的关注。此类方法将目标跟踪任务视为模板匹配，并在后续帧的候选区域中寻找和第一帧目标最匹配的位置作为此帧的跟踪结果。该类方法构造共享权重的孪生网络，并在大量数据集中进行训练以学习不同目标在不同场景下的特征度量(相似性)。在线测试时，该类方法通常不需要进行模型更新，因此极大保证了跟踪效率。近期的改进包括引入注意力机制、融合语义和外观特征、引入滤波器层、加入区域候选网络(RPN)来回归目标尺度等。

此外，基于分类的目标跟踪方法同样在跟踪中有着重要地位。此类方法受启发于经典的目标检测框架RCNN，将目标跟踪任务视为二分类(目标和背景)任务。该网络包含预训练的卷积层以提取通用的、鲁棒的深度特征，然后利用第一帧的大量正、负样本进行全连接层的训练，使得网络能够适应当前场景下的目标区分。后续通过适当的网络更新以适应目标的变化，但同时也使得效率变低。在集成式跟踪个算法中，将不同的模型进行结果融合，通常可以取得更加优异的性能。然而如何选择跟踪集合中合适的目标跟踪算法并保证整体的跟踪效率是集成式方法的主要问题。

现有技术缺点1：传统的多跟踪器融合方法通常需要人为设计复杂的规则进行模型选取或结果融合。通常这些人为设计的方法包含大量的超参数，需要仔细调整，并在不同的数据集下泛化性难以保证。

现有技术缺点2：以往的多跟踪器融合或挑选方法需要运行所有的跟踪器，并根据他们各自的置信度或相互评价来确定最佳的跟踪。同时运行多个跟踪器使得整体的跟踪效率难以保证。

发明内容

本发明的目的是提供一种切换式目标跟踪方法，能够提高性能的同时，减少了不必要的运算，极大地保证了跟踪速度。

本发明的目的是通过以下技术方案实现的：

一种切换式目标跟踪方法，包括：

以带有锚点的区域候选网络的双路网络作为基准方法，构建多种不同的子跟踪器；

在当前帧，利用预训练的智能体，根据当前的跟踪环境和历史动作决定当前帧的子跟踪器，并利用相应的子跟踪器进行当前帧的目标跟踪。

由上述本发明提供的技术方案可以看出，多个子跟踪器具有不同的模型结构，在不同的场景下显示不同的跟踪能力。智能体通过分析每一帧的跟踪场景，选择合适的子跟踪器处理当前帧。通过这种自适应的切换，我们保证了集成式跟踪算法的性能优势，同时避免了不必要的运算，极大地提升了效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种切换式目标跟踪方法的流程图；

图2为本发明实施例提供的子跟踪器模型的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种切换式目标跟踪方法，如图1所示，其主要包括如下两部分内容：

1、以带有锚点的区域候选网络的双路网络作为基准方法，构建多种不同的子跟踪器(图1所示的子跟踪器数量仅为举例)。

2、在当前帧，利用预训练的智能体，根据当前的跟踪环境和历史动作决定当前帧的子跟踪器，并利用相应的子跟踪器进行当前帧的目标跟踪。

本发明实施例上述方案中，通过一个智能体分析当前的跟踪环境，来直接决定当前合适的跟踪器。这种机制能够有效避免运行所有的模型。发挥了集成学习的优势，提高性能的同时，减少了不必要的运算，极大地保证了跟踪速度。

为了便于理解，下面针对子跟踪器与智能体训练两个部分分别进行详细的介绍。

一、构建多种不同的子跟踪器。

本发明实施例中，采用带有锚点的区域候选网络(region proposal network,RPN)的双路网络，即SiamRPN作为我们的基准方法。如图2所示，带有锚点的区域候选网络的双路网络为双路结构，一路输入为第一帧的目标图像，另一路的输入为搜索区域；结果包含两个分支，第一分支为响应图分支，输出为目标的位置；第二分支为尺度回归分支，对目标框进行回归。

但是SiamRPN对于目标形变不敏感，因此加入颜色直方图来改进该双路网络。具体地，改进了响应图分支，通过计算目标的颜色直方图模型，并据此求出搜索区域的基于颜色模型的概率图。将此概率图和跟踪的响应图进行逐元素相乘以抑制干扰物，数值最大的点则为目标的位置。尺度回归分支依旧按照之前的方式，对目标框进行回归；通过两个分支，得到目标的位置与尺度。

基于此，本发明实施例中，构建的子跟踪器，至少包括如下四种类型：

第一种子跟踪器为，以带有锚点的区域候选网络的双路网络作为基准方法构建的子跟踪器。也就是标准的SiamRPN，他的主干网络是经典的神经网络AlexNet。

第二种子跟踪器为，在第一种子跟踪器上融合颜色直方图所构成的子跟踪器；

第三种跟踪器为，扩充第一种子跟踪器中主干网络通道数后得到的自跟踪器；也就是，采用更大的主干网络，可以采用AlexNet通道数加倍的网络结构。

第四种跟踪器为，在第三种子跟踪器上融合颜色直方图所构成的子跟踪器。

二、智能体训练。

在构建子跟踪器集合后，关键的问题在于每一帧如何选取一个正确的子跟踪器。本发明将子跟踪器选择问题定义成马尔可夫决策过程，并采用强化学习训练智能体(CNN网络模型)。马尔可夫决策过程包含一系列的状态S，动作A和奖励函数R。在智能体网络预测动作后，根据此可以获得不同的奖励。智能体网络通过获得最大的回报进行训练。下面我们介绍状态，动作和奖励函数。

状态包括，输入状态包含初始帧的特征表达、当前帧的特征表达和历史动作；在每一帧中，搜索区域的图像块被调整到指定的大小(例如，107*107)，通过多个卷积层映射多维(例如，512维)的特征表达，初始帧与当前帧的特征表达都通过上述方式得到，相应帧的特征表达即为相应的跟踪环境；如果子跟踪器的数目为n(例如，n＝4)，则每一帧的动作为一个n维的向量，此时收集历史的n+1帧以组成历史动作；

动作为智能体在每一帧选择哪个子跟踪器，每一帧的动作表达成一个n维的向量，代表着每个子跟踪器，n维的向量中，被选择的子跟踪器对应的数值为1，其余为0；

奖励函数反映着当前动作的好坏，包括重合度精度和距离精度；重合度精度通过预测结果是真实结果之间的重合度来计算，距离精度通过预测目标框和真实结果之间的欧氏距离误差来计算，预测结果与真实结果均包含了目标的位置与尺度。其中：

所述重合度精度的计算公式为：

其中，B表示预测结果，G表示真实结果，Area为面积函数。

所述距离精度的计算方式为：

先计算预测目标框和真实结果之间的欧氏距离误差：

D＝||center(B)-center(G)||

其中，B表示预测结果，G表示真实结果，center为中心点函数。

再将欧氏距离误差进行归一化，得到距离精度：

最后，将重合度精度和距离精度相乘作为每一个子跟踪器的得分：

P＝O·D'

通过上式，可以找出最高的的子跟踪器得分P_max。

跟踪器自适应选择过程在于每一帧选择一个更优的跟踪器来提升性能。则奖励函数为每一帧中所选择子跟踪器的得分与最高的子跟踪器得分的差值；

R(S_t,A_t)＝P_k-P_max

其中，P_max为最高的子跟踪器得分；P_k为第k个子跟踪器的得分；S_t、A_t分别为第t帧时的状态、动作。

如果当前的动作选择较好，智能体会获得一个更高的奖励函数。奖励函数的上界是0分，即选到当前状态下的最优子跟踪器。

由于动作空间是离散的并且相对维度较低，因此采用深度Q值网络(Deep Q-Network，DQN)网络来处理这个跟踪器自适应选择的过程。DQN网络学习一个动作值函数Q(S_t,A_t)来选择相应的动作。在训练阶段，可以通过下式迭代地更新动作值函数：

其中，S_t、A_t、R_t分别为第t帧时的状态、动作、奖励，A_t+1为第t+1帧时的动作；γ是一个遗忘因子。

在每一帧中，选择具有最高Q值的动作，并存放在记忆池中，智能体通过最小化如下的函数进行优化：

其中，θ表示智能体中待训练的参数，N是训练样本的数量(即视频帧数量)；其中

为了迭代地更新智能体(Q值网络)，DQN方法引入了目标Q值网络(即

)其网络参数为

这些参数每隔一定的训练的步数(具体步数间隔可根据情况自行设定)从原Q值网络中拷贝而来。我们通过引入额外的目标Q值网络来迭代地训练智能体。训练的损失函数如上式，y_t为目标Q值网络对Q值的估计结果。

除此之外，我们也采用了强化学习中的贪婪策略来更好地训练智能体。具体地，初始训练时，我们以较高的概率随意做出选择，即忽略智能体本身的选择，通过这种方法，智能体训练时可以尝试各种动作，充分地探索了动作空间。随着训练的进行，我们逐步降低随意动作的概率，即相信智能体的动作选择，并以它的估计对智能体进行训练。

以上介绍的智能体训练是离线训练过程，通过上述训练可以使智能体良好的进行动作预测。

在此后的在线的跟踪阶段时，智能体固定训练好的参数并且不再接受新的奖励。每一帧中，使用智能体给出的选择来指定其中一个子跟踪器进行跟踪。由于智能体网络十分轻量级，在每一帧中，花费在智能体上的时间仅有2.2毫秒，因此其带来的计算负担可以忽略不计。基于本发明上述方案的框架在单块GPU上可以达到105FPS的跟踪速度，并且在性能上超过目前所有的子跟踪器。

本发明实施例提供的上述切换式目标跟踪方法，具有集成学习的性能优势，同时由于每一帧只有一个跟踪器被选择，能够极大地保证该框架的效率。在离线训练期间，使用大量的视频通过强化学习策略去训练智能体，避免了人为策略的设计。在跟踪阶段，智能体花费在每一帧的代价很小，保证了模型的效率。此外，该方法具有良好的通用性，可以使用更好的子跟踪器模型来进一步提升模型的性能。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种切换式目标跟踪方法，其特征在于，包括：

在当前帧，利用预训练的智能体，根据当前的跟踪环境和历史动作决定当前帧的子跟踪器，并利用相应的子跟踪器进行当前帧的目标跟踪；

其中，采用强化学习训练智能体，使得智能体能够选择正确的子跟踪器，将子跟踪器选择问题定义成马尔可夫决策过程；

马尔可夫决策过程包含一系列的状态，动作和奖励函数，在智能体预测动作后，根据此获得不同的奖励，智能体网络通过获得最大的回报进行训练；其中：

状态包括，输入状态包含初始帧的特征表达、当前帧的特征表达和历史动作；在每一帧中，搜索区域的图像块被调整到指定的大小，通过多个卷积层映射多维的特征表达，初始帧与当前帧的特征表达都通过上述方式得到，相应帧的特征表达即为相应的跟踪环境；如果子跟踪器的数目为n，则每一帧的动作为一个n维的向量，此时收集历史的n+1帧以组成历史动作；

奖励函数反映着当前动作的好坏，包括重合度精度和距离精度；重合度精度通过预测结果是真实结果之间的重合度来计算，距离精度通过预测目标框和真实结果之间的欧氏距离误差来计算；基于重合度精度和距离精度能够找出最高的子跟踪器得分，则奖励函数为每一帧中所选择子跟踪器的得分与最高的子跟踪器得分的差值；

子跟踪器选择是一个自适应选择的过程，通过深度Q值网络来处理，深度Q值网络通过学习一个动作值函数来选择相应动作，每一帧中，通过计算各个动作的Q值，来选择Q值最高的动作。

2.根据权利要求1所述的一种切换式目标跟踪方法，其特征在于，以带有锚点的区域候选网络的双路网络作为基准方法，构建的子跟踪器，至少包括如下四种类型：

第一种子跟踪器为，以带有锚点的区域候选网络的双路网络作为基准方法构建的子跟踪器；

第三种跟踪器为，扩充第一种子跟踪器中主干网络通道数后得到的子跟踪器；

第四种跟踪器为，在第三种子跟踪器上融合颜色直方图所构成的子跟踪器；

在子跟踪器上融合颜色直方图所构成的子跟踪器的工作方式为：

未加入颜色直方图的子跟踪器的输出为响应图，通过颜色直方图，能够获得搜索区域的基于颜色模型的概率图，将响应图与概率图进行逐元素相乘，数值最大的点则为目标的位置。

3.根据权利要求1或2所述的一种切换式目标跟踪方法，其特征在于，

带有锚点的区域候选网络的双路网络为双路结构，一路输入为第一帧的目标图像，另一路的输入为搜索区域；结果包含两个分支，第一分支为响应图分支，输出为目标的位置；第二分支为尺度回归分支，对目标框进行回归。

4.根据权利要求1所述的一种切换式目标跟踪方法，其特征在于，所述重合度精度的计算公式为：