CN112802061B

CN112802061B - 一种基于层次化决策网络的鲁棒目标跟踪方法及系统

Info

Publication number: CN112802061B
Application number: CN202110299760.7A
Authority: CN
Inventors: 郑忠龙; 贾日恒; 林飞龙; 唐长兵
Original assignee: Zhejiang Normal University CJNU
Current assignee: Zhejiang Normal University CJNU
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2021-08-06
Anticipated expiration: 2041-03-22
Also published as: CN112802061A

Abstract

本发明公开一种基于层次化决策网络的鲁棒目标跟踪方法，包括以下步骤：一、将目标跟踪问题建模为强化学习中的马尔科夫决策过程，并定义四元组；二、选择N帧作为片段，根据标签裁剪、放缩图片，构造若干个训练图像对；三、采用PyTorch深度学习框架搭建层次化决策网络模型，由通用的孪生特征提取网络、嵌入融合模块、策略网络和演员‑评论家网络组成；四、使用A3C和PG强化学习算法分别对演员‑评论家网络和策略网络进行端到端的离线训练，并采用Adam优化器来优化模型参数；五、保存训练收敛的模型；本发明还公开该方法的应用；该发明提高搜索和数据样本使用效率，提高跟踪性能，减少计算量和内存消耗，利于在移动设备端实际部署。

Description

一种基于层次化决策网络的鲁棒目标跟踪方法及系统

技术领域

本发明涉及视觉目标跟踪技术领域，特别是涉及一种基于层次化决策网络的鲁棒目标跟踪方法及系统。

背景技术

目标跟踪是人工智能领域中最基础的视觉任务之一。给定一个任意目标的初始化位置，目标跟踪技术即可在后续的视频序列帧中自动地估计出运动目标的位置和尺度信息。通常来说，目标跟踪技术可以分为单目标跟踪、多目标跟踪。单目标跟踪主要是针对特定物体进行建模分析，而多目标跟踪则是联合目标检测和数据关联技术来预测出多个物体的位置和编号。目标跟踪技术应用十分广泛，主要应用领域有视频监控、行为理解、自动驾驶、人机交互和军事领域等。

尽管视觉目标跟踪技术取得了长足的发展，但是视频场景仍存在着大量的挑战因素，主要包括各种不确定的动态场景变化：光照变化、尺度变化、运动模糊、遮挡、背景杂波、严重的物体外观变化等多种因素。同时，考虑到实际应用场景，跟踪方法既需要很好的准确度和鲁棒性，也需要满足实时的需求。因此，设计一种实时的鲁棒目标跟踪方法、目标跟踪系统具有很重要的实际意义。

目前，目标跟踪方法主要分为两类：基于分类模型和基于孪生网络模型。在分类模型中，由于依赖在线学习和随机采样，跟踪方法精度比较高但是速度很慢。而在孪生网络中，将视觉跟踪建模为相似性匹配的问题，依赖大规模的离线训练，跟踪速度比较快但是对于背景干扰物以及尺度变化不够敏感。这二类方法在面向复杂的实际动态场景中都会受到了一定的限制。

为了缓解分类模型中的速度问题，一些基于强化学习的目标跟踪模型被提出。其中，Yun et al.提出了一种基于深度强化学习(DRL)的动作决策网络(ADNet)，通过一系列离散动作来调整每个帧中目标的中心坐标和纵横比。因此ADNet的搜索步骤远少于滑动窗口和随机抽样方法。与MDNet (1 fps)相比，ADNet的速度提高了三倍(3 fps)。进一步地，Actor-Critic跟踪框架被开发，仅预测一个连续动作来定位被跟踪对象(30 fps)；但是，仅仅一个搜索步骤不能够有效地捕获某些复杂场景中感兴趣目标的所有可能运动变化。Renet al.提出一种基于迭代移位的视觉目标跟踪算法，旨在通过多次移位来执行跟踪(10fps)，并通过Actor-Critic框架来学习跟踪状态的决策。尽管上述方法取得了些许的改进，但是这些算法由于耗时的在线学习和更新，速度仍然不能够令人满意。

同时，视觉跟踪任务也可以看作是回归问题。Held et al.设计了深度回归网络来预测目标边界框的偏移量，由于深度回归网络是离线训练的，在线没有进行微调或者更新，算法的跟踪速度达到了100 fps。此外，Re3将时间信息纳入回归模型中，并提出了一种递归回归网络。这类方法速度很快，但是缺乏特定目标的建模以及在线学习过程，跟踪的性能比较差。

通过上述分析，现有技术存在的问题及缺陷为：

（1）现有的基于分类模型的目标跟踪方法，通常需要在线学习和模型更新，使得跟踪算法的效率比较低，很难达到实时性应用的需求。

（2）现有的基于回归模型的视觉跟踪算法，缺少对特定目标的在线自适应过程，仅利用离线模型，算法的性能比较差，很难处理复杂的动态场景。

（3）现有的基于强化学习的跟踪方法，仅考虑建模了单个智能体来对目标的运动估计或者跟踪状态做决定，这导致算法在性能和速度上都不占优势。

解决以上问题及缺陷的难度为：如何高效地进行特征提取和选择；如何进一步提高在线跟踪的效率，从而能够在实际场景中应用；如何设计有效的离线训练方法和在线自适应策略，以应对复杂的动态场景；如何平衡跟踪算法的准确性、鲁棒性和效率，在满足实时速度的同时，尽可能地提高模型的性能。

发明内容

本发明的目的在于提供一种基于层次化决策网络的鲁棒目标跟踪方法，该发明提高搜索和数据样本使用效率，提高跟踪性能，减少计算量和内存消耗，利于在移动设备端实际部署。

为解决此技术问题，本发明的技术方案是：

一种基于层次化决策网络的鲁棒目标跟踪方法，包括以下步骤：

步骤一、将目标跟踪问题建模为强化学习中的马尔科夫决策过程，并定义由状态S、动作A、奖励函数R和状态转移函数f构成的四元组；

步骤二、对公共视频数据集GOT-10K的测试集进行预处理，选择N帧作为片段，根据标签裁剪、放缩图片，构造若干个训练图像对；

步骤三、采用PyTorch深度学习框架搭建层次化决策网络模型，由通用的孪生特征提取网络、嵌入融合模块、策略网络和演员-评论家网络组成；

步骤四、使用A3C和PG强化学习算法分别对演员-评论家网络和策略网络进行端到端的离线训练，并采用Adam优化器来优化模型参数；

步骤五、保存训练收敛的模型，并在若干个跟踪数据集上评估层次化决策网络模型在线跟踪的性能指标。

优选步骤一中马尔科夫决策过程具体包括：

状态：给定目标的边界框

（分别表示中心坐标，宽度和高度），状态s 可以被定义为一对图像块。具体地，

，其中

表示缩放比例，

表示在帧

中对缩放的图像块

进行裁剪，并将这些裁剪后的图像块重新调整为固定大小；

动作

包括演员智能体动作和策略智能体动作；

演员智能体动作：

，动作

描述了所跟踪对象位置的相对运动；其中

和

表示相对水平和垂直平移，而

和

表示宽度和高度的相对比例变化；

对于当前状态

，执行动作

，可以得到

：

策略智能体动作：

，其中p={搜索}表示继续搜索并再次预测目标的相对运动，而p={停止}表示停止搜索并转到下一帧；

对于动作{更新}和{重启}，表示当前的观察状态效果不佳或目标可能丢失；

状态转移：给定状态

，执行动作

，从而获得当前预测的边界框

，同时，状态

通过执行预处理函数

可转换为

；

奖励函数R包括演员智能体奖励函数和演员智能体奖励函数；

演员智能体奖励函数：

是基于预测框b和真值g之间的交并比IoU来设计的，其中

，将IoU的值控制在[0, 1]；

演员智能体奖励函数：根据其影响对不同的动作定义了不同的奖励；

对于动作{搜索}，可基于

来定义：

对于动作{停止}，为了以尽量少的迭代次数停止，奖励函数根据IoU和迭代次数k来定义：

对于动作{更新}和{重启}，当IoU小于

时，奖励为正：

。

优选策略智能体采用专家跟踪器行为

来指导模型的更新和重新初始化。

本发明引入了专家跟踪器的行为指导，提高了跟踪的效率与鲁棒性。

优选所述步骤三中基于层次化决策网络框架由策略网络、演员网络、评论家网络和一个共享的通用孪生观察网络组成，具体的建模步骤如下：

第一步，搭建ResNet-18特征提取网络，使用ImageNet预训练的网络参数初始化ResNet-18；并使用全连接层将ResNet-18网络提取的深层特征进行线性化，得到512维的特征向量；然后通过特征级联操作和一个全连接层对两个分支的线性化特征向量进行嵌入融合，获得相邻帧目标的运动信息；

第二步，构建演员-评论家网络，由两层512个神经元的全连接层、带有512个神经元的单层长短时记忆模块LSTM构成；演员网络的输出是4维的向量，即表示连续动作空间；评论家网络的输出是1维的向量，表示当前状态的预测值；

第三步，构建策略网络，策略网络包括两层带有512个神经元和ReLU激活函数构成的全连接层以及输出层；其中输出层是4维的向量，代表预定义好的离散动作空间

。

优选步骤四中通过深度强化学习算法对网络模型进行离线训练，具体包括：

使用A3C强化学习算法来训练演员-评论家网络，利用M个并行且独立的智能体与环境交互；并根据收集的训练样本对异步地更新网络参数，共同对策略函数

和值函数

进行建模；并充分利用优势状态动作值函数

，每个动作的重要性度量可以表示为：

根据A3C算法，演员网络和评论家网络的代价函数分别可以表示为：

策略网络优化的离散动作空间，可以采用Policy Gradient算法来优化关于未来奖励期望J的策略网络，J可以被公式化为：

具体地，给定N条交互轨迹

，为了获得无偏估计，可通过最小化策略梯度的损失函数

来以端到端的方式训练策略网络：

因此，通过随机策略梯度或值函数回归方式来更新网络的参数：

。

优选所述步骤四的在线跟踪具体包括以下步骤：

第一步，给定前一帧的跟踪结果，以1.5倍边界框的比例裁剪相邻两帧图片，并调整其分辨率为

，从而作为网络模型的输入；

第二步，提取目标相邻帧之间的运动信息

，演员智能体输出一个连续动作

来执行一次搜索，从而获得目标的运动估计

，并转移到下一个状态

；

第三步，策略智能体根据当前观察状态

来决定当前的跟踪模式，决定是否继续搜索，直到不再搜索为止；

第四步，确定当前帧的跟踪结果，即目标的位置信息

；

第五步，进入下一帧t+1，并重复第一到第四步。

优选在线跟踪阶段的所述第三步的跟踪模式具体包括以下：

一、搜索，即继续搜索，再一次执行演员网络得到目标的运动估计

；

二、停止，即当前运动估计的置信度是比较高的，无需继续搜索；

三、更新，表示当前的观察状态不佳，需要执行更新操作。为了确保跟踪效率，通过专家跟踪器行为指导来替代耗时的模型在线更新；

四、重启，表示目标可能丢失，同样启动专家跟踪器DiMP来预测当前帧的目标位置

，并用来重新初始化当前帧的跟踪结果。

本发明的第二个目的在于提供一种存储在计算机可读介质上的计算机程序产品，该发明搜索效率高和数据样本使用效率高，跟踪性能高，减少计算量和内存消耗。

为解决此技术问题，本发明的技术方案是：

一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施本发明所述鲁棒目标跟踪方法。

本发明的第三个目的在于提供一种执行本发明所述鲁棒目标跟踪方法的移动设备系统，该发明搜索效率高和数据样本使用效率高，跟踪性能高，减少计算量和内存消耗，有利于在移动设备端进行实际部署。

为解决此技术问题，本发明的技术方案是：一种执行权利所述鲁棒目标跟踪方法的移动设备系统。

通过采用上述技术方案，本发明的有益效果是：

（1）基于层次化决策网络的目标跟踪方法，能够利用分层深度强化学习建模为自适应动态迭代搜索过程，更加符合人类行为方式的范式。

（2）不需要执行模型的在线学习以及更新过程，能够利用高性能专家跟踪器的行为演示来指导跟踪过程，保证了算法的鲁棒性，也提高了跟踪效率；

（3）实时且鲁棒的目标跟踪算法，在实际生活场景中更容易集成到计算机视觉系统中应用，也有利于嵌入到移动端设备进行实际部署。

本发明利用分层深度强化学习框架进行建模，实现更符合人类行为方式的范式。在多个目标跟踪数据集进行实验，从多个跟踪性能指标对比本发明提出的算法与其它方法。实验结果表明，本发明提出的目标跟踪方法获得了精度和速度之间很好的平衡。

从而实现本发明的上述目的。

附图说明

图1 本发明与MDNet与ADNet跟踪策略的比较；

图2 本发明基于层次化决策网络的整体架构示意图；

图3 本发明策略网络控制的跟踪模式切换的说明性示例图；

图4 本发明层次化决策跟踪策略算法流程；

图5 本发明在OTB-100数据集上的精度图和成功率图；

图6 本发明在UAV-123数据集上的精度图和成功率图；

图7 本发明在LaSOT数据集上的归一化精度图和成功率图；

图8 本发明在VOT-2019数据集上的EAO指标对比图；

图9 本发明跟踪结果可视化图。

具体实施方式

为了进一步解释本发明的技术方案，下面通过具体实施例来对本发明进行详细阐述。

目前现有的分类模型跟踪方法，通常需要在线学习和模型更新，使得跟踪算法的效率比较低，很难达到实时性的需求。现有的回归模型跟踪算法，缺少对特定目标的在线自适应过程，仅利用离线模型，算法的性能比较差，很难处理复杂的动态场景。现有的基于强化学习的跟踪方法，仅考虑单个智能体来对目标的运动估计或者跟踪状态建模，这导致在性能和速度上都不占优势。

针对现有技术存在的问题，本发明提供了一种基于层次化决策网络的鲁棒目标跟踪方法，如图1至图4所示，包括以下步骤：

步骤五、保存训练收敛的模型，并在若干个跟踪数据集上评估层次化决策网络模型在线跟踪的性能指标。性能指标，包括成功率、准确度、鲁棒性和速度等。

本实施例中步骤一中马尔科夫决策过程具体包括：

状态：给定目标的边界框

（分别表示中心坐标，宽度和高度），状态 S可以被定义为一对图像块。具体地，

，其中

表示缩放比例，

表示在帧

中对缩放的图像块

进行裁剪，并将这些裁剪后的图像块重新调整为固定大小；

动作

包括演员智能体动作和策略智能体动作；

演员智能体动作：

，动作

描述了所跟踪对象位置的相对运动；其中

和

表示相对水平和垂直平移，而

和

表示宽度和高度的相对比例变化；

对于当前状态

，执行动作

，可以得到

：

策略智能体动作：

状态转移：给定状态

，执行动作

，从而获得当前预测的边界框

，同时，状态

通过执行预处理函数

可转换为

；

奖励函数R包括演员智能体奖励函数和演员智能体奖励函数；

演员智能体奖励函数：

是基于预测框b和真值g之间的交并比IoU来设计的，其中

，将IoU的值控制在[0, 1]；

对于动作{搜索}，可基于

来定义：

对于动作{更新}和{重启}，当IoU小于

时，奖励为正：

。

本实施例中策略智能体采用专家跟踪器行为

来指导模型的更新和重新初始化。本发明引入了专家跟踪器的行为指导，提高了跟踪的效率与鲁棒性。

本实施例中所述步骤三中基于层次化决策网络框架由策略网络、演员网络、评论家网络和一个共享的通用孪生观察网络组成，具体的建模步骤如下：

。

本实施例中步骤四中通过深度强化学习算法对网络模型进行离线训练，具体包括：

和值函数

进行建模；并充分利用优势状态动作值函数

，每个动作的重要性度量可以表示为：

具体地，给定N条交互轨迹

，为了获得无偏估计，可通过最小化策略梯度的损失函数

来以端到端的方式训练策略网络：

。

本实施例中所述步骤四的在线跟踪具体包括以下步骤：

，从而作为网络模型的输入；

第二步，提取目标相邻帧之间的运动信息

，演员智能体输出一个连续动作

来执行一次搜索，从而获得目标的运动估计

，并转移到下一个状态

；

第三步，策略智能体根据当前观察状态

第四步，确定当前帧的跟踪结果，即目标的位置信息

；

第五步，进入下一帧t+1，并重复第一到第四步。

本实施例中在线跟踪阶段的所述第三步的跟踪模式具体包括以下：

；

，并用来重新初始化当前帧的跟踪结果。

下面结合实验评估对本发明作进一步描述。

本发明相比于其它基于搜索策略的跟踪技术，从跟踪的精度、成功率与算法运行效率三方面，与已有的工作GOTURN、Re3、ADNet、ACT、DRL-IS、A3CT和A3CTD在OTB-100、UAV-123和LaSOT数据集上进行实验比较。从表1中可以看出，本发明提出的跟踪方法PACNet在精度Pre.和成功率AUC指标方面都排名第一，除了在OTB-100上Pre.略低于ADNet；并且速度为40 FPS。这证明本发明在性能和速度之间获得了很好的平衡。

表1 基于搜索策略的相关跟踪方法的性能比较

此外，本发明的跟踪方法还和其他先进的跟踪算法进行实验比较。如图5所示。在OTB-2015数据集上，与其它算法相比，PACNet获得了相当的精度和AUC分数；并且在跟踪效率上有着很大的优势。如图6和图7所示，在UAV-123和LaSOT数据集上，PACNet超越了所对比的其它方法，除了专家跟踪器DiMP。进一步，在VOT-2019和GOT-10K数据集上，PACNet仍然占有优势。通过表2、表3和图8，可以发现本发明提出的跟踪方法都有着很好的性能。

表2 在VOT-2019数据集上的性能比较

表3 在GOT-10K数据集上的性能比较

最后，本发明进一步可视化了跟踪结果。在OTB上的四个具有挑战性的序列（Skating2，DragonBaby，Biker和Matrix）中，比较了与MDNet、ADNet、ACT、CREST的跟踪效果。从图9中可以发现，本发明的跟踪算法可以在尺度变化，形变和快速运动等复杂场景下鲁棒地定位到所跟踪的目标，这证实了本发明所提出层次化决策跟踪策略的有效性。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

本发明相比于其它基于搜索策略的跟踪技术，从跟踪的精度、成功率与算法运行效率三方面，与已有的工作GOTURN、Re3、ADNet、ACT、DRL-IS、A3CT和A3CTD在OTB-100、UAV-123和LaSOT数据集上进行实验比较。

为了综合评估所提方法的性能，本发明分别在OTB-100、UAV-123和LaSOT数据集上比较GOTURN、Re3、ADNet、ACT、A3CT和A3CTD算法的跟踪精度和成功率。从表1可以看出，本发明提出的跟踪方法PACNet在精度Pre.和成功率AUC指标方面都排名第一，除了在OTB-100上Pre.略低于ADNet；并且速度为40 FPS。这证明本发明在性能和速度之间获得了很好的平衡。

此外，本发明的跟踪方法还和其他先进的跟踪算法进行实验比较。如图5所示。在OTB-2015数据集上，与其它算法相比，PACNet获得了相当的精度和AUC分数；并且在跟踪效率上有着很大的优势。如图6和图7所示，在UAV-123和LaSOT数据集上，PACNet超越了所对比的其它方法，除了专家跟踪器DiMP。进一步，在VOT-2019和GOT-10K数据集上，提出的PACNet仍然占有优势。对比表2、表3和图8，可以发现本发明提出的跟踪方法都有着很好的性能。

最后，本发明进一步可视化了跟踪结果。在OTB数据集的四个具有挑战性的序列（Skating2，DragonBaby，Biker和Matrix）中，比较了与MDNet、ADNet、ACT、CREST的跟踪效果。从图9中可以发现，本发明的跟踪算法可以在尺度变化，形变和快速运动等复杂场景下鲁棒地定位到目标，这证实了算法的有效性。