CN112802061B - 一种基于层次化决策网络的鲁棒目标跟踪方法及系统 - Google Patents

一种基于层次化决策网络的鲁棒目标跟踪方法及系统 Download PDF

Info

Publication number
CN112802061B
CN112802061B CN202110299760.7A CN202110299760A CN112802061B CN 112802061 B CN112802061 B CN 112802061B CN 202110299760 A CN202110299760 A CN 202110299760A CN 112802061 B CN112802061 B CN 112802061B
Authority
CN
China
Prior art keywords
network
actor
tracking
action
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110299760.7A
Other languages
English (en)
Other versions
CN112802061A (zh
Inventor
郑忠龙
贾日恒
林飞龙
唐长兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Normal University CJNU
Original Assignee
Zhejiang Normal University CJNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Normal University CJNU filed Critical Zhejiang Normal University CJNU
Priority to CN202110299760.7A priority Critical patent/CN112802061B/zh
Publication of CN112802061A publication Critical patent/CN112802061A/zh
Application granted granted Critical
Publication of CN112802061B publication Critical patent/CN112802061B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于层次化决策网络的鲁棒目标跟踪方法,包括以下步骤:一、将目标跟踪问题建模为强化学习中的马尔科夫决策过程,并定义四元组;二、选择N帧作为片段,根据标签裁剪、放缩图片,构造若干个训练图像对;三、采用PyTorch深度学习框架搭建层次化决策网络模型,由通用的孪生特征提取网络、嵌入融合模块、策略网络和演员‑评论家网络组成;四、使用A3C和PG强化学习算法分别对演员‑评论家网络和策略网络进行端到端的离线训练,并采用Adam优化器来优化模型参数;五、保存训练收敛的模型;本发明还公开该方法的应用;该发明提高搜索和数据样本使用效率,提高跟踪性能,减少计算量和内存消耗,利于在移动设备端实际部署。

Description

一种基于层次化决策网络的鲁棒目标跟踪方法及系统
技术领域
本发明涉及视觉目标跟踪技术领域,特别是涉及一种基于层次化决策网络的鲁棒目标跟踪方法及系统。
背景技术
目标跟踪是人工智能领域中最基础的视觉任务之一。给定一个任意目标的初始化位置,目标跟踪技术即可在后续的视频序列帧中自动地估计出运动目标的位置和尺度信息。通常来说,目标跟踪技术可以分为单目标跟踪、多目标跟踪。单目标跟踪主要是针对特定物体进行建模分析,而多目标跟踪则是联合目标检测和数据关联技术来预测出多个物体的位置和编号。目标跟踪技术应用十分广泛,主要应用领域有视频监控、行为理解、自动驾驶、人机交互和军事领域等。
尽管视觉目标跟踪技术取得了长足的发展,但是视频场景仍存在着大量的挑战因素,主要包括各种不确定的动态场景变化:光照变化、尺度变化、运动模糊、遮挡、背景杂波、严重的物体外观变化等多种因素。同时,考虑到实际应用场景,跟踪方法既需要很好的准确度和鲁棒性,也需要满足实时的需求。因此,设计一种实时的鲁棒目标跟踪方法、目标跟踪系统具有很重要的实际意义。
目前,目标跟踪方法主要分为两类:基于分类模型和基于孪生网络模型。在分类模型中,由于依赖在线学习和随机采样,跟踪方法精度比较高但是速度很慢。而在孪生网络中,将视觉跟踪建模为相似性匹配的问题,依赖大规模的离线训练,跟踪速度比较快但是对于背景干扰物以及尺度变化不够敏感。这二类方法在面向复杂的实际动态场景中都会受到了一定的限制。
为了缓解分类模型中的速度问题,一些基于强化学习的目标跟踪模型被提出。其中,Yun et al.提出了一种基于深度强化学习(DRL)的动作决策网络(ADNet),通过一系列离散动作来调整每个帧中目标的中心坐标和纵横比。因此ADNet的搜索步骤远少于滑动窗口和随机抽样方法。与MDNet (1 fps)相比,ADNet的速度提高了三倍(3 fps)。进一步地,Actor-Critic跟踪框架被开发,仅预测一个连续动作来定位被跟踪对象(30 fps);但是,仅仅一个搜索步骤不能够有效地捕获某些复杂场景中感兴趣目标的所有可能运动变化。Renet al.提出一种基于迭代移位的视觉目标跟踪算法,旨在通过多次移位来执行跟踪(10fps),并通过Actor-Critic框架来学习跟踪状态的决策。尽管上述方法取得了些许的改进,但是这些算法由于耗时的在线学习和更新,速度仍然不能够令人满意。
同时,视觉跟踪任务也可以看作是回归问题。Held et al.设计了深度回归网络来预测目标边界框的偏移量,由于深度回归网络是离线训练的,在线没有进行微调或者更新,算法的跟踪速度达到了100 fps。此外,Re3将时间信息纳入回归模型中,并提出了一种递归回归网络。这类方法速度很快,但是缺乏特定目标的建模以及在线学习过程,跟踪的性能比较差。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有的基于分类模型的目标跟踪方法,通常需要在线学习和模型更新,使得跟踪算法的效率比较低,很难达到实时性应用的需求。
(2)现有的基于回归模型的视觉跟踪算法,缺少对特定目标的在线自适应过程,仅利用离线模型,算法的性能比较差,很难处理复杂的动态场景。
(3)现有的基于强化学习的跟踪方法,仅考虑建模了单个智能体来对目标的运动估计或者跟踪状态做决定,这导致算法在性能和速度上都不占优势。
解决以上问题及缺陷的难度为:如何高效地进行特征提取和选择;如何进一步提高在线跟踪的效率,从而能够在实际场景中应用;如何设计有效的离线训练方法和在线自适应策略,以应对复杂的动态场景;如何平衡跟踪算法的准确性、鲁棒性和效率,在满足实时速度的同时,尽可能地提高模型的性能。
发明内容
本发明的目的在于提供一种基于层次化决策网络的鲁棒目标跟踪方法,该发明提高搜索和数据样本使用效率,提高跟踪性能,减少计算量和内存消耗,利于在移动设备端实际部署。
为解决此技术问题,本发明的技术方案是:
一种基于层次化决策网络的鲁棒目标跟踪方法,包括以下步骤:
步骤一、将目标跟踪问题建模为强化学习中的马尔科夫决策过程,并定义由状态S、动作A、奖励函数R和状态转移函数f构成的四元组;
步骤二、对公共视频数据集GOT-10K的测试集进行预处理,选择N帧作为片段,根据标签裁剪、放缩图片,构造若干个训练图像对;
步骤三、采用PyTorch深度学习框架搭建层次化决策网络模型,由通用的孪生特征提取网络、嵌入融合模块、策略网络和演员-评论家网络组成;
步骤四、使用A3C和PG强化学习算法分别对演员-评论家网络和策略网络进行端到端的离线训练,并采用Adam优化器来优化模型参数;
步骤五、保存训练收敛的模型,并在若干个跟踪数据集上评估层次化决策网络模型在线跟踪的性能指标。
优选步骤一中马尔科夫决策过程具体包括:
状态:给定目标的边界框
Figure 973934DEST_PATH_IMAGE001
(分别表示中心坐标,宽度和高度),状态s 可以被定义为一对图像块。具体地,
Figure 359916DEST_PATH_IMAGE002
,其中
Figure 608495DEST_PATH_IMAGE003
表示缩放比例,
Figure 472546DEST_PATH_IMAGE004
表示在帧
Figure 755760DEST_PATH_IMAGE005
中对缩放的图像块
Figure 545599DEST_PATH_IMAGE006
进行裁剪,并将这些 裁剪后的图像块重新调整为固定大小;
动作
Figure 15894DEST_PATH_IMAGE007
包括演员智能体动作和策略智能体动作;
演员智能体动作:
Figure 683636DEST_PATH_IMAGE008
,动作
Figure 618094DEST_PATH_IMAGE009
描述了所跟踪对象位置的 相对运动;其中
Figure 814720DEST_PATH_IMAGE010
Figure 834629DEST_PATH_IMAGE011
表示相对水平和垂直平移,而
Figure 774903DEST_PATH_IMAGE012
Figure 767130DEST_PATH_IMAGE013
表示宽度和高度的相对比 例变化;
对于当前状态
Figure 462553DEST_PATH_IMAGE002
,执行动作
Figure 173020DEST_PATH_IMAGE009
,可以得到
Figure 651406DEST_PATH_IMAGE014
Figure 560456DEST_PATH_IMAGE015
Figure 597420DEST_PATH_IMAGE016
策略智能体动作:
Figure 795183DEST_PATH_IMAGE017
,其中p={搜索}表示继续搜索并 再次预测目标的相对运动,而p={停止}表示停止搜索并转到下一帧;
对于动作{更新}和{重启},表示当前的观察状态效果不佳或目标可能丢失;
状态转移:给定状态
Figure 139577DEST_PATH_IMAGE018
,执行动作
Figure 840817DEST_PATH_IMAGE009
,从而获得当前预测的边界框
Figure 81305DEST_PATH_IMAGE019
,同时,状态
Figure 297523DEST_PATH_IMAGE018
通过执行预处理函数
Figure 383291DEST_PATH_IMAGE020
可转换为
Figure 204616DEST_PATH_IMAGE021
奖励函数R包括演员智能体奖励函数和演员智能体奖励函数;
演员智能体奖励函数:
Figure 412744DEST_PATH_IMAGE022
是基于预测框b和真值g之间的交并比IoU来设计的, 其中
Figure 53941DEST_PATH_IMAGE023
,将IoU的值控制在[0, 1];
Figure 943399DEST_PATH_IMAGE024
演员智能体奖励函数:根据其影响对不同的动作定义了不同的奖励;
对于动作{搜索},可基于
Figure 681548DEST_PATH_IMAGE025
来定义:
Figure 496795DEST_PATH_IMAGE026
对于动作{停止},为了以尽量少的迭代次数停止,奖励函数根据IoU和迭代次数k来定义:
Figure 687605DEST_PATH_IMAGE027
对于动作{更新}和{重启},当IoU小于
Figure 380754DEST_PATH_IMAGE028
时,奖励为正:
Figure 645514DEST_PATH_IMAGE029
优选策略智能体采用专家跟踪器行为
Figure 195444DEST_PATH_IMAGE030
来指导模型的更新和重新初始化。
本发明引入了专家跟踪器的行为指导,提高了跟踪的效率与鲁棒性。
优选所述步骤三中基于层次化决策网络框架由策略网络、演员网络、评论家网络和一个共享的通用孪生观察网络组成,具体的建模步骤如下:
第一步,搭建ResNet-18特征提取网络,使用ImageNet预训练的网络参数初始化ResNet-18;并使用全连接层将ResNet-18网络提取的深层特征进行线性化,得到512维的特征向量;然后通过特征级联操作和一个全连接层对两个分支的线性化特征向量进行嵌入融合,获得相邻帧目标的运动信息;
第二步,构建演员-评论家网络,由两层512个神经元的全连接层、带有512个神经元的单层长短时记忆模块LSTM构成;演员网络的输出是4维的向量,即表示连续动作空间;评论家网络的输出是1维的向量,表示当前状态的预测值;
第三步,构建策略网络,策略网络包括两层带有512个神经元和ReLU激活函数构成 的全连接层以及输出层;其中输出层是4维的向量,代表预定义好的离散动作空间
Figure 811233DEST_PATH_IMAGE031
优选步骤四中通过深度强化学习算法对网络模型进行离线训练,具体包括:
使用A3C强化学习算法来训练演员-评论家网络,利用M个并行且独立的智能体与 环境交互;并根据收集的训练样本对异步地更新网络参数,共同对策略函数
Figure 104811DEST_PATH_IMAGE032
和值函 数
Figure 755235DEST_PATH_IMAGE033
进行建模;并充分利用优势状态动作值函数
Figure 148170DEST_PATH_IMAGE034
,每个动作的重要性度量可以 表示为:
Figure 313572DEST_PATH_IMAGE035
根据A3C算法,演员网络和评论家网络的代价函数分别可以表示为:
Figure 348525DEST_PATH_IMAGE036
Figure 853455DEST_PATH_IMAGE037
策略网络优化的离散动作空间,可以采用Policy Gradient算法来优化关于未来奖励期望J的策略网络,J可以被公式化为:
Figure 479609DEST_PATH_IMAGE038
具体地,给定N条交互轨迹
Figure 568525DEST_PATH_IMAGE039
,为了获得无偏估计,可通过最小化策略梯度的损失函 数
Figure 407168DEST_PATH_IMAGE040
来以端到端的方式训练策略网络:
Figure 563343DEST_PATH_IMAGE041
因此,通过随机策略梯度或值函数回归方式来更新网络的参数:
Figure 563660DEST_PATH_IMAGE042
Figure 438075DEST_PATH_IMAGE043
Figure 80409DEST_PATH_IMAGE044
优选所述步骤四的在线跟踪具体包括以下步骤:
第一步,给定前一帧的跟踪结果,以1.5倍边界框的比例裁剪相邻两帧图片,并调 整其分辨率为
Figure 294353DEST_PATH_IMAGE045
,从而作为网络模型的输入;
第二步,提取目标相邻帧之间的运动信息
Figure 527888DEST_PATH_IMAGE018
,演员智能体输出一个连续动作
Figure 827282DEST_PATH_IMAGE046
来 执行一次搜索,从而获得目标的运动估计
Figure 804466DEST_PATH_IMAGE047
,并转移到下一个状态
Figure 138495DEST_PATH_IMAGE048
第三步,策略智能体根据当前观察状态
Figure 480615DEST_PATH_IMAGE048
来决定当前的跟踪模式,决定是否继 续搜索,直到不再搜索为止;
第四步,确定当前帧的跟踪结果,即目标的位置信息
Figure 329622DEST_PATH_IMAGE049
第五步,进入下一帧t+1,并重复第一到第四步。
优选在线跟踪阶段的所述第三步的跟踪模式具体包括以下:
一、搜索,即继续搜索,再一次执行演员网络得到目标的运动估计
Figure 281135DEST_PATH_IMAGE050
二、停止,即当前运动估计的置信度是比较高的,无需继续搜索;
三、更新,表示当前的观察状态不佳,需要执行更新操作。为了确保跟踪效率,通过专家跟踪器行为指导来替代耗时的模型在线更新;
四、重启,表示目标可能丢失,同样启动专家跟踪器DiMP来预测当前帧的目标位置
Figure 735250DEST_PATH_IMAGE030
,并用来重新初始化当前帧的跟踪结果。
本发明的第二个目的在于提供一种存储在计算机可读介质上的计算机程序产品,该发明搜索效率高和数据样本使用效率高,跟踪性能高,减少计算量和内存消耗。
为解决此技术问题,本发明的技术方案是:
一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施本发明所述鲁棒目标跟踪方法。
本发明的第三个目的在于提供一种执行本发明所述鲁棒目标跟踪方法的移动设备系统,该发明搜索效率高和数据样本使用效率高,跟踪性能高,减少计算量和内存消耗,有利于在移动设备端进行实际部署。
为解决此技术问题,本发明的技术方案是:一种执行权利所述鲁棒目标跟踪方法的移动设备系统。
通过采用上述技术方案,本发明的有益效果是:
(1)基于层次化决策网络的目标跟踪方法,能够利用分层深度强化学习建模为自适应动态迭代搜索过程,更加符合人类行为方式的范式。
(2)不需要执行模型的在线学习以及更新过程,能够利用高性能专家跟踪器的行为演示来指导跟踪过程,保证了算法的鲁棒性,也提高了跟踪效率;
(3)实时且鲁棒的目标跟踪算法,在实际生活场景中更容易集成到计算机视觉系统中应用,也有利于嵌入到移动端设备进行实际部署。
本发明利用分层深度强化学习框架进行建模,实现更符合人类行为方式的范式。在多个目标跟踪数据集进行实验,从多个跟踪性能指标对比本发明提出的算法与其它方法。实验结果表明,本发明提出的目标跟踪方法获得了精度和速度之间很好的平衡。
从而实现本发明的上述目的。
附图说明
图1 本发明与MDNet与ADNet跟踪策略的比较;
图2 本发明基于层次化决策网络的整体架构示意图;
图3 本发明策略网络控制的跟踪模式切换的说明性示例图;
图4 本发明层次化决策跟踪策略算法流程;
图5 本发明在OTB-100数据集上的精度图和成功率图;
图6 本发明在UAV-123数据集上的精度图和成功率图;
图7 本发明在LaSOT数据集上的归一化精度图和成功率图;
图8 本发明在VOT-2019数据集上的EAO指标对比图;
图9 本发明跟踪结果可视化图。
具体实施方式
为了进一步解释本发明的技术方案,下面通过具体实施例来对本发明进行详细阐述。
目前现有的分类模型跟踪方法,通常需要在线学习和模型更新,使得跟踪算法的效率比较低,很难达到实时性的需求。现有的回归模型跟踪算法,缺少对特定目标的在线自适应过程,仅利用离线模型,算法的性能比较差,很难处理复杂的动态场景。现有的基于强化学习的跟踪方法,仅考虑单个智能体来对目标的运动估计或者跟踪状态建模,这导致在性能和速度上都不占优势。
针对现有技术存在的问题,本发明提供了一种基于层次化决策网络的鲁棒目标跟踪方法,如图1至图4所示,包括以下步骤:
步骤一、将目标跟踪问题建模为强化学习中的马尔科夫决策过程,并定义由状态S、动作A、奖励函数R和状态转移函数f构成的四元组;
步骤二、对公共视频数据集GOT-10K的测试集进行预处理,选择N帧作为片段,根据标签裁剪、放缩图片,构造若干个训练图像对;
步骤三、采用PyTorch深度学习框架搭建层次化决策网络模型,由通用的孪生特征提取网络、嵌入融合模块、策略网络和演员-评论家网络组成;
步骤四、使用A3C和PG强化学习算法分别对演员-评论家网络和策略网络进行端到端的离线训练,并采用Adam优化器来优化模型参数;
步骤五、保存训练收敛的模型,并在若干个跟踪数据集上评估层次化决策网络模型在线跟踪的性能指标。性能指标,包括成功率、准确度、鲁棒性和速度等。
本实施例中步骤一中马尔科夫决策过程具体包括:
状态:给定目标的边界框
Figure 310588DEST_PATH_IMAGE051
(分别表示中心坐标,宽度和高度),状态 S可以被定义为一对图像块。具体地,
Figure 584575DEST_PATH_IMAGE002
,其中
Figure 903560DEST_PATH_IMAGE003
表示缩放比例,
Figure 946603DEST_PATH_IMAGE004
表示在帧
Figure 896104DEST_PATH_IMAGE005
中对缩放的图像块
Figure 454125DEST_PATH_IMAGE006
进行裁剪,并 将这些裁剪后的图像块重新调整为固定大小;
动作
Figure 780064DEST_PATH_IMAGE007
包括演员智能体动作和策略智能体动作;
演员智能体动作:
Figure 677612DEST_PATH_IMAGE008
,动作
Figure 594753DEST_PATH_IMAGE009
描述了所跟踪对象位置的 相对运动;其中
Figure 843332DEST_PATH_IMAGE010
Figure 205918DEST_PATH_IMAGE011
表示相对水平和垂直平移,而
Figure 20290DEST_PATH_IMAGE012
Figure 311594DEST_PATH_IMAGE013
表示宽度和高度的相对比 例变化;
对于当前状态
Figure 844206DEST_PATH_IMAGE002
,执行动作
Figure 511948DEST_PATH_IMAGE009
,可以得到
Figure 118510DEST_PATH_IMAGE014
Figure 643032DEST_PATH_IMAGE015
Figure 866203DEST_PATH_IMAGE016
策略智能体动作:
Figure 806477DEST_PATH_IMAGE017
,其中p={搜索}表示继续搜索并 再次预测目标的相对运动,而p={停止}表示停止搜索并转到下一帧;
对于动作{更新}和{重启},表示当前的观察状态效果不佳或目标可能丢失;
状态转移:给定状态
Figure 595442DEST_PATH_IMAGE018
,执行动作
Figure 228548DEST_PATH_IMAGE052
,从而获得当前预测的边界框
Figure 470174DEST_PATH_IMAGE053
,同时,状态
Figure 479718DEST_PATH_IMAGE018
通过执行预处理函数
Figure 824987DEST_PATH_IMAGE020
可转换为
Figure 628995DEST_PATH_IMAGE021
奖励函数R包括演员智能体奖励函数和演员智能体奖励函数;
演员智能体奖励函数:
Figure 623495DEST_PATH_IMAGE022
是基于预测框b和真值g之间的交并比IoU来设计的, 其中
Figure 905572DEST_PATH_IMAGE023
,将IoU的值控制在[0, 1];
Figure 872391DEST_PATH_IMAGE024
演员智能体奖励函数:根据其影响对不同的动作定义了不同的奖励;
对于动作{搜索},可基于
Figure 644038DEST_PATH_IMAGE025
来定义:
Figure 63518DEST_PATH_IMAGE026
对于动作{停止},为了以尽量少的迭代次数停止,奖励函数根据IoU和迭代次数k来定义:
Figure 414865DEST_PATH_IMAGE027
对于动作{更新}和{重启},当IoU小于
Figure 32928DEST_PATH_IMAGE028
时,奖励为正:
Figure 178739DEST_PATH_IMAGE029
本实施例中策略智能体采用专家跟踪器行为
Figure 85515DEST_PATH_IMAGE030
来指导模型的更新和重新初始化。 本发明引入了专家跟踪器的行为指导,提高了跟踪的效率与鲁棒性。
本实施例中所述步骤三中基于层次化决策网络框架由策略网络、演员网络、评论家网络和一个共享的通用孪生观察网络组成,具体的建模步骤如下:
第一步,搭建ResNet-18特征提取网络,使用ImageNet预训练的网络参数初始化ResNet-18;并使用全连接层将ResNet-18网络提取的深层特征进行线性化,得到512维的特征向量;然后通过特征级联操作和一个全连接层对两个分支的线性化特征向量进行嵌入融合,获得相邻帧目标的运动信息;
第二步,构建演员-评论家网络,由两层512个神经元的全连接层、带有512个神经元的单层长短时记忆模块LSTM构成;演员网络的输出是4维的向量,即表示连续动作空间;评论家网络的输出是1维的向量,表示当前状态的预测值;
第三步,构建策略网络,策略网络包括两层带有512个神经元和ReLU激活函数构成 的全连接层以及输出层;其中输出层是4维的向量,代表预定义好的离散动作空间
Figure 771711DEST_PATH_IMAGE031
本实施例中步骤四中通过深度强化学习算法对网络模型进行离线训练,具体包括:
使用A3C强化学习算法来训练演员-评论家网络,利用M个并行且独立的智能体与 环境交互;并根据收集的训练样本对异步地更新网络参数,共同对策略函数
Figure 946078DEST_PATH_IMAGE032
和值函 数
Figure 59528DEST_PATH_IMAGE033
进行建模;并充分利用优势状态动作值函数
Figure 188021DEST_PATH_IMAGE034
,每个动作的重要性度量可以 表示为:
Figure 881170DEST_PATH_IMAGE054
根据A3C算法,演员网络和评论家网络的代价函数分别可以表示为:
Figure 473826DEST_PATH_IMAGE036
Figure 227018DEST_PATH_IMAGE037
策略网络优化的离散动作空间,可以采用Policy Gradient算法来优化关于未来奖励期望J的策略网络,J可以被公式化为:
Figure 842807DEST_PATH_IMAGE055
具体地,给定N条交互轨迹
Figure 74068DEST_PATH_IMAGE039
,为了获得无偏估计,可通过最小化策略梯度的损失函 数
Figure 724492DEST_PATH_IMAGE040
来以端到端的方式训练策略网络:
Figure 445324DEST_PATH_IMAGE041
因此,通过随机策略梯度或值函数回归方式来更新网络的参数:
Figure 813988DEST_PATH_IMAGE042
Figure 81896DEST_PATH_IMAGE043
Figure 586827DEST_PATH_IMAGE044
本实施例中所述步骤四的在线跟踪具体包括以下步骤:
第一步,给定前一帧的跟踪结果,以1.5倍边界框的比例裁剪相邻两帧图片,并调 整其分辨率为
Figure 478560DEST_PATH_IMAGE045
,从而作为网络模型的输入;
第二步,提取目标相邻帧之间的运动信息
Figure 334520DEST_PATH_IMAGE018
,演员智能体输出一个连续动作
Figure 642005DEST_PATH_IMAGE046
来 执行一次搜索,从而获得目标的运动估计
Figure 267021DEST_PATH_IMAGE047
,并转移到下一个状态
Figure 329655DEST_PATH_IMAGE048
第三步,策略智能体根据当前观察状态
Figure 141753DEST_PATH_IMAGE048
来决定当前的跟踪模式,决定是否继 续搜索,直到不再搜索为止;
第四步,确定当前帧的跟踪结果,即目标的位置信息
Figure 580825DEST_PATH_IMAGE049
第五步,进入下一帧t+1,并重复第一到第四步。
本实施例中在线跟踪阶段的所述第三步的跟踪模式具体包括以下:
一、搜索,即继续搜索,再一次执行演员网络得到目标的运动估计
Figure 60348DEST_PATH_IMAGE050
二、停止,即当前运动估计的置信度是比较高的,无需继续搜索;
三、更新,表示当前的观察状态不佳,需要执行更新操作。为了确保跟踪效率,通过专家跟踪器行为指导来替代耗时的模型在线更新;
四、重启,表示目标可能丢失,同样启动专家跟踪器DiMP来预测当前帧的目标位置
Figure 231566DEST_PATH_IMAGE030
,并用来重新初始化当前帧的跟踪结果。
下面结合实验评估对本发明作进一步描述。
本发明相比于其它基于搜索策略的跟踪技术,从跟踪的精度、成功率与算法运行效率三方面,与已有的工作GOTURN、Re3、ADNet、ACT、DRL-IS、A3CT和A3CTD在OTB-100、UAV-123和LaSOT数据集上进行实验比较。从表1中可以看出,本发明提出的跟踪方法PACNet在精度Pre.和成功率AUC指标方面都排名第一,除了在OTB-100上Pre.略低于ADNet;并且速度为40 FPS。这证明本发明在性能和速度之间获得了很好的平衡。
表1 基于搜索策略的相关跟踪方法的性能比较
Figure 593277DEST_PATH_IMAGE056
此外,本发明的跟踪方法还和其他先进的跟踪算法进行实验比较。如图5所示。在OTB-2015数据集上,与其它算法相比,PACNet获得了相当的精度和AUC分数;并且在跟踪效率上有着很大的优势。如图6和图7所示,在UAV-123和LaSOT数据集上,PACNet超越了所对比的其它方法,除了专家跟踪器DiMP。进一步,在VOT-2019和GOT-10K数据集上,PACNet仍然占有优势。通过表2、表3和图8,可以发现本发明提出的跟踪方法都有着很好的性能。
表2 在VOT-2019数据集上的性能比较
Figure 741100DEST_PATH_IMAGE057
表3 在GOT-10K数据集上的性能比较
Figure 340708DEST_PATH_IMAGE059
最后,本发明进一步可视化了跟踪结果。在OTB上的四个具有挑战性的序列(Skating2,DragonBaby,Biker和Matrix)中,比较了与MDNet、ADNet、ACT、CREST的跟踪效果。从图9中可以发现,本发明的跟踪算法可以在尺度变化,形变和快速运动等复杂场景下鲁棒地定位到所跟踪的目标,这证实了本发明所提出层次化决策跟踪策略的有效性。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
本发明相比于其它基于搜索策略的跟踪技术,从跟踪的精度、成功率与算法运行效率三方面,与已有的工作GOTURN、Re3、ADNet、ACT、DRL-IS、A3CT和A3CTD在OTB-100、UAV-123和LaSOT数据集上进行实验比较。
为了综合评估所提方法的性能,本发明分别在OTB-100、UAV-123和LaSOT数据集上比较GOTURN、Re3、ADNet、ACT、A3CT和A3CTD算法的跟踪精度和成功率。从表1可以看出,本发明提出的跟踪方法PACNet在精度Pre.和成功率AUC指标方面都排名第一,除了在OTB-100上Pre.略低于ADNet;并且速度为40 FPS。这证明本发明在性能和速度之间获得了很好的平衡。
此外,本发明的跟踪方法还和其他先进的跟踪算法进行实验比较。如图5所示。在OTB-2015数据集上,与其它算法相比,PACNet获得了相当的精度和AUC分数;并且在跟踪效率上有着很大的优势。如图6和图7所示,在UAV-123和LaSOT数据集上,PACNet超越了所对比的其它方法,除了专家跟踪器DiMP。进一步,在VOT-2019和GOT-10K数据集上,提出的PACNet仍然占有优势。对比表2、表3和图8,可以发现本发明提出的跟踪方法都有着很好的性能。
最后,本发明进一步可视化了跟踪结果。在OTB数据集的四个具有挑战性的序列(Skating2,DragonBaby,Biker和Matrix)中,比较了与MDNet、ADNet、ACT、CREST的跟踪效果。从图9中可以发现,本发明的跟踪算法可以在尺度变化,形变和快速运动等复杂场景下鲁棒地定位到目标,这证实了算法的有效性。

Claims (7)

1.一种基于层次化决策网络的鲁棒目标跟踪方法,其特征在于:包括以下步骤:
步骤一、将目标跟踪问题建模为强化学习中的马尔科夫决策过程,并定义由状态S、动作A、奖励函数R和状态转移函数f构成的四元组;
步骤二、对公共视频数据集GOT-10K的测试集进行预处理,选择N帧作为片段,根据标签裁剪、放缩图片,构造若干个训练图像对;
步骤三、采用PyTorch深度学习框架搭建层次化决策网络模型,由通用的孪生特征提取网络、嵌入融合模块、策略网络和演员-评论家网络组成;
所述步骤三中基于层次化决策网络框架由策略网络、演员网络、评论家网络和一个共享的通用孪生特征提取网络组成,具体的建模步骤如下:
第一步,搭建ResNet-18特征提取网络,使用ImageNet预训练的网络参数初始化ResNet-18;并使用全连接层将ResNet-18网络提取的深层特征进行线性化,得到512维的特征向量;然后通过特征级联操作和一个全连接层对两个分支的线性化特征向量进行嵌入融合,获得相邻帧目标的运动信息;
第二步,构建演员-评论家网络,由两层512个神经元的全连接层、带有512个神经元的单层长短时记忆模块LSTM构成;演员网络的输出是4维的向量,即表示连续动作空间;评论家网络的输出是1维的向量,表示当前状态的预测值;
第三步,构建策略网络,策略网络包括两层带有512个神经元和ReLU激活函数构成的全连接层以及输出层;其中输出层是4维的向量,代表预定义的离散动作空间{搜索,停止,更新,重启};
步骤四、使用A3C和PG强化学习算法分别对演员-评论家网络和策略网络进行端到端的离线训练,并采用Adam优化器来优化模型参数;
步骤四中通过深度强化学习算法对网络模型进行离线训练,具体包括:
使用A3C强化学习算法来训练演员-评论家网络,利用M个并行且独立的智能体与环境交互;并根据收集的训练样本对异步地更新网络参数,共同对策略函数π(a|s)和值函数Vπ(s)进行建模;并充分利用优势状态动作值函数A(s,a),每个动作的重要性度量表示为:
A(s,a)=Qπ(a|s)-Vπ(s);
根据A3C算法,演员网络和评论家网络的代价函数分别表示为:
Figure FDA0003125795410000021
Figure FDA0003125795410000022
策略网络优化的离散动作空间,采用Policy Gradient算法优化关于未来奖励期望J的策略网络,J被公式化为:
Jπp)=E(R1:∞;π(p|s;θp))
具体地,给定N条交互轨迹τ,通过最小化策略梯度的损失函数LP来以端到端的方式训练策略网络:
Figure FDA0003125795410000023
因此,通过随机策略梯度或值函数回归方式来更新网络的参数:
Figure FDA0003125795410000031
Figure FDA0003125795410000032
Figure FDA0003125795410000033
步骤五、保存训练收敛的模型,并在若干个跟踪数据集上评估层次化决策网络模型在线跟踪的性能指标。
2.如权利要求1所述的一种基于层次化决策网络的鲁棒目标跟踪方法,其特征在于:步骤一中马尔科夫决策过程具体包括:
状态:给定目标的边界框b=[x,y,w,h],分别表示中心坐标,宽度和高度,状态S被定义为一对图像块;
具体地,St=φ(bt-1,μ,Ft-1,Ft),其中μ表示缩放比例,φ(·)表示在帧Ft-1和Ft中对缩放的图像块[xt-1,yt-1,μ·wt-1,μ·ht-1]进行裁剪,并将这些裁剪后的图像块重新调整为固定大小;
动作A包括演员智能体动作和策略智能体动作;
演员智能体动作:at=[Δxt,Δyt,Δwt,Δht],动作at描述了所跟踪对象位置的相对运动;其中Δx和Δy表示相对水平和垂直平移,而Δw和Δh表示宽度和高度的相对比例变化;
对于当前状态st=φ(bt-1,μ,Ft-1,Ft),执行动作at,得到bt=[xt,yt,wt,ht]:
Figure FDA0003125795410000041
Figure FDA0003125795410000042
策略智能体动作:p∈{搜索,停止,更新,重启},其中p={搜索}表示继续搜索并再次预测目标的相对运动,而p={停止}表示停止搜索并转到下一帧;
对于动作{更新}和{重启},表示当前的观察状态效果不佳或目标可能丢失;
状态转移:给定状态st,执行动作at,从而获得当前预测的边界框bt,同时,状态st通过执行预处理函数φ(bt,μ,Ft-1,Ft)转换为st+1
奖励函数R包括演员智能体奖励函数和策略智能体奖励函数;
演员智能体奖励函数:r(s,a)是基于预测框b和真值g之间的交并比IoU来设计的,其中ω(z)=2z-1,将IoU的值控制在[0,1];
Figure FDA0003125795410000043
策略智能体奖励函数:
对于动作{搜索},可基于
ΔIoU=IoU(b(t,k+1),gt)-IoU(b(t,k),gt)
来定义:
Figure FDA0003125795410000051
对于动作{停止},奖励函数根据IoU和迭代次数k来定义:
Figure FDA0003125795410000052
对于动作{更新}和{重启},当IoU小于∈时,奖励为正:
Figure FDA0003125795410000053
3.如权利要求2所述的一种基于层次化决策网络的鲁棒目标跟踪方法,其特征在于:策略智能体采用专家跟踪器行为be来指导模型的更新和重新初始化。
4.如权利要求1所述的一种基于层次化决策网络的鲁棒目标跟踪方法,其特征在于:所述步骤五的在线跟踪具体包括以下步骤:
第一步,给定前一帧的跟踪结果,以1.5倍边界框的比例裁剪相邻两帧图片,并调整其分辨率为128×128×3,从而作为网络模型的输入;
第二步,提取目标相邻帧之间的运动信息St,演员智能体输出一个连续动作
Figure FDA0003125795410000061
来执行一次搜索,从而获得目标的运动估计
Figure FDA0003125795410000062
并转移到下一个状态
Figure FDA0003125795410000063
第三步,策略智能体根据当前观察状态
Figure FDA0003125795410000064
来决定当前的跟踪模式,决定是否继续搜索,直到不再搜索为止;
第四步,确定当前帧的跟踪结果,即目标的位置信息bt=[xt,yt,wt,ht];
第五步,进入下一帧t+1,并重复第一到第四步。
5.如权利要求3所述的一种基于层次化决策网络的鲁棒目标跟踪方法,其特征在于:在线跟踪阶段的所述第三步的跟踪模式具体包括以下:
一、搜索,即继续搜索,再一次执行演员网络得到目标的运动估计
Figure FDA0003125795410000065
二、停止,即当前运动估计的置信度是比较高的,无需继续搜索;
三、更新,表示当前的观察状态不佳,需要执行更新操作;
通过专家跟踪器行为指导来替代耗时的模型在线更新;
四、重启,表示目标可能丢失,同样启动专家跟踪器DiMP来预测当前帧的目标位置be,并用来重新初始化当前帧的跟踪结果。
6.一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,其特征在于:提供用户输入接口以实施如权利要求1至5任意一项所述鲁棒目标跟踪方法。
7.一种执行权利要求1至5任意一项所述鲁棒目标跟踪方法的移动设备系统。
CN202110299760.7A 2021-03-22 2021-03-22 一种基于层次化决策网络的鲁棒目标跟踪方法及系统 Active CN112802061B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110299760.7A CN112802061B (zh) 2021-03-22 2021-03-22 一种基于层次化决策网络的鲁棒目标跟踪方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110299760.7A CN112802061B (zh) 2021-03-22 2021-03-22 一种基于层次化决策网络的鲁棒目标跟踪方法及系统

Publications (2)

Publication Number Publication Date
CN112802061A CN112802061A (zh) 2021-05-14
CN112802061B true CN112802061B (zh) 2021-08-06

Family

ID=75815564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110299760.7A Active CN112802061B (zh) 2021-03-22 2021-03-22 一种基于层次化决策网络的鲁棒目标跟踪方法及系统

Country Status (1)

Country Link
CN (1) CN112802061B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113296540B (zh) * 2021-05-20 2022-07-12 北京航空航天大学 一种适用于室内无人机的混合智能跟随与避障方法
CN113239634B (zh) * 2021-06-11 2022-11-04 上海交通大学 一种基于鲁棒模仿学习的模拟器建模方法
CN114581684B (zh) * 2022-01-14 2024-06-18 山东大学 基于语义时空表示学习的主动目标跟踪方法、系统及设备
CN114970819B (zh) * 2022-05-26 2024-05-03 哈尔滨工业大学 一种基于意图推理与深度强化学习的移动目标搜索跟踪方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934332A (zh) * 2018-12-31 2019-06-25 中国科学院软件研究所 基于评论家和双经验池的深度确定性策略梯度学习方法
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN111263332A (zh) * 2020-03-02 2020-06-09 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934332A (zh) * 2018-12-31 2019-06-25 中国科学院软件研究所 基于评论家和双经验池的深度确定性策略梯度学习方法
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN111263332A (zh) * 2020-03-02 2020-06-09 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法
CN112118556A (zh) * 2020-03-02 2020-12-22 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Soft-Robust Actor-Critic Policy-Gradient;Esther Derman等;《https://arxiv.org/format/1803.04848》;20181024;第1-17页 *
深度学习的目标跟踪算法综述;李玺等;《中国图象图形学报》;20191216;第24卷(第12期);第2057-2080页 *

Also Published As

Publication number Publication date
CN112802061A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112802061B (zh) 一种基于层次化决策网络的鲁棒目标跟踪方法及系统
CN112714896A (zh) 自知视觉-文本共接地导航代理
CN113920170B (zh) 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质
CN109214245B (zh) 一种目标跟踪方法、装置、设备及计算机可读存储介质
JP2010244549A (ja) ロボットの少なくとも1つの将来的活動を決定する決定メカニズム、方法、モジュールおよび決定するように構成されたロボット
Ozer Visual object tracking in drone images with deep reinforcement learning
CN111915644A (zh) 孪生导向锚框rpn网络的实时目标跟踪方法
Hoy et al. Learning to predict pedestrian intention via variational tracking networks
Teng et al. Three-step action search networks with deep q-learning for real-time object tracking
Mohd Asaari et al. Adaptive Kalman Filter Incorporated Eigenhand (AKFIE) for real-time hand tracking system
CN113902256A (zh) 训练标签预测模型的方法、标签预测方法和装置
Song et al. Visual object tracking via guessing and matching
CN111105442B (zh) 切换式目标跟踪方法
Zhang et al. Residual memory inference network for regression tracking with weighted gradient harmonized loss
Xing et al. NoisyOTNet: A robust real-time vehicle tracking model for traffic surveillance
CN109461166A (zh) 一种基于kcf混合mfo的快速运动目标跟踪方法
CN118742925A (zh) 使用神经网络跟踪视频中的查询点
US20220121855A1 (en) Temporal knowledge distillation for active perception
Zhao et al. Interpretable deep feature propagation for early action recognition
Firouznia et al. Adaptive chaotic sampling particle filter to handle occlusion and fast motion in visual object tracking
Ying et al. Depth-adaptive computational policies for efficient visual tracking
Sanchez-Matilla et al. Motion prediction for first-person vision multi-object tracking
Huang et al. A spatial–temporal contexts network for object tracking
CN113095328B (zh) 一种基尼指数引导的基于自训练的语义分割方法
Ho et al. An adaptive visual attentive tracker for human communicational behaviors using HMM-based TD learning with new state distinction capability

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210514

Assignee: Zhejiang Fengshou e-commerce Co.,Ltd.

Assignor: ZHEJIANG NORMAL University

Contract record no.: X2022980008009

Denomination of invention: A robust target tracking method and system based on hierarchical decision network

Granted publication date: 20210806

License type: Common License

Record date: 20220623

EE01 Entry into force of recordation of patent licensing contract