CN112802061B - 一种基于层次化决策网络的鲁棒目标跟踪方法及系统 - Google Patents
一种基于层次化决策网络的鲁棒目标跟踪方法及系统 Download PDFInfo
- Publication number
- CN112802061B CN112802061B CN202110299760.7A CN202110299760A CN112802061B CN 112802061 B CN112802061 B CN 112802061B CN 202110299760 A CN202110299760 A CN 202110299760A CN 112802061 B CN112802061 B CN 112802061B
- Authority
- CN
- China
- Prior art keywords
- network
- actor
- tracking
- action
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 22
- 230000002787 reinforcement Effects 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 9
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims abstract description 4
- 238000013135 deep learning Methods 0.000 claims abstract description 4
- 239000012634 fragment Substances 0.000 claims abstract description 4
- 230000004927 fusion Effects 0.000 claims abstract description 4
- 230000009471 action Effects 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 40
- 239000003795 chemical substances by application Substances 0.000 claims description 30
- 239000010410 layer Substances 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 15
- 230000006399 behavior Effects 0.000 claims description 10
- 210000002569 neuron Anatomy 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims 1
- 230000015654 memory Effects 0.000 abstract description 7
- 230000009286 beneficial effect Effects 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000013145 classification model Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 3
- 101100272279 Beauveria bassiana Beas gene Proteins 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000002904 solvent Substances 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于层次化决策网络的鲁棒目标跟踪方法,包括以下步骤:一、将目标跟踪问题建模为强化学习中的马尔科夫决策过程,并定义四元组;二、选择N帧作为片段,根据标签裁剪、放缩图片,构造若干个训练图像对;三、采用PyTorch深度学习框架搭建层次化决策网络模型,由通用的孪生特征提取网络、嵌入融合模块、策略网络和演员‑评论家网络组成;四、使用A3C和PG强化学习算法分别对演员‑评论家网络和策略网络进行端到端的离线训练,并采用Adam优化器来优化模型参数;五、保存训练收敛的模型;本发明还公开该方法的应用;该发明提高搜索和数据样本使用效率,提高跟踪性能,减少计算量和内存消耗,利于在移动设备端实际部署。
Description
技术领域
本发明涉及视觉目标跟踪技术领域,特别是涉及一种基于层次化决策网络的鲁棒目标跟踪方法及系统。
背景技术
目标跟踪是人工智能领域中最基础的视觉任务之一。给定一个任意目标的初始化位置,目标跟踪技术即可在后续的视频序列帧中自动地估计出运动目标的位置和尺度信息。通常来说,目标跟踪技术可以分为单目标跟踪、多目标跟踪。单目标跟踪主要是针对特定物体进行建模分析,而多目标跟踪则是联合目标检测和数据关联技术来预测出多个物体的位置和编号。目标跟踪技术应用十分广泛,主要应用领域有视频监控、行为理解、自动驾驶、人机交互和军事领域等。
尽管视觉目标跟踪技术取得了长足的发展,但是视频场景仍存在着大量的挑战因素,主要包括各种不确定的动态场景变化:光照变化、尺度变化、运动模糊、遮挡、背景杂波、严重的物体外观变化等多种因素。同时,考虑到实际应用场景,跟踪方法既需要很好的准确度和鲁棒性,也需要满足实时的需求。因此,设计一种实时的鲁棒目标跟踪方法、目标跟踪系统具有很重要的实际意义。
目前,目标跟踪方法主要分为两类:基于分类模型和基于孪生网络模型。在分类模型中,由于依赖在线学习和随机采样,跟踪方法精度比较高但是速度很慢。而在孪生网络中,将视觉跟踪建模为相似性匹配的问题,依赖大规模的离线训练,跟踪速度比较快但是对于背景干扰物以及尺度变化不够敏感。这二类方法在面向复杂的实际动态场景中都会受到了一定的限制。
为了缓解分类模型中的速度问题,一些基于强化学习的目标跟踪模型被提出。其中,Yun et al.提出了一种基于深度强化学习(DRL)的动作决策网络(ADNet),通过一系列离散动作来调整每个帧中目标的中心坐标和纵横比。因此ADNet的搜索步骤远少于滑动窗口和随机抽样方法。与MDNet (1 fps)相比,ADNet的速度提高了三倍(3 fps)。进一步地,Actor-Critic跟踪框架被开发,仅预测一个连续动作来定位被跟踪对象(30 fps);但是,仅仅一个搜索步骤不能够有效地捕获某些复杂场景中感兴趣目标的所有可能运动变化。Renet al.提出一种基于迭代移位的视觉目标跟踪算法,旨在通过多次移位来执行跟踪(10fps),并通过Actor-Critic框架来学习跟踪状态的决策。尽管上述方法取得了些许的改进,但是这些算法由于耗时的在线学习和更新,速度仍然不能够令人满意。
同时,视觉跟踪任务也可以看作是回归问题。Held et al.设计了深度回归网络来预测目标边界框的偏移量,由于深度回归网络是离线训练的,在线没有进行微调或者更新,算法的跟踪速度达到了100 fps。此外,Re3将时间信息纳入回归模型中,并提出了一种递归回归网络。这类方法速度很快,但是缺乏特定目标的建模以及在线学习过程,跟踪的性能比较差。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有的基于分类模型的目标跟踪方法,通常需要在线学习和模型更新,使得跟踪算法的效率比较低,很难达到实时性应用的需求。
(2)现有的基于回归模型的视觉跟踪算法,缺少对特定目标的在线自适应过程,仅利用离线模型,算法的性能比较差,很难处理复杂的动态场景。
(3)现有的基于强化学习的跟踪方法,仅考虑建模了单个智能体来对目标的运动估计或者跟踪状态做决定,这导致算法在性能和速度上都不占优势。
解决以上问题及缺陷的难度为:如何高效地进行特征提取和选择;如何进一步提高在线跟踪的效率,从而能够在实际场景中应用;如何设计有效的离线训练方法和在线自适应策略,以应对复杂的动态场景;如何平衡跟踪算法的准确性、鲁棒性和效率,在满足实时速度的同时,尽可能地提高模型的性能。
发明内容
本发明的目的在于提供一种基于层次化决策网络的鲁棒目标跟踪方法,该发明提高搜索和数据样本使用效率,提高跟踪性能,减少计算量和内存消耗,利于在移动设备端实际部署。
为解决此技术问题,本发明的技术方案是:
一种基于层次化决策网络的鲁棒目标跟踪方法,包括以下步骤:
步骤一、将目标跟踪问题建模为强化学习中的马尔科夫决策过程,并定义由状态S、动作A、奖励函数R和状态转移函数f构成的四元组;
步骤二、对公共视频数据集GOT-10K的测试集进行预处理,选择N帧作为片段,根据标签裁剪、放缩图片,构造若干个训练图像对;
步骤三、采用PyTorch深度学习框架搭建层次化决策网络模型,由通用的孪生特征提取网络、嵌入融合模块、策略网络和演员-评论家网络组成;
步骤四、使用A3C和PG强化学习算法分别对演员-评论家网络和策略网络进行端到端的离线训练,并采用Adam优化器来优化模型参数;
步骤五、保存训练收敛的模型,并在若干个跟踪数据集上评估层次化决策网络模型在线跟踪的性能指标。
优选步骤一中马尔科夫决策过程具体包括:
对于动作{更新}和{重启},表示当前的观察状态效果不佳或目标可能丢失;
奖励函数R包括演员智能体奖励函数和演员智能体奖励函数;
演员智能体奖励函数:根据其影响对不同的动作定义了不同的奖励;
对于动作{停止},为了以尽量少的迭代次数停止,奖励函数根据IoU和迭代次数k来定义:
本发明引入了专家跟踪器的行为指导,提高了跟踪的效率与鲁棒性。
优选所述步骤三中基于层次化决策网络框架由策略网络、演员网络、评论家网络和一个共享的通用孪生观察网络组成,具体的建模步骤如下:
第一步,搭建ResNet-18特征提取网络,使用ImageNet预训练的网络参数初始化ResNet-18;并使用全连接层将ResNet-18网络提取的深层特征进行线性化,得到512维的特征向量;然后通过特征级联操作和一个全连接层对两个分支的线性化特征向量进行嵌入融合,获得相邻帧目标的运动信息;
第二步,构建演员-评论家网络,由两层512个神经元的全连接层、带有512个神经元的单层长短时记忆模块LSTM构成;演员网络的输出是4维的向量,即表示连续动作空间;评论家网络的输出是1维的向量,表示当前状态的预测值;
优选步骤四中通过深度强化学习算法对网络模型进行离线训练,具体包括:
使用A3C强化学习算法来训练演员-评论家网络,利用M个并行且独立的智能体与
环境交互;并根据收集的训练样本对异步地更新网络参数,共同对策略函数和值函
数进行建模;并充分利用优势状态动作值函数,每个动作的重要性度量可以
表示为:
根据A3C算法,演员网络和评论家网络的代价函数分别可以表示为:
策略网络优化的离散动作空间,可以采用Policy Gradient算法来优化关于未来奖励期望J的策略网络,J可以被公式化为:
因此,通过随机策略梯度或值函数回归方式来更新网络的参数:
优选所述步骤四的在线跟踪具体包括以下步骤:
第五步,进入下一帧t+1,并重复第一到第四步。
优选在线跟踪阶段的所述第三步的跟踪模式具体包括以下:
二、停止,即当前运动估计的置信度是比较高的,无需继续搜索;
三、更新,表示当前的观察状态不佳,需要执行更新操作。为了确保跟踪效率,通过专家跟踪器行为指导来替代耗时的模型在线更新;
本发明的第二个目的在于提供一种存储在计算机可读介质上的计算机程序产品,该发明搜索效率高和数据样本使用效率高,跟踪性能高,减少计算量和内存消耗。
为解决此技术问题,本发明的技术方案是:
一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施本发明所述鲁棒目标跟踪方法。
本发明的第三个目的在于提供一种执行本发明所述鲁棒目标跟踪方法的移动设备系统,该发明搜索效率高和数据样本使用效率高,跟踪性能高,减少计算量和内存消耗,有利于在移动设备端进行实际部署。
为解决此技术问题,本发明的技术方案是:一种执行权利所述鲁棒目标跟踪方法的移动设备系统。
通过采用上述技术方案,本发明的有益效果是:
(1)基于层次化决策网络的目标跟踪方法,能够利用分层深度强化学习建模为自适应动态迭代搜索过程,更加符合人类行为方式的范式。
(2)不需要执行模型的在线学习以及更新过程,能够利用高性能专家跟踪器的行为演示来指导跟踪过程,保证了算法的鲁棒性,也提高了跟踪效率;
(3)实时且鲁棒的目标跟踪算法,在实际生活场景中更容易集成到计算机视觉系统中应用,也有利于嵌入到移动端设备进行实际部署。
本发明利用分层深度强化学习框架进行建模,实现更符合人类行为方式的范式。在多个目标跟踪数据集进行实验,从多个跟踪性能指标对比本发明提出的算法与其它方法。实验结果表明,本发明提出的目标跟踪方法获得了精度和速度之间很好的平衡。
从而实现本发明的上述目的。
附图说明
图1 本发明与MDNet与ADNet跟踪策略的比较;
图2 本发明基于层次化决策网络的整体架构示意图;
图3 本发明策略网络控制的跟踪模式切换的说明性示例图;
图4 本发明层次化决策跟踪策略算法流程;
图5 本发明在OTB-100数据集上的精度图和成功率图;
图6 本发明在UAV-123数据集上的精度图和成功率图;
图7 本发明在LaSOT数据集上的归一化精度图和成功率图;
图8 本发明在VOT-2019数据集上的EAO指标对比图;
图9 本发明跟踪结果可视化图。
具体实施方式
为了进一步解释本发明的技术方案,下面通过具体实施例来对本发明进行详细阐述。
目前现有的分类模型跟踪方法,通常需要在线学习和模型更新,使得跟踪算法的效率比较低,很难达到实时性的需求。现有的回归模型跟踪算法,缺少对特定目标的在线自适应过程,仅利用离线模型,算法的性能比较差,很难处理复杂的动态场景。现有的基于强化学习的跟踪方法,仅考虑单个智能体来对目标的运动估计或者跟踪状态建模,这导致在性能和速度上都不占优势。
针对现有技术存在的问题,本发明提供了一种基于层次化决策网络的鲁棒目标跟踪方法,如图1至图4所示,包括以下步骤:
步骤一、将目标跟踪问题建模为强化学习中的马尔科夫决策过程,并定义由状态S、动作A、奖励函数R和状态转移函数f构成的四元组;
步骤二、对公共视频数据集GOT-10K的测试集进行预处理,选择N帧作为片段,根据标签裁剪、放缩图片,构造若干个训练图像对;
步骤三、采用PyTorch深度学习框架搭建层次化决策网络模型,由通用的孪生特征提取网络、嵌入融合模块、策略网络和演员-评论家网络组成;
步骤四、使用A3C和PG强化学习算法分别对演员-评论家网络和策略网络进行端到端的离线训练,并采用Adam优化器来优化模型参数;
步骤五、保存训练收敛的模型,并在若干个跟踪数据集上评估层次化决策网络模型在线跟踪的性能指标。性能指标,包括成功率、准确度、鲁棒性和速度等。
本实施例中步骤一中马尔科夫决策过程具体包括:
对于动作{更新}和{重启},表示当前的观察状态效果不佳或目标可能丢失;
奖励函数R包括演员智能体奖励函数和演员智能体奖励函数;
演员智能体奖励函数:根据其影响对不同的动作定义了不同的奖励;
对于动作{停止},为了以尽量少的迭代次数停止,奖励函数根据IoU和迭代次数k来定义:
本实施例中所述步骤三中基于层次化决策网络框架由策略网络、演员网络、评论家网络和一个共享的通用孪生观察网络组成,具体的建模步骤如下:
第一步,搭建ResNet-18特征提取网络,使用ImageNet预训练的网络参数初始化ResNet-18;并使用全连接层将ResNet-18网络提取的深层特征进行线性化,得到512维的特征向量;然后通过特征级联操作和一个全连接层对两个分支的线性化特征向量进行嵌入融合,获得相邻帧目标的运动信息;
第二步,构建演员-评论家网络,由两层512个神经元的全连接层、带有512个神经元的单层长短时记忆模块LSTM构成;演员网络的输出是4维的向量,即表示连续动作空间;评论家网络的输出是1维的向量,表示当前状态的预测值;
本实施例中步骤四中通过深度强化学习算法对网络模型进行离线训练,具体包括:
使用A3C强化学习算法来训练演员-评论家网络,利用M个并行且独立的智能体与
环境交互;并根据收集的训练样本对异步地更新网络参数,共同对策略函数和值函
数进行建模;并充分利用优势状态动作值函数,每个动作的重要性度量可以
表示为:
根据A3C算法,演员网络和评论家网络的代价函数分别可以表示为:
策略网络优化的离散动作空间,可以采用Policy Gradient算法来优化关于未来奖励期望J的策略网络,J可以被公式化为:
因此,通过随机策略梯度或值函数回归方式来更新网络的参数:
本实施例中所述步骤四的在线跟踪具体包括以下步骤:
第五步,进入下一帧t+1,并重复第一到第四步。
本实施例中在线跟踪阶段的所述第三步的跟踪模式具体包括以下:
二、停止,即当前运动估计的置信度是比较高的,无需继续搜索;
三、更新,表示当前的观察状态不佳,需要执行更新操作。为了确保跟踪效率,通过专家跟踪器行为指导来替代耗时的模型在线更新;
下面结合实验评估对本发明作进一步描述。
本发明相比于其它基于搜索策略的跟踪技术,从跟踪的精度、成功率与算法运行效率三方面,与已有的工作GOTURN、Re3、ADNet、ACT、DRL-IS、A3CT和A3CTD在OTB-100、UAV-123和LaSOT数据集上进行实验比较。从表1中可以看出,本发明提出的跟踪方法PACNet在精度Pre.和成功率AUC指标方面都排名第一,除了在OTB-100上Pre.略低于ADNet;并且速度为40 FPS。这证明本发明在性能和速度之间获得了很好的平衡。
表1 基于搜索策略的相关跟踪方法的性能比较
此外,本发明的跟踪方法还和其他先进的跟踪算法进行实验比较。如图5所示。在OTB-2015数据集上,与其它算法相比,PACNet获得了相当的精度和AUC分数;并且在跟踪效率上有着很大的优势。如图6和图7所示,在UAV-123和LaSOT数据集上,PACNet超越了所对比的其它方法,除了专家跟踪器DiMP。进一步,在VOT-2019和GOT-10K数据集上,PACNet仍然占有优势。通过表2、表3和图8,可以发现本发明提出的跟踪方法都有着很好的性能。
表2 在VOT-2019数据集上的性能比较
表3 在GOT-10K数据集上的性能比较
最后,本发明进一步可视化了跟踪结果。在OTB上的四个具有挑战性的序列(Skating2,DragonBaby,Biker和Matrix)中,比较了与MDNet、ADNet、ACT、CREST的跟踪效果。从图9中可以发现,本发明的跟踪算法可以在尺度变化,形变和快速运动等复杂场景下鲁棒地定位到所跟踪的目标,这证实了本发明所提出层次化决策跟踪策略的有效性。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
本发明相比于其它基于搜索策略的跟踪技术,从跟踪的精度、成功率与算法运行效率三方面,与已有的工作GOTURN、Re3、ADNet、ACT、DRL-IS、A3CT和A3CTD在OTB-100、UAV-123和LaSOT数据集上进行实验比较。
为了综合评估所提方法的性能,本发明分别在OTB-100、UAV-123和LaSOT数据集上比较GOTURN、Re3、ADNet、ACT、A3CT和A3CTD算法的跟踪精度和成功率。从表1可以看出,本发明提出的跟踪方法PACNet在精度Pre.和成功率AUC指标方面都排名第一,除了在OTB-100上Pre.略低于ADNet;并且速度为40 FPS。这证明本发明在性能和速度之间获得了很好的平衡。
此外,本发明的跟踪方法还和其他先进的跟踪算法进行实验比较。如图5所示。在OTB-2015数据集上,与其它算法相比,PACNet获得了相当的精度和AUC分数;并且在跟踪效率上有着很大的优势。如图6和图7所示,在UAV-123和LaSOT数据集上,PACNet超越了所对比的其它方法,除了专家跟踪器DiMP。进一步,在VOT-2019和GOT-10K数据集上,提出的PACNet仍然占有优势。对比表2、表3和图8,可以发现本发明提出的跟踪方法都有着很好的性能。
最后,本发明进一步可视化了跟踪结果。在OTB数据集的四个具有挑战性的序列(Skating2,DragonBaby,Biker和Matrix)中,比较了与MDNet、ADNet、ACT、CREST的跟踪效果。从图9中可以发现,本发明的跟踪算法可以在尺度变化,形变和快速运动等复杂场景下鲁棒地定位到目标,这证实了算法的有效性。
Claims (7)
1.一种基于层次化决策网络的鲁棒目标跟踪方法,其特征在于:包括以下步骤:
步骤一、将目标跟踪问题建模为强化学习中的马尔科夫决策过程,并定义由状态S、动作A、奖励函数R和状态转移函数f构成的四元组;
步骤二、对公共视频数据集GOT-10K的测试集进行预处理,选择N帧作为片段,根据标签裁剪、放缩图片,构造若干个训练图像对;
步骤三、采用PyTorch深度学习框架搭建层次化决策网络模型,由通用的孪生特征提取网络、嵌入融合模块、策略网络和演员-评论家网络组成;
所述步骤三中基于层次化决策网络框架由策略网络、演员网络、评论家网络和一个共享的通用孪生特征提取网络组成,具体的建模步骤如下:
第一步,搭建ResNet-18特征提取网络,使用ImageNet预训练的网络参数初始化ResNet-18;并使用全连接层将ResNet-18网络提取的深层特征进行线性化,得到512维的特征向量;然后通过特征级联操作和一个全连接层对两个分支的线性化特征向量进行嵌入融合,获得相邻帧目标的运动信息;
第二步,构建演员-评论家网络,由两层512个神经元的全连接层、带有512个神经元的单层长短时记忆模块LSTM构成;演员网络的输出是4维的向量,即表示连续动作空间;评论家网络的输出是1维的向量,表示当前状态的预测值;
第三步,构建策略网络,策略网络包括两层带有512个神经元和ReLU激活函数构成的全连接层以及输出层;其中输出层是4维的向量,代表预定义的离散动作空间{搜索,停止,更新,重启};
步骤四、使用A3C和PG强化学习算法分别对演员-评论家网络和策略网络进行端到端的离线训练,并采用Adam优化器来优化模型参数;
步骤四中通过深度强化学习算法对网络模型进行离线训练,具体包括:
使用A3C强化学习算法来训练演员-评论家网络,利用M个并行且独立的智能体与环境交互;并根据收集的训练样本对异步地更新网络参数,共同对策略函数π(a|s)和值函数Vπ(s)进行建模;并充分利用优势状态动作值函数A(s,a),每个动作的重要性度量表示为:
A(s,a)=Qπ(a|s)-Vπ(s);
根据A3C算法,演员网络和评论家网络的代价函数分别表示为:
策略网络优化的离散动作空间,采用Policy Gradient算法优化关于未来奖励期望J的策略网络,J被公式化为:
Jπ(θp)=E(R1:∞;π(p|s;θp))
具体地,给定N条交互轨迹τ,通过最小化策略梯度的损失函数LP来以端到端的方式训练策略网络:
因此,通过随机策略梯度或值函数回归方式来更新网络的参数:
步骤五、保存训练收敛的模型,并在若干个跟踪数据集上评估层次化决策网络模型在线跟踪的性能指标。
2.如权利要求1所述的一种基于层次化决策网络的鲁棒目标跟踪方法,其特征在于:步骤一中马尔科夫决策过程具体包括:
状态:给定目标的边界框b=[x,y,w,h],分别表示中心坐标,宽度和高度,状态S被定义为一对图像块;
具体地,St=φ(bt-1,μ,Ft-1,Ft),其中μ表示缩放比例,φ(·)表示在帧Ft-1和Ft中对缩放的图像块[xt-1,yt-1,μ·wt-1,μ·ht-1]进行裁剪,并将这些裁剪后的图像块重新调整为固定大小;
动作A包括演员智能体动作和策略智能体动作;
演员智能体动作:at=[Δxt,Δyt,Δwt,Δht],动作at描述了所跟踪对象位置的相对运动;其中Δx和Δy表示相对水平和垂直平移,而Δw和Δh表示宽度和高度的相对比例变化;
对于当前状态st=φ(bt-1,μ,Ft-1,Ft),执行动作at,得到bt=[xt,yt,wt,ht]:
策略智能体动作:p∈{搜索,停止,更新,重启},其中p={搜索}表示继续搜索并再次预测目标的相对运动,而p={停止}表示停止搜索并转到下一帧;
对于动作{更新}和{重启},表示当前的观察状态效果不佳或目标可能丢失;
状态转移:给定状态st,执行动作at,从而获得当前预测的边界框bt,同时,状态st通过执行预处理函数φ(bt,μ,Ft-1,Ft)转换为st+1;
奖励函数R包括演员智能体奖励函数和策略智能体奖励函数;
演员智能体奖励函数:r(s,a)是基于预测框b和真值g之间的交并比IoU来设计的,其中ω(z)=2z-1,将IoU的值控制在[0,1];
策略智能体奖励函数:
对于动作{搜索},可基于
ΔIoU=IoU(b(t,k+1),gt)-IoU(b(t,k),gt)
来定义:
对于动作{停止},奖励函数根据IoU和迭代次数k来定义:
对于动作{更新}和{重启},当IoU小于∈时,奖励为正:
3.如权利要求2所述的一种基于层次化决策网络的鲁棒目标跟踪方法,其特征在于:策略智能体采用专家跟踪器行为be来指导模型的更新和重新初始化。
6.一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,其特征在于:提供用户输入接口以实施如权利要求1至5任意一项所述鲁棒目标跟踪方法。
7.一种执行权利要求1至5任意一项所述鲁棒目标跟踪方法的移动设备系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110299760.7A CN112802061B (zh) | 2021-03-22 | 2021-03-22 | 一种基于层次化决策网络的鲁棒目标跟踪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110299760.7A CN112802061B (zh) | 2021-03-22 | 2021-03-22 | 一种基于层次化决策网络的鲁棒目标跟踪方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112802061A CN112802061A (zh) | 2021-05-14 |
CN112802061B true CN112802061B (zh) | 2021-08-06 |
Family
ID=75815564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110299760.7A Active CN112802061B (zh) | 2021-03-22 | 2021-03-22 | 一种基于层次化决策网络的鲁棒目标跟踪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112802061B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113296540B (zh) * | 2021-05-20 | 2022-07-12 | 北京航空航天大学 | 一种适用于室内无人机的混合智能跟随与避障方法 |
CN113239634B (zh) * | 2021-06-11 | 2022-11-04 | 上海交通大学 | 一种基于鲁棒模仿学习的模拟器建模方法 |
CN114581684B (zh) * | 2022-01-14 | 2024-06-18 | 山东大学 | 基于语义时空表示学习的主动目标跟踪方法、系统及设备 |
CN114970819B (zh) * | 2022-05-26 | 2024-05-03 | 哈尔滨工业大学 | 一种基于意图推理与深度强化学习的移动目标搜索跟踪方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934332A (zh) * | 2018-12-31 | 2019-06-25 | 中国科学院软件研究所 | 基于评论家和双经验池的深度确定性策略梯度学习方法 |
CN110322017A (zh) * | 2019-08-13 | 2019-10-11 | 吉林大学 | 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略 |
CN111263332A (zh) * | 2020-03-02 | 2020-06-09 | 湖北工业大学 | 基于深度强化学习的无人机轨迹及功率联合优化方法 |
-
2021
- 2021-03-22 CN CN202110299760.7A patent/CN112802061B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934332A (zh) * | 2018-12-31 | 2019-06-25 | 中国科学院软件研究所 | 基于评论家和双经验池的深度确定性策略梯度学习方法 |
CN110322017A (zh) * | 2019-08-13 | 2019-10-11 | 吉林大学 | 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略 |
CN111263332A (zh) * | 2020-03-02 | 2020-06-09 | 湖北工业大学 | 基于深度强化学习的无人机轨迹及功率联合优化方法 |
CN112118556A (zh) * | 2020-03-02 | 2020-12-22 | 湖北工业大学 | 基于深度强化学习的无人机轨迹及功率联合优化方法 |
Non-Patent Citations (2)
Title |
---|
Soft-Robust Actor-Critic Policy-Gradient;Esther Derman等;《https://arxiv.org/format/1803.04848》;20181024;第1-17页 * |
深度学习的目标跟踪算法综述;李玺等;《中国图象图形学报》;20191216;第24卷(第12期);第2057-2080页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112802061A (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112802061B (zh) | 一种基于层次化决策网络的鲁棒目标跟踪方法及系统 | |
CN112714896A (zh) | 自知视觉-文本共接地导航代理 | |
CN113920170B (zh) | 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质 | |
CN109214245B (zh) | 一种目标跟踪方法、装置、设备及计算机可读存储介质 | |
JP2010244549A (ja) | ロボットの少なくとも1つの将来的活動を決定する決定メカニズム、方法、モジュールおよび決定するように構成されたロボット | |
Ozer | Visual object tracking in drone images with deep reinforcement learning | |
CN111915644A (zh) | 孪生导向锚框rpn网络的实时目标跟踪方法 | |
Hoy et al. | Learning to predict pedestrian intention via variational tracking networks | |
Teng et al. | Three-step action search networks with deep q-learning for real-time object tracking | |
Mohd Asaari et al. | Adaptive Kalman Filter Incorporated Eigenhand (AKFIE) for real-time hand tracking system | |
CN113902256A (zh) | 训练标签预测模型的方法、标签预测方法和装置 | |
Song et al. | Visual object tracking via guessing and matching | |
CN111105442B (zh) | 切换式目标跟踪方法 | |
Zhang et al. | Residual memory inference network for regression tracking with weighted gradient harmonized loss | |
Xing et al. | NoisyOTNet: A robust real-time vehicle tracking model for traffic surveillance | |
CN109461166A (zh) | 一种基于kcf混合mfo的快速运动目标跟踪方法 | |
CN118742925A (zh) | 使用神经网络跟踪视频中的查询点 | |
US20220121855A1 (en) | Temporal knowledge distillation for active perception | |
Zhao et al. | Interpretable deep feature propagation for early action recognition | |
Firouznia et al. | Adaptive chaotic sampling particle filter to handle occlusion and fast motion in visual object tracking | |
Ying et al. | Depth-adaptive computational policies for efficient visual tracking | |
Sanchez-Matilla et al. | Motion prediction for first-person vision multi-object tracking | |
Huang et al. | A spatial–temporal contexts network for object tracking | |
CN113095328B (zh) | 一种基尼指数引导的基于自训练的语义分割方法 | |
Ho et al. | An adaptive visual attentive tracker for human communicational behaviors using HMM-based TD learning with new state distinction capability |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20210514 Assignee: Zhejiang Fengshou e-commerce Co.,Ltd. Assignor: ZHEJIANG NORMAL University Contract record no.: X2022980008009 Denomination of invention: A robust target tracking method and system based on hierarchical decision network Granted publication date: 20210806 License type: Common License Record date: 20220623 |
|
EE01 | Entry into force of recordation of patent licensing contract |