CN111862158A

CN111862158A - 一种分阶段目标跟踪方法、装置、终端及可读存储介质

Info

Publication number: CN111862158A
Application number: CN202010706747.4A
Authority: CN
Inventors: 卢笑; 曹意宏; 周炫余; 汪鲁才; 李建闽
Original assignee: Hunan Normal University
Current assignee: Hunan Normal University
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2020-10-30
Anticipated expiration: 2040-07-21
Also published as: CN111862158B

Abstract

本发明公开了一种分阶段目标跟踪方法、装置、终端及可读存储介质，所述方法包括：步骤S1：构建一个根据目标环境自适应切换候选跟踪器的智能体，并基于训练视频训练所述智能体；其中，训练视频中每一帧图像中标记出了跟踪目标的位置；将当前帧的图像信息以及上一帧图像中跟踪目标的位置信息作为观测数据输入所述智能体，所述智能体的输出数据为每个候选跟踪器的候选值Q，将Q值最大的候选跟踪器作为当前帧图像对应的最佳候选跟踪器；步骤S2：在线跟踪时，实时获取观测数据，并输入训练后的智能体选择出实时的最佳候选跟踪器，并利用最佳候选跟踪器进行实时目标跟踪。其中，利用所述方法实现了基于跟踪场景自适应切换最佳候选跟踪器。

Description

一种分阶段目标跟踪方法、装置、终端及可读存储介质

技术领域

本发明属于计算机视觉技术领域，具体涉及一种分阶段目标跟踪方法、装置、终端及可读存储介质。

背景技术

目标跟踪作为当前计算机视觉领域最热门的研究方向之一，其利用图像序列或视频中的上下文信息，通过对目标的外观和运动信息进行建模实现对其的连续定位和跟踪。随着相关研究的不断发展和计算机能力的快速提升，高效的目标跟踪算法纷纷落地，广泛的运用在智能监控、智慧交通、智能导航和无人驾驶等领域中。

由于在实际复杂的应用环境中存在背景杂乱、光照变化、遮挡等外界因素以及目标姿态变化、尺度变化、平面旋转、出视野和运动模糊等内在因素的影响，给目标跟踪带来极大挑战。随着相关研究的不断发展和计算机能力的快速提升，一些高效的目标跟踪算法纷纷提出。基于相关滤波的跟踪方法在计算效率和准确度方面极具优势，这些方法的思想是寻找一个滤波模板，让下一帧的图像与滤波模板做卷积操作，响应最大的区域则是预测的目标。KCF算法设计了一个基于核的相关滤波器，它在保证速度的同时通过多通道特征的使用也达到了不错的精度。STC算法通过建立目标与其周围的时空关系，对目标跟踪中常出现的遮挡和背景杂乱等问题具有很好的鲁棒性。近年，基于CNN的方法由于其强大的表示能力，在视觉跟踪领域得到了广泛的应用。MDNet算法从多个标注的视频序列中学习目标的共享表示，以应用在跟踪任务上。结合深度强化学习提出的ADNet视觉跟踪算法通过智能体对跟踪目标执行一系列动作来确定下一帧目标的跟踪位置，能够实现较高的跟踪速度。

尽管上述提及的目标跟踪算法已经取得了不错的效果，但是目前还没有一个单独的跟踪算法能够适应所有的场景，它们总是只在一些跟踪问题上表现优异。而现实中在不同时期较常出现目标的显著变化和环境的改变，这对实现精准的长时间跟踪是有一定困难的。因此需要设计一种能够根据跟踪场景自适应切换最佳候选跟踪器的方法，提高对复杂跟踪场景的鲁棒性。

发明内容

本发明的目的在于现有跟踪算法无法适应复杂多变场景的问题，提供一种根据跟踪场景自适应切换最佳候选跟踪器的方法，使其能够结合多个跟踪算法的优势，实现连续且准确的跟踪。其构建出一个智能体，一方面，该智能体能够根据跟踪场景自适应切换最佳候选跟踪器，充分利用各个候选跟踪器的优势，使其面对复杂多变环境时依旧能够提供准确的目标的位置；二方面，基于该智能体，不需要对任何接入的候选跟踪器进行改变即可接入，具有广泛应用的前景。

一方面，本发明提供一种分阶段目标跟踪方法，包括如下步骤：

步骤S1：构建一个根据目标环境自适应切换候选跟踪器的智能体，并基于训练视频训练所述智能体；

其中，训练视频中每一帧图像中标记出了跟踪目标的位置；将当前帧的图像信息以及上一帧图像中跟踪目标的位置信息作为观测数据输入所述智能体，所述智能体的输出数据为每个候选跟踪器的候选值Q，将Q值最大的候选跟踪器作为当前帧图像对应的最佳候选跟踪器；

步骤S2：在线跟踪时，实时获取观测数据，并输入训练后的智能体选择出实时的最佳候选跟踪器，并利用最佳候选跟踪器进行实时目标跟踪。

其中，步骤S1中所述智能体的训练过程如下：

首先，获取训练视频中的标记了跟踪目标位置的图像，再依次按照下述方法处理每一帧图像得到每一帧图像对应的奖励；

其中，将当前帧图像的观测数据输入所述智能体确定当前帧图像对应的最佳候选跟踪器，并分别执行最佳候选跟踪器和其他候选跟踪器得到当前帧图像的跟踪结果，再将各个跟踪结果与当前帧图像中跟踪目标的实际位置进行比较得到定位差异，并基于定位差异得到当前帧图像对应的奖励；

然后，进行智能体网络参数的更新，其中，调整过程的参考参数至少包含奖励；

接着，基于调整后的智能体再次处理下一视频；

循环上述过程，直至智能体训练完成。

进一步优选，所述智能体网络参数的更新过程为基于深度强化学习方法进行网络参数优化调整，其中，至少将每一帧图像的观测数据、决策、奖励作为每一帧图像的经验数据，参数的更新过程如下：

随机抽取K1个连续时刻图像的经验数据，并将K1个连续时刻观测数据分别输入智能体得到最佳候选跟踪器的候选值Q；

然后，利用K1个连续时刻中K2个连续时刻的数据计算出K2个连续时刻中每一帧图像对应的训练误差，训练误差的计算公式如下：

L＝(y_i-Q(o,a|θ))²

式中，L表示当前帧图像对应的训练误差，y_i为书写定义，r表示当前帧图像对应的奖励，γ表示折算因子，o表示当前帧图像的观测数据，a表示当前帧图像对应的最佳候选跟踪器，Q(o,a|θ)表示当前帧图像的最佳候选跟踪器对应的候选值Q，θ表示智能体网络中需要更新的参数，o′表示下一帧图像的观测数据，a′下一帧图像对应的最佳候选跟踪器，

表示在目标网络中下一帧图像的最佳候选跟踪器对应的候选值

所述目标网络与智能体的架构相同，参数更新时间不同，θ^-表示目标网络中延迟更新的参数；

基于训练误差采用梯度下降法对智能体的参数进行调整更新。

也应当理解，除了采用深度强度学习的手段进行网络参数的更新，还可以基于奖励等参数选择其他可行的方法进行参数更新，其目的均是提高智能体选择候选跟踪器的准确性。

其中，每一帧图像对应的奖励按照如下公式确定：

式中，r_t表示第t帧图像对应的奖励，IoU表示重叠度，b_t和

表示第t帧图像对应的决策a_t＝i所对应跟踪最佳候选跟踪器的跟踪结果，i表示n个候选跟踪器中第i个跟踪器，g_t表示第t帧图像中跟踪目标的实际位置，

表示在当前第t帧图像中其他候选跟踪器的最终结果，重叠度的计算如下：

IoU(u,v)＝u∩v/u∪v

式中，u,v均为自定义的参数，用于表示重叠度的计算过程。

其中，所述智能体的网格架构包括：输入层、与输入层连接的卷积层、与卷积层连接的全连接层、与全连接层连接的长短时记忆网络、输出层。

所述全连接层拼接用于稳定跟踪的若干个历史决策，所述历史决策为当前帧图像的前若干帧图像对应的决策，所述决策表示选择的最佳候选跟踪器。

其中，所述观测数据表示如下：

o_t＝φ(b_t-1,F_t)

式中，o_t表示第t帧图像的观测数据，b_t-1＝[x^(t-1),y^(t-1),h^(t-1),w^(t-1)]，b_t-1表示第t-1帧图像的目标位置，(x^(t-1),y^(t-1))是第t-1帧图像中跟踪目标的中心位置，h^(t-1)和w^(t-1)分别表示第t-1帧图像中跟踪目标的高度和宽度，F_t为第t帧图像的图像信息，φ表示一个根据目标位置裁剪图像信息并缩放的函数。

二方面，本发明还提供一种基于上述分阶段跟踪方法的分阶段目标跟踪装置，包括视频数据处理模块、智能体构建模块、在线跟踪模块以及候选跟踪器模块；

其中，视频数据处理模块用于将视频进行拆分以及标记或获取视频中标记了跟踪目标位置的每一帧图像；

智能体构建模块用于构建自适应切换候选跟踪器的智能体并进行训练；

候选跟踪器模块为依据智能体的决策，对应候选跟踪器进行目标跟踪；

在线跟踪模块利用训练后所述智能体以及候选跟踪器模块实现实时在线跟踪。三方面，本发明还提供一种基于上述跟踪方法的终端，包括处理器和存储器，所述存储器内存储计算机程序，所述处理器调用所述计算机程序执行：

构建智能体，训练智能体以及利用训练后的智能体和候选跟踪器进行实时跟踪。

四方面，本发明还提供一种基于上述跟踪方法的可读存储介质，存储了计算机程序，所述计算机程序被处理器调用执行：

有益效果

本发明将目标跟踪过程视作为一个候选跟踪器的决策过程，建立一个能够根据目标环境来自适应选择候选跟踪器的智能体，能够快速地对目标环境进行分析做出决策；本发明构建的智能体对接入候选跟踪器的操作简单灵活，不需要对候选跟踪器做任何改变即可接入，在实际应用中可以根据需求接入挑选好的候选跟踪器；在线跟踪时在每一帧只需要运行对应决策的单个候选跟踪器，能够有效的提升运算效率，满足实际应用中目标跟踪的实时性；重点是，本发明实现分阶段的运行不同的最佳跟踪器，充分利用各个候选跟踪器的优势，使它们在面对复杂多变环境时相互补充，并持续提供准确的目标位置，从而实现连续且鲁棒的跟踪，针对不同场景的具有自适应性，能够广泛应用到实际中的场景。

附图说明

图1是本发明提供的智能体的网络架构示意图。

图2是本发明实施例提供的目标跟踪方法的流程示意图。

具体实施方式

本发明的目的是通过一种分阶段目标跟踪方法实现的。首先建立一个决策智能体，将所需的所有候选跟踪器接入，并通过使用大量数据对框架内的智能体进行离线的训练。在线跟踪时，将训练好的智能体接入分阶段目标跟踪框架，使用目标初始位置对智能体和各个候选跟踪器进行初始化，通过智能体对目标及其环境进行分析以决策当前帧最合适的候选跟踪器，执行决策相对应的候选跟踪器获得当前帧目标的位置，然后利用该位置获得下一帧的观测，以持续获得目标的准确位置。

基于此，下面将结合实施例对本发明做进一步的说明。本实施例提供一种目标跟踪方法，其过程如下：

步骤1：构建智能体的网络架构，并接入候选跟踪器。

本实施例中，智能体由轻量级的卷积神经网络来实现，如图1所示，其架构包括：输入层、与输入层连接的卷积层、与卷积层连接的全连接层、与全连接层连接的长短时记忆网络、输出层。本实施例中前4层(用来提取图像特征的三个卷积层，一个对特征加权的全连接层)使用的是预训练的VGG-M网络的参数。具体的，包括用来提取图像特征的三个卷积层，一个对特征加权的全连接层，再接一个全连接层并拼接用来稳定跟踪的4个历史决策，4个历史决策能够稳定智能体的决策，防止在出现几个候选跟踪器性能相近的情况时切换反复跳变，这会对长期的跟踪效果是有影响的，同时它也能够起到做正确决策的辅助作用；拼接历史决策后的全连接层再连接一个长短时记忆网络，长短时记忆网络能够有效地保存过去的信息，加强智能体对目标和环境的变化情况判断能力；最后再接一个输出层，输出层的大小由候选跟踪器的个数决定。

其中，整个网络的输入为裁剪过的图片即观测数据，输出为各个候选跟踪器的候选值Q值。本发明方法不需要对候选跟踪器做任何修改，在实际应用中根据需求接入挑选好的候选跟踪器(如KCF、MDNet、Staple等)即可。训练过程中本步骤所有候选跟踪需要全部接入，同时接收输入并输出各自的目标位置，以供智能体的训练。在后续实时在下跟踪阶段，则只需要对应一帧图像的最佳候选跟踪器接入即可。

步骤2：训练智能体。本实施例中，为线下训练，即在步骤1搭建的网络架构后，利用视频文件进行离线训练。

准备训练过程所用的视频，并拆分，标记每一帧视频中跟踪目标的位置。在一些实施例中，数据集中已有标记的视频图像，只需要从数据集中读取即可。在视频跟踪中，跟踪目标的初始位置信息在视频的第一帧图像已经给定，后续的跟踪过程由算法实现。本发明方法将训练的跟踪过程定义为部分马尔科夫决策过程来进行训练。在需要跟踪目标位置的当前帧t，首先根据上一帧目标位置在当前帧计算观测数据o_t，然后输入给智能体根据其输出的各个候选跟踪器的候选字Q值中选择最大的Q值来做出决策a_t＝i，即最大的Q值对应的候选跟踪器为当前帧t对应的最佳候选跟踪器，同时更新历史决策h_t＝[a_t-3,a_t-2,a_t-1,a_t]，并执行所有候选跟踪器来计算跟踪目标的各自跟踪结果

再将决策所对应的第i个候选跟踪器(最佳候选跟踪器)的跟踪结果

与其他候选跟踪器的跟踪结果比较计算出奖励r_t，最后将观测o_t、决策a_t、历史决策h_t和奖励r_t作为当前帧t的经验数据，即一次经验按序存储在经验池中。当一个训练视频按照部分马尔科夫决策过程跟踪结束后，便得到了每一帧图像对应的一组经验数据，构建了训练视频对应的样本库，随后便可从样本库中随机抽取连续时刻的经验数据计算误差，再使用梯度下降法对智能体内中网络参数进行更新，更新后，再选取另一个视频上述训练过程，再次更新网络参数，循环迭代下去直至智能体训练完成，譬如，整个视频数据的总奖励稳定了，不会再增加了。

其中，第t帧图像的观测数据如下表示：

o_t＝φ(b_t-1,F_t)

式中，o_t表示第t帧图像的观测数据，b_t-1＝[x^(t-1),y^(t-1),h^(t-1),w^(t-1)]，b_t-1表示第t-1帧图像的目标位置，(x^(t-1),y^(t-1))是第t-1帧图像中跟踪目标的中心位置，h^(t-1)和w^(t-1)分别表示第t-1帧图像中跟踪目标的高度和宽度，F_t为第t帧图像的图像信息，φ表示一个根据目标位置裁剪图像信息并缩放的函数。从上述表达可知，观测数据是由当前帧图像以及上一帧图像中目标的位置构成的。

将观测数据输入智能体后，根据候选跟踪器的Q值确定了最佳候选跟踪器，再执行其他候选跟踪器以及最佳候选跟踪器得到跟踪结果，将结果与实际位置进行比较计算出奖励，奖励的计算公式如下：

式中，r_t表示第t帧图像对应的奖励，IoU表示重叠度，b_t和

表示在当前第t帧图像中其他候选跟踪器的最终结果，τ＝0.01为一个补偿值，在其他可行的实施例中，可以选择其他值。重叠度的计算如下：

IoU(u,v)＝u∩v/u∪v

从上述奖励的公式可知，奖励的计算对智能体的决策起到一个有效的评价，只有当选择的候选跟踪器加上补偿值后的效果为所有候选跟踪器中最大时才给一个积极的奖励，它能够使智能体有效学习到最优策略即在当前阶段选择最佳候选跟踪器进行跟踪。

对一个视频文件处理后，本实施例中采用深度强化学习的方法进行网络参数的更新。本实施例中，从经验池中随机抽取事件，其中，一个事件为连续8帧的经验，即连续8帧图像的经验数据，然后将8帧图像的观测数据依次输入至智能体中得到8帧图像各自对应的最佳候选跟踪器的Q值。需要说明的是，由于本发明的网络中设置了长短时记忆层网络(LSTM)，因此，基于长短时记忆层网络的特性，重新输入至智能体中得到的Q值与前一次视频文件处理时会有所不同，使用8个连续的经验也使得此时得到Q值更加准确，但是会使得随机采样的经验具有相关性，因此，计算一个事件对应的训练误差时，本实施例中，选择最后4个时刻的经验以及对应Q值来计算训练误差，训练误差的计算公式如下：

L＝(y_i-Q(o,a|θ))²

所述目标网络与智能体的架构相同，参数更新时间不同，θ^-表示目标网络中延迟更新的参数。需要说明的是，目标网络的初始权值与智能体一致，只是智能体在每一次迭代处理中都会更新参数，但是目标网络是每隔若干次迭代后再更新，譬如1000次，相较于智能体是延迟更新网络参数。

从上述公式可知，当前帧的训练误差是需要用到下一帧的数据，即，第4帧的训练误差的计算是需要第5帧的数据，其可从经验池中提取。

上述计算出4个连续时刻的训练误差后，采用梯度下降法对智能体内的网络参数进行更新，如权重。

需要说明的是，本实施例中，选择的8个连续时刻作为一个事件，同时利用其中4个连续时刻的数据进行计算，但是在其他可行的实施例中，还可以选择其他数量，本发明对此不进行具体的限定，且目标网络更新步数也不进行具体的限定。

步骤3：利用训练后的智能体进行在线跟踪。

将训练好的智能体接入分阶段目标跟踪框架，然后将所需的候选跟踪器与智能体决策一一对应接入，最后初始化智能体和所有候选跟踪器并获得初始观测。其中，智能体的初始化是指将网络中拼接的历史决策置零，初始观测由o₁＝φ(b₀,F₁)获得，b₀表示第一帧的目标位置，F₁表示下一帧需要跟踪的图像信息，并使用φ对图像信息进行裁剪并缩放到智能体能够接受的大小。

将初始观测输入智能体，智能体分析当前观测内的信息并基于长短时记忆网络中保存的历史信息进行决策，选择出与当前帧最合适的候选跟踪器，如果与上一帧决策相同，则使用该候选跟踪继续跟踪；如果不同，则切换到决策对应的候选跟踪器，并将上一帧的目标位置结果传给该候选跟踪器，然后使用当前决策更新历史决策，以在下一帧供智能体使用，依次进行下去，直至跟踪完成。

综上所述，本实施例中提供的所述方法克服了现有单一跟踪算法不适用复杂多变场景的问题，提供了一种结合多个跟踪算法优势来进行跟踪的手段，实现连续、实时、准确的跟踪。

基于上述方法，在一些实施例中，本发明提供目标跟踪装置，包括视频数据处理模块、智能体构建模块、在线跟踪模块以及候选跟踪器模块；

其中，视频数据处理模块用于将视频进行拆分以及标记；

候选跟踪器模块为依据智能体的决策各个跟踪器进行目标跟踪；

在线跟踪模块利用训练后所述智能体以及候选跟踪器模块实现实时在线跟踪。

具体各个模块的实现过程请参照上述目标跟踪方法的内容，在此不再赘述。应该理解到，上述功能模块的划分仅仅是一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。同时，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

在一些实施例中，本发明提供一种目标跟踪终端，其包括处理器和存储器，所述存储器内存储计算机程序，所述处理器调用所述计算机程序执行：

在一些实施例中，本发明提供一种可读存储介质，其存储了计算机程序，计算机程序被处理器调用执行：

应当理解，在本发明实施例中，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

所述可读存储介质为计算机可读存储介质，其可以是前述任一实施例所述的控制器的内部存储单元，例如控制器的硬盘或内存。所述可读存储介质也可以是所述控制器的外部存储设备，例如所述控制器上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述可读存储介质还可以既包括所述控制器的内部存储单元也包括外部存储设备。所述可读存储介质用于存储所述计算机程序以及所述控制器所需的其他程序和数据。所述可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

需要强调的是，本发明所述的实例是说明性的，而不是限定性的，因此本发明不限于具体实施方式中所述的实例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，不脱离本发明宗旨和范围的，不论是修改还是替换，同样属于本发明的保护范围。

Claims

1.一种分阶段目标跟踪方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的方法，其特征在于：步骤S1中所述智能体的训练过程如下：

其中，将当前帧图像的观测数据输入所述智能体确定当前帧图像对应的最佳候选跟踪器，并分别执行最佳候选跟踪器和其他候选跟踪器得到当前帧图像的跟踪结果，再将各个跟踪结果与对应当前帧图像中跟踪目标的实际位置进行比较得到定位差异，并基于定位差异得到当前帧图像对应的奖励；

接着，基于调整后的智能体再次处理下一视频；

循环上述过程，直至智能体训练完成。

3.根据权利要求2所述的方法，其特征在于：所述智能体网络参数的更新过程为基于深度强化学习方法进行网络参数优化调整，其中，至少将每一帧图像的观测数据、决策、奖励作为每一帧图像的经验数据，参数的更新过程如下：

L＝(y_i-Q(o，a|θ))²

式中，L表示当前帧图像对应的训练误差，y_i为书写定义，r表示当前帧图像对应的奖励，γ表示折算因子，o表示当前帧图像的观测数据，a表示当前帧图像对应的最佳候选跟踪器，Q(o，a|θ)表示当前帧图像的最佳候选跟踪器对应的候选值Q，θ表示智能体网络中需要更新的参数，o′表示下一帧图像的观测数据，a′下一帧图像对应的最佳候选跟踪器，

4.根据权利要求2所述的方法，其特征在于：每一帧图像对应的奖励按照如下公式确定：

式中，r_t表示第t帧图像对应的奖励，IoU表示重叠度，b_t和

表示第t帧图像对应的决策a_t＝i所对应跟踪最佳候选跟踪器的跟踪结果，i表示n个候选跟踪器中第i个跟踪器，g_t表示第t帧图像中跟踪目标的实际位置，τ为设定的补偿值，

IoU(u，v)＝u∩v/u∪v

式中，u，v均为自定义的参数，用于表示重叠度的计算过程。

5.根据权利要求1所述的方法，其特征在于：所述智能体的网格架构包括：输入层、与输入层连接的卷积层、与卷积层连接的全连接层、与全连接层连接的长短时记忆网络、输出层。

6.根据权利要求5所述的方法，其特征在于：所述全连接层拼接用于稳定跟踪的若干个历史决策，所述历史决策为当前帧图像的前若干帧图像对应的决策，所述决策表示选择的最佳候选跟踪器。

7.根据权利要求1所述的方法，其特征在于：所述观测数据表示如下：

o_t＝φ(b_t-1，F_t)

式中，o_t表示第t帧图像的观测数据，b_t-1＝[x^(t-1)，y^(t-1)，h^(t-1)，w^(t-1)]，b_t-1表示第t-1帧图像的目标位置，(x^(t-1)，y^(t-1))是第t-1帧图像中跟踪目标的中心位置，h^(t-1)和w^(t-1)分别表示第t-1帧图像中跟踪目标的高度和宽度，F_t为第t帧图像的图像信息，φ表示一个根据目标位置裁剪图像信息并缩放的函数。

8.一种基于权利要求1-7任一项所述方法的分阶段目标跟踪装置，其特征在于：包括视频数据处理模块、智能体构建模块、在线跟踪模块以及候选跟踪器模块；

9.一种基于权利要求1-7任一项方法的终端，其特征在于：包括处理器和存储器，所述存储器内存储计算机程序，所述处理器调用所述计算机程序执行：

10.一种基于权利要求1-7任一项所述方法的可读存储介质，其特征在于：存储了计算机程序，所述计算机程序被处理器调用执行：