CN107798272B

CN107798272B - 快速多目标检测与跟踪系统

Info

Publication number: CN107798272B
Application number: CN201610770737.0A
Authority: CN
Inventors: 王世婷; 胡琦; 温东超
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-08-30
Filing date: 2016-08-30
Publication date: 2021-11-02
Anticipated expiration: 2036-08-30
Also published as: CN107798272A; US10475204B2; US20180061076A1

Abstract

本发明涉及一种快速多目标检测与跟踪系统。根据本发明的系统，只有少数帧要被检测，并且以二值方式将其他帧分成不同大小的稳定运动片段，然后本发明的系统能够精确地预测。该系统能够帮助实现高清视频中多人情况下的高跟踪速度，同时也获得了高精确度。

Description

快速多目标检测与跟踪系统

技术领域

本发明总体涉及一种多目标检测与跟踪系统。

背景技术

在诸如监视、体育视频分析等的各种计算机视觉应用中，多目标检测是最为重要的组成之一。得益于目标检测的令人瞩目的进展(诸如方向梯度直方图以及快速级联分类器等的更好的特征提取方法)，基于检测的跟踪(tracking-by-detection)系统近年来受到关注。然而，当保持精确度时，如果视频分辨率变得越高，则检测速度和跟踪速度二者变得越慢。大多数现有系统无法以全帧速率运行，尤其是在高清视频或高频视频中。

在“IEEE TRANSACTION ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE”上发表的论文(Michael D.Breitenstein,Fabian Reichlin,et al.Online Multi-PersonTracking-By-Detection From A Single,Uncalibrated Camera.Submitted January2010,revised October2010)作为现有技术，描述了一种检测跟踪方法，其主要由检测器和数据关联单元组成，以视频的图像序列来处理每个帧，即，逐帧检测的方法。

在论文的该方法中，对于帧时间戳t，人体检测器(基于滑动窗口或基于特征等)在整个图像上进行检测以给出检测结果，然后，数据关联单元决定哪个检测结果应当指导(guide)帧(t-1)上的最后跟踪结果的哪个轨迹。用于数据关联问题的方法，要追求高精确度可能是复杂的。例如，考虑到检测器置信度、人体位置、运动以及表现，该参考论文重点在于贪心算法(greedy algorithm)和分数函数。

但是参考论文的方法存在一个主要问题。即，不论是滑动窗口方式还是基于特征的方式，在整个图像帧上的逐帧检测会严重减慢处理速度。

对于一帧，用于检测的搜索区域越大，则检测速度越慢。此外，在相邻帧之间存在运动连贯性，因此逐帧检测是一种巨大的滥用。这两件事情都严重减慢跟踪速度，使其背离实时处理。

基于以上内容，期望提出快速多目标跟踪的系统，这能够帮助实现视频中多目标情况下的高跟踪速度，并且也不损失精确度。

发明内容

本发明提供一种检测跟踪系统，其中，仅少数帧要被检测。该检测跟踪系统利用二值搜索的思想，将帧分成不同大小的稳定运动的片段，用于精确的运动预测。并且该检测跟踪系统能够同时达到超过实时的跟踪速度和高精确度。

本发明的一方面提供一种多目标检测与跟踪系统，所述多目标检测与跟踪系统包括：

预处理单元，其被构造为选择多个第一采样帧，以将图像的序列分割成帧单元；

全局目标检测器，其被构造为在所述第一采样帧的整个图像上进行目标检测，并给出全局检测结果；

帧采样单元，其被构造为在帧单元中选择至少一个第二采样帧；

局部目标检测器，其被构造为在所述第二采样帧的感兴趣区域上进行目标检测，并输出局部检测结果；

数据关联单元，其被构造为通过目标相似度，将所述全局检测结果和所述局部检测结果与现有轨迹对准。

根据本发明的系统，仅少数帧要被检测，并且其他帧以二值方式被分成不同大小的稳定运动片段。与现有技术中的逐帧跟踪系统不同，本发明提出了一种在计算上高效并且还实现了高精确度的“采样帧”跟踪系统。

通过以下参照附图对示例性实施例的描述，本发明的其他特征将变得清楚。

附图说明

并入说明书中并构成说明书的一部分的附图，例示了本发明的实施例，并与描述一起用来解释本发明的原理。

图1是根据能够实现本发明的实施例的第一示例性系统构造的示意框图。

图2是根据能够实现本发明的实施例的第二示例性系统构造的示意框图。

图3是例示图1和图2中的计算设备220的示例性硬件构造的框图。

图4是根据本发明的示例性实施例的目标检测与跟踪的系统的框图。

图5是根据本发明的示例性实施例的帧单元(cell)的示意图。

图6是根据本发明的示例性实施例的全局人体检测器的工作原理的流程图。

图7是根据本发明的示例性实施例的数据关联单元的工作流程的流程图。

图8是根据本发明的示例性实施例的帧采样单元的工作原理的流程图。

图9例示了根据本发明的示例性实施例的目标检测与跟踪系统的流程图。

具体实施方式

现在，将参照附图详细描述本发明的各种示例性实施例。应当指出，在这些实施例中阐述的部件和步骤的相对布置、数值表达以及数值不限制本发明的范围，除非另外特别声明。

对至少一个示例性实施例的以下描述本质上仅仅是说明性的，并且绝不是意在限制本发明及其应用或用途。

由相关领域的普通技术人员所公知的技术、方法和装置可能不作详细讨论，但是在适当时意在作为本说明书的一部分。

在本文中例示和讨论的所有示例中，任何具体值应该被解释为仅是说明性的且非限制性的。因此，示例性实施例的其他示例可以有不同的值。

注意，在以下的附图中，相似的附图标记和字母指代相似的项目，因而一旦在一幅图中定义了一个项目，则能够不必针对之后的附图进一步讨论。

图1是根据能够实现本发明的实施例的第一示例性系统构造的示意框图。摄像设备10包括照相机传感器110和所连接的计算设备120。照相机传感器110获取视频或图像序列。计算设备120实现跟踪视频中的目标的边界点的方法。计算设备120可以是以紧凑且易于嵌入摄像设备10的集成电路芯片的形式。例如，摄像设备10可以是手持照相机、网络摄像机或具有照相机的移动电话。

图2是根据能够实现本发明的实施例的第二示例性系统构造的示意框图。照相机传感器110被用来获得视频或图像序列。计算机网络230将这些视频或图像序列发送到计算设备220。计算设备220实现跟踪视频中的目标的边界点的方法。计算设备220可以是以本地个人计算机、远程服务器或工作站的形式。

通过输入/输出(I/O)接口310来使从照相机传感器110到计算设备220的图像的传送便利，输入/输出(I/O)接口310可以是符合通用串行总线(USB)标准并具有对应的USB连接器的串行总线。也可以从能够包括SIM卡、SD卡和USB存储卡等的本地存储设备240，下载包含图像序列的视频。

图像由I/O接口310获得并被发送到存储器340。处理器320被布置为检索存储在存储器340中的、所公开的方法的软件程序。在一个实施例中，处理器320也被布置为获取、解码和执行根据所公开的方法(诸如图8和图9中例示的流程图)的所有步骤。处理器320使用系统总线330，将来自各个操作的结果记录到存储器340。除了存储器340，也可以经由I/O接口350，将该输出更长久地存储在存储设备240上。可替换地，也可以使用音频/视频接口360，在显示器250上显示该输出以供人观看。

计算设备220可以是各种形式，诸如嵌入在图1中的摄像设备中的处理系统，或图2中的独立计算机，可能有一个或多个不必要部件被移除或有一个或多个附加部件被添加。

接下来，详细说明跟踪视频中的目标的边界点的方法的示例性实施例。

在图4中示出了总体的快速目标检测与跟踪系统的框图。快速目标检测与跟踪系统40基本上包括五个单元：预处理单元401、全局人体检测器402、局部人体检测器403、数据关联单元404以及帧采样单元405。在本发明的一些实施例中，多目标检测与跟踪系统能够包括轨迹估算单元406，该轨迹估算单元406是根据应用需要的可选单元。

预处理单元401均匀地选择采样帧，将输入的图像序列分割成帧单元。对于各个帧单元，全局人体检测器402在整个均匀采样的帧上进行检测，以给出全局检测结果。数据关联单元404决定哪个全局检测结果指导现有跟踪结果，或创建新的轨迹作为跟踪结果。帧采样单元405以预定方式选择各个帧单元内的采样帧，并根据运动连续性，利用跟踪结果来决定所述采样帧上的感兴趣区域。局部人体检测器403在这些感兴趣区域上进行检测，以给出局部检测结果。同时，数据关联单元404将局部和全局检测结果二者与现有轨迹关联。此外，根据现有跟踪结果通过运动来估算未采样帧上的轨迹。

关于对应单元的工作流程和原理的详情将讨论如下：

预处理单元

预处理单元401的功能是以均匀间隔N(N是预定的且N≥1)来简单且均匀地选择采样帧，其中，k为整个输入的图像序列中的帧时间戳，且k≥1。因此，预处理单元401可以将输入的图像序列分割成帧单元，图5中例示了根据本发明的示例性实施例的帧单元的示意图。

在图5中，两个均匀采样帧之间的帧被视为帧单元。每隔N个帧均匀地采样在图中以点填充的帧。以预定方式，在各个帧单元内选择在图中以线填充的采样帧。剩余的帧被称为未采样帧。两个均匀采样帧和它们之间的帧构成一个帧单元。即，均匀采样帧由相邻的帧单元共享。

在本发明中，依次处理帧单元用以目标跟踪。

全局人体检测器

全局人体检测器402的功能是在输入的区域中检测人体。“全局”表示输入的区域是各个均匀采样帧的整个图像。

在本发明的一些实施例中，人体头肩部被作为检测目标。人体检测器可以是基于滑动窗口的或基于特征的等等。图6例示了基于滑动窗口的检测器在输入区域上进行头肩部检测的流程图。检测方法包括以下步骤：

步骤S61输入输入区域的数据，然后转到步骤S62。

步骤S62使用扫描窗口，在区域中的可能的位置和尺度做穷尽搜索，然后转到步骤S63。

步骤S63通过使用头肩部分类器来检测头肩部，并且转到步骤S64，步骤S64通过将相似的位置和大小进行平均，将检测位置合并成单个检测位置。转到步骤S65。

步骤S65输出检测结果。

步骤S63的分类器包括弱分类器的级联。目标检测器(分类器)的结构被级联，其中，各个特征对应于弱分类器，并且由弱分类器的级联来组合最终的分类器。在本申请的一些实施例中，使用定向梯度直方图(HOG)特征和提升(boosting)算法来构建分类器。通过将各个像素的梯度大小根据其梯度方向投影到8个方位，来获得HOG特征图像。在本申请的一些实施例中，利用归一化到相同大小的、成千上万的正/负训练样本，来离线训练头肩部分类器。

局部人体检测器

就分类器而言，局部人体检测器403能够与全局人体检测器相同。关键区别是它们的目标帧和检测区域。全局检测器在均匀采样帧的整个图像上进行检测，而局部检测器仅在由帧采样单元输出的采样帧的感兴趣区域(region-of-interest，ROI)上进行检测。“局部”表示输入的区域是由帧采样单元输出的采样帧的ROI。

另外，局部检测器能够具有比全局检测器更低的级联分类器的阈值。因为ROI利用帧到帧的连贯性并且极大可能包含跟踪的人的新位置，所以降低级联分类器的阈值以使候选检测更易于经过分级器是合理的，这产生更高的精确度而不会增加假报警。

相比于现有技术，全局人体检测器和局部人体检测器能够大幅减少人体检测的计算量：

(1)相比于现有技术中的逐帧检测，图5清楚地示出了根据本发明的示例性实施例，仅帧单元中的少数帧要被检测。

(2)相比于现有技术中的整个图像检测，通过根据本发明的示例性实施例的全局检测结果和运动估算，来确定人体的预测区域。然后，通过扩展预测区域来生成ROI。利用帧到帧的连贯性，并且粗略估算在何处寻找可能的人。在本发明的一些实施例中，与整个图像相比，由帧采样单元输出的特定采样帧中的预测的人体区域及其对应的ROI，能够显著减少滑动窗口的数量。

数据关联单元

数据关联单元404的功能为如下3种：

(1)将全局检测结果和局部检测结果二者与现有轨迹关联。如果成

功，则更新对应的轨迹的位置。

(2)如果不能将全局检测结果成功关联，则创建新的轨迹。

(3)如果关联连续失败特定次数，则终止现有轨迹。

在本发明的一些实施例中，以贪心算法来定义人体匹配分数函数和关联的人，直到分数低于某个阈值。

图7中例示了数据关联单元的工作流程的流程图；对应步骤的详情描述如下：

在步骤S71中，匹配分数是两个图像块(patch)的相似度的测度。收取当前帧的检测结果的位置以及现有跟踪结果(轨迹)的最新位置二者处的头肩部的图像块。从当前帧的检测结果取一个图像块，并从现有轨迹的最新位置取另一个图像块，以形成图像块对。针对各个图像块对，通过逐个像素的模板匹配法或基于颜色直方图的模板匹配法，计算匹配分数。

在步骤S72中，将以贪心算法发现关联。首先建立矩阵，矩阵的列分别是匹配分数、轨迹位置和检测结果位置，而各个行是关于图像块对的。然后，通过匹配分数，将矩阵从高到低排序。矩阵中具有最高分数的图像块对被认为是关联的。接下来，与关联的图像块对冲突的行被从矩阵中立即移除。在该处理中进行关联，直到所有的分数低于实验阈值或矩阵为空。

根据检测结果的类型进行步骤S73或步骤S74任一者；步骤S73确定局部检测是否被关联，步骤S74确定全局检测是否被关联。如果步骤S73或步骤S74的确定结果为成功，则步骤S73或步骤S74转到步骤S77。如果失败，则步骤S73转到步骤S75，而步骤S74转到步骤S78。

步骤S75确定是否满足终止条件。如果成功，则转到步骤S76。

如果关联连续失败特定次数，则步骤S76终止现有轨迹。在本发明的一些实施例中，实验值被设置为4。

步骤S77根据成功的关联结果，更新当前帧中的轨迹位置；并且在步骤S78中，均匀采样帧上的未关联的全局检测结果能够被用来初始化新的轨迹。

帧采样单元

帧采样单元405选择采样帧，并且确定要进行局部检测的ROI，以验证或细化运动估算结果。请注意，如果在帧单元中的均匀采样帧上的全局检测全都失败，则不运行帧采样单元。

对于高频视频，帧到帧的改变是轻微的。针对轨迹来进行运动估算是为了节省计算量的好方法。然而，两个全局检测结果之间的运动估算非常粗糙以致产生漂移、ID改变或丢失。作为代替地，在由帧采样单元选择的帧上进行局部检测，以验证或细化运动估算结果。

即，整个帧单元被视为未验证运动片段。如果成功检测到目标，并将目标关联在由帧采样单元选择的帧的预测的ROI中，则从帧单元的第一帧开始至所述的选择的帧的片段，将被视为验证的运动片段。剩余的帧当前组成了待验证的、新的未验证运动片段。

在对帧单元的第一帧的全局检测结果的数据关联之后，存在两种轨迹：在步骤S77中更新的现有轨迹，以及由步骤S78生成的新创建的轨迹。

针对现有轨迹，为了决定各个帧单元中的采样帧，在具体应用中，可以根据跟踪目标的运动属性预先确定选择帧的方法。然而，更普遍地，能够采用二值搜索法或者甚至随机选择法。

图8是根据本发明的示例性实施例的帧采样单元的工作原理的流程图。详细步骤将描述如下：

首先，步骤S81输入帧的未验证运动片段。

步骤S82取帧单元的全部帧作为初始未验证运动片段。选择片段的中间帧作为采样帧，并决定它的感兴趣区域(ROI)。

步骤S83进行局部检测，其中，由局部目标检测器对所选择的中间帧的感兴趣区域进行检测。然后，步骤S84确定目标是否被局部检测。如果未被检测，则取输入帧的左半部分作为新的未验证运动片段，并前往步骤S86。如果成功，则转到步骤S85。其中，输入帧的左半部分是从第一帧开始至输入帧的当前二值采样帧的帧。

步骤S85检查在整个帧单元中成功检测的次数的总数是否达到预定的M次(M≥1)。如果否，则取帧单元中的所选择的帧的所有右边的帧作为未验证运动片段，并前往步骤S86。其中，帧单元的右半部分是从当前二值采样帧开始至帧单元的结尾的帧。如果是，则该帧单元中的“二值搜索”进入最后步骤S87。

步骤S86确定所选择的帧的数量是否等于预定阈值T；如果是，则停止“二值搜索”并转到步骤S87。如果否，则前往步骤S82。

最后，步骤S87输出所有采样帧及其检测结果。

其中，通过根据在前帧和在后帧二者上的跟踪的人的历史结果进行的运动估算，来确定针对人体的预测搜索区域，然后，通过扩展预测区域来生成ROI。输入帧的中间帧是开始帧时间戳与结束帧时间戳的总和的一半的向上取整(ceiling)或四舍五入取整(roundto)。

并且，在二值搜索法的步骤S85中，参数M涉及帧单元中的帧的数量N。它表示多小的帧间隔用于稳定的运动估算。在本发明的一些实施例中，当针对25fps视频，N＝50时，参数M为2。另外，M不大于T，并且T应当不大于log2(N)的向上取整。

针对新创建的轨迹，连续帧k+1，k+2，...，k+S都被局部检测，以验证新创建的轨迹是真轨迹，并为其估算精确的速度。其中，S是实验参数且S≥1；k是整个输入的图像序列中的帧时间戳，且k≥1。然后，利用S帧内的计算出的已知速度，可以将帧采样作为现有轨迹的方式来进行。

轨迹估算单元

如果需要每个帧上的轨迹，则对这些未采样帧进行运动估算。考虑到帧单元中的均匀采样帧t和二值采样帧t^*上的跟踪结果，通过运动估算(诸如线性插值)，来容易地填补未采样帧的轨迹和关联失败帧的轨迹(位置和人体大小二者)。其中，帧单元中的关联失败帧包括由数据关联单元关联失败的第一采样帧和第二采样帧二者。否则，特定帧上的轨迹作为输出跟踪信息是足够的。

因此，依据应用需要，轨迹估算单元是可选的。

相比于现有技术，本发明的目标检测与跟踪系统具有如下优点：

·需要较少的帧来进行检测。仅二值采样帧要被检测。这极大地加快了跟踪速度，使其超过实时的。

·通过局部检测来验证或细化由帧采样单元输出的二值采样帧上的运动估算结果；二值采样帧将图像序列分成不同大小的稳定运动，因此对未采样帧的运动估算是精确的。

总之，本发明的目标检测与跟踪系统能够实现高的跟踪速度，同时保持高精确度。

首先，在步骤S91中，输入视频的图像序列，然后转向步骤S92。

步骤S92预处理图像序列，以均匀选择特定帧作为均匀采样帧。在该步骤中，预处理单元均匀地选择采样帧，将输入的图像序列分割成帧单元。

在步骤S93中，针对各个帧单元，全局人体检测器对各个整个均匀采样帧进行检测，以生成检测结果。在步骤S94中，局部人体检测器对二值采样帧的ROI进行检测，以生成局部检测结果。

步骤S95将历史轨迹与检测结果关联，以针对均匀采样帧和二值采样帧产生跟踪结果。在该步骤中，数据关联单元进行对应的功能。数据关联单元决定哪个全局检测结果指导现有跟踪结果，或创建新的轨迹作为跟踪结果。同时，数据关联单元将局部检测结果与现有轨迹关联。首先进行步骤S93和S95。

S96决定是否满足停止S97中的选择二值采样帧的预定义条件。在本发明的示例性实施例中，预定义的停止条件包括：i)在整个帧单元中成功检测的次数的总数达到预定次数；或者ii)所选择的二值采样帧的数量等于预定阈值。如果是，则转到S98。如果否，则转到S97。

步骤S97通过帧采样单元以二值搜索的方式动态地选择帧作为二值采样帧。帧采样单元以预定方式选择二值采样帧，并利用跟踪结果来根据运动连续性来决定二值采样帧上的ROI。然后转向步骤S94。

接下来是可选步骤S98。在步骤S98中，轨迹估算单元进行运动估算以针对剩余帧预测目标位置。即，根据现有跟踪结果通过运动来估算未采样帧上的轨迹和关联失败帧上的轨迹。其中，帧单元中的关联失败帧包括由数据关联单元关联失败的第一采样帧和第二采样帧二者。

最后，步骤S99获得跟踪结果。

与现有技术比较，在现有技术中使用MOTA分数来评价跟踪精确度，其中，MOTA分数由真负率、假正率以及标识匹配错误率组成。

表1例示了关于本发明与现有技术之间的速度和精确度的评价结果。在表1中，根据苏黎世联邦理工学院(

Technische Hochschule Zürich)的中央数据集(ETHZ中央数据集)以及达姆施塔特技术大学(Technical University of Darmstadt)的交叉数据集(TUD交叉数据集)，可以看出本发明能够达到比现有技术中的逐帧跟踪系统高得多的速度。同时，与现有技术相比，本发明几乎保持了精确度。

表1评价结果

根据本发明的系统，仅少数帧要被检测，并以二值方式将其他帧分成不同大小的稳定运动片段，然后，本发明的系统能够精确地预测。该系统能够帮助实现高清视频中多人情况下的高跟踪速度同时也获得了高精确度。

能够以许多方式实施本发明的方法和系统。例如，能够通过软件、硬件、固件或其任何组合来实施本发明的方法和系统。用于方法的步骤的上述顺序仅意在说明，并且本发明的方法的步骤不限于上述具体描述的顺序，除非另有特别声明。另外，在一些实施例中，本发明还可以体现为记录在记录介质中的程序，包括用于实现根据本发明的方法的机器可读指令。

虽然已利用示例详细展示了本发明的一些具体实施例，但是本领域技术人员应当理解，上述示例仅意在说明而不限制本发明的范围。本领域技术人员应当理解，可以在不脱离本发明的范围和精神的情况下修改上述实施例。本发明的范围由所附权利要求限定。

Claims

1.一种多目标检测及跟踪系统，所述系统包括：

a)预处理单元，其被构造为选择多个第一采样帧，以将图像的序列分割成帧单元；

b)全局目标检测器，其被构造为在所述第一采样帧的整个图像上进行目标检测，并给出全局检测结果；

c)帧采样单元，其被构造为在帧单元中选择至少一个第二采样帧；

d)局部目标检测器，其被构造为在所述第二采样帧的感兴趣区域上进行目标检测，并输出局部检测结果；

e)数据关联单元，其被构造为通过目标相似度，将所述全局检测结果和所述局部检测结果与现有轨迹对准；

其中，所述第二采样帧根据二值搜索法将各个帧单元分成不同大小的运动片段，所述二值搜索法包括：

1)取未验证运动片段作为输入帧，当初始化时，取整个帧单元；

2)选择所述输入帧的中间帧作为所述第二采样帧，并决定所述第二采样帧的感兴趣区域；

3)使用所述局部目标检测器在所选择的中间帧的感兴趣区域上进行检测，并输出所述局部检测结果；

4)改变所述未验证运动片段并重复搜索，直到符合任何预定义的停止条件为止。

2.根据权利要求1所述的系统，其中，通过以预定间隔N均匀采样所述图像的序列，来选择所述第一采样帧，N≥1。

3.根据权利要求1所述的系统，其中，所述帧单元由两个所述第一采样帧和两个所述第一采样帧之间的所有帧组成。

4.根据权利要求1所述的系统，其中，依次处理所述帧单元用以进行目标跟踪。

5.根据权利要求1所述的系统，其中，所述全局目标检测器和所述局部目标检测器，在分类器方面相同。

6.根据权利要求1所述的系统，其中，根据跟踪目标的运动属性，确定将各个帧单元分成不同大小的运动片段的所述第二采样帧。

7.根据权利要求1所述的系统，其中，当在所述第二采样帧上的局部检测失败时，由所述输入帧的左半部分来更新所述未验证运动片段；否则，取所述帧单元中的所选择的帧的所有右边的帧；

其中，所述输入帧的左半部分是从第一帧开始至所述输入帧的当前第二采样帧的帧，并且帧单元的右半部分是从所述当前第二采样帧开始至所述帧单元的末尾的帧。

8.根据权利要求1所述的系统，其中，所述预定义的停止条件包括：

ⅰ)在整个帧单元中成功检测的次数的总数达到预定次数；或者

ⅱ)所选择的帧的数量等于预定阈值。

9.根据权利要求1所述的系统，其中，所述输入帧的中间帧是，时间戳为开始帧时间戳与结束帧时间戳的总和的一半的向上取整或四舍五入取整的帧。

10.根据权利要求1所述的系统，其中，根据在前帧和在后帧二者上的历史跟踪结果，通过针对现有跟踪目标扩展运动预测区域，来决定所述第二采样帧的感兴趣区域。

11.根据权利要求1所述的系统，所述系统还包括轨迹估算单元，所述轨迹估算单元被构造为通过利用所述第一采样帧和所述第二采样帧二者的给出的跟踪结果进行插值，来针对所述帧单元中的未采样帧和关联失败帧填补轨迹。

12.一种多目标检测及跟踪方法，所述方法包括：

a)选择多个第一采样帧，以将图像的序列分割成帧单元；

b)在所述第一采样帧的整个图像上进行目标检测，并给出全局检测结果；

c)在帧单元中选择至少一个第二采样帧；

d)在所述第二采样帧的感兴趣区域上进行目标检测，并输出局部检测结果；

e)通过目标相似度，将所述全局检测结果和所述局部检测结果与现有轨迹对准；

3)使用局部目标检测器在所选择的中间帧的感兴趣区域上进行检测，并输出所述局部检测结果；

13.根据权利要求12所述的方法，其中，通过以预定间隔N均匀采样所述图像的序列，来选择所述第一采样帧，N≥1。

14.根据权利要求12所述的方法，其中，所述帧单元由两个所述第一采样帧和两个所述第一采样帧之间的所有帧组成。

15.根据权利要求12所述的方法，其中，依次处理所述帧单元用以进行目标追踪。

16.根据权利要求12所述的方法，其中，根据跟踪目标的运动属性，确定将各个帧单元分成不同大小的运动片段的所述第二采样帧。

17.根据权利要求12所述的方法，其中，当在所述第二采样帧上的局部检测失败时，由所述输入帧的左半部分来更新所述未验证运动片段；否则，取所述帧单元中的所选择的帧的所有右边的帧；

18.根据权利要求12所述的方法，其中，所述预定义的停止条件包括：

ⅱ)所选择的帧的数量等于预定阈值。

19.根据权利要求12所述的方法，其中，所述输入帧的中间帧是，时间戳为开始帧时间戳与结束帧时间戳的总和的一半的向上取整或四舍五入取整的帧。

20.根据权利要求12所述的方法，其中，根据在前帧和在后帧二者上的历史跟踪结果，通过针对现有跟踪目标扩展运动预测区域，来决定所述第二采样帧的感兴趣区域。

21.根据权利要求12所述的方法，其中，所述方法还包括通过利用所述第一采样帧和所述第二采样帧二者的给出的跟踪结果进行插值，来针对所述帧单元中的未采样帧和关联失败帧填补轨迹。