CN113034541B

CN113034541B - 目标跟踪方法、装置、计算机设备和存储介质

Info

Publication number: CN113034541B
Application number: CN202110219945.2A
Authority: CN
Inventors: 张一然; 刘荔
Original assignee: Tsinghua University; Beijing Gridsum Technology Co Ltd
Current assignee: Tsinghua University; Beijing Gridsum Technology Co Ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-12-14
Anticipated expiration: 2041-02-26
Also published as: CN113034541A

Abstract

本发明公开了一种目标跟踪方法、装置、计算机设备和存储介质，该方法对图像视频进行解码，得到图像帧；对于每个图像帧，通过密集目标检测模型进行检测，得到该图像帧图片中各个目标对象的检测区域，并通过预测算法预测在后续的图像帧中各个目标对象的检测区域所在的位置；在当前图像帧中，如果预测算法基于前一图像帧预测到一目标对象在当前图像帧中检测区域所在的位置，而密集目标检测模型无法在当前图像帧中检测到该目标对象，则基于预测算法预测的检测区域所在的位置对该目标对象进行跟踪。该方法通过联合人脸识别和密集人群检测来进行封闭场景下人员的跟踪，大大提高了目标跟踪的效果。

Description

目标跟踪方法、装置、计算机设备和存储介质

技术领域

本发明涉及目标跟踪技术领域，特别涉及一种目标跟踪方法、装置、计算机设备和存储介质。

背景技术

多目标跟踪是针对连续视频画面中多个目标进行跟踪，跟踪的本质是关联视频前后帧中的同一物体(目标)，并赋予唯一TrackID。

随着深度学习的兴起，目标检测的准确性越来越高，因此基于深度学习的目标检测算法实际工程落地也越来越广泛，基于目标检测的跟踪称为Tracking By Detecting，目标检测算法的输出就是这种跟踪算法的输入，例如检测框左上角，右下角的坐标值以及框的宽和高。目前大部分跟踪算法都遵循Tracking By Detecting方式，其跟踪算法流程：(1)给定视频的原始帧；(2)运行目标检测器以获得目标的边界框；(3)对于每个检测到的物体，计算出不同的特征，通常是视觉和运动特征。物体的视觉特征，多使用目标重识别(Re-ID)模型计算得到；(4)相似度计算步骤计算两个对象属于同一目标的概率；(5)最后，关联步骤为每个对象分配数字ID。

目前的跟踪算法有一个无法忽视的问题即ID Switch，当多个目标发生交错时他们的ID会发生交换。解决ID Switch常用的方法是找到更好的能表征目标的特征，一般是目标的表观特征和运动特征，利用目标的这些特征以及相似性算法、匹配算法，将前后两帧中的目标关联起来。表观特征一般由行人重识别模型获取，目前较为经典的行人重识别模型，都需要先获取大量数据并利用这些数据训练一个神经网络模型，从视频中获取充足的训练数据是一个非常耗时的工作，且行人重识别多依赖于行人的外观或者说服饰特征，当目标的服饰都统一时，利用行人重识别模型会带来较大的误差。此外在密集场景下目标相互遮挡会影响表观特征的提取。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种目标跟踪方法，该方法通过联合人脸识别和密集人群检测来进行封闭场景下人员的跟踪，大大提高了目标跟踪的效果。

本发明的第二个目的在于提出一种目标跟踪方法装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

为达到上述目的，本发明第一方面实施例提出了一种目标跟踪方法，包括：

对图像视频进行解码，得到图像帧；

对于每个图像帧，通过密集目标检测模型进行检测，得到该图像帧图片中各个目标对象的检测区域，并通过预测算法预测在后续的图像帧中各个目标对象的检测区域所在的位置；

在当前图像帧中，如果所述预测算法基于前一图像帧预测到一目标对象在所述当前图像帧中检测区域所在的位置，而所述密集目标检测模型无法在所述当前图像帧中检测到该目标对象，则基于所述预测算法预测的检测区域所在的位置对该目标对象进行跟踪。

本发明实施例的目标跟踪方法，通过借助于预测目标对象位置的预测算法，可以在因为遮挡等原因导致密集目标检测模型无法检测到目标对象的情况下，依然保持对目标对象的跟踪，避免因为目标对象丢失后再次出现而导致ID Switch。另外，本发明还可以通过优化跟踪器，来避免对短时间内丢失的目标对象所对应的检测区域分配新的标识而出现错误跟踪的问题。此外，本发明还可以借助人脸识别技术来修正检测区域的标识错误，进一步降低ID Switch的概率。

为达到上述目的，本发明第二方面实施例提出了一种目标跟踪装置，包括：

解码模块，用于对图像视频进行解码，得到图像帧；

预测模块，用于对于每个图像帧，通过密集目标检测模型进行检测，得到该图像帧图片中各个目标对象的检测区域，并通过预测算法预测在后续的图像帧中各个目标对象的检测区域所在的位置；

跟踪模块，用于在当前图像帧中，如果所述预测算法基于前一图像帧预测到一目标对象在所述当前图像帧中检测区域所在的位置，而所述密集目标检测模型无法在所述当前图像帧中检测到该目标对象，则基于所述预测算法预测的检测区域所在的位置对该目标对象进行跟踪。

本发明实施例的目标跟踪装置，通过借助于预测目标对象位置的预测算法，可以在因为遮挡等原因导致密集目标检测模型无法检测到目标对象的情况下，依然保持对目标对象的跟踪，避免因为目标对象丢失后再次出现而导致ID Switch。另外，本发明还可以通过优化跟踪器，来避免对短时间内丢失的目标对象所对应的检测区域分配新的标识而出现错误跟踪的问题。此外，本发明还可以借助人脸识别技术来修正检测区域的标识错误，进一步降低ID Switch的概率。

为达到上述目的，本发明第三方面实施例提出一种计算机设备，包括：至少一个处理器、以及与处理器连接的至少一个存储器、总线；其中，处理器、存储器通过总线完成相互间的通信；处理器用于调用存储器中的程序指令，以执行如上所述的方法。

为达到上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的目标跟踪方法流程图；

图2为根据本发明一个实施例的目标跟踪方法框图；

图3为根据本发明一个实施例的目标跟踪装置结构示意图；

图4为根据本发明一个实施例的计算机设备一个实施例的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的目标跟踪方法、装置、计算机设备和存储介质。

首先将参照附图描述根据本发明实施例提出的目标跟踪方法。

图1为根据本发明一个实施例的目标跟踪方法流程图。

如图1所示，该目标跟踪方法包括以下步骤：

步骤S1，对图像视频进行解码，得到图像帧。

作为一种获取图像帧的方式，可以通过对图像视频进行解码，得到图像视频的图像帧，一般监控视频每秒有25-30帧图片，解码可以使用开源工具opencv、ffmpeg等，本发明的实施例不进行具体限定。

步骤S2，对于每个图像帧，通过密集目标检测模型进行检测，得到该图像帧图片中各个目标对象的检测区域，并通过预测算法预测在后续的图像帧中各个目标对象的检测区域所在的位置。

进一步地，通过密集目标检测模型得到的各个目标对象的检测区域可以为检测框，也可以是轮廓线，根据不同目标对象所对应的不同检测模型选择检测区域的标注方式。

进一步地，预测算法可以选择卡尔曼滤波，也可以选择其他预测算法，不进行具体限制。

可以理解的是，在图像帧中，当有两个目标对象位置交错时，其中一个目标的检测区域可能因为目标受遮挡较多未被标注，因此，在本发明的实施例中，在交错之前利用预测算法(如卡尔曼滤波)预测当前图像帧中的检测区域在下一图像帧中的位置。

在目标对象为人员时，密集目标检测模型为密集人群检测模型(例如CrowdDet)，通过密集人群检测模型对多个图像帧进行人员检测，得到每一帧中人员的检测区域，并进行保存。

可以理解的是，密集人群检测模型为一种目标检测模型，对图像帧中的某种目标进行检测，判断图像帧中是否存在某种目标。在目标对象为其他种类时，可以使用其他的检测模型，对此不进行具体限定。

具体地，通过密集人群检测模型逐帧对图像帧进行行人识别，对于图像帧中的人体区域，可以由上下左右四个像素坐标数值确定，由于如同一个包裹了目标的盒子，称为bounding box，缩写为bbox。在本发明的实施例中，可以使用公开的算法模型FasterRCNN或其他模型，对此不进行具体限定。对图像视频中的每一帧，检测模型能够得到这一帧中的所有目标(行人)对应的bbox的列表，包括标注框及其对应的ID。

进一步地，在本发明的一个实施例中，还包括：

对于密集目标检测模型从图像帧中检测到的每个目标对象，均初始化对应该目标对象的跟踪器；

对于一个被密集目标检测模型检测到的目标对象，如果在后面连续的多个图像帧中，密集目标检测模型均未检测到该目标对象，且多个图像帧的数量未达到预设阈值，保留该目标对象对应的跟踪器；如果在后面连续的多个图像帧中，密集目标检测模型均未检测到该目标对象，且多个图像帧的数量已经达到预设阈值，则删除该目标对象对应的跟踪器。

具体地，以密集目标检测模型为密集人群检测模型，目标对象为人员，预测算法为卡尔曼滤波为例，对密集人群检测模型(CrowdDet模型)和卡尔曼滤波预测的检测框应用目标跟踪算法，使用级联匹配策略利用当前帧，此处设为第t帧的检测框去更新第t-1帧的跟踪框，首先对time_since_update＝0(没有跟丢过)的跟踪框计算和第t帧检测框的IOU，time_since_update越大说明跟踪框跟丢的时间越长，匹配的顺序越靠后。得到t-1帧跟踪框和t帧检测框的IOU之后，利用匈牙利算法将t-1帧的跟踪框与t帧的检测框一一匹配。若能够匹配上则算跟踪上了该目标，并将第t帧检测框的位置赋予给与其匹配的跟踪框完成对跟踪框位置的更新。对于没有匹配到的检测框，算法将为它初始化一个跟踪器。该跟踪器包含检测框坐标，跟踪器ID，目前连续跟踪到的帧数等信息。该跟踪器的初始状态为unconfirmed，当跟踪器连续8帧追踪到目标时，将跟踪器状态设置为confirmed。当跟踪器连续15帧都没有追踪到目标时，将跟踪器状态设置为deleted，并删除。流程图如图2所示。

步骤S3，在当前图像帧中，如果预测算法基于前一图像帧预测到一目标对象在当前图像帧中检测区域所在的位置，而密集目标检测模型无法在当前图像帧中检测到该目标对象，则基于预测算法预测的检测区域所在的位置对该目标对象进行跟踪。

可以理解的是，若通过预测算法基于前一图像帧预测到一目标对象在当前图像帧中检测区域所在的位置，而密集目标检测模型没有在当前图像帧中检测到该目标对象，则将预测算法得到的下一图像帧中的检测区域作为补充。

进一步地，在本发明的一个实施例中，还包括：

在当前图像帧中，如果预测算法基于前一图像帧预测的一目标对象在当前图像帧中检测区域与密集目标检测模型在当前图像帧中检测到该目标对象的检测区域重叠部分超过预设比例阈值，则删除预测算法预测的检测区域。

可以理解的是，对预测算法预测的检测区域和密集目标检测模型检测得到的检测区域进行筛选，在二者的重叠部分超过设置的阈值时，则不采用预测算法预测的检测区域。

进一步地，在本发明的一个实施例中，密集目标检测模型为密集人群检测模型，目标对象为人员，进一步包括：

预先保存图像视频的采集场所中每个人员的人员标识以及对应的人脸数据；

以预设周期，利用预先训练的人脸识别模型对图像视频的图像帧中的人员进行人脸识别，得到人脸数据；

并且，在通过密集目标检测模型进行检测，得到图像帧图片中各个目标对象的检测区域之后，方法进一步包括：

对于每个检测区域，确定人脸识别模型识别出的该检测区域中人员的人脸数据所对应的人员标识，将确定的人员标识分配给相应的检测区域，并记录该监测区域中人员的人脸数据。

需要说明的是，上述人员标识可以是人员姓名。

在上述实施例的基础上，还包括：判断每个检测区域当前的人员标识与该检测区域中实际人脸数据所对应的人员标识是否匹配；

对于判断结果为否的检测区域，将该检测区域中实际人员的人脸数据所对应的人员标识分配给该检测区域。

可以理解的是，判断每个检测区域的人员标识与该检测区域中的人脸数据是否匹配的步骤可以实时执行，也可以离线执行。

具体地，对于某些封闭场景而言，可以利用场景中的有限目标构建人员标识与人脸数据对应各数据库，利用人脸识模型对图像视频的图像帧中的人员进行人脸识别，得到人脸数据。由于上述已经对视频中的人员进行了追踪，属于同一人员在不同时刻的bbox已经获取了独立的ID，那么从属于同一ID的人体图片，只要在少数时刻能够识别出人员的姓名，即可推断到其他时刻上，从而就可以获得某人在某个时间段内的行走轨迹。这样即使发生ID Switch，人脸识别模型也会根据该ID下的人脸特征及时更正目标的身份。

根据本发明实施例提出的目标跟踪方法，通过借助于预测目标对象位置的预测算法，可以在因为遮挡等原因导致密集目标检测模型无法检测到目标对象的情况下，依然保持对目标对象的跟踪，避免因为目标对象丢失后再次出现而导致ID Switch。另外，本发明还可以通过优化跟踪器，来避免对短时间内丢失的目标对象所对应的检测区域分配新的标识而出现错误跟踪的问题。此外，本发明还可以借助人脸识别技术来修正检测区域的标识错误，进一步降低ID Switch的概率。。

其次参照附图描述根据本发明实施例提出的目标跟踪装置。

图3为根据发明一个实施例的目标跟踪装置结构示意图。

如图3所示，该目标跟踪装置包括：解码模块301、预测模块302和跟踪模块303。

解码模块301，用于对图像视频进行解码，得到图像帧。

预测模块302，用于对于每个图像帧，通过密集目标检测模型进行检测，得到该图像帧图片中各个目标对象的检测区域，并通过预测算法预测在后续的图像帧中各个目标对象的检测区域所在的位置。

跟踪模块303，用于在当前图像帧中，如果预测算法基于前一图像帧预测到一目标对象在当前图像帧中检测区域所在的位置，而密集目标检测模型无法在当前图像帧中检测到该目标对象，则基于预测算法预测的检测区域所在的位置对该目标对象进行跟踪。

进一步地，密集目标检测模型为密集人群检测模型，目标对象为人员，进一步包括：

并且，在通过密集目标检测模型进行检测，得到图像帧图片中各个目标对象的检测区域之后，进一步包括：

进一步地，还包括：判断模块304，用于判断每个检测区域当前的人员标识与该检测区域中实际人脸数据所对应的人员标识是否匹配；

进一步地，判断每个检测区域的人员标识与该检测区域中的人脸数据是否匹配的步骤为实时执行或离线执行。

进一步地，还包括：处理模块305，用于对于密集目标检测模型从图像帧中检测到的每个目标对象，均初始化对应该目标对象的跟踪器；

进一步地，还包括：筛选模块306，用于在当前图像帧中，如果预测算法基于前一图像帧预测的一目标对象在当前图像帧中检测区域与密集目标检测模型在当前图像帧中检测到该目标对象的检测区域重叠部分超过预设比例阈值，则删除预测算法预测的检测区域。

进一步地，检测区域为检测框，预测算法为卡尔曼滤波。

需要说明的是，前述对方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

根据本发明实施例提出的目标跟踪装置，通过借助于预测目标对象位置的预测算法，可以在因为遮挡等原因导致密集目标检测模型无法检测到目标对象的情况下，依然保持对目标对象的跟踪，避免因为目标对象丢失后再次出现而导致ID Switch。另外，本发明还可以通过优化跟踪器，来避免对短时间内丢失的目标对象所对应的检测区域分配新的标识而出现错误跟踪的问题。此外，本发明还可以借助人脸识别技术来修正检测区域的标识错误，进一步降低ID Switch的概率。

图4为本发明计算机设备一个实施例的结构示意图，上述计算机设备可以包括：至少一个处理器、以及与处理器连接的至少一个存储器、总线；其中，处理器、存储器通过总线完成相互间的通信；处理器用于调用存储器中的程序指令，上述处理器执行上述计算机程序时，可以实现本发明实施例提供的目标跟踪方法。

图4示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图4显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图4所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图4中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本申请实施例提供的目标跟踪方法。

本发明实施例还提供一种非临时性计算机可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时可以实现本发明实施例提供的目标跟踪方法。

上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory；以下简称：ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory；以下简称：EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network；以下简称：LAN)或广域网(Wide Area Network；以下简称：WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种目标跟踪方法，其特征在于，包括以下步骤：

对图像视频进行解码，得到图像帧；

在当前图像帧中，如果所述预测算法基于前一图像帧预测到一目标对象在所述当前图像帧中检测区域所在的位置，而所述密集目标检测模型无法在所述当前图像帧中检测到该目标对象，则基于所述预测算法预测的检测区域所在的位置对该目标对象进行跟踪；

所述密集目标检测模型为密集人群检测模型，所述目标对象为人员，并且所述方法进一步包括：

预先保存所述图像视频的采集场所中每个人员的人员标识以及对应的人脸数据；

以预设周期，利用预先训练的人脸识别模型对所述图像视频的图像帧中的人员进行人脸识别，得到人脸数据；

并且，在通过密集目标检测模型进行检测，得到图像帧图片中各个目标对象的检测区域之后，所述方法进一步包括：

对于每个检测区域，确定所述人脸识别模型识别出的该检测区域中人员的人脸数据所对应的人员标识，将确定的人员标识分配给相应的检测区域，并记录该检测区域中人员的人脸数据；

判断每个检测区域当前的人员标识与该检测区域中实际人脸数据所对应的人员标识是否匹配；

2.根据权利要求1所述的方法，其特征在于，所述判断每个检测区域的人员标识与该检测区域中的人脸数据是否匹配的步骤为实时执行或离线执行。

3.根据权利要求1所述的方法，其特征在于，还包括：

对于所述密集目标检测模型从图像帧中检测到的每个目标对象，均初始化对应该目标对象的跟踪器；

对于一个被所述密集目标检测模型检测到的目标对象，如果在后面连续的多个图像帧中，所述密集目标检测模型均未检测到该目标对象，且所述多个图像帧的数量未达到预设阈值，保留该目标对象对应的跟踪器；如果在后面连续的多个图像帧中，所述密集目标检测模型均未检测到该目标对象，且所述多个图像帧的数量已经达到预设阈值，则删除该目标对象对应的跟踪器。

4.根据权利要求1所述的方法，其特征在于，还包括：

在当前图像帧中，如果所述预测算法基于前一图像帧预测的一目标对象在所述当前图像帧中检测区域与所述密集目标检测模型在所述当前图像帧中检测到该目标对象的检测区域重叠部分超过预设比例阈值，则删除所述预测算法预测的检测区域。

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述检测区域为检测框，所述预测算法为卡尔曼滤波。

6.一种目标跟踪装置，其特征在于，包括：

解码模块，用于对图像视频进行解码，得到图像帧；

跟踪模块，用于在当前图像帧中，如果所述预测算法基于前一图像帧预测到一目标对象在所述当前图像帧中检测区域所在的位置，而所述密集目标检测模型无法在所述当前图像帧中检测到该目标对象，则基于所述预测算法预测的检测区域所在的位置对该目标对象进行跟踪；

所述密集目标检测模型为密集人群检测模型，所述目标对象为人员，并且所述装置进一步包括：预先保存所述图像视频的采集场所中每个人员的人员标识以及对应的人脸数据；以预设周期，利用预先训练的人脸识别模型对所述图像视频的图像帧中的人员进行人脸识别，得到人脸数据；并且，在通过密集目标检测模型进行检测，得到图像帧图片中各个目标对象的检测区域之后，所述装置进一步包括：对于每个检测区域，确定所述人脸识别模型识别出的该检测区域中人员的人脸数据所对应的人员标识，将确定的人员标识分配给相应的检测区域，并记录该检测区域中人员的人脸数据；

判断模块304，用于判断每个检测区域当前的人员标识与该检测区域中实际人脸数据所对应的人员标识是否匹配；对于判断结果为否的检测区域，将该检测区域中实际人员的人脸数据所对应的人员标识分配给该检测区域。

7.一种计算机设备，包括：至少一个处理器、以及与处理器连接的至少一个存储器、总线；其中，处理器、存储器通过总线完成相互间的通信；处理器用于调用存储器中的程序指令，以执行如权利要求1至5任一项所述的方法。

8.一种存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的方法。