CN111402294B

CN111402294B - 目标跟踪方法、装置、计算机可读存储介质和计算机设备

Info

Publication number: CN111402294B
Application number: CN202010160815.1A
Authority: CN
Inventors: 关硕森; 张毅; 孙星; 余宗桥; 彭湃; 郭晓威; 黄小明; 吴永坚; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2022-10-18
Anticipated expiration: 2040-03-10
Also published as: CN111402294A

Abstract

本申请涉及计算机视觉领域，提供一种目标跟踪方法、装置、计算机可读存储介质和计算机设备，其中方法包括：获取当前视频帧及历史视频帧集合；获取当前视频帧对应的跟踪候选区域集合；获取历史视频帧集合对应的目标历史跟踪轨迹集合，根据历史视频帧集合确定中各个目标历史跟踪轨迹对应的光流运动特征，形成第一运动特征集合；获取各个跟踪候选区域对应的光流运动特征，形成第二运动特征集合；获取第一运动特征集合和第二运动特征集合之间的第一元素距离，得到第一运动关联矩阵；根据第一运动关联矩阵，将目标历史跟踪轨迹与跟踪候选区域进行匹配，根据匹配结果确定各个目标历史跟踪轨迹对应的跟踪结果。本申请提供的方法可以提高目标跟踪的准确率。

Description

目标跟踪方法、装置、计算机可读存储介质和计算机设备

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种目标跟踪方法、装置、计算机可读存储介质和计算机设备。

背景技术

随着计算机视觉技术的发展，出现了目标跟踪技术，目标跟踪就是对视频中给定的目标进行分析跟踪，以确定视频中目标的确切位置。

传统技术中，目标跟踪方法多为基于相关滤波跟踪原理的跟踪方法，该跟踪方法是根据视频的前一帧中跟踪到的目标区域更新相关滤波器，进而根据更新后的相关滤波器对当前视频帧进行目标跟踪，在跟踪过程中，相关滤波器以目标的表观特征为基准在当前视频帧中进行目标跟踪。

然而，这种方法由于依赖于目标的表观特征，当目标被遮挡时或者存在外观相似的目标等干扰情况时，容易造成目标身份切换，导致跟踪的准确率低。

发明内容

基于此，有必要针对传统技术中跟踪准确率低的技术问题，提供一种目标跟踪方法、装置、计算机可读存储介质和计算机设备。

一种目标跟踪方法，包括：

获取当前视频帧及所述当前视频帧对应的历史视频帧集合；

获取所述当前视频帧对应的跟踪候选区域集合；

获取所述历史视频帧集合对应的目标历史跟踪轨迹集合，根据所述历史视频帧集合确定所述目标历史跟踪轨迹集合中各个目标历史跟踪轨迹对应的光流运动特征，形成第一运动特征集合；

获取所述跟踪候选区域集合中各个跟踪候选区域对应的光流运动特征，形成第二运动特征集合；

获取所述第一运动特征集合和所述第二运动特征集合之间的第一元素距离，得到第一运动关联矩阵；

根据所述第一运动关联矩阵，将所述各个目标历史跟踪轨迹与所述跟踪候选区域进行匹配，根据匹配结果确定所述各个目标历史跟踪轨迹对应的跟踪结果。

一种目标跟踪装置，所述装置包括：

视频帧获取模块，用于获取当前视频帧及所述当前视频帧对应的历史视频帧集合；

跟踪候选区域获取模块，用于获取所述当前视频帧对应的跟踪候选区域集合；

第一运动特征获取模块，用于获取所述历史视频帧集合对应的目标历史跟踪轨迹集合，根据所述历史视频帧集合确定所述目标历史跟踪轨迹集合中各个目标历史跟踪轨迹对应的光流运动特征，形成第一运动特征集合；

第二运动特征获取模块，用于获取所述跟踪候选区域集合中各个跟踪候选区域对应的光流运动特征，形成第二运动特征集合；

第一运动关联矩阵获得模块，用于获取所述第一运动特征集合和所述第二运动特征集合之间的第一元素距离，得到第一运动关联矩阵；

匹配模块，用于根据所述第一运动关联矩阵，将所述各个目标历史跟踪轨迹与所述跟踪候选区域进行匹配，根据匹配结果确定所述各个目标历史跟踪轨迹对应的跟踪结果。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述目标跟踪方法所述的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述目标跟踪方法所述的步骤。

上述目标跟踪方法、装置、计算机可读存储介质和计算机设备，通过获取当前视频帧及当前视频帧对应的历史视频帧集合,获取当前视频帧对应的跟踪候选区域集合，进一步获取历史视频帧集合对应的目标历史跟踪轨迹集合，根据历史视频帧集合确定各个目标历史跟踪轨迹对应的光流运动特征，形成第一运动特征集合，接着获取各个跟踪候选区域对应的光流运动特征，形成第二运动特征集合，最后获取第一运动特征集合和第二运动特征集合之间的第一元素距离，得到第一运动关联矩阵，根据第一运动关联矩阵，将各个目标历史跟踪轨迹与跟踪候选区域进行匹配，根据匹配结果确定各个目标历史跟踪轨迹对应的跟踪结果，实现了根据光流运动特征进行目标跟踪，由于同一目标在短时间的运动过程中历史运动与当前运动基本一致，而不同目标的运动之间存在差异，因此根据光流运动特征得到的运动关联矩阵进行匹配，可以降低由于表观特征的影响导致的身份切换问题，提高目标跟踪的准确性。

附图说明

图1为一个实施例中目标跟踪方法的应用环境图；

图2为一个实施例中目标跟踪方法的流程示意图；

图3为一个实施例中通过光流估计模型进行光流估计的流程示意图；

图4为一个实施例中通过光流估计模型进行光流估计的过程示意图；

图5为一个实施例中确定目标历史跟踪轨迹集合及候选跟踪区域集合的步骤流程示意图；

图6为一个实施例中目标跟踪方法的框架图；

图7为一个实施例中光流运动部分的细节图；

图8为一个实施例中目标跟踪装置的结构框图；

图9为另一个实施例中第一运动特征提取模块的结构框图；

图10为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中目标跟踪方法的应用环境图。参照图1，该目标跟踪方法应用于目标跟踪系统。该目标跟踪系统包括摄像头110和计算机设备120。摄像头110和计算机设备120通过网络连接。计算机设备120可以是终端，也可以是服务器，其中，终端具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种；服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。摄像头110可以是单目摄像头，也可以是双目摄像头。

需要说明的是，本申请实施例提供的目标跟踪方法涉及到人工智能领域的计算机视觉、机器学习等多种技术。其中，计算机视觉技术(Computer Vision, CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。以下将结合具体实施例进行说明。

如图2所示，在一个实施例中，提供了一种目标跟踪方法。本实施例主要以该方法应用于上述图1中的计算机设备来举例说明。参照图2，该目标跟踪方法具体包括如下步骤：

S202，获取当前视频帧及当前视频帧对应的历史视频帧集合。

其中，当前视频帧指的是最新一帧需要进行目标跟踪的视频帧。当前视频帧对应的历史视频帧集合指的是在当前视频帧对应的时间之前的至少一帧视频帧所组成的集合。历史视频帧集合具体可以是当前视频帧之前的连续多帧历史视频帧所组成的集合。

具体地，计算机设备可实时接收摄像头采集的视频帧，也可以间隔一段预设时间接收摄像头在该时间段内采集的多帧视频帧。计算机设备在接收到摄像头采集的视频帧后，可以对视频帧进行存储，并从接收到的视频帧中获取当前视频帧，然后根据当前视频帧确定并获取对应的历史视频帧集合。

可以理解的是，为确保跟踪的准确性，历史视频帧与当前视频帧之间的时间距离越近越好。在一个具体的实施例中，当前视频帧具体可以是摄像头当前采集的一帧视频帧，而当前视频帧对应的历史视频帧集合具体可以是当前视频帧之前摄像头采集的与当前视频帧相邻的连续多帧视频帧。例如，摄像头在最近1分钟内采集了10帧视频帧，按照时间先后编号分别为1，2,3，……，10，其中，第10帧为当前采集的视频帧，则可以将第10帧确定为当前视频帧，将第3-9帧确定为当前视频帧对应的历史视频帧，组成历史视频帧集合。

S204，获取当前视频帧对应的跟踪候选区域集合。

其中，跟踪候选区域集合指的是由当前视频帧中的一个或者多个跟踪候选区域组成的集合。跟踪候选区域指的是当前视频帧中各待跟踪目标可能出现的区域。

在一个实施例中，计算机设备可以对当前视频帧进行目标检测，得到至少一个跟踪候选区域，形成跟踪候选区域集合。这里的目标检测指的是对当前视频帧中待跟踪目标进行检测。可以理解的是，根据应用场景的不同，待跟踪目标可以是人，例如商场中的顾客；也可以是物体，物体例如待跟踪的车辆。待跟踪目标可以是一个或者多个。在进行目标检测时，计算机设备可以获取针对待跟踪目标的预先训练的检测模型，通过该检测模型对当前视频帧进行目标检测。

可以理解的是，这里的检测模型指的是用于目标检测的机器学习模型。其中，机器学习模型是通过样本学习具备某种能力的数学模型。机器学习英文全称为MachineLearning，简称ML。机器学习模型可采用神经网络模型、支持向量机、逻辑回归模型、随机森林模型或者梯度提升树模型等。机器学习的学习方式可以是监督学习、非监督学习或者强化学习等。检测模型具体可以是端到端的模型，输入端为视频帧，输出端为预测的跟踪候选区域的位置信息。检测模型可以为多层网络结构，不同的网络层对输入其的数据进行不同的处理，并输出处理结果至下一层网络层。

还可以理解的是，对于不同类型的待跟踪目标，通常需要训练不同的检测模型。例如，对于待跟踪目标为人的，可以训练人头体检测模型；而对于待待跟踪目标为车辆的，可以训练车辆检测模型。

S206，获取历史视频帧集合对应的目标历史跟踪轨迹集合，根据历史视频帧集合确定目标历史跟踪轨迹集合中各个目标历史跟踪轨迹对应的光流运动特征，形成第一运动特征集合。

其中，历史视频帧集合对应的目标历史跟踪轨迹集合中包括至少一条目标历史跟踪轨迹，目标历史跟踪轨迹由待跟踪目标在历史视频帧中出现的位置区域连线得到，待跟踪目标在历史视频帧中出现的位置区域也就是目标历史跟踪轨迹对应的历史跟踪区域。可以理解的是，历史跟踪轨迹与待跟踪目标一一对应，每一个待跟踪目标对应一条历史跟踪轨迹。光流运动特征指的是用于表征待跟踪目标运动特征的光流信息。

具体地，由于历史视频集合中的历史视频帧中记录了待跟踪目标在不同历史时刻的位置，因此根据这些历史视频帧可以得到待跟踪目标对应的各个像素点在两帧历史视频帧之间的位移向量，这些位移向量即为待跟踪目标在两帧历史视频帧之间的光流信息，光流信息反映了待跟踪目标在历史视频帧之间的运动变化状态，因此，可以对光流信息提取特征得到待跟踪目标对应的光流运动特征。由于目标历史跟踪轨迹与待跟踪目标一一对应，待跟踪目标对应的光流运动特征也就是其对应的目标历史跟踪轨迹对应的光流运动特征。可以理解的是，由于光流信息是根据两帧历史视频帧之间的位移向量得到的，当历史视频帧集合包含两帧以上历史视频帧时，光流信息可能会有多个，例如可以获取每相邻两帧之间的光流信息，当有多个光流信息时，会得到多个光流运动特征，也就是说目标历史跟踪轨迹可能会对应多个光流运动特征。

各个目标历史跟踪轨迹对应的光流运动特征，形成第一运动特征集合。可以理解的是，由于待跟踪目标可以是一个或者多个，因此第一运动特征集合中可以只包括一条目标历史跟踪轨迹对应的光流运动特征，也可以包括多条目标历史跟踪轨迹对应的光流运动特征。

在一个实施例中，计算机设备可通过对历史视频帧集合进行光流估计，得到对应的帧间光流图，帧间光流图为两帧之间所有对应的像素点的位移向量所形成的图，这些像素点中必然包含了待跟踪目标对应的像素点，那么可以从帧间光流图中提取历史跟踪轨迹对应的光流区域，进一步，从光流区域中提取特征，得到历史跟踪轨迹对应的光流运动特征。

在另一个实施例中，计算机设备可通过对历史视频帧集合进行场景流估计，得到对应的帧间场景流图，场景流可以看成是光流的三维版本，场景流中除了包含光流信息，还包含了深度信息。计算机设备可以从帧间场景流图中提取历史跟踪轨迹对应的场景流区域，进一步，对场景流区域提取特征，得到历史跟踪轨迹对应的光流运动特征。

S208，获取跟踪候选区域集合中各个跟踪候选区域对应的光流运动特征，形成第二运动特征集合。

具体地，计算机设备可根据当前视频帧与其对应的历史视频帧得到当前视频帧对应的光流图，对于每一个跟踪候选区域，可以根据该跟踪候选区域对应的位置从当前视频帧对应的光流图中提取与之对应的光流区域，对该光流区域提取特征即得到该跟踪候选区域对应的光流运动特征。各个跟踪候选区域对应的光流运动特征，形成第二运动特征集合。

可以理解的是，为确保跟踪的准确性，计算机设备在获取当前视频帧对应的光流图时，其依据的历史视频帧与当前视频帧的时间间隔需小于预设阈值。在一个具体的实施例中，计算机设备可根据当前视频帧与其前一帧视频帧来得到当前视频帧对应的光流图。

S210，获取第一运动特征集合和第二运动特征集合之间的第一元素距离，得到第一运动关联矩阵。

其中，第一运动特征集合和第二运动特征集合之间的第一元素距离指的是第一运动特征集合中的光流运动特征与第二运动特征集合中的光流运动特征之间的特征距离，用于表征第一运动特征集合中的光流运动特征与第二运动特征集合中的光流运动特征之间的差异大小，特征距离可以是欧式距离、余弦距离、曼哈顿距离等等。

具体地，由于第一运动特征集合为各个目标历史跟踪轨迹对应的光流运动特征形成的集合，而第二运动特征集合为各个跟踪候选区域对应的光流运动形成的集合，那么对于第一运动特征集合中的每一个目标历史跟踪轨迹，计算机设备可以计算该目标历史跟踪轨迹的光流运动特征与每一个跟踪候选区域对应的光流运动特征之间的特征距离，得到该目标历史跟踪轨迹对应的运动关联向量，根据所有目标历史跟踪轨迹的运动关联向量得到第一运动关联矩阵。第一运动关联矩阵中包含了各个目标历史跟踪轨迹分别与各个跟踪候选区域之间的特征距离。

举例说明，假设第一运动特征集合中包括2条目标历史跟踪轨迹分别为轨迹1、轨迹2，对应的光流运动特征分别为A1、A2，第二运动特征集合中包括两个跟踪候选区域分别为区域1、区域2，对应的光流运动特征分别为B1、B2，计算轨迹1与区域1、区域2之间的特征距离得到轨迹1对应的运动关联向量（A1B1，A1B2），计算轨迹2与区域1、区域2之间的特征距离得到轨迹2对应的运动关联向量（A2B1，A2B2），最后得到第一运动关联矩阵为

,其中，A1B1代表光流运动特征A1和光流运动特征B1的特征距离，A1B2代表光流运动特征A1和光流运动特征B2的特征距离，A2B1代表光流运动特征A2和光流运动特征B1的特征距离，A2B2代表光流运动特征A2和光流运动特征B2的特征距离。

在一个实施例中，当目标历史跟踪轨迹对应多个光流运动特征时，对于每一条目标历史跟踪轨迹，分别计算该目标历史跟踪轨迹的每一个光流运动特征分别与每一个跟踪候选区域的光流运动特征的特征距离后，对同一个跟踪候选区域对应的特征距离进行融合，得到一个融合后的特征距离，将该融合后的特征距离作为该目标历史跟踪轨迹与该跟踪候选区域之间的特征距离。

在一个实施例中。对特征距离进行融合的方式具体可以是将特征距离直接相加。举例说明，假设上面例子中的轨迹1对应两个光流运动特征分别为A11、A12，计算A11与B1的特征距离得到A11B1，计算A11与B2的特征距离得到A11B2，计算A12与B1的特征距离得到A12B1，计算A12与B2的特征距离得到A12B2，融合区域1对应的特征距离A11B1+A12B1得到X1，融合区域2对应的特征距离A11B2+A12B2得到Y1，最终得到轨迹1的运动关联向量为（X1，Y1）。

在其他实施例中，在对特征距离相加时，考虑到待跟踪目标的当前运动更大概率地与较近历史视频帧的运动相关，而与较远时间的运动相关性降低，因此，在进行融合时，可进行加权融合，也就是对不同光流运动特征计算得到的特征距离，根据其对应的历史视频帧与当前视频帧的时间距离设置不同的权重，时间距离越大，权重越小。

S212, 根据第一运动关联矩阵，将各个目标历史跟踪轨迹与跟踪候选区域进行匹配，根据匹配结果确定各个目标历史跟踪轨迹对应的跟踪结果。

第一元素距离由于是光流运动特征之间的特征距离，那么第一元素距离越小时，说明目标历史跟踪轨迹对应的历史运动与跟踪候选区域对应的当前运动之间的一致性越高，而运动一致性越高，说明目标历史跟踪轨迹与跟踪候选区域为同一待跟踪目标的可能性也就越大。第一运动关联矩阵中包含了各个目标历史跟踪轨迹与各个跟踪候选区域之间的第一元素距离，那么可以根据第一运动关联矩阵，将各个目标历史跟踪轨迹与跟踪候选区域进行匹配。

在一个实施例中，在将各个目标历史跟踪轨迹与跟踪候选区域进行匹配时，可以判断第一运动关联矩阵中各个第一元素距离与预设阈值之间的大小关系，当第一元素距离小于预设阈值时，认为该第一元素距离所对应的目标历史跟踪轨迹与跟踪候选区域可能匹配成功。在一个具体的实施例中，当一个跟踪候选区域仅与一条目标历史跟踪轨迹可能匹配成功时，可以直接认为该跟踪候选区域与该目标历史跟踪轨迹之间的匹配结果为进行匹配；在其他实施例中，当一个跟踪候选区域与多条目标历史跟踪轨迹可能匹配成功时，可通过求解二分图匹配的方式确定各跟踪候选区域与各目标历史跟踪轨迹之间的匹配结果。匹配结果为匹配成功或者匹配失败。求解二分图匹配的方式具体可采用匈牙利算法。

在确定了各目标历史跟踪轨迹的匹配结果后，计算机设备可根据匹配结果确定各个目标历史跟踪轨迹对应的跟踪结果。具体而言，对于每一条目标历史跟踪轨迹，当其对应的匹配结果为匹配成功时，则对应的跟踪结果为跟踪成功；反之，当其对应的匹配结果为匹配失败时，则对应的跟踪结果为跟踪失败。

上述目标跟踪方法，通过获取当前视频帧及当前视频帧对应的历史视频帧集合,获取当前视频帧对应的跟踪候选区域集合，进一步获取历史视频帧集合对应的目标历史跟踪轨迹集合，根据历史视频帧集合确定各个目标历史跟踪轨迹对应的光流运动特征，形成第一运动特征集合，接着获取各个跟踪候选区域对应的光流运动特征，形成第二运动特征集合，最后获取第一运动特征集合和第二运动特征集合之间的第一元素距离，得到第一运动关联矩阵，根据第一运动关联矩阵，将各个目标历史跟踪轨迹与跟踪候选区域进行匹配，根据匹配结果确定各个目标历史跟踪轨迹对应的跟踪结果，实现了根据光流运动特征进行目标跟踪，由于同一目标在短时间的运动过程中历史运动与当前运动基本一致，而不同目标的运动之间存在差异，因此根据光流运动特征得到的运动关联矩阵进行匹配，可以降低由于表观特征的影响导致的身份切换问题，提高目标跟踪的准确性。

在一个实施例中，上述步骤S206中根据历史视频帧集合确定目标历史跟踪轨迹集合中各个目标历史跟踪轨迹对应的光流运动特征，包括：将历史视频帧集合输入已训练的光流估计模型中，得到多个帧间光流图；根据各个目标历史跟踪轨迹对应的历史跟踪区域从多个帧间光流图中确定各个目标历史跟踪轨迹对应的光流区域；对各个目标历史跟踪轨迹对应的光流区域进行特征提取，得到各个目标历史跟踪轨迹对应的光流运动特征。

其中，已训练的光流估计模型指的是预先训练好的用于进行光流估计的机器学习模型。已训练的光流估计模型可以是计算机设备预先训练好并存储至本地的，也可以是计算机设备从其他计算机设备获取到的。帧间光流图指的是两帧视频帧之间的对应点的位移向量所形成的图。

可以理解的是，将两帧历史视频帧集合输入预训练的光流估计模型后，得到的帧间光流图是整帧图像的光流，而对于每一条目标历史跟踪轨迹，该目标历史跟踪轨迹只是历史视频帧上待跟踪目标对应的历史跟踪区域形成的，目标历史跟踪轨迹对应的光流区域可以看成是目标历史跟踪轨迹在两帧历史视频帧上的历史跟踪区域所形成的光流，因此在确定目标历史跟踪轨迹对应的光流运动特征时，需要根据目标历史跟踪轨迹对应的历史跟踪区域的位置从帧间光流图中截取对应的区域，得到目标历史跟踪轨迹对应的光流区域。

通常而言，由于帧间光流图通常表示的是后一帧相对于前面的视频帧的位移向量，因此通常是根据后一帧对应的历史跟踪区域的位置从得到的整帧图像的光流图上进行截取，来得到该目标历史跟踪轨迹对应的光流区域。举例说明，假设历史视频帧集合包括三帧视频帧A、B、C，目标历史跟踪轨迹1由在A帧上的历史跟踪区域A1、在B帧上的历史跟踪区域B1和在C帧上的历史跟踪区域C1形成，计算机设备根据A帧和B帧进行光流估计得到帧间光流图X、根据B帧和C帧进行光流估计得到帧间光流图Y，则可根据历史跟踪区域B1的位置从光流图X截取对应的光流区域X1，根据历史跟踪区域C1的位置从光流图Y截取对应的光流区域Y1，光流区域X1和光流区域Y1即为目标历史跟踪轨迹1对应的光流区域。

在得到目标各个目标历史跟踪轨迹对应的光流区域后，计算机设备可以在在光流区域上进行特征提取得到光流运动特征。特征提取具体可以用卷积神经网络进行提取，也可以通过简单的变换、降维等。

本实施例中，通过已训练的光流估计模型进行光流估计得到帧间光流图，可以准确快速的获得帧间光流图，从而可以快速地获得各个目标历史跟踪轨迹对应的光流运动特征。

在一个实施例中，光流估计模型包括第一卷积层、第二卷积层以及相关层；如图3所示，将历史视频帧集合输入已训练的光流估计模型中，得到多个帧间光流图，具体包括：

S302，将历史视频帧集合中邻近两帧历史视频帧输入第一卷积层，通过第一卷积层进行特征提取，得到邻近两帧历史视频帧各自对应的特征图。

其中，邻近两帧历史视频帧可以是连续的两帧，也可以是间隔的两帧，例如，历史视频帧集合中包括A、B、C、D四帧历史视频帧时，邻近两帧历史视频帧可以是A帧和B帧，或者A帧和C帧，通常而言，邻近两帧历史视频帧之间间隔的帧数不会太多，且间隔帧数越少，判断运动一致性时，准确性越高。第一卷积层中可包括一层或者多层不同尺寸的卷积层，每一层卷积层分别对邻近两帧历史视频帧进行不同粒度地特征提取后，输入至下一个卷积层，最终会得到邻近两帧历史视频帧各自对应的特征图。

本实施例中，计算机设备依次将历史视频帧集合中每邻近两帧历史视频帧输入第一卷积层，依次得到每邻近两帧历史视频帧中各历史视频帧对应的特征图。

S304，将邻近两帧历史视频帧各自对应的特征图输入相关层，通过相关层对特征图进行相关操作，得到帧间成本量；帧间成本量用于进行光流估计得到对应的粗粒度光流图。

具体地，对于每邻近两帧历史视频帧，计算机设备将该邻近两帧历史视频帧各自对应的特征图输入相关层，通过相关层对两个特征图进行相关操作（correlation），得到帧间成本量（cost volumn）。其中，相关操作指的是以特定量化的范围进行相关卷积操作。在得到帧间成本量后,计算机设备可根据帧间成本量进行光流估计，得到与该邻近两帧历史视频帧对应的粗粒度光流图。在根据帧间成本量进行光流估计时，可将帧间成本量输入至卷积神经网络中，最终得到的粗粒度光流图通常为维度较少的光流图。

S306，将粗粒度光流图输入第二卷积层，通过第二卷积层进行细化操作，得到候选光流图，根据候选光流图得到邻近两帧历史视频帧对应的帧间光流图。

具体地，第二卷积层包括一层或多层不同尺寸的卷积层，当包括多层卷积层时，通过每一层卷积层分别进行细化操作后，再输入至其对应的下一层卷积层，这里的细化操作可以理解为对粗粒度光流图进行反卷积操作以增大图像尺寸。细化操作完成后，会得到候选光流图。

在一个实施例中，计算机设备可以直接将该候选光流图作为邻近两帧历史视频帧对应的帧间光流图。

在另一个实施例中，计算机设备可以对候选光流图进行上采用操作，以得到邻近两帧历史视频帧对应的帧间光流图。

在一个实施例中，第一卷积层包括多层；光流估计模型还包括第三卷积层；第二卷积层的输入还包括联结特征图；在将粗粒度光流图输入第二卷积层，通过第二卷积层进行细化操作，得到候选光流图之前，该目标跟踪方法还包括：将帧间成本量输入第三卷积层，通过第三卷积层对帧间成本量进行特征提取并融合第一卷积层中末尾层卷积层之前的卷积层输出的特征图，得到联结特征图。

可以理解的是，当第一卷积层包括多层卷积层时，不同卷积层通常具有不同粒度的特征提取能力，低层提取的细节信息更丰富，但是语义（如纹理等）不明显，高层语义更丰富但是缺乏细节信息，将不同层间的特征融合通常被认为具有互补的意义。

基于此，本实施例中的光流估计模型还设置第三卷积层，在将粗粒度光流图输入第二卷积层之前，将帧间成本量输入第三卷积层，通过第三卷积层对帧间成本量进行特征提取并融合第一卷积层中末尾层卷积层之前的卷积层输出的特征图，得到联结特征图，该联结特征图由于融合了第一卷积层中的特征，可以更好的进行特征表达。这里的融合具体可以是将第一积层输出的特征与第三卷积层输出的特征进行拼接。

可以理解的是，本实施例中的第三卷积层可以包括一层或多层卷积层，当包括多层卷积层时，每一层第三卷积层分别融合第一卷积层中不同层输出的特征与该第三卷积层对应的上一层卷积层输出的特征。

如图4所示，为一个具体的实施例中，通过光流估计模型对邻近两帧视频帧进行光流估计得到帧间光流图的过程示意图。参照图4，第一卷积层402包括四层不同尺寸的卷积层，分别为402A、402B、402C和402D，计算机设备首先将邻近两帧历史视频帧首先输入卷积层402A，通过卷积层402A提取特征后输入卷积层402B，通过卷积层402B提取特征后输入卷积层402C，通过卷积层402C提取特征后输入卷积层402D，从卷积层402D输出邻近两帧历史视频帧各自对应的特征图（feature map）,将得到的两个特征图进一步输入相关层（correlation）,在相关层进行相关操作后，获得帧间成本量（cost volumn）。

计算机设备进一步将帧间成本量输入第三卷积层，在第三卷积层对帧间成本量进行特征提取并融合第一卷积层中末尾层卷积层之前的卷积层输出的特征图。继续参照图4，计算机设备将帧间成本量与第三卷积层包括四层不同尺寸的卷积层，分别为404A、404B、404C和404D，帧间成本量首先被输入卷积层404A，在卷积层404A提取特征后，与卷积层402C输出的特征进行融合后输入卷积层404B，在卷积层404B提取特征后，继续和卷积层402B输出的特征进行融合后输入卷积层404C，在卷积层404C进行特征提取后，继续与卷积层402A输出的特征进行融合后输入卷积层404D，在卷积层404D进一步进行特征提取。

同时，帧间成本量在被卷积层404A提取特征后，计算机设备进一步对卷积层404A输出的特征进行光流估计，得到粗粒度光流图406A，将粗粒度光流图406A与卷积层404B提取的特征输入第二卷积层的第一层，在该第一层进行特征融合后再进行细化操作，得到粗粒度光流图406B，将粗粒度光流图406B与卷积层404C提取的特征输入第二卷积层的第二层，在该第二层进行特征融合后再进行细化操作，得到粗粒度光流图406C，将粗粒度光流图406C与卷积层404D提取的特征输入第二卷积层的第三层，在该第三层进行特征融合后再进行细化操作，得到候选光流图406D。，对候选光流图406D进行上采样，输出最终的光流图，该光流图为输入的临近两帧视频帧对应的帧间光流图。

上述实施例中，通过设置多层不同尺寸的第一卷积层进行特征提取，并对提取的特征进行相关操作获得帧间成本量，进一步通过第三卷积层融合不同粒度地特征，最后在第二卷积进行细化操作，使得得到的帧间光流图能够准确地表达两帧之间的运动变化信息，进一步提高了目标跟踪地准确性。

在一个实施例中，在根据历史视频帧集合确定目标历史跟踪轨迹集合中各个目标历史跟踪轨迹对应的光流运动特征之前，该目标跟踪方法还包括：确定各个目标历史跟踪轨迹在当前视频帧中对应的估计跟踪区域，得到估计跟踪区域集合；获取估计跟踪区域集合与跟踪候选区域集合之间的第二元素距离，得到第二运动关联矩阵；根据第一运动关联矩阵，将各个目标历史跟踪轨迹与跟踪候选区域进行匹配包括：融合第一运动关联矩阵及第二运动关联矩阵，得到目标运动关联矩阵；根据目标运动关联矩阵，将各个目标历史跟踪轨迹与跟踪候选区域进行匹配。

其中，估计跟踪区域指的是根据目标历史跟踪轨迹进行运动估计后得到的目标历史跟踪轨迹对应的待跟踪目标在当前视频帧中的位置区域，本实施例中，可采用卡尔曼滤波器对目标历史跟踪轨迹进行运动估计，得到对应的估计跟踪区域，各目标历史跟踪轨迹对应的估计跟踪区域组成估计跟踪区域集合。

对于估计跟踪区域集合中每一个估计跟踪区域，计算该估计跟踪区域与跟踪候选区域集合中每一个跟踪候选区域的第二元素距离，得到目标历史跟踪轨迹对应的运动关联向量，各个目标历史跟踪轨迹对应的运动关联向量形成第二运动关联矩阵。这里的第二元素距离指的是空间距离，用于表征估计跟踪区域集合中的估计跟踪区域与跟踪候选区域集合中的跟踪候选区域在空间位置上的差异大小，具体可以是欧式距离、马氏距离等等。估计跟踪区域与跟踪候选区域之间第二元素距离的大小可以反映目标历史跟踪轨迹对应的历史运动与跟踪候选区域对应的当前运动之间相似性大小。通常情况下，当计算得到的第二元素距离越小时，表示运动相似性越大，那么目标历史跟踪轨迹对应的待跟踪对象与跟踪候选区域对应的待跟踪对象为同一待跟踪对象的可能性也就越大。

进一步，由于第一运动关联矩阵和第二运动关联矩阵都是基于运动信息得到的，那么可以将第一运动关联矩阵及第二运动关联矩阵进行融合，得到一个目标运动关联矩阵，在进行融合时，对于每一条目标历史跟踪轨迹，可以将该目标历史跟踪轨迹在第一运动关联矩阵中的特征距离与其在第二运动关联矩阵中的空间距离进行对应融合，最终得到目标运动关联矩阵。最终，计算机设备可以根据该目标运动关联矩阵，将各个目标历史跟踪轨迹与跟踪候选区域进行匹配。

本实施例中，通过得到第二运动关联矩阵，将第一运动关联矩阵及第二运动关联矩阵进行融合得到目标运动关联矩阵，由于目标运动关联矩阵融合了多种运动信息，能够更好地表达历史运动与当前运动之间的相关性，使得匹配的准确性更高。

在一个实施例中，在获取历史视频帧集合对应的目标历史跟踪轨迹集合之前，该目标跟踪方法还包括确定目标历史跟踪轨迹集合及候选跟踪区域集合的步骤，如图5所示，该步骤具体包括：

S502，从当前历史跟踪轨迹集合中选取连续相同帧匹配失败的历史跟踪轨迹，将连续相同帧匹配失败的历史跟踪轨迹组成候选历史跟踪轨迹集合，得到多个候选历史跟踪轨迹集合。

其中，连续相同帧包括连续1帧，连续2帧，……，连续N帧，N的值根据实际情况进行确定。本实施例中，分别将连续1帧匹配失败的历史跟踪轨迹组成候选历史跟踪轨迹集合，将连续2帧匹配失败的历史跟踪轨迹组成候选历史跟踪轨迹集合，……，将连续3帧匹配失败的历史跟踪轨迹组成候选历史跟踪轨迹集合，那么，可以得到多个候选历史跟踪轨迹集合。

S504，分别获取各个候选历史跟踪轨迹集合对应的第一表观特征集合。

S506，获取跟踪候选区域集合对应的第二表观特征集合。

S508，分别获取各个第一表观特征集合与第二表观特征集合之间的第三元素距离，得到各个候选历史跟踪轨迹集合对应的特征距离矩阵。

其中，候选历史跟踪轨迹集合对应的第一表观特征集合指的是候选历史跟踪轨迹集合中各历史跟踪轨迹对应的表观特征所组成的集合。跟踪候选区域集合对应的第二表观特征集合指的是跟踪候选区域集合中各跟踪候选区域对应的表观特征所组成的集合。第三元素距离指的是第一表观特征集合中的表观特征与第二表观特征集合中的表观特征之间的特征距离。

具体地，对于每一个第一表观特征集合，计算该第一表观特征集合中每一条历史跟踪轨迹对应的表观特征与跟踪候选区域集合中每一个跟踪候选区域对应的表观特征之间的特征距离，得到每一条历史跟踪轨迹对应的特征距离向量，这些特征距离向量组成与该第一表观特征集合对应的候选历史跟踪轨迹集合的特征距离矩阵。

可以理解的是，当待跟踪目标为人时，表观特征指的是人体特征。

在一个实施例中，对于跟踪候选区域的表观特征，可以通过预先训练的人体特征模型提取跟踪候选区域对应的全局特征以及局部特征，例如头部，脚部等，对全局特征和局部特征进行融合，得到跟踪候选区域的表观特征。这里的人体特征模型指的是用于对人体特征进行提取的机器学习模型。

在一个实施例中，鉴于后续还需要得到跟踪候选区域对应的光流运动特征，可对光流估计和人体特征提取两部分联合进行模型训练，即训练一个端到端的联合模型，当将邻近两帧视频帧输入该联合模型时，可同时输出对应的帧间光流图及各帧视频帧对应的人体特征。通过各跟踪候选区域的位置信息，从得到的光流图及人体特征中截取各跟踪候选区域对应的光流区域及人体特征。

在一个实施例中，对于历史跟踪轨迹的表观特征，可以包括其对应的各个历史跟踪区域的表观特征。那么在计算历史跟踪轨迹对应的表观特征与跟踪候选区域对应的表观特征之间的特征距离时，可分别计算历史跟踪轨迹对应的每一个历史跟踪区域的表观特征与跟踪候选区域对应的表观特征之间的特征距离，选取最小的一个特征距离，作为二者之间的特征距离。

在一个实施例中，当历史跟踪轨迹较长时，其包括的历史跟踪区域较多，此时，若计算每一个历史跟踪区域的表观特征与跟踪候选区域对应的表观特征之间的特征距离，则计算量非常大，考虑到时间较远的历史跟踪区域对目标的表达能力较弱，可选取预设数量时间较近的历史跟踪区域作为目标历史跟踪区域，那么计算机设备只需计算每一个历史跟踪区域的表观特征与跟踪候选区域对应的表观特征之间的特征距离即可。

S510，分别根据各个特征距离矩阵，将各个候选历史跟踪轨迹集合中的历史跟踪轨迹中与当前目标区域集合中的当前目标区域进行匹配；当前目标区域为对当前视频帧进行目标检测得到的区域。

具体地，对于每一个特征距离矩阵，计算机设备可以判断该特征距离矩阵中各个特征距离与预设阈值之间的大小关系，当任意一个特征距离小于预设阈值时，认为该特征距离所对应的历史跟踪轨迹与当前目标区域可能匹配成功。这里的当前目标区域为计算机设备对当前视频帧进行目标检测得到的区域。

在一个具体的实施例中，当一个当前目标区域仅与一条历史跟踪轨迹可能匹配成功时，可以直接认为该当前目标区域与该历史跟踪轨迹之间的匹配结果为进行匹配；在其他实施例中，当一个当前目标区域与多条历史跟踪轨迹可能匹配成功时，可通过求解二分图匹配的方式确定各跟踪候选区域与各当前目标区域之间的匹配结果。匹配结果为匹配成功或者匹配失败。

S512，分别获取各个候选历史跟踪轨迹集合中匹配失败的历史跟踪轨迹，将获取的历史跟踪轨迹组成目标历史跟踪轨迹集合。

S514，获取当前目标区域集合中匹配失败的当前目标区域，将获取的当前目标区域组成跟踪候选区域集合。

本实施例中，首先根据表观特征之间的特征距离，来将历史跟踪轨迹与跟踪候选区域进行匹配，通过表观特征的匹配可以筛选掉一部分表观特征明显的目标，将匹配失败的历史跟踪轨迹确定为目标历史跟踪轨迹以及将匹配失败的当前目标区域确定为跟踪候选区域，鉴于单独通过光流运动特征匹配时计算的复杂性，将运动信息与表观信息进行互补来进行目标跟踪，不仅可以提高目标跟踪准确性，而且可以提高目标跟踪的效率。

在一个实施例中，在分别根据各个特征距离矩阵，将各个候选历史跟踪轨迹集合中的历史跟踪轨迹中与当前目标区域集合中的当前目标区域进行匹配之前，该目标跟踪方法还包括：对当前视频帧进行人头体检测，得到多个人体检测框和多个人头检测框；对多个人体检测框中包含多个人头检测框的人体检测框进行过滤，将过滤后的人体检测框所在区域确定为当前目标区域。

本实施例中，待跟踪目标为人体，计算机设备可获取预先计算机设备获取预先训练好人头体检测模型，通过该人头体检测模型对当前视频帧进行人头检测和人体检测，得到多个人体检测框和多个人头检测框，根据各个人体检测框和各个人头检测框的位置，判断单个人体检测框中是否包含了多个人头检测框，若包含多个人头检测框，则说明该人体检测框可能包括多个人体，为了出现跟踪不准确的情况，计算机设备可以对该人体检测框进行过滤，也就是丢弃该人体检测框，将剩下的人体检测框所在区域确定为跟踪候选区域。可以理解的是，这里的人头体检测模型指的是用于人头和人体检测的机器学习模型。该机器学习模型可通过现有技术公开的方法训练得到，本申请在此不赘述。

在一个实施例中，在获取第一运动特征集合和第二运动特征集合之间的第一元素距离，得到第一运动关联矩阵之前，该目标跟踪方法还包括：分别融合各个目标历史跟踪轨迹对应的光流运动特征，得到各个目标历史跟踪轨迹对应的轨迹运动特征，形成轨迹运动特征集合；获取第一运动特征集合和第二运动特征集合之间的第一元素距离包括：获取轨迹运动特征集合与第二运动特征集合之间的特征距离，将获取的特征距离作为第一运动特征集合和第二运动特征集合之间的第一元素距离。

具体地，当目标历史跟踪轨迹对应多个光流运动特征时，对于每一条目标历史跟踪轨迹，可以对该目标历史跟踪轨迹的多个光流运动特征进行融合，融合后可以用一个融合后的特征来表示该目标历史跟踪轨迹对应的多个光流运动特征，将融合后的特征作为该目标历史跟踪轨迹对应的轨迹运动特征。

计算机设备进一步分别计算轨迹运动特征集合中各个轨迹运动特征与第二运动特征集合各个跟踪候选区域之间的特征距离，得到轨迹运动特征集合与第二运动特征集合之间的特征距离，将轨迹运动特征集合与第二运动特征集合之间的特征距离作为第一运动特征集合和第二运动特征集合之间的第一元素距离。由于减少了特征的数量，可以大大减少计算第一元素距离时的计算量。

在一个实施例中，分别融合各个目标历史跟踪轨迹对应的光流运动特征，得到各个目标历史跟踪轨迹对应的轨迹运动特征包括：分别获取各个光流运动特征对应的视频帧时间；分别根据各个光流运动特征对应的视频帧时间与当前视频帧对应的视频帧时间之间的时间距离，确定各个光流运动特征的权重；根据各个光流运动特征的权重，对各个目标历史跟踪轨迹对应的光流运动特征进行加权融合，得到各个目标历史跟踪轨迹对应的轨迹运动特征。

由于待跟踪目标下一步的运动更大概率地与较近历史视频帧间的运动具有一致性，而与较远时间的运动一致性降低，基于此，可获取各个光流运动特征对应的视频帧时间，根据各个光流运动特征对应的视频帧时间，确定各个光流运动特征与当前视频帧对应的视频帧时间之间的时间距离，按照时间距离长短确定各个光流运动特征的权重，将时间距离短的赋予较大的权重，而将时间距离长的赋予较小的权重，且时间距离越短则权重越大，以此来体现各个不同光流运动特征的表达能力。值得说明的是，权重的具体大小可根据实际需要进行设定，例如可以将时间距离的倒数确定为权重，当然，也可以采用其他方式来确定权重具体大小，只要符合本申请实施例提出的规律即可。

在确定了各个光流运动特征的权重后，可以根据权重对光流运动特征进行加权融合，得到各个目标历史跟踪轨迹对应的轨迹运动特征。

举例说明，目标历史跟踪轨迹1对应三个光流运动特征A1、A2、A3，这三个光流运动特征对应的视频帧时间与当前视频帧对应的视频帧时间之间的时间距离分别为L1、L2、L3，且L1< L2<L3，基于此，可以确定A1、A2、A3的权重分别为1/L1、1/L2、1/L3，对这三个光流运动特征进行加权融合得到轨迹运动特征为A1/L1+ A2/L2+A3/L3。

本实施例中，根据时间距离对不同光流运动特征赋予不同的权重来进行融合，可以提高光流运动特征的表达能力及一致性运动验证的有效性。

在一个实施例中，该目标跟踪方法还包括：当根据匹配结果确定任意一个目标历史跟踪轨迹对应的跟踪结果为跟踪成功时，获取跟踪成功的目标历史跟踪轨迹对应的匹配候选区域；获取匹配候选区域对应的质量分数；当匹配候选区域对应的质量分数超过预设阈值时，根据匹配候选区域更新跟踪成功的目标历史跟踪轨迹。

具体地，目标历史跟踪轨迹对应的匹配结果为匹配成功或匹配失败，对于每一条目标历史跟踪轨迹，当匹配结果为匹配成功时，计算机设备确定对应的跟踪结果为跟踪成功，当匹配结果为匹配失败时，计算机设备确定对应的跟踪结果为跟踪失败。对于跟踪成功的目标历史跟踪轨迹，计算机设备可以获取该目标历史跟踪轨迹对应的匹配候选区域，这里的匹配候选区域指的是与跟踪成功的目标历史跟踪轨迹匹配成功的跟踪候选区域。

计算机设备该进一步获取该匹配候选区域对应的质量分数，质量分数用于表征跟踪候选区域对应的表观特征对待跟踪目标的表达能力强弱，质量分数越高，表示该跟踪候选区域对应的表观特征对该跟踪候选区域中的待跟踪目标的表达能力越强，而当质量分数不超过预设阈值时，表示该跟踪候选区域中的待跟踪目标可能存在被遮挡的情况，也就是说该跟踪候选区域表达的表观特征并不准确，其对于后续的目标跟踪的作用有限，在一定程度上甚至会降低目标跟踪的准确性，因此，在本实施例中，计算机设备在判断出匹配候选区域对应的质量分数不超过预设阈值，会丢弃该匹配候选区域，只有在匹配候选区域对应的质量分数超过预设阈值，才会根据该匹配候选区域去更新其对应的目标历史跟踪轨迹。在更新目标历史跟踪轨迹时，可根据匹配候选区域的位置信息以及对应的表观特征对目标历史跟踪轨迹进行更新。

在一个实施例中，计算机设备可获取预先训练的质量评分模型，该质量评分模型指的是用于对跟踪候选区域对应的表观特征进行质量评分的机器学习模型。计算机设备通过将匹配候选区域对应的表观特征输入到该质量评分模型中，可以得到对应的质量分数。

在一个实施例中，该目标跟踪方法还包括：根据更新后的目标历史跟踪轨迹确定对应的待跟踪目标的当前位置；当待跟踪目标的当前位置在任意一个目标主体对应的预设区域内时，确定待跟踪目标存在对应于目标主体的当前进入行为；获取各个目标主体对应的存在当前进入行为的待跟踪目标数量；待跟踪目标数量用于调整对应的目标主体的当前位置。

其中，目标主体指的是可以获客的经营主体，可以是商场、商业街道、大型超市等场所内的各个门店。目标主体对应的预设区域指的是该目标主体当前所在区域周围一定范围内的区域，例如，可以是某个门店所在区域周围20cm之内的区域。待跟踪目标对应于所述目标主体的当前进入行为指的是待跟踪目标当前进入该目标主体当前所在区域的行为。

本实施例提供的目标跟踪方法可用于对商场、商业街道、大型超市等场所内门店的位置调整进行决策。摄像头安装于目标主体当前所在区域外面，计算机设备根据摄像头采集的视频帧不断地更新各条目标历史跟踪轨迹，根据更新后的目标历史跟踪轨迹可以确定待跟踪目标的当前位置，进一步判断待跟踪目标的当前位置是否在各目标主体对应的预设区域内，当所述待跟踪目标的当前位置在任意一个目标主体对应的预设区域内时，则说明待跟踪目标进入了该目标主体所在区域，此时，可以判定待跟踪目标存在对应于该目标主体的当前进入行为，计算机设备进一步可以统计各个目标主体对应的存在当前进入行为的待跟踪目标数量，待跟踪目标数量反映了目标主体的客流量，那么可以根据待跟踪目标数量来调整目标主体的当前位置。例如，某个目标主体在一段时间的总客流量大于一个预设阈值时，说明该目标主体很受欢迎，那么可以将该目标主体的当前位置调整至人流更加密集的区域，从而可以进一步提高该目标主体的获客能力，使得目标主体能够更好地经营。

如图6所示，为一个实施例中，目标跟踪方法的框架图。本实施例中，该目标跟踪方法分为视觉部分、运动部分（滤波）、运动部分（光流）三个部分来进行目标跟踪，下面结果图6对本实施例的主要步骤进行说明：

一、视觉部分

1）在获取到当前视频帧及当前视频帧对应的历史视频帧集合后，计算机设备将当前视频帧输入人头体检测模型中，输出多个人体检测框和多个人头检测框，过滤掉包含多个人头检测框的人体检测框，得到多个目标人体检测框，将目标人体检测框输入视觉部分的人体特征提取模型中，得到各目标人体检测框对应的人体特征。

2）计算机设备在当前历史跟踪轨迹集合（track0,track1,……）中选取到当前时刻为止已经连续k帧（1<=k<=N）没有成功和人体检测框匹配的历史跟踪轨迹，形成候选历史跟踪轨迹集合Tk（1<=k<=N）

3）计算机设备候选历史跟踪轨迹集合Tk中各历史跟踪轨迹的人体特征，计算各历史跟踪轨迹的人体特征和各目标人体检测框的人体特征的特征距离，获得特征距离矩阵M1。

4）计算机设备根据特征距离矩阵M1，求解二分图匹配，获取历史跟踪轨迹和目标人体检测框的匹配结果，根据匹配结果确定各历史跟踪轨迹的跟踪结果,将跟踪成功的历史跟踪轨迹的轨迹标识（track ID）分配给与之匹配的人体检测框。

5）计算机设备重复步骤2）到4）直到，从1到N遍历所有的k。

二、运动部分（滤波）

计算机设备将各候选历史跟踪轨迹集合中匹配失败的历史跟踪轨迹确定为目标历史跟踪轨迹，得到目标历史跟踪轨迹集合，将目标人体检测框中匹配失败的人体检测框所在区域确定为跟踪候选区域，得到跟踪候选区域集合。计算机设备进一步利用卡尔曼滤波器对目标历史跟踪轨迹集合中各个目标历史跟踪轨迹进行运动估计，得到各目标历史跟踪轨迹的估计跟踪区域的空间位置,并和跟踪候选区域集合中各跟踪候选区域的空间位置计算空间距离，获得运动关联矩阵M2。

三、运动部分（光流）

计算机设备通过光流估计模型对当前视频帧及当前视频帧对应的历史视频帧集合进行光流估计得到密集光流图，从密集光流图中提取目标历史跟踪轨迹集合中每一条目标历史跟踪轨迹对应的光流运动特征，融合各目标历史跟踪轨迹的多个光流运动特征，得到各目标历史跟踪轨迹对应的轨迹运动特征，形成轨迹运动特征集合。计算机设备进一步对当前视频帧对应的光流图中各跟踪候选区域对应的光流区域进行特征提取，得到当前视频帧中各跟踪候选区域对应的光流运动特征，形成当前运动特征集合，计算轨迹运动特征集合与光流运动特征集合之间的特征距离得到运动关联矩阵。

参考图7，为一个具体的实施例中，运动部分（光流）的细节图。本实施例中，当前视频帧及当前视频帧对应的历史视频帧集合为连续帧，在将连续帧输入光流估计模型后，光流估计模型对该连续帧中每相邻两帧进行光流估计，得到连续密集光流图，对于目标历史跟踪轨迹集合中每一个目标历史跟踪轨迹，结合该目标历史跟踪轨迹的历史跟踪区域及对应的光流历史窗，提取对应的光流运动特征，这里的光流历史窗为历史视频帧集合中观测的K帧历史视频帧的帧间光流图的集合。将光流历史窗内各目标历史跟踪轨迹的光流运动特征进行融合得到轨迹运动特征集合，并与当前运动特征集合计算特征距离得到运动关联矩阵M3。当前运动特征集合是通过跟踪候选区域对应的人体检测框从当前视频帧对应的光流图中截取光流区域并进行特征提取得到的。

继续参考图6，计算机设备进一步对M2和M3进行融合得到融合后的运动关联矩阵,根据融合后的运动关联矩阵，求解二分图匹配，获取目标历史跟踪轨迹和跟踪候选区域的匹配结果，根据匹配结果确定各目标历史跟踪轨迹的跟踪结果,将跟踪成功的目标历史跟踪轨迹的轨迹标识（track ID）分配给与之匹配的跟踪候选区域。

计算机设备进一步根据上述步骤得到的跟踪结果更新跟踪成功的历史跟踪轨迹，更新内容包含两部分，分别为跟踪候选区域的空间位置和人体特征。其中人体特征需根据质量评分模型进行打分，如果分数小于某个阈值，则判断该跟踪候选区域出现遮挡情况，此时该跟踪候选区域的人体特征会被丢弃，不更新到历史跟踪轨迹中。

本实施例中，计算机设备通过结合视觉部分的表观特征、运动部分的滤波运动特征以及光流运动特征进行目标跟踪，相较于传统技术中仅仅依赖于视觉的表观特征的目标跟踪方法，显著地提高了目标跟踪的准确性。

应该理解的是，虽然图2、图3、图5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、图3、图5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种目标跟踪装置800，该装置包括：

视频帧获取模块802，用于获取当前视频帧及当前视频帧对应的历史视频帧集合；

跟踪候选区域获取模块804，用于获取当前视频帧对应的跟踪候选区域集合；

第一运动特征获取模块806，用于获取历史视频帧集合对应的目标历史跟踪轨迹集合，根据历史视频帧集合确定目标历史跟踪轨迹集合中各个目标历史跟踪轨迹对应的光流运动特征，形成第一运动特征集合；

第二运动特征获取模块808，用于获取跟踪候选区域集合中各个跟踪候选区域对应的光流运动特征，形成第二运动特征集合；

第一运动关联矩阵获得模块810，用于获取第一运动特征集合和第二运动特征集合之间的第一元素距离，得到第一运动关联矩阵；

匹配模块812，用于根据第一运动关联矩阵，将各个目标历史跟踪轨迹与跟踪候选区域进行匹配，根据匹配结果确定各个目标历史跟踪轨迹对应的跟踪结果。

上述目标跟踪装置，通过获取当前视频帧及当前视频帧对应的历史视频帧集合,获取当前视频帧对应的跟踪候选区域集合，进一步获取历史视频帧集合对应的目标历史跟踪轨迹集合，根据历史视频帧集合确定各个目标历史跟踪轨迹对应的光流运动特征，形成第一运动特征集合，接着获取各个跟踪候选区域对应的光流运动特征，形成第二运动特征集合，最后获取第一运动特征集合和第二运动特征集合之间的第一元素距离，得到第一运动关联矩阵，根据第一运动关联矩阵，将各个目标历史跟踪轨迹与跟踪候选区域进行匹配，根据匹配结果确定各个目标历史跟踪轨迹对应的跟踪结果，实现了根据光流运动特征进行目标跟踪，由于同一目标在短时间的运动过程中历史运动与当前运动基本一致，而不同目标的运动之间存在差异，因此根据光流运动特征得到的运动关联矩阵进行匹配，可以降低由于表观特征的影响导致的身份切换问题，提高目标跟踪的准确性。

在一个实施例中，如图9所示，第一运动特征获取模块806包括：

光流图获取模块806A，用于将历史视频帧集合输入已训练的光流估计模型中，得到多个帧间光流图；

光流区域确定模块806B，用于根据各个目标历史跟踪轨迹对应的历史跟踪区域从多个帧间光流图中确定各个目标历史跟踪轨迹对应的光流区域；

特征提取模块806C，用于对各个目标历史跟踪轨迹对应的光流区域进行特征提取，得到各个目标历史跟踪轨迹对应的光流运动特征。

在一个实施例中，光流估计模型包括第一卷积层、第二卷积层以及相关层；光流图获取模块用于将历史视频帧集合中邻近两帧历史视频帧输入第一卷积层，通过第一卷积层进行特征提取，得到邻近两帧历史视频帧各自对应的特征图；将邻近两帧历史视频帧各自对应的特征图输入相关层，通过相关层对特征图进行相关操作，得到帧间成本量；帧间成本量用于进行光流估计得到对应的粗粒度光流图；将粗粒度光流图输入第二卷积层，通过第二卷积层进行细化操作，得到候选光流图，根据候选光流图得到邻近两帧历史视频帧对应的帧间光流图。

在一个实施例中，第一卷积层包括多层；光流估计模型还包括第三卷积层；第二卷积层的输入还包括联结特征图；光流图获取模块还用于将帧间成本量输入第三卷积层，通过第三卷积层对帧间成本量进行特征提取并融合第一卷积层中末尾层卷积层之前的卷积层输出的特征图，得到联结特征图。

在一个实施例中，该目标跟踪装置还包括：第二运动关联矩阵获得模块，用于确定各个目标历史跟踪轨迹在当前视频帧中对应的估计跟踪区域，得到估计跟踪区域集合，获取估计跟踪区域集合与跟踪候选区域集合之间的第二元素距离，得到第二运动关联矩阵；匹配模块还用于融合第一运动关联矩阵及第二运动关联矩阵，得到目标运动关联矩阵；根据目标运动关联矩阵，将各个目标历史跟踪轨迹与跟踪候选区域进行匹配。

在一个实施例中，该该目标跟踪装置还包括：目标历史跟踪轨迹确定模块，用于从当前历史跟踪轨迹集合中选取连续相同帧匹配失败的历史跟踪轨迹，将连续相同帧匹配失败的历史跟踪轨迹组成候选历史跟踪轨迹集合，得到多个候选历史跟踪轨迹集合；分别获取各个候选历史跟踪轨迹集合对应的第一表观特征集合；获取跟踪候选区域集合对应的第二表观特征集合；分别获取各个第一表观特征集合与第二表观特征集合之间的第三元素距离，得到各个候选历史跟踪轨迹集合对应的特征距离矩阵；分别根据各个特征距离矩阵，将各个候选历史跟踪轨迹集合中的历史跟踪轨迹中与当前目标区域集合中的当前目标区域进行匹配；当前目标区域为对当前视频帧进行目标检测得到的区域；分别获取各个候选历史跟踪轨迹集合中匹配失败的历史跟踪轨迹，将获取的历史跟踪轨迹组成目标历史跟踪轨迹集合；获取当前目标区域集合中匹配失败的当前目标区域，将获取的当前目标区域组成跟踪候选区域集合。

在一个实施例中，目标历史跟踪轨迹确定模块还用于对当前视频帧进行人头体检测，得到多个人体检测框和多个人头检测框；对多个人体检测框中包含多个人头检测框的人体检测框进行过滤，将过滤后的人体检测框所在区域确定为当前目标区域。

在一个实施例中，该目标跟踪装置还包括：轨迹运动特征获得模块，用于分别融合各个目标历史跟踪轨迹对应的光流运动特征，得到各个目标历史跟踪轨迹对应的轨迹运动特征，形成轨迹运动特征集合；第一运动关联矩阵获得模块还用于获取轨迹运动特征集合与第二运动特征集合之间的特征距离，将获取的特征距离作为第一运动特征集合和第二运动特征集合之间的第一元素距离。

在一个实施例中，轨迹运动特征获得模块还用于分别获取各个光流运动特征对应的视频帧时间；分别根据各个光流运动特征对应的视频帧时间与当前视频帧对应的视频帧时间之间的时间距离，确定各个光流运动特征的权重；根据各个光流运动特征的权重，对各个目标历史跟踪轨迹对应的光流运动特征进行加权融合，得到各个目标历史跟踪轨迹对应的轨迹运动特征。

在一个实施例中，该目标跟踪装置还包括：轨迹更新模块，用于当根据匹配结果确定任意一个目标历史跟踪轨迹对应的跟踪结果为跟踪成功时，获取跟踪成功的目标历史跟踪轨迹对应的匹配候选区域；获取匹配候选区域对应的质量分数；当匹配候选区域对应的质量分数超过预设阈值时，根据匹配候选区域更新跟踪成功的目标历史跟踪轨迹。

在一个实施例中，该该目标跟踪装置还包括：待跟踪目标数量获取模块，用于根据更新后的目标历史跟踪轨迹确定对应的待跟踪目标的当前位置；当待跟踪目标的当前位置在任意一个目标主体对应的预设区域内时，确定待跟踪目标存在对应于目标主体的当前进入行为；获取各个目标主体对应的存在当前进入行为的待跟踪目标数量；待跟踪目标数量用于调整对应的目标主体的当前位置。

图10示出了一个实施例中计算机设备的内部结构图。如图10所示，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现目标跟踪方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行目标跟踪方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的目标跟踪装置可以实现为一种计算机程序的形式，计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成该目标跟踪装置的各个程序模块，比如，图8所示的视频帧获取模块、跟踪候选区域获取模块、第一运动特征获取模块、第二运动特征获取模块、第一运动关联矩阵获得模块和匹配模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的目标跟踪方法中的步骤。

例如，图10所示的计算机设备可以通过如图8所示的目标跟踪装置中的视频帧获取模块执行步骤S202。计算机设备可通过跟踪候选区域获取模块执行步骤S204。计算机设备可通过第一运动特征获取模块执行步骤S206。计算机设备可通过第二运动特征获取模块执行步骤S208。计算机设备可通过第一运动关联矩阵获得模块执行步骤S210。计算机设备可通过匹配模块执行步骤S212。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述目标跟踪方法的步骤。此处目标跟踪方法的步骤可以是上述各个实施例的目标跟踪方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述目标跟踪方法的步骤。此处目标跟踪方法的步骤可以是上述各个实施例的目标跟踪方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指示相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种目标跟踪方法，包括：

获取当前视频帧及所述当前视频帧对应的历史视频帧集合；

获取所述当前视频帧对应的跟踪候选区域集合；所述跟踪候选区域集合包括当前视频帧中的一个或者多个跟踪候选区域，所述跟踪候选区域指的是当前视频帧中各待跟踪目标可能出现的区域；

获取所述历史视频帧集合对应的目标历史跟踪轨迹集合，根据所述历史视频帧集合确定所述目标历史跟踪轨迹集合中各个目标历史跟踪轨迹对应的光流运动特征，形成第一运动特征集合；所述目标历史跟踪轨迹集合中包括至少一条目标历史跟踪轨迹，所述目标历史跟踪轨迹由待跟踪目标在历史视频帧中出现的位置区域连线得到；

2.根据权利要求1所述的方法，其特征在于，所述根据所述历史视频帧集合确定所述目标历史跟踪轨迹集合中各个目标历史跟踪轨迹对应的光流运动特征，包括：

将所述历史视频帧集合输入已训练的光流估计模型中，得到多个帧间光流图；

根据各个目标历史跟踪轨迹对应的历史跟踪区域从所述多个帧间光流图中确定各个目标历史跟踪轨迹对应的光流区域；

对各个目标历史跟踪轨迹对应的光流区域进行特征提取，得到各个目标历史跟踪轨迹对应的光流运动特征。

3.根据权利要求2所述的方法，其特征在于，所述光流估计模型包括第一卷积层、第二卷积层以及相关层；所述将所述历史视频帧集合输入已训练的光流估计模型中，得到多个帧间光流图，包括：

将所述历史视频帧集合中邻近两帧历史视频帧输入所述第一卷积层，通过所述第一卷积层进行特征提取，得到邻近两帧历史视频帧各自对应的特征图；

将邻近两帧历史视频帧各自对应的特征图输入所述相关层，通过所述相关层对所述特征图进行相关操作，得到帧间成本量；所述帧间成本量用于进行光流估计得到对应的粗粒度光流图；

将所述粗粒度光流图输入所述第二卷积层，通过所述第二卷积层进行细化操作，得到候选光流图，根据所述候选光流图得到邻近两帧历史视频帧对应的帧间光流图。

4.根据权利要求3所述的方法，其特征在于，所述第一卷积层包括多层；所述光流估计模型还包括第三卷积层；所述第二卷积层的输入还包括联结特征图；在所述将所述粗粒度光流图输入所述第二卷积层，通过所述第二卷积层进行细化操作，得到候选光流图之前，所述方法还包括：

将所述帧间成本量输入所述第三卷积层，通过所述第三卷积层对所述帧间成本量进行特征提取并融合所述第一卷积层中末尾层卷积层之前的卷积层输出的特征图，得到所述联结特征图。

5.根据权利要求1所述的方法，其特征在于，在所述根据所述历史视频帧集合确定所述目标历史跟踪轨迹集合中各个目标历史跟踪轨迹对应的光流运动特征之前，所述方法还包括：

确定各个目标历史跟踪轨迹在所述当前视频帧中对应的估计跟踪区域，得到估计跟踪区域集合；

获取所述估计跟踪区域集合与所述跟踪候选区域集合之间的第二元素距离，得到第二运动关联矩阵；

所述根据所述第一运动关联矩阵，将所述各个目标历史跟踪轨迹与所述跟踪候选区域进行匹配包括：

融合所述第一运动关联矩阵及所述第二运动关联矩阵，得到目标运动关联矩阵；

根据所述目标运动关联矩阵，将所述各个目标历史跟踪轨迹与所述跟踪候选区域进行匹配。

6.根据权利要求1所述的方法，其特征在于，在所述获取所述当前视频帧对应的跟踪候选区域集合之前，所述方法还包括：

从当前历史跟踪轨迹集合中选取连续相同帧匹配失败的历史跟踪轨迹，将连续相同帧匹配失败的历史跟踪轨迹组成候选历史跟踪轨迹集合，得到多个候选历史跟踪轨迹集合；

分别获取各个候选历史跟踪轨迹集合对应的第一表观特征集合；

获取跟踪候选区域集合对应的第二表观特征集合；

分别获取各个第一表观特征集合与所述第二表观特征集合之间的第三元素距离，得到各个候选历史跟踪轨迹集合对应的特征距离矩阵；

分别根据各个特征距离矩阵，将各个所述候选历史跟踪轨迹集合中的历史跟踪轨迹中与当前目标区域集合中的当前目标区域进行匹配；所述当前目标区域为对所述当前视频帧进行目标检测得到的区域；

分别获取各个所述候选历史跟踪轨迹集合中匹配失败的历史跟踪轨迹，将获取的所述历史跟踪轨迹组成目标历史跟踪轨迹集合；

获取所述当前目标区域集合中匹配失败的当前目标区域，将获取的所述当前目标区域组成跟踪候选区域集合。

7.根据权利要求6所述的方法，其特征在于，在所述分别根据各个特征距离矩阵，将各个所述候选历史跟踪轨迹集合中的历史跟踪轨迹中与当前目标区域集合中的当前目标区域进行匹配之前，所述方法还包括：

对所述当前视频帧进行人头体检测，得到多个人体检测框和多个人头检测框；对所述多个人体检测框中包含多个人头检测框的人体检测框进行过滤，将过滤后的人体检测框所在区域确定为当前目标区域。

8.根据权利要求1所述的方法，其特征在于，在所述获取所述第一运动特征集合和所述第二运动特征集合之间的第一元素距离，得到第一运动关联矩阵之前，所述方法还包括：

分别融合各个目标历史跟踪轨迹对应的光流运动特征，得到各个目标历史跟踪轨迹对应的轨迹运动特征，形成轨迹运动特征集合；

所述获取所述第一运动特征集合和所述第二运动特征集合之间的第一元素距离包括：

获取所述轨迹运动特征集合与所述第二运动特征集合之间的特征距离，将获取的所述特征距离作为所述第一运动特征集合和所述第二运动特征集合之间的第一元素距离。

9.根据权利要求8所述的方法，其特征在于，所述分别融合各个目标历史跟踪轨迹对应的光流运动特征，得到各个目标历史跟踪轨迹对应的轨迹运动特征包括：

分别获取各个光流运动特征对应的视频帧时间；

分别根据各个光流运动特征对应的视频帧时间与所述当前视频帧对应的视频帧时间之间的时间距离，确定各个光流运动特征的权重；

根据各个光流运动特征的权重，对各个目标历史跟踪轨迹对应的光流运动特征进行加权融合，得到各个目标历史跟踪轨迹对应的轨迹运动特征。

10.根据权利要求1至9任意一项所述的方法，其特征在于，所述方法还包括：

当根据匹配结果确定任意一个目标历史跟踪轨迹对应的跟踪结果为跟踪成功时，获取跟踪成功的所述目标历史跟踪轨迹对应的匹配候选区域；

获取所述匹配候选区域对应的质量分数；

当所述匹配候选区域对应的质量分数超过预设阈值时，根据所述匹配候选区域更新跟踪成功的所述目标历史跟踪轨迹。

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

根据更新后的目标历史跟踪轨迹确定对应的待跟踪目标的当前位置；

当所述待跟踪目标的当前位置在任意一个目标主体对应的预设区域内时，确定所述待跟踪目标存在对应于所述目标主体的当前进入行为；

获取各个目标主体对应的存在当前进入行为的待跟踪目标数量；所述待跟踪目标数量用于调整对应的目标主体的当前位置。

12.一种目标跟踪装置，其特征在于，所述装置包括：

跟踪候选区域获取模块，用于获取所述当前视频帧对应的跟踪候选区域集合；所述跟踪候选区域集合包括当前视频帧中的一个或者多个跟踪候选区域，所述跟踪候选区域指的是当前视频帧中各待跟踪目标可能出现的区域；

第一运动特征获取模块，用于获取所述历史视频帧集合对应的目标历史跟踪轨迹集合，根据所述历史视频帧集合确定所述目标历史跟踪轨迹集合中各个目标历史跟踪轨迹对应的光流运动特征，形成第一运动特征集合；所述目标历史跟踪轨迹集合中包括至少一条目标历史跟踪轨迹，所述目标历史跟踪轨迹由待跟踪目标在历史视频帧中出现的位置区域连线得到；

13.根据权利要求12所述的装置，其特征在于，所述第一运动特征获取模块包括：

光流图获取模块，用于将所述历史视频帧集合输入已训练的光流估计模型中，得到多个帧间光流图；

光流区域确定模块，用于根据各个目标历史跟踪轨迹对应的历史跟踪区域从所述多个帧间光流图中确定各个目标历史跟踪轨迹对应的光流区域；

特征提取模块，用于对各个目标历史跟踪轨迹对应的光流区域进行特征提取，得到各个目标历史跟踪轨迹对应的光流运动特征。

14.根据权利要求13所述的装置，其特征在于，所述光流估计模型包括第一卷积层、第二卷积层以及相关层；所述光流图获取模块用于将所述历史视频帧集合中邻近两帧历史视频帧输入所述第一卷积层，通过所述第一卷积层进行特征提取，得到邻近两帧历史视频帧各自对应的特征图；将邻近两帧历史视频帧各自对应的特征图输入所述相关层，通过所述相关层对所述特征图进行相关操作，得到帧间成本量；所述帧间成本量用于进行光流估计得到对应的粗粒度光流图；将所述粗粒度光流图输入所述第二卷积层，通过所述第二卷积层进行细化操作，得到候选光流图，根据所述候选光流图得到邻近两帧历史视频帧对应的帧间光流图。

15.根据权利要求14所述的装置，其特征在于，所述第一卷积层包括多层；所述光流估计模型还包括第三卷积层；所述第二卷积层的输入还包括联结特征图；所述光流图获取模块还用于：

16.根据权利要求12所述的装置，其特征在于，所述装置还包括：第二运动关联矩阵获得模块，用于确定各个目标历史跟踪轨迹在所述当前视频帧中对应的估计跟踪区域，得到估计跟踪区域集合，获取所述估计跟踪区域集合与所述跟踪候选区域集合之间的第二元素距离，得到第二运动关联矩阵；所述匹配模块还用于融合所述第一运动关联矩阵及所述第二运动关联矩阵，得到目标运动关联矩阵；根据所述目标运动关联矩阵，将所述各个目标历史跟踪轨迹与所述跟踪候选区域进行匹配。

17.根据权利要求12所述的装置，其特征在于，所述装置还包括：目标历史跟踪轨迹确定模块，用于：从当前历史跟踪轨迹集合中选取连续相同帧匹配失败的历史跟踪轨迹，将连续相同帧匹配失败的历史跟踪轨迹组成候选历史跟踪轨迹集合，得到多个候选历史跟踪轨迹集合；分别获取各个候选历史跟踪轨迹集合对应的第一表观特征集合；获取跟踪候选区域集合对应的第二表观特征集合；分别获取各个第一表观特征集合与所述第二表观特征集合之间的第三元素距离，得到各个候选历史跟踪轨迹集合对应的特征距离矩阵；分别根据各个特征距离矩阵，将各个所述候选历史跟踪轨迹集合中的历史跟踪轨迹中与当前目标区域集合中的当前目标区域进行匹配；所述当前目标区域为对所述当前视频帧进行目标检测得到的区域；分别获取各个所述候选历史跟踪轨迹集合中匹配失败的历史跟踪轨迹，将获取的所述历史跟踪轨迹组成目标历史跟踪轨迹集合；获取所述当前目标区域集合中匹配失败的当前目标区域，将获取的所述当前目标区域组成跟踪候选区域集合。

18.根据权利要求17所述的装置，其特征在于，目标历史跟踪轨迹确定模块还用于：对所述当前视频帧进行人头体检测，得到多个人体检测框和多个人头检测框；对所述多个人体检测框中包含多个人头检测框的人体检测框进行过滤，将过滤后的人体检测框所在区域确定为当前目标区域。

19.根据权利要求12所述的装置，其特征在于，所述装置还包括：轨迹运动特征获得模块，用于分别融合各个目标历史跟踪轨迹对应的光流运动特征，得到各个目标历史跟踪轨迹对应的轨迹运动特征，形成轨迹运动特征集合；第一运动关联矩阵获得模块还用于获取所述轨迹运动特征集合与所述第二运动特征集合之间的特征距离，将获取的所述特征距离作为所述第一运动特征集合和所述第二运动特征集合之间的第一元素距离。

20.根据权利要求19所述的装置，其特征在于，轨迹运动特征获得模块还用于：分别获取各个光流运动特征对应的视频帧时间；分别根据各个光流运动特征对应的视频帧时间与所述当前视频帧对应的视频帧时间之间的时间距离，确定各个光流运动特征的权重；根据各个光流运动特征的权重，对各个目标历史跟踪轨迹对应的光流运动特征进行加权融合，得到各个目标历史跟踪轨迹对应的轨迹运动特征。

21.根据权利要求12至20任意一项所述的装置，其特征在于，所述装置还包括：轨迹更新模块，用于当根据匹配结果确定任意一个目标历史跟踪轨迹对应的跟踪结果为跟踪成功时，获取跟踪成功的所述目标历史跟踪轨迹对应的匹配候选区域；获取所述匹配候选区域对应的质量分数；当所述匹配候选区域对应的质量分数超过预设阈值时，根据所述匹配候选区域更新跟踪成功的所述目标历史跟踪轨迹。

22.根据权利要求21所述的装置，其特征在于，所述装置还包括：待跟踪目标数量获取模块，用于根据更新后的目标历史跟踪轨迹确定对应的待跟踪目标的当前位置；当所述待跟踪目标的当前位置在任意一个目标主体对应的预设区域内时，确定所述待跟踪目标存在对应于所述目标主体的当前进入行为；获取各个目标主体对应的存在当前进入行为的待跟踪目标数量；所述待跟踪目标数量用于调整对应的目标主体的当前位置。

23.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。

24.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。