CN111696130A

CN111696130A - 目标跟踪方法、目标跟踪装置及计算机可读存储介质

Info

Publication number: CN111696130A
Application number: CN201910182221.8A
Authority: CN
Inventors: 鲍慊; 刘武; 梅涛
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2020-09-22

Abstract

本公开提供了一种目标跟踪方法、目标跟踪装置及计算机可读存储介质，涉及多媒体领域。其中的目标跟踪方法包括：对当前视频帧和上一视频帧进行目标检测，得到当前视频帧和上一视频帧中的各个目标检测框；利用上一视频帧中的第一目标检测框以及当前视频帧，对第一目标检测框所表示的目标进行目标跟踪，得到当前视频帧中的目标跟踪框；根据目标跟踪框与第一目标检测框之间的相似度以及目标跟踪框与第二目标检测框的重叠度，从当前视频帧中的各个目标检测框中确定第一目标检测框所表示目标的跟踪结果，第二目标检测框为当前视频帧中与目标跟踪框距离最短的目标检测框。本公开能够提高在视频中跟踪目标的准确度。

Description

目标跟踪方法、目标跟踪装置及计算机可读存储介质

技术领域

本公开涉及多媒体技术领域，特别涉及一种目标跟踪方法、目标跟踪装置及计算机可读存储介质。

背景技术

获得视频帧中每个目标的位置，能够在视频中实现目标跟踪。获得视频帧中每个目标的关键点的位置，能够在视频中实现估计目标的姿态。视频中的目标具体可以包括人体、物体等等。

由于视频中的目标可能会被遮挡，且视频中的目标可能会快速移动，导致视频帧中目标的图像较为模糊。这些因素都会影响在视频中跟踪目标的准确度。

发明内容

发明人研究发现，采用目标检测算法直接对视频帧进行目标检测，能够得到视频帧中表示目标的目标检测框。然后匹配各个视频帧中的目标检测框，即可在视频中实现目标跟踪。然而这种方式高度依赖于目标检测的准确度以及匹配目标检测框的准确定。然而，目标检测算法的检测准确度毕竟有限，甚至可能会出现漏检测的情况；且匹配目标检测框难以实现精准匹配。因此，传统的方法在视频中跟踪目标的准确度较低。

本公开解决的一个技术问题是，如何提高在视频中跟踪目标的准确度。

根据本公开实施例的一个方面，提供了一种目标跟踪方法，包括：对当前视频帧和上一视频帧进行目标检测，得到当前视频帧和上一视频帧中的各个目标检测框；利用上一视频帧中的第一目标检测框以及当前视频帧，对第一目标检测框所表示的目标进行目标跟踪，得到当前视频帧中的目标跟踪框；根据目标跟踪框与第一目标检测框之间的相似度以及目标跟踪框与第二目标检测框的重叠度，从当前视频帧中的各个目标检测框中确定第一目标检测框所表示目标的跟踪结果，第二目标检测框为当前视频帧中与目标跟踪框距离最短的目标检测框。

在一些实施例中，根据目标跟踪框与第一目标检测框之间的相似度以及目标跟踪框与第二目标检测框的重叠度，从当前视频帧中的各个目标检测框中确定第一目标检测框所表示目标的跟踪结果包括：在目标跟踪框与第一目标检测框之间的相似度大于第一阈值且目标跟踪框与第二目标检测框的重叠度大于第二阈值的情况下，用第二目标检测框代替目标跟踪框作为第一目标检测框所表示目标的跟踪结果。

在一些实施例中，根据目标跟踪框与第一目标检测框之间的相似度以及目标跟踪框与第二目标检测框的重叠度，从当前视频帧中的各个目标检测框中确定第一目标检测框所表示目标的跟踪结果包括：在目标跟踪框与第一目标检测框之间的相似度不大于第一阈值或目标跟踪框与第二目标检测框的重叠度不大于第二阈值的情况下，提取第一目标检测框内图像的特征向量，并提取当前视频帧中的各个目标检测框内图像的特征向量；计算第一目标检测框内图像的特征向量与当前视频帧中的各个目标检测框内图像的特征向量之间的最短距离；在最短距离小于第三阈值的情况下，将当前视频帧中的第三目标检测框作为第一目标检测框的跟踪结果，其中第三目标检测框内图像的特征向量与第一目标检测框内图像的特征向量之间的距离最短。

在一些实施例中，提取第一目标检测框内图像的特征向量包括：对第一目标检测框内的图像进行关键点估计，得到第一目标检测框内图像的关键点在第一目标检测框中的位置坐标；将第一目标检测框内的图像输入卷积神经网络，得到第一目标检测框内图像的特征图；根据第一目标检测框内图像的关键点在第一目标检测框中的位置坐标、第一目标检测框内图像的特征图，得到第一目标检测框内图像的多个关键点特征向量；将第一目标检测框内图像的多个关键点特征向量输入图卷积神经网络，得到第一目标检测框内图像的特征向量。

在一些实施例中，根据第一目标检测框内图像的关键点在第一目标检测框中的位置坐标、第一目标检测框内图像的特征图，得到第一目标检测框内图像的多个关键点特征向量包括：以第一目标检测框内图像的关键点在第一目标检测框中的位置坐标为中心，在第一目标检测框内图像的特征图中截取对应的特征块；分别对第一目标检测框内图像的多个关键点对应的多个特征块进行向量化，得到第一目标检测框内图像的多个关键点特征向量。

在一些实施例中，提取当前视频帧中的各个目标检测框内图像的特征向量包括：对当前视频帧中的第四目标检测框内的图像进行关键点估计，得到第四目标检测框内图像的关键点在第四目标检测框内中的位置坐标；将第四目标检测框内的图像输入卷积神经网络，得到第四目标检测框内图像的特征图；根据第四目标检测框内图像的关键点在第四目标检测框中的位置坐标、第四目标检测框内图像的特征图，得到第四目标检测框内图像的多个关键点特征向量；将第四目标检测框内图像的多个关键点特征向量输入图卷积神经网络，得到第四目标检测框内图像的特征向量。

在一些实施例中，根据第四目标检测框内图像的关键点在第四目标检测框中的位置坐标、第四目标检测框内图像的特征图，得到第四目标检测框内图像的多个关键点特征向量包括：以第四目标检测框内图像的关键点在第四目标检测框中的位置坐标为中心，在第四目标检测框内图像的特征图中截取对应的特征块；分别对第四目标检测框内图像的多个关键点对应的多个特征块进行向量化，得到第四目标检测框内图像的多个关键点特征向量。

在一些实施例中，还包括：在最短距离不小于第三阈值的情况下，判定第一目标检测框所表示的目标在当前视频帧中消失。

在一些实施例中，还包括：对第一目标检测框内的图像进行关键点估计，得到第一目标检测框内图像的关键点在第一目标检测框的位置；对第二目标检测框内的图像进行关键点估计，得到第二目标检测框内图像的关键点在第二目标检测框中的位置；利用第一目标检测框内图像的关键点在第一目标检测框的位置及第二目标检测框内图像的关键点在第二目标检测框中的位置，跟踪第一目标检测框及第二目标检测框所表示目标的姿态。

在一些实施例中，还包括：对第一目标检测框内的图像进行关键点估计，得到第一目标检测框内图像的关键点在第一目标检测框中的位置；对第三目标检测框内的图像进行关键点估计，得到第三目标检测框内图像的关键点在第三目标检测框中的位置；利用第一目标检测框内图像的关键点在第一目标检测框中的位置及第三目标检测框内图像的关键点在第三目标检测框中的位置，跟踪第一目标检测框及第三目标检测框所表示目标的姿态。

在一些实施例中，还包括：利用当前视频帧和上一视频帧中的各个目标检测框，确定当前视频帧中新出现的目标。

在一些实施例中，利用当前视频帧和上一视频帧中的各个目标检测框，确定当前视频帧中新出现的目标包括：提取当前视频帧中的第五目标检测框内图像的特征向量以及上一视频帧中的各个目标检测框内图像的特征向量；计算第五目标检测框内图像的特征向量与上一视频帧中的各个目标检测框内图像的特征向量之间的最短距离；在最短距离大于第四阈值的情况下，将第五目标检测框所表示的目标确定为当前视频帧中新出现的目标。

根据本公开实施例的另一个方面，提供了一种目标跟踪装置，包括：目标检测模块，被配置为对当前视频帧和上一视频帧进行目标检测，得到当前视频帧和上一视频帧中的各个目标检测框；目标跟踪模块，被配置为利用上一视频帧中的第一目标检测框以及当前视频帧，对第一目标检测框所表示的目标进行目标跟踪，得到当前视频帧中的目标跟踪框；跟踪结果确定模块，被配置为根据目标跟踪框与第一目标检测框之间的相似度以及目标跟踪框与第二目标检测框的重叠度，从当前视频帧中的各个目标检测框中确定第一目标检测框所表示目标的跟踪结果，第二目标检测框为当前视频帧中与目标跟踪框距离最短的目标检测框。

在一些实施例中，跟踪结果确定模块被配置为：在目标跟踪框与第一目标检测框之间的相似度大于第一阈值且目标跟踪框与第二目标检测框的重叠度大于第二阈值的情况下，用第二目标检测框代替目标跟踪框作为第一目标检测框所表示目标的跟踪结果。

在一些实施例中，跟踪结果确定模块被配置为：在目标跟踪框与第一目标检测框之间的相似度不大于第一阈值或目标跟踪框与第二目标检测框的重叠度不大于第二阈值的情况下，提取第一目标检测框内图像的特征向量，并提取当前视频帧中的各个目标检测框内图像的特征向量；计算第一目标检测框内图像的特征向量与当前视频帧中的各个目标检测框内图像的特征向量之间的最短距离；在最短距离小于第三阈值的情况下，将当前视频帧中的第三目标检测框作为第一目标检测框的跟踪结果，其中第三目标检测框内图像的特征向量与第一目标检测框内图像的特征向量之间的距离最短。

在一些实施例中，跟踪结果确定模块被配置为：对第一目标检测框内的图像进行关键点估计，得到第一目标检测框内图像的关键点在第一目标检测框中的位置坐标；将第一目标检测框内的图像输入卷积神经网络，得到第一目标检测框内图像的特征图；根据第一目标检测框内图像的关键点在第一目标检测框中的位置坐标、第一目标检测框内图像的特征图，得到第一目标检测框内图像的多个关键点特征向量；将第一目标检测框内图像的多个关键点特征向量输入图卷积神经网络，得到第一目标检测框内图像的特征向量。

在一些实施例中，跟踪结果确定模块被配置为：以第一目标检测框内图像的关键点在第一目标检测框中的位置坐标为中心，在第一目标检测框内图像的特征图中截取对应的特征块；分别对第一目标检测框内图像的多个关键点对应的多个特征块进行向量化，得到第一目标检测框内图像的多个关键点特征向量。

在一些实施例中，跟踪结果确定模块被配置为：对当前视频帧中的第四目标检测框内的图像进行关键点估计，得到第四目标检测框内图像的关键点在第四目标检测框内中的位置坐标；将第四目标检测框内的图像输入卷积神经网络，得到第四目标检测框内图像的特征图；根据第四目标检测框内图像的关键点在第四目标检测框中的位置坐标、第四目标检测框内图像的特征图，得到第四目标检测框内图像的多个关键点特征向量；将第四目标检测框内图像的多个关键点特征向量输入图卷积神经网络，得到第四目标检测框内图像的特征向量。

在一些实施例中，跟踪结果确定模块被配置为：根据第四目标检测框内图像的关键点在第四目标检测框中的位置坐标、第四目标检测框内图像的特征图，得到第四目标检测框内图像的多个关键点特征向量包括：以第四目标检测框内图像的关键点在第四目标检测框中的位置坐标为中心，在第四目标检测框内图像的特征图中截取对应的特征块；分别对第四目标检测框内图像的多个关键点对应的多个特征块进行向量化，得到第四目标检测框内图像的多个关键点特征向量。

在一些实施例中，还包括目标消失判断模块，被配置为在最短距离不小于第三阈值的情况下，判定第一目标检测框所表示的目标在当前视频帧中消失。

在一些实施例中，还包括第一姿态跟踪模块，被配置为：对第一目标检测框内的图像进行关键点估计，得到第一目标检测框内图像的关键点在第一目标检测框的位置；对第二目标检测框内的图像进行关键点估计，得到第二目标检测框内图像的关键点在第二目标检测框中的位置；利用第一目标检测框内图像的关键点在第一目标检测框的位置及第二目标检测框内图像的关键点在第二目标检测框中的位置，跟踪第一目标检测框及第二目标检测框所表示目标的姿态。

在一些实施例中，还包括第二姿态跟踪模块，被配置为：对第一目标检测框内的图像进行关键点估计，得到第一目标检测框内图像的关键点在第一目标检测框中的位置；对第三目标检测框内的图像进行关键点估计，得到第三目标检测框内图像的关键点在第三目标检测框中的位置；利用第一目标检测框内图像的关键点在第一目标检测框中的位置及第三目标检测框内图像的关键点在第三目标检测框中的位置，跟踪第一目标检测框及第三目标检测框所表示目标的姿态。

在一些实施例中，还包括新目标确定模块，被配置为：利用当前视频帧和上一视频帧中的各个目标检测框，确定当前视频帧中新出现的目标。

在一些实施例中，新目标确定模块被配置为：提取当前视频帧中的第五目标检测框内图像的特征向量以及上一视频帧中的各个目标检测框内图像的特征向量；计算第五目标检测框内图像的特征向量与上一视频帧中的各个目标检测框内图像的特征向量之间的最短距离；在最短距离大于第四阈值的情况下，将第五目标检测框所表示的目标确定为当前视频帧中新出现的目标。

根据本公开实施例的又一个方面，提供了一种目标跟踪装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行前述的目标跟踪方法。

根据本公开实施例的再一个方面，提供了一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现前述的目标跟踪方法。

本公开根据当前视频帧中的目标跟踪框与上一视频帧中的目标检测框之间的相似度以及当前视频帧中的目标跟踪框与当前视频帧中的目标检测框的重叠度，从当前视频帧中的各个目标检测框中确定对目标的跟踪结果，从而提高了在视频中跟踪目标的准确度。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开一些实施例的目标跟踪方法的流程示意图。

图2示出了从当前视频帧中的各个目标检测框中确定跟踪结果的流程示意图。

图3示出了确定当前视频帧中新出现的目标的流程示意图。

图4示出了本公开一些实施例的目标跟踪装置的结构示意图。

图5示出了本公开另一些实施例的目标跟踪装置的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

首先结合图1描述本公开目标跟踪方法的一些实施例。

图1示出了本公开一些实施例的目标跟踪方法的流程示意图。如图1所示，本实施例包括步骤S102～步骤S106。

在步骤S102中，对当前视频帧和上一视频帧进行目标检测，得到当前视频帧和上一视频帧中的各个目标检测框。

常用的目标检测算法包括SSD(Single Shot MultiBox Detector)、Faster RCNN(Faster Regions with CNN features)、YOLO(You Only Look Once)等等。在本实施例中，可以选择Faster RCNN算法对当前视频帧和上一视频帧进行人体检测，将当前视频帧和上一视频帧作为输入图像，得到当前视频帧和上一视频帧中每个人的人体检测框。每个人体检测框内的图像表示一个人体，并携带该人体检测框的坐标位置信息。

在步骤S104中，利用上一视频帧中的第一目标检测框以及当前视频帧，对第一目标检测框所表示的目标进行目标跟踪，得到当前视频帧中的目标跟踪框。

例如，对于上一视频帧中的每个人体，在当前视频帧中使用单目标跟踪算法进行跟踪，单目标跟踪算法具体可以为SiameseFC(Fully-Convolutional Siamese Networks)基于全卷积孪生网络的目标跟踪算法。SiameseFC目标跟踪算法有两个输入，一个输入为上一视频帧中的目标检测框，作为模版；另一个输入为在当前视频帧中截取的候选跟踪框，作为跟踪对象。通过Siamese孪生网络寻找和模版最相似的候选跟踪框作为目标跟踪框，即可获得目标检测框所表示的目标在当前视频帧中的位置。SiameseFC目标跟踪算法能够兼顾目标跟踪准确度和目标跟踪效率。

在步骤S106中，根据目标跟踪框与第一目标检测框之间的相似度以及目标跟踪框与第二目标检测框的重叠度，从当前视频帧中的各个目标检测框中确定第一目标检测框所表示目标的跟踪结果。其中，第二目标检测框为当前视频帧中与目标跟踪框距离最短的目标检测框。

SiameseFC目标跟踪算法在得到目标跟踪框的同时，还能够得到目标跟综框与第一目标检测框之间的相似度。另一方面，对于当前视频帧，不仅存在目标跟综框，还存在各个目标检测框，当前视频帧中目标跟综框可能与目标检测框有重叠。那么，可以计算当前视频帧中目标跟综框可能与各个目标检测框之间的距离，取距离最短的目标检测框作为第二检测框，然后计算目标跟踪框与第二目标检测框的IOU(Intersection over Union,重叠度)。最后，根据目标跟踪框与第一目标检测框之间的相似度以及目标跟踪框与第二目标检测框的重叠度，从当前视频帧中的各个目标检测框中确定第一目标检测框所表示目标的跟踪结果。具体如何从当前视频帧中的各个目标检测框中确定第一目标检测框所表示目标的跟踪结果，在后文中分情况介绍。

本实施例将目标检测算法与目标跟踪算法进行了结合，根据当前视频帧中的目标跟踪框与上一视频帧中的目标检测框之间的相似度以及当前视频帧中的目标跟踪框与当前视频帧中的目标检测框的重叠度，从当前视频帧中的各个目标检测框中确定对目标的跟踪结果，从而提高了在视频中跟踪目标的准确度。

下面结合图2描述如何从当前视频帧中的各个目标检测框中确定第一目标检测框所表示目标的跟踪结果。

图2示出了从当前视频帧中的各个目标检测框中确定跟踪结果的流程示意图。如图2所示，本实施例包括步骤S2061～步骤S2065。

在步骤S2061中，判断目标跟踪框与第一目标检测框的相似度与第一阈值之间的数量关系，并判断目标跟踪框与第二目标检测框的重叠度与第二阈值之间的数量关系。

在目标跟踪框与第一目标检测框之间的相似度大于第一阈值且目标跟踪框与第二目标检测框的重叠度大于第二阈值的情况下，执行步骤S2062。在目标跟踪框与第一目标检测框之间的相似度不大于第一阈值或者目标跟踪框与第二目标检测框的重叠度不大于第二阈值的情况下，执行步骤S2064。

在步骤S2062中，用第二目标检测框代替目标跟踪框作为第一目标检测框所表示目标的跟踪结果。

如果目标跟踪框与第一目标检测框之间的相似度大于第一阈值且目标跟踪框与第二目标检测框的重叠度大于第二阈值，表明目标跟踪算法能够在当前视频帧中较为准确的跟踪到第一目标检测框所表示的目标。此时，直接用第二目标检测框代替目标跟踪框作为第一目标检测框所表示目标的跟踪结果，能够起到对目标跟综框校正的作用，进一步提高了在视频中跟踪目标的准确度。

如果目标跟踪框与第一目标检测框之间的相似度不大于第一阈值，或者目标跟踪框与第二目标检测框的重叠度不大于第二阈值，表明目标跟踪算法在当前视频帧中跟踪到的目标跟踪框，不能作为对第一目标检测框所表示目标的准确跟踪结果。此时，需要对第一目标检测框以及当前视频帧中的目标检测框进行进一步关联。

在步骤S2064中，提取第一目标检测框内图像的特征向量，并提取当前视频帧中的各个目标检测框内图像的特征向量。

下面分步骤介绍如何提取第一目标检测框内图像的特征向量。

(1)对第一目标检测框内的图像进行关键点估计，得到第一目标检测框内图像的关键点在第一目标检测框中的位置坐标。

仍以目标为人体为例，人体的关键点例如可以包括头、脖子、四肢等等。估计图像中的人体关键点是一个回归问题。使用卷积神经网络模型可以回归出关键点的位置坐标，卷积神经网络可以结合全局信息和局部信息来提高关键点估计的准确度。将第一目标检测框内的图像输入hourglass沙漏模型，能够得到第一目标检测框所表示人体的人体关键点。

(2)将第一目标检测框内的图像输入卷积神经网络，得到第一目标检测框内图像的特征图。

卷积神经网络可以采用resnet50。输入第一目标检测框内的图像后，将resnet50的最后一个卷积层的输出作为特征图。

(3)根据第一目标检测框内图像的关键点在第一目标检测框中的位置坐标、第一目标检测框内图像的特征图，得到第一目标检测框内图像的多个关键点特征向量。

首先以第一目标检测框内图像的关键点在第一目标检测框中的位置坐标为中心，在第一目标检测框内图像的特征图中截取对应的特征块。然后，分别对第一目标检测框内图像的多个关键点对应的多个特征块进行向量化，得到第一目标检测框内图像的多个关键点特征向量。假设第一目标检测框内图像的关键点有14个，每个关键点具有在第一目标检测框中的二维位置坐标。那么对于每一个关键点，以该关键点在第一目标检测框中的位置坐标为中心，在特征图中的相应位置截取例如10个像素范围的特征块，最终可以得到14个特征块。将这14个特征块进行向量化，可以得到14个关键点特征向量。

(4)将第一目标检测框内图像的多个关键点特征向量输入图卷积神经网络，得到第一目标检测框内图像的特征向量。

将GCN(Graph convolutional networks，图卷积神经网络)与CNN(ConvolutionalNeural Networks，卷积神经网络)级联，可以形成基于图卷积神经网络的嵌入网络。由于图卷积神经网络能够输出具有结构信息的特征向量，该嵌入网络能够获得表征第一目标检测框内图像的空间结构信息的特征向量。

下面简单介绍GCN能够提取表征空间结构信息的特征向量的原理，并简单介绍GCN的训练过程。相比于CNN只能处理具有欧式空间结构的数据，GCN用一种实际可行的计算路径来学习数据的结构信息。GCN学习由节点和边组成图上的特征的映射，任意一个节点的特征是由它所在位置的邻居节点表征的，所以在对一个节点表示学习时把它周围邻居节点的信息传递到中心节点上。因此GCN能够获得具有结构信息的特征向量。由于人体的关键点之间存在空间关系，比如，头和颈相连，左肩膀和左肘相连，左肩膀和右肩膀对称。因此，在嵌入网络中，将第一目标检测框内的人体关键点所在区域的特征向量作为GCN的节点，关键点之间的空间关系作为边，连接、不连接、对称、不对称作为边的标签，通过训练有标签的GCN网络，可以获得该第一目标检测框内图像的具有空间结构信息的特征向量。

下面分步骤介绍如何提取当前视频帧中的各个目标检测框内图像的特征向量。以提取当前视频帧中的第四目标检测框内图像的特征向量为例。

(1)对当前视频帧中的第四目标检测框内的图像进行关键点估计，得到第四目标检测框内图像的关键点在第四目标检测框内中的位置坐标。

(2)将第四目标检测框内的图像输入卷积神经网络，得到第四目标检测框内图像的特征图。

(3)根据第四目标检测框内图像的关键点在第四目标检测框中的位置坐标、第四目标检测框内图像的特征图，得到第四目标检测框内图像的多个关键点特征向量。

例如，以第四目标检测框内图像的关键点在第四目标检测框中的位置坐标为中心，在第四目标检测框内图像的特征图中截取对应的特征块。然后，分别对第四目标检测框内图像的多个关键点对应的多个特征块进行向量化，得到第四目标检测框内图像的多个关键点特征向量。

(4)将第四目标检测框内图像的多个关键点特征向量输入图卷积神经网络，得到第四目标检测框内图像的特征向量。

在步骤S2065中，计算第一目标检测框内图像的特征向量与当前视频帧中的各个目标检测框内图像的特征向量之间的最短距离。

假设第三目标检测框内图像的特征向量与第一目标检测框内图像的特征向量之间的距离最短，将第三目标检测框内图像的特征向量与第一目标检测框内图像的特征向量之间的距离作为该最短距离。

在步骤S2066中，判断该最短距离与第三阈值之间的数量关系。在该最短距离小于第三阈值的情况下，执行步骤S2067；在该最短距离不小于第三阈值的情况下，执行步骤S2068。

在步骤S2067中，将当前视频帧中的第三目标检测框作为第一目标检测框的跟踪结果。

如果该最短距离较小，则表明第三目标检测框能够较为准确的作为第一目标检测框所表示目标的跟踪结果。

在步骤S2068中，判定第一目标检测框所表示的目标在当前视频帧中消失。

如果该最短距离较大，则表明在当前视频帧中没有目标检测框能够较为准确的作为第一目标检测框所表示目标的跟踪结果。此时判定第一目标检测框所表示的目标在当前视频帧中消失。

本实施例构建了基于图卷积神经网络的嵌入网络，能够提取上一视频帧中目标检测框以及当前视频帧中目标检测框的特征向量，且提取得到的特征向量包含了目标检测框内图像的关键点的全局信息以及局部信息以及空间结构信息，能够更加准确的表征目标检测框内的图像，从而更加准确的将上一视频帧中的目标检测框与当前视频帧中的目标检测框进行关联，更进一步提高了在视频中跟踪目标的准确度。

发明人研究发现，实现了对目标的跟踪后，还可以根据目标的关键点来跟踪目标的姿态。传统的姿态跟踪方法首先获得每个视频帧中目标关键点的所有候选集，然后在视频帧内和视频帧间通过构建和分解空间时间关系图来获得视频中的每个目标的目标关键点轨迹。然而这种方法在每帧中独立估计各个关键点的位置，没有利用到人体的全局结构信息，会使得关键点估计的准确度受到影响，并且这种方法需要很高的计算复杂度，不适合目标姿态的在线跟踪。

为此，发明人在实施例中进一步公开步骤S2063和步骤S2069，以实现对目标姿态的跟踪。

在步骤S2063中，跟踪第一目标检测框及第二目标检测框所表示目标的姿态。

例如，首先对第一目标检测框内的图像进行关键点估计，得到第一目标检测框内图像的关键点在第一目标检测框的位置。然后，对第二目标检测框内的图像进行关键点估计，得到第二目标检测框内图像的关键点在第二目标检测框中的位置。最后，利用第一目标检测框内图像的关键点在第一目标检测框的位置及第二目标检测框内图像的关键点在第二目标检测框中的位置，跟踪第一目标检测框及第二目标检测框所表示目标的姿态。

在步骤S2069中，跟踪第一目标检测框及第三目标检测框所表示目标的姿态。

例如，首先对第一目标检测框内的图像进行关键点估计，得到第一目标检测框内图像的关键点在第一目标检测框中的位置。然后，对第三目标检测框内的图像进行关键点估计，得到第三目标检测框内图像的关键点在第三目标检测框中的位置。最后，利用第一目标检测框内图像的关键点在第一目标检测框中的位置及第三目标检测框内图像的关键点在第三目标检测框中的位置，跟踪第一目标检测框及第三目标检测框所表示目标的姿态。

本实施例中，在目标跟踪算法能够较为准确的跟踪到目标时，通过关键点估计算法能够准确的确定目标在每个视频帧中的目标关键点。在目标跟踪算法不能准确的跟踪到目标时，通过基于GCN的嵌入网络进一步实现目标跟踪，减少漏跟、错根的可能性。在实现对目标的准确跟踪的基础上，通过关键点估计算法获得该视频中每个目标的关键点位置，从而生成跟踪轨迹，提高了视频中的人体姿态估计的准确度。

下面结合图3描述如何利用当前视频帧和上一视频帧中的目标检测框，确定当前视频帧中新出现的目标。

图3示出了确定当前视频帧中新出现的目标的流程示意图。如图3所示，本实施例包括步骤S308～步骤S312。

在步骤S308中，提取当前视频帧中的第五目标检测框内图像的特征向量以及上一视频帧中的各个目标检测框内图像的特征向量。

提取特征向量的过程与步骤S2064的实现过程相类似，在此不作赘述。

在步骤S310中，计算第五目标检测框内图像的特征向量与上一视频帧中的各个目标检测框内图像的特征向量之间的最短距离。

在计算特征向量之间的距离时，例如可以计算特征向量之间的欧式距离。

在步骤S312中，判断该最短距离与第四阈值之间的数量关系。若该最短距离大于第四阈值，则执行步骤S314；若该最短距离不大于第四阈值，则执行步骤S316，将第五目标检测框作为上一视频帧中的目标的跟踪结果。

在步骤S314中，将第五目标检测框所表示的目标确定为当前视频帧中新出现的目标。

第五目标检测框内图像的特征向量与上一视频帧中的各个目标检测框内图像的特征向量之间的距离均较大，则该第五目标检测框所表示的目标为新出现的目标。然后，可以为该新出现的目标分配新的编号。

在步骤S316中，将第五目标检测框作为上一视频帧中的目标的跟踪结果。具体作为上一视频帧中哪个目标的跟踪结果，需要根据步骤S102～步骤S106来确定，在此不作赘述。

本实施例利用当前视频帧和上一视频帧中的目标检测框，能够确定当前视频帧中新出现的目标，从而实现了对视频中新出现目标的跟踪。

下面结合图4描述本公开目标跟踪装置的一些实施例。

图4示出了本公开一些实施例的目标跟踪装置的结构示意图。如图4所示，该实施例的目标跟踪装置40包括：

目标检测模块402，被配置为对当前视频帧和上一视频帧进行目标检测，得到当前视频帧和上一视频帧中的各个目标检测框；目标跟踪模块404，被配置为利用上一视频帧中的第一目标检测框以及当前视频帧，对第一目标检测框所表示的目标进行目标跟踪，得到当前视频帧中的目标跟踪框；跟踪结果确定模块406，被配置为根据目标跟踪框与第一目标检测框之间的相似度以及目标跟踪框与第二目标检测框的重叠度，从当前视频帧中的各个目标检测框中确定第一目标检测框所表示目标的跟踪结果，第二目标检测框为当前视频帧中与目标跟踪框距离最短的目标检测框。

在一些实施例中，跟踪结果确定模块406被配置为：在目标跟踪框与第一目标检测框之间的相似度大于第一阈值且目标跟踪框与第二目标检测框的重叠度大于第二阈值的情况下，用第二目标检测框代替目标跟踪框作为第一目标检测框所表示目标的跟踪结果。

在一些实施例中，跟踪结果确定模块406被配置为：在目标跟踪框与第一目标检测框之间的相似度不大于第一阈值或目标跟踪框与第二目标检测框的重叠度不大于第二阈值的情况下，提取第一目标检测框内图像的特征向量，并提取当前视频帧中的各个目标检测框内图像的特征向量；计算第一目标检测框内图像的特征向量与当前视频帧中的各个目标检测框内图像的特征向量之间的最短距离；在最短距离小于第三阈值的情况下，将当前视频帧中的第三目标检测框作为第一目标检测框的跟踪结果，其中第三目标检测框内图像的特征向量与第一目标检测框内图像的特征向量之间的距离最短。

在一些实施例中，跟踪结果确定模块406被配置为：对第一目标检测框内的图像进行关键点估计，得到第一目标检测框内图像的关键点在第一目标检测框中的位置坐标；将第一目标检测框内的图像输入卷积神经网络，得到第一目标检测框内图像的特征图；根据第一目标检测框内图像的关键点在第一目标检测框中的位置坐标、第一目标检测框内图像的特征图，得到第一目标检测框内图像的多个关键点特征向量；将第一目标检测框内图像的多个关键点特征向量输入图卷积神经网络，得到第一目标检测框内图像的特征向量。

在一些实施例中，跟踪结果确定模块406被配置为：以第一目标检测框内图像的关键点在第一目标检测框中的位置坐标为中心，在第一目标检测框内图像的特征图中截取对应的特征块；分别对第一目标检测框内图像的多个关键点对应的多个特征块进行向量化，得到第一目标检测框内图像的多个关键点特征向量。

在一些实施例中，跟踪结果确定模块406被配置为：对当前视频帧中的第四目标检测框内的图像进行关键点估计，得到第四目标检测框内图像的关键点在第四目标检测框内中的位置坐标；将第四目标检测框内的图像输入卷积神经网络，得到第四目标检测框内图像的特征图；根据第四目标检测框内图像的关键点在第四目标检测框中的位置坐标、第四目标检测框内图像的特征图，得到第四目标检测框内图像的多个关键点特征向量；将第四目标检测框内图像的多个关键点特征向量输入图卷积神经网络，得到第四目标检测框内图像的特征向量。

在一些实施例中，跟踪结果确定模块406被配置为：根据第四目标检测框内图像的关键点在第四目标检测框中的位置坐标、第四目标检测框内图像的特征图，得到第四目标检测框内图像的多个关键点特征向量包括：以第四目标检测框内图像的关键点在第四目标检测框中的位置坐标为中心，在第四目标检测框内图像的特征图中截取对应的特征块；分别对第四目标检测框内图像的多个关键点对应的多个特征块进行向量化，得到第四目标检测框内图像的多个关键点特征向量。

在一些实施例中，还包括目标消失判断模块408，被配置为在最短距离不小于第三阈值的情况下，判定第一目标检测框所表示的目标在当前视频帧中消失。

在一些实施例中，还包括第一姿态跟踪模块410，被配置为：对第一目标检测框内的图像进行关键点估计，得到第一目标检测框内图像的关键点在第一目标检测框的位置；对第二目标检测框内的图像进行关键点估计，得到第二目标检测框内图像的关键点在第二目标检测框中的位置；利用第一目标检测框内图像的关键点在第一目标检测框的位置及第二目标检测框内图像的关键点在第二目标检测框中的位置，跟踪第一目标检测框及第二目标检测框所表示目标的姿态。

在一些实施例中，还包括第二姿态跟踪模块412，被配置为：对第一目标检测框内的图像进行关键点估计，得到第一目标检测框内图像的关键点在第一目标检测框中的位置；对第三目标检测框内的图像进行关键点估计，得到第三目标检测框内图像的关键点在第三目标检测框中的位置；利用第一目标检测框内图像的关键点在第一目标检测框中的位置及第三目标检测框内图像的关键点在第三目标检测框中的位置，跟踪第一目标检测框及第三目标检测框所表示目标的姿态。

在一些实施例中，还包括新目标确定模块414，被配置为：利用当前视频帧和上一视频帧中的各个目标检测框，确定当前视频帧中新出现的目标。

在一些实施例中，新目标确定模块414被配置为：提取当前视频帧中的第五目标检测框内图像的特征向量以及上一视频帧中的各个目标检测框内图像的特征向量；计算第五目标检测框内图像的特征向量与上一视频帧中的各个目标检测框内图像的特征向量之间的最短距离；在最短距离大于第四阈值的情况下，将第五目标检测框所表示的目标确定为当前视频帧中新出现的目标。

下面结合图5描述本公开目标跟踪装置的另一些实施例。

图5示出了本公开另一些实施例的目标跟踪装置的结构示意图。如图5所示，该实施例的目标跟踪装置50包括：存储器510以及耦接至该存储器510的处理器520，处理器520被配置为基于存储在存储器510中的指令，执行前述任意一些实施例中的目标跟踪方法。

其中，存储器510例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

目标跟踪装置50还可以包括输入输出接口530、网络接口540、存储接口550等。这些接口530、540、550以及存储器510和处理器520之间例如可以通过总线560连接。其中，输入输出接口530为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口540为各种联网设备提供连接接口。存储接口550为SD卡、U盘等外置存储设备提供连接接口。

本公开还包括一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现前述任意一些实施例中的目标跟踪方法。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种目标跟踪方法，包括：

对当前视频帧和上一视频帧进行目标检测，得到当前视频帧和上一视频帧中的各个目标检测框；

利用上一视频帧中的第一目标检测框以及当前视频帧，对第一目标检测框所表示的目标进行目标跟踪，得到当前视频帧中的目标跟踪框；

根据所述目标跟踪框与第一目标检测框之间的相似度以及所述目标跟踪框与第二目标检测框的重叠度，从当前视频帧中的各个目标检测框中确定第一目标检测框所表示目标的跟踪结果，第二目标检测框为当前视频帧中与所述目标跟踪框距离最短的目标检测框。

2.如权利要求1所述的目标跟踪方法，其中，所述根据所述目标跟踪框与第一目标检测框之间的相似度以及所述目标跟踪框与第二目标检测框的重叠度，从当前视频帧中的各个目标检测框中确定第一目标检测框所表示目标的跟踪结果包括：

在所述目标跟踪框与第一目标检测框之间的相似度大于第一阈值且所述目标跟踪框与第二目标检测框的重叠度大于第二阈值的情况下，用第二目标检测框代替所述目标跟踪框作为第一目标检测框所表示目标的跟踪结果。

3.如权利要求1所述的目标跟踪方法，其中，所述根据所述目标跟踪框与第一目标检测框之间的相似度以及所述目标跟踪框与第二目标检测框的重叠度，从当前视频帧中的各个目标检测框中确定第一目标检测框所表示目标的跟踪结果包括：

在所述目标跟踪框与第一目标检测框之间的相似度不大于第一阈值或所述目标跟踪框与第二目标检测框的重叠度不大于第二阈值的情况下，提取第一目标检测框内图像的特征向量，并提取当前视频帧中的各个目标检测框内图像的特征向量；

计算第一目标检测框内图像的特征向量与当前视频帧中的各个目标检测框内图像的特征向量之间的最短距离；

在所述最短距离小于第三阈值的情况下，将当前视频帧中的第三目标检测框作为第一目标检测框的跟踪结果，其中第三目标检测框内图像的特征向量与第一目标检测框内图像的特征向量之间的距离最短。

4.如权利要求3所述的目标跟踪方法，其中，所述提取第一目标检测框内图像的特征向量包括：

对第一目标检测框内的图像进行关键点估计，得到第一目标检测框内图像的关键点在第一目标检测框中的位置坐标；

将第一目标检测框内的图像输入卷积神经网络，得到第一目标检测框内图像的特征图；

根据第一目标检测框内图像的关键点在第一目标检测框中的位置坐标、第一目标检测框内图像的特征图，得到第一目标检测框内图像的多个关键点特征向量；

将第一目标检测框内图像的多个关键点特征向量输入图卷积神经网络，得到第一目标检测框内图像的特征向量。

5.如权利要求4所述的目标跟踪方法，其中，所述根据第一目标检测框内图像的关键点在第一目标检测框中的位置坐标、第一目标检测框内图像的特征图，得到第一目标检测框内图像的多个关键点特征向量包括：

以第一目标检测框内图像的关键点在第一目标检测框中的位置坐标为中心，在第一目标检测框内图像的特征图中截取对应的特征块；

分别对第一目标检测框内图像的多个关键点对应的多个特征块进行向量化，得到第一目标检测框内图像的多个关键点特征向量。

6.如权利要求3所述的目标跟踪方法，其中，所述提取当前视频帧中的各个目标检测框内图像的特征向量包括：

对当前视频帧中的第四目标检测框内的图像进行关键点估计，得到第四目标检测框内图像的关键点在第四目标检测框内中的位置坐标；

将第四目标检测框内的图像输入卷积神经网络，得到第四目标检测框内图像的特征图；

根据第四目标检测框内图像的关键点在第四目标检测框中的位置坐标、第四目标检测框内图像的特征图，得到第四目标检测框内图像的多个关键点特征向量；

将第四目标检测框内图像的多个关键点特征向量输入图卷积神经网络，得到第四目标检测框内图像的特征向量。

7.如权利要求6所述的目标跟踪方法，其中，所述根据第四目标检测框内图像的关键点在第四目标检测框中的位置坐标、第四目标检测框内图像的特征图，得到第四目标检测框内图像的多个关键点特征向量包括：

以第四目标检测框内图像的关键点在第四目标检测框中的位置坐标为中心，在第四目标检测框内图像的特征图中截取对应的特征块；

分别对第四目标检测框内图像的多个关键点对应的多个特征块进行向量化，得到第四目标检测框内图像的多个关键点特征向量。

8.如权利要求3所述的目标跟踪方法，还包括：

在所述最短距离不小于第三阈值的情况下，判定第一目标检测框所表示的目标在当前视频帧中消失。

9.如权利要求2所述的目标跟踪方法，还包括：

对第一目标检测框内的图像进行关键点估计，得到第一目标检测框内图像的关键点在第一目标检测框的位置；

对第二目标检测框内的图像进行关键点估计，得到第二目标检测框内图像的关键点在第二目标检测框中的位置；

利用第一目标检测框内图像的关键点在第一目标检测框的位置及第二目标检测框内图像的关键点在第二目标检测框中的位置，跟踪第一目标检测框及第二目标检测框所表示目标的姿态。

10.如权利要求3所述的目标跟踪方法，还包括：

对第一目标检测框内的图像进行关键点估计，得到第一目标检测框内图像的关键点在第一目标检测框中的位置；

对第三目标检测框内的图像进行关键点估计，得到第三目标检测框内图像的关键点在第三目标检测框中的位置；

利用第一目标检测框内图像的关键点在第一目标检测框中的位置及第三目标检测框内图像的关键点在第三目标检测框中的位置，跟踪第一目标检测框及第三目标检测框所表示目标的姿态。

11.如权利要求1所述的目标跟踪方法，还包括：

利用当前视频帧和上一视频帧中的目标检测框，确定当前视频帧中新出现的目标。

12.如权利要求11所述的目标跟踪方法，其中，所述利用当前视频帧和上一视频帧中的各个目标检测框，确定当前视频帧中新出现的目标包括：

提取当前视频帧中的第五目标检测框内图像的特征向量以及上一视频帧中的各个目标检测框内图像的特征向量；

计算第五目标检测框内图像的特征向量与上一视频帧中的各个目标检测框内图像的特征向量之间的最短距离；

在所述最短距离大于第四阈值的情况下，将第五目标检测框所表示的目标确定为当前视频帧中新出现的目标。

13.一种目标跟踪装置，包括：

目标检测模块，被配置为对当前视频帧和上一视频帧进行目标检测，得到当前视频帧和上一视频帧中的各个目标检测框；

目标跟踪模块，被配置为利用上一视频帧中的第一目标检测框以及当前视频帧，对第一目标检测框所表示的目标进行目标跟踪，得到当前视频帧中的目标跟踪框；

跟踪结果确定模块，被配置为根据目标跟踪框与第一目标检测框之间的相似度以及目标跟踪框与第二目标检测框的重叠度，从当前视频帧中的各个目标检测框中确定第一目标检测框所表示目标的跟踪结果，第二目标检测框为当前视频帧中与目标跟踪框距离最短的目标检测框。

14.一种目标跟踪装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至12中任一项所述的目标跟踪方法。

15.一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如权利要求1至12中任一项所述的目标跟踪方法。