CN109785368A

CN109785368A - 一种目标跟踪方法和装置

Info

Publication number: CN109785368A
Application number: CN201711116929.0A
Authority: CN
Inventors: 王珏; 黄梁华
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-11-13
Filing date: 2017-11-13
Publication date: 2019-05-21
Anticipated expiration: 2037-11-13
Also published as: CN109785368B

Abstract

本发明实施例公开了一种目标跟踪方法和装置，用于减少目标跟踪的计算复杂度，具有更强的泛化能力。该方法可包括：从摄像机采集到的视频数据中获取到待处理的第一帧图像；对第一帧图像进行目标检测，生成目标检测结果，目标检测结果包括：从第一帧图像中检测出的第一目标；采用卡尔曼运动模型对所述第一目标进行运动估计，生成目标跟踪结果，目标跟踪结果包括：相对于第一帧图像的下一帧图像中第一目标的预测位置；根据目标检测结果和目标跟踪结果对第一目标进行运动状态的估计。

Description

一种目标跟踪方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种目标跟踪方法和装置。

背景技术

在目标的视觉跟踪技术中，通过单路摄像机可以对目标的运动状态进行实时跟踪。现有技术中采用的目标跟踪算法多分为两个过程，第一步是在每帧的图像中独立检测出视觉目标，例如视觉目标可以是行人、车辆等，常用的目标检测算法有可形变部件模型、卷积神经网络区域(Regions with Convolutional Neural Network、RCNN)、快速卷积神经网络区域(Faster Regions with Convolutional Neural Network、Faster RCNN)等。第二步是关联连续帧图像中检测到的视觉目标，根据目标特征间的相似度计算可以得到一个相似度矩阵或损失矩阵，基于该矩阵生成目标匹配结果。

现有技术中，目标检测算法采用的都是复杂运动模型，复杂运动模型导致计算复杂度过高，使得目标跟踪算法的处理速度在1赫兹(Hz)左右甚至更低，即目标跟踪算法处理帧率只能达到1秒处理一次，远无法满足实时使用场景的需求。又如，现有技术中基于可形变部件模型、RNN、Faster RCNN等算法，其泛化能力弱，容易过拟合到某类运动模式，难以推广为更稳定通用的运动模式。因此，现有技术中目标跟踪算法的主要缺点在于计算复杂度太高和泛化能力弱。

发明内容

本发明实施例提供了一种目标跟踪方法和装置，用于减少目标跟踪的计算复杂度，具有更强的泛化能力。

为解决上述技术问题，本发明实施例提供以下技术方案：

第一方面，本发明实施例提供一种目标跟踪方法，包括：

从摄像机采集到的视频数据中获取到待处理的第一帧图像；

对所述第一帧图像进行目标检测，生成目标检测结果，所述目标检测结果包括：从所述第一帧图像中检测出的第一目标；

采用卡尔曼运动模型对所述第一目标进行运动估计，生成目标跟踪结果，所述目标跟踪结果包括：相对于所述第一帧图像的下一帧图像中所述第一目标的预测位置；

根据所述目标检测结果和所述目标跟踪结果对所述第一目标进行运动状态的估计。

第二方面，本发明实施例还提供一种目标跟踪装置，包括：

帧图像获取模块，用于从摄像机采集到的视频数据中获取到待处理的第一帧图像；

目标预测模块，用于对所述第一帧图像进行目标检测，生成目标检测结果，所述目标检测结果包括：从所述第一帧图像中检测出的第一目标；

预测模块，用于采用卡尔曼运动模型对所述第一目标进行运动估计，生成目标跟踪结果，所述目标跟踪结果包括：相对于所述第一帧图像的下一帧图像中所述第一目标的预测位置；

运动估计模块，用于根据所述目标检测结果和所述目标跟踪结果对所述第一目标进行运动状态的估计。

本申请的第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

在本发明实施例中，首先从摄像机采集到的视频数据中获取到待处理的第一帧图像，对第一帧图像进行目标检测，生成目标检测结果，目标检测结果包括：从第一帧图像中检测出的第一目标，接下来采用卡尔曼运动模型对所述第一目标进行运动估计，生成目标跟踪结果，目标跟踪结果包括：相对于第一帧图像的下一帧图像中第一目标的预测位置；根据目标检测结果和目标跟踪结果对第一目标进行运动状态的估计。本发明实施例中卡尔曼运动估计具有速度极快、隐含一次或二次运动约束、不易过拟合等优点，因此可以减少目标跟踪的计算复杂度，基于卡尔曼运动模型预测运动状态稳定输出对目标的实时跟踪，具有更强的泛化能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种目标跟踪方法的流程方框示意图；

图2为本发明实施例提供的单路视频多目标跟踪的实现流程示意图；

图3为本发明实施例提供的多路视频多目标跟踪的实现流程示意图；

图4-a为本发明实施例提供的一种目标跟踪装置的组成结构示意图；

图4-b为本发明实施例提供的一种帧图像获取模块的组成结构示意图；

图4-c为本发明实施例提供的一种运动估计模块的组成结构示意图；

图4-d为本发明实施例提供的一种跨摄像机目标关联单元的组成结构示意图；

图4-e为本发明实施例提供的一种运动估计模块的组成结构示意图；

图4-f为本发明实施例提供的另一种运动估计模块的组成结构示意图；

图5为本发明实施例提供的目标跟踪方法应用于终端的组成结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域的技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

以下分别进行详细说明。

本发明目标跟踪的一个实施例，可以应用于计算机视觉在自动驾驶的应用场景，例如具体可以应用于无人驾驶场景中的目标跟踪，该目标可以是行人、车辆、动物等。本发明实施例中提供的目标跟踪方法可以基于卡尔曼滤波和深度卷积神经网络特征匹配，本实施例的技术方案，已成功用于解决多个车辆或行人目标的视觉跟踪问题。

请参阅图1所示，本发明一个实施例提供的目标跟踪方法，可以包括如下步骤：

101、从摄像机采集到的视频数据中获取到待处理的第一帧图像。

在本发明实施例中可以使用单路摄像机采集视频数据，也可以采用多路摄像机分别采集各路视频数据，摄像机采集到的视频数据包括有多帧图像，对于每帧图像都可以按照本发明实施例中提供的目标跟踪方法进行目标跟踪。例如以视频数据中提取出的帧图像为第一帧图像为例，视频数据中的其它帧图像的处理过程都可以参阅对第一帧图像的目标跟踪。

在本发明的一些实施例中，步骤102从摄像机采集到的视频数据中获取到待处理的第一帧图像，包括：

获取多路摄像机分别采集到的各路视频数据，其中，多路摄像机具有不同的焦距；

针对每路摄像机采集到的视频数据，分别提取到对应于每路摄像机的第一帧图像。

其中，本发明实施例中也可以由多路摄像机分别采集各自的视频数据。通过远焦、中焦等不同焦距的摄像机分别采集各路视频数据。考虑到短焦相机和长焦相机各自的优势：短焦相机具有更大的视角，而长焦相机能够拍摄分辨率更高的目标图像，本发明实施例可以融合多路不同焦距的摄像机拍摄的视频，提升多目标跟踪的稳定性和准确率。

102、对第一帧图像进行目标检测，生成目标检测结果，目标检测结果包括：从第一帧图像中检测出的第一目标。

在本发明实施例中，对于每路摄像机的视频数据都可以提取出第一帧图像，对于第一帧图像都可以进行目标检测。举例说明，对于第一帧图像可以采用深度学习算法进行目标特征的检测，例如得到每帧的目标检测结果，避免受光线、视角、图像噪声干扰等的影响。将从第一帧图像中检测的出的目标定义为第一目标，在每帧的目标检测结果中都包括有的第一目标。举例说明，可以使用深度卷积神经网络模型生成目标检测结果，该目标检测结果中检测出的第一目标符合深度卷积神经网络特征，其中，深度卷积神经网络模型可以通过预先输入的目标样本训练完成。

103、采用卡尔曼运动模型对第一目标进行运动估计，生成目标跟踪结果，目标跟踪结果包括：相对于第一帧图像的下一帧图像中第一目标的预测位置。

在本发明实施例中，通过视觉目标检测从第一帧图像中检测出第一目标之后，接下来采用卡尔曼运动模型估计第一目标在下一帧中可能出现的位置，得到目标跟踪结果，其中卡尔曼运动模型可以通过卡尔曼滤波算法得到。本发明实施例采用的卡尔曼运动模型具有速度极快、隐含一次或二次运动约束、不易过拟合等优点，通过卡尔曼运动模型估计出第一目标的四维运动信息，例如该四维运动信息可以包括：第一目标的横坐标、纵坐标、宽高比和目标高度。其中，第一目标的横坐标、纵坐标可以是第一目标的左上角参考点的横纵坐标，第一目标的宽高比是指第一目标的宽度和高度的像素壁纸，第一目标的目标高度是指第一目标在第一帧图像中的像素高度。

104、根据目标检测结果和目标跟踪结果对第一目标进行运动状态的估计。

在本发明实施例中，通过前述步骤得到目标检测结果和目标跟踪结果之后，可以利用目标检测结果和目标跟踪结果完成对第一目标的运动状态估计，从而可以得到对第一目标的运动估计结果，该运动估计结果可以用于对第一目标的跟踪，该运动估计结果可以输出到终端上进行显示，用户可以通过终端的显示屏幕实时追踪该第一目标。举例说明，在无人驾驶场景下，通过前述步骤完成对车辆或行人的运动状态估计之后，可以输出车辆和行人作为目标的运动估计结果，为无人车判断车辆和行人位姿，给驾驶决策提供必要可靠的安全保障。

在本发明的一些实施例中，根据目标检测结果和目标跟踪结果可以对第一目标进行多层次目标关联，生成目标匹配结果，其中对于第一目标出现的时长或者帧数内，每个时刻或者每个帧作为一个层次，多层次目标关联是指在第一目标出现的总时长或多个帧内分别进行目标关联，从而生成目标匹配结果。生成第一目标的目标匹配结果之后，通过该目标匹配结果可以估计出第一目标的运动状态，其中，运动状态可以有多种，例如第一目标的速度、加速度等。

在本发明的一些实施例中，步骤104根据目标检测结果和目标跟踪结果对第一目标进行运动状态的估计，包括：

获取第一目标的历史目标跟踪结果；

从历史目标跟踪结果中获取第一目标的历史目标特征；

根据目标检测结果中的当前目标特征和历史目标特征判断目标检测结果和目标跟踪结果之间是否匹配；

当目标检测结果和目标跟踪结果之间匹配时，获取到表观相似度矩阵；

根据所述表观相似度矩阵对所述第一目标进行运动状态的估计。

在本发明的另一些实施例中，步骤104根据目标检测结果和目标跟踪结果对第一目标进行运动状态的估计，除了包括前述步骤之外，还可以包括：

当所述目标检测结果和所述目标跟踪结果之间不匹配时，获取所述目标跟踪结果中的预测位置和所述目标检测结果中的检测位置之间的重叠率，并根据所述重叠率输出运动相似度矩阵；

其中，历史目标跟踪结果中保存若干帧的历史目标特征，目标检测结果中保存的是第一目标的当前目标特征。其中，目标特征的描述方式可以采用深度卷积神经网络模型，即目标特征可以包括：深度卷积神经网络特征。例如，若使用深度卷积神经网络模型获取到第一目标的历史目标跟踪结果，该历史目标跟踪结果可以包括若干帧的历史深度卷积神经网络特征，每个目标检测结果的深度卷积神经网络特征与这些历史深度卷积神经网络特征计算余弦距离，再求加权平均可计算得到目标跟踪结果与目标检测结果之间的表观相似度矩阵。基于多个目标检测结果与目标跟踪结果之间的表观相似度矩阵，采用Hungarian算法可得到目标之间的匹配关系。对于未能找到匹配的目标跟踪结果和目标检测结果，进一步根据跟踪目标预测位置与检测位置的重叠率作为相似度，可得到目标跟踪结果和目标检测结果之间的运动相似度矩阵，同样采用Hungarian算法可得到本层级的目标匹配结果。

需要说明的是，前述步骤102至步骤104可以针对单路摄像机的第一帧图像进行运动状态的估计，也可以针对多路摄像机中每路摄像机的第一帧图像分别进行运动状态的估计，具体实现过程相类似。

在本发明的一些实施例中，步骤104根据目标检测结果和目标跟踪结果对第一目标进行运动状态的估计，包括如下步骤：

分别获取到对应于每路摄像机的第一目标的目标匹配结果，根据对应于每路摄像机的第一目标的目标匹配结果进行跨摄像机的目标关联；

当对应于每路摄像机的第一帧图像中都匹配出同一个的第一目标时，根据目标匹配结果对第一目标进行运动状态的估计。

其中，若对于多路摄像机中每路摄像机的第一帧图像分别生成目标匹配结果，则可以对应于每路摄像机的第一目标的目标匹配结果可以进行跨摄像机的目标关联，从而将同一个的第一目标在不同摄像机的第一帧图像中都可以匹配出来。

进一步的，在本发明的另一些实施例中，根据对应于每路摄像机的第一目标的目标匹配结果进行跨摄像机的目标关联，包括：

使用局部特征匹配算法获取多路摄像机之间的仿射矩阵；

根据仿射矩阵计算每路摄像机相机跟踪的第一目标在其他路摄像机上的对应位置；

根据同一个的第一目标在不同的第一帧图像中的对应位置分别计算重叠率，通过最小损失值匹配出同一个的第一目标。

其中，得到各路摄像机的目标跟踪结果之后，需要关联不同摄像机间的目标标识(IDentity，ID)。本发明实施例中可以采用的特征检测算子是ORB(Oriented FAST andRotated BRIEF)，通过ORB特征匹配算法计算两两摄像机图像间的仿射矩阵，依据该矩阵可计算每路摄像机跟踪的目标在其他路摄像机上的对应位置，通过计算重叠率，按照重叠率最小损失值可以匹配同一个第一目标的ID。

根据运动估计结果预测出第一目标的如下运动状态中的至少一种：运动轨迹、或运动方向、或速度、或加速度。

其中，在对第一目标进行运动状态的估计时，可以根据实际场景确定需要预测第一目标的运动轨迹、或运动方向、或速度、或加速度。

通过以上实施例对本发明实施例的描述可知，首先从摄像机采集到的视频数据中获取到待处理的第一帧图像，对第一帧图像进行目标检测，生成目标检测结果，目标检测结果包括：从第一帧图像中检测出的第一目标，接下来采用卡尔曼运动模型对所述第一目标进行运动估计，生成目标跟踪结果，目标跟踪结果包括：相对于第一帧图像的下一帧图像中第一目标的预测位置；根据目标检测结果和目标跟踪结果对第一目标进行运动状态的估计。本发明实施例中卡尔曼运动估计具有速度极快、隐含一次或二次运动约束、不易过拟合等优点，因此可以减少目标跟踪的计算复杂度，基于卡尔曼运动模型预测运动状态稳定输出对目标的实时跟踪，具有更强的泛化能力。

为便于更好的理解和实施本发明实施例的上述方案，下面举例相应的应用场景来进行具体说明。

本发明实施例主要应用于无人驾驶的场景中，在无人驾驶车行驶中，通过远焦、中焦等不同焦距的摄像机，根据车辆和行人的检测结果，实时地关联目标检测结果以跟踪这些目标的位置和运动信息，并根据跟踪结果给出轨迹、速度、是否变道等目标状态。

如图2所示，首先以单路视频多目标跟踪的实现流程为例，本发明实施例中提出基于跨摄像机的多目标视觉跟踪解决方案，结合卡尔曼滤波和深度卷积神经网络特征匹配，根据运动损失矩阵和匹配误差矩阵，采用层次化的ID分配算法，同时基于运动和表观两种模型给出目标跟踪结果，从而提升多目标跟踪的准确率。如图3所示，在多路视频多目标跟踪的实现流程场景下，本发明实施例中针对跨摄像机目标匹配问题，采用局部特征匹配算法，得出相机之间的仿射矩阵，并据此估计目标可能位置，基于IOU重叠率损失矩阵匹配目标，其中，IOU重叠率是损失矩阵值的计算方法，该IOU重叠率可以通过跟踪预测框与检测框的交集除以并集来得到。

接下来进行详细的举例说明，本发明实施例中可以采用多路摄像机，每路摄像机都设置在马路上，用于对车辆和人流的目标跟踪，其中多路摄像机可以应用场景设置在不同的方向上，以实现对车辆和人流的全方位跟踪。本发明所提出的技术方案，基于卡尔曼运动模型与深度特征表观模型，并采用层次化的数据关联方法进行跨摄像机的多目标视觉跟踪。跨摄像机多目标跟踪系统输入为不同焦距的多路摄像机视频图像，处理过程分为如下过程：

一、多路不同焦距的摄像机视频输入。考虑到短焦相机和长焦相机各自的优势：短焦相机具有更大的视角，而长焦相机能够拍摄分辨率更高的目标图像，本发明实施例中融合多路不同焦距的摄像机拍摄的视频，提升多目标跟踪的稳定性和准确率。

二、视觉目标检测。本发明实施例中可以采用深度卷积神经网络得到每帧的目标检测结果，避免受光线、视角、图像噪声干扰等的影响；

三、卡尔曼运动估计。相比于RNN、长短期记忆网络(Long Short-Term Memory，LSTM)等复杂的运动估计算法，卡尔曼运动估计具有速度极快、隐含一次或二次运动约束、不易过拟合等优点。本发明实施例中采用卡尔曼滤波算法估计目标的四维运动：横坐标、纵坐标、宽高比和目标高度。

四、深度卷积神经网络特征提取。在图2和图3中将深度卷积神经网络特征简称为“深度特征”，本发明实施例中采用卷积神经网络和感兴趣区域池化算法来提取每个视觉目标的特征。深度卷积神经网络可采用VGG16、ResNet、GoogleNet等多种网络结构，也可以综合考虑性能需求，删减修改已有网络结构或者全新设计卷积网络结构。深度卷积神经网络特征可以克服因光线、视角、局部遮挡等原因造成的目标表观变化，获得更稳定准确的目标匹配结果。此外，为了克服跟踪过程中的过拟合问题，即当某一帧跟踪结果发生偏移或目标ID切换后难以再恢复过来，本发明实施例中可以对每个视觉目标保留若干固定数目的历史深度卷积神经网络特征，并在跟踪过程中综合这些历史深度卷积神经网络特征来评估目标之间的相似度。

五、层次目标关联。根据历史目标跟踪结果与当前帧的目标检测结果在表观和运动状态上的相似度，可以计算得到一个损失矩阵，目标关联的过程就是根据该损失矩阵求解数据关联问题，得到跟踪结果与检测结果之间的匹配关系。本发明实施例中采用表观和运动两种特征来分别得到目标跟踪结果与目标检测结果之间的损失矩阵，并采用层次化的方式求解目标匹配结果，具体过程包括如下步骤：

首先，对于每个历史目标跟踪结果会保存若干帧的深度卷积神经网络特征，每个目标检测结果会保存有深度卷积神经网络特征标，根据目标检测结果的深度卷积神经网络特征标与这些跟踪特征计算余弦距离，求加权平均可计算得到跟踪结果与检测结果之间的表观相似度。基于多个检测与跟踪结果之间的表观相似度矩阵，采用Hungarian算法可得到目标之间的匹配关系；

接下来，对于前述步骤中未能找到匹配的目标跟踪结果和目标检测结果，进一步根据跟踪目标预测位置与检测位置的重叠率作为相似度，可得到跟踪与检测之间的运动相似度矩阵，同样采用Hungarian算法可得到本层级的目标匹配结果，其中，一个层级可以是目标出现的时长或帧数中的一个帧。

六、跨摄像机目标关联。得到各路摄像机的视觉目标跟踪结果之后，需要关联不同摄像机间的目标ID。本技术方案采用ORB特征匹配算法计算两两相机图像间的映射矩阵，依据该矩阵可计算每路相机跟踪的目标在其他路相机上的对应位置，通过计算重叠率损失可以匹配这些目标的ID。

七、目标运动状态综合判断。根据运动目标在连续帧中的跟踪信息，可以简单计算得到该目标的运动轨迹、方向、速度、加速度等等运动状态。

本发明实施例通过实车测试验证可行，基于卡尔曼滤波预测运动状态，并基于深度学习特征匹配关联目标，稳定输出车辆和行人目标跟踪结果，为无人车判断车辆和行人位姿，给驾驶决策提供必要可靠的安全保障。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

为便于更好的实施本发明实施例的上述方案，下面还提供用于实施上述方案的相关装置。

请参阅图4-a所示，本发明实施例提供的一种目标跟踪装置400，可以包括：帧图像获取模块401、目标预测模块402、预测模块403和运动估计模块404，其中，

帧图像获取模块401，用于从摄像机采集到的视频数据中获取到待处理的第一帧图像；

目标预测模块402，用于对所述第一帧图像进行目标检测，生成目标检测结果，所述目标检测结果包括：从所述第一帧图像中检测出的第一目标；

预测模块403，用于采用卡尔曼运动模型对所述第一目标进行运动估计，生成目标跟踪结果，所述目标跟踪结果包括：相对于所述第一帧图像的下一帧图像中所述第一目标的预测位置；

运动估计模块404，用于根据所述目标检测结果和所述目标跟踪结果对所述第一目标进行运动状态的估计。

在本发明的一些实施例中，如图4-b所示，所述帧图像获取模块401，包括：

多路数据采集模块4011，用于获取多路摄像机分别采集到的各路视频数据，其中，所述多路摄像机具有不同的焦距；

帧图像独立提取模块4012，用于针对每路摄像机采集到的视频数据，分别提取到对应于每路摄像机的第一帧图像。

在本发明的一些实施例中，如图4-c所示，所述运动估计模块404，包括：

跨摄像机目标关联单元4041，用于分别获取到对应于每路摄像机的第一目标的目标匹配结果，根据所述对应于每路摄像机的第一目标的目标匹配结果进行跨摄像机的目标关联；

运动估计单元4042，用于当对应于每路摄像机的第一帧图像中都匹配出同一个的第一目标时，根据所述目标匹配结果对所述第一目标进行运动状态的估计。

在本发明的一些实施例中，如图4-d所示，所述跨摄像机目标关联单元4041，包括：

仿射矩阵计算模块40411，用于使用局部特征匹配算法获取多路摄像机之间的仿射矩阵；

位置映射模块40412，用于根据所述仿射矩阵计算每路摄像机相机跟踪的第一目标在其他路摄像机上的对应位置；

目标关联模块40413，用于根据同一个的第一目标在不同的第一帧图像中的对应位置分别计算重叠率，通过最小损失值匹配出同一个的第一目标。

在本发明的一些实施例中，如图4-e所示，所述运动估计模块404，包括：

历史结果获取模块4041，用于获取所述第一目标的历史目标跟踪结果；

历史特征获取模块4042，用于从所述历史目标跟踪结果中获取所述第一目标的历史目标特征；

结果匹配模块4043，用于根据所述目标检测结果中的当前目标特征和所述历史目标特征判断所述目标检测结果和所述目标跟踪结果之间是否匹配；

表观模型输出模块4044，用于当所述目标检测结果和所述目标跟踪结果之间匹配时，获取到表观相似度矩阵；

第一运动估计模块4045，用于根据所述表观相似度矩阵对所述第一目标进行运动状态的估计。

在本发明的一些实施例中，如图4-f所示，相对于图4-e所示，所述运动估计模块404，还包括：

运动模型输出模块4046，用于当所述目标检测结果和所述目标跟踪结果之间不匹配时，获取所述目标跟踪结果中的预测位置和所述目标检测结果中的检测位置之间的重叠率，并根据所述重叠率输出运动相似度矩阵；

第二运动估计模块4047，用于根据所述表观相似度矩阵对所述第一目标进行运动状态的估计。

在本发明的一些实施例中，所述运动估计模块404，具体用于根据运动估计结果预测出所述第一目标的如下运动状态中的至少一种：运动轨迹、或运动方向、或速度、或加速度。

通过以上对本发明实施例的描述可知，首先从摄像机采集到的视频数据中获取到待处理的第一帧图像，对第一帧图像进行目标检测，生成目标检测结果，目标检测结果包括：从第一帧图像中检测出的第一目标，接下来采用卡尔曼运动模型对所述第一目标进行运动估计，生成目标跟踪结果，目标跟踪结果包括：相对于第一帧图像的下一帧图像中第一目标的预测位置；根据目标检测结果和目标跟踪结果对第一目标进行运动状态的估计。本发明实施例中卡尔曼运动估计具有速度极快、隐含一次或二次运动约束、不易过拟合等优点，因此可以减少目标跟踪的计算复杂度，基于卡尔曼运动模型预测运动状态稳定输出对目标的实时跟踪，具有更强的泛化能力。

本发明实施例还提供了一种终端，如图5所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point ofSales，销售终端)、车载电脑等任意终端设备，以终端为手机为例：

图5示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图5，手机包括：射频(Radio Frequency，RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity，WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图5中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图5对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(LiquidCrystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图5中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，优选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该终端所包括的处理器1080还具有控制执行以上由终端执行的目标跟踪方法流程。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

综上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照上述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对上述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种目标跟踪方法，其特征在于，包括：

从摄像机采集到的视频数据中获取到待处理的第一帧图像；

2.根据权利要求1所述的方法，其特征在于，所述从摄像机采集到的视频数据中获取到待处理的第一帧图像，包括：

获取多路摄像机分别采集到的各路视频数据，其中，所述多路摄像机具有不同的焦距；

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标检测结果和所述目标跟踪结果对所述第一目标进行运动状态的估计，包括：

分别获取到对应于每路摄像机的第一目标的目标匹配结果，根据所述对应于每路摄像机的第一目标的目标匹配结果进行跨摄像机的目标关联；

当对应于每路摄像机的第一帧图像中都匹配出同一个的第一目标时，根据所述目标匹配结果对所述第一目标进行运动状态的估计。

4.根据权利要求3所述的方法，其特征在于，所述根据所述对应于每路摄像机的第一目标的目标匹配结果进行跨摄像机的目标关联，包括：

使用局部特征匹配算法获取多路摄像机之间的仿射矩阵；

根据所述仿射矩阵计算每路摄像机相机跟踪的第一目标在其他路摄像机上的对应位置；

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述根据所述目标检测结果和所述目标跟踪结果对所述第一目标进行运动状态的估计，包括：

获取所述第一目标的历史目标跟踪结果；

从所述历史目标跟踪结果中获取所述第一目标的历史目标特征；

根据所述目标检测结果中的当前目标特征和所述历史目标特征判断所述目标检测结果和所述目标跟踪结果之间是否匹配；

当所述目标检测结果和所述目标跟踪结果之间匹配时，获取到表观相似度矩阵；

6.根据权利要求1至4中任一项所述的方法，其特征在于，所述根据所述目标检测结果和所述目标跟踪结果对所述第一目标进行运动状态的估计，还包括：

7.一种目标跟踪装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述帧图像获取模块，包括：

多路数据采集模块，用于获取多路摄像机分别采集到的各路视频数据，其中，所述多路摄像机具有不同的焦距；

帧图像独立提取模块，用于针对每路摄像机采集到的视频数据，分别提取到对应于每路摄像机的第一帧图像。

9.根据权利要求8所述的装置，其特征在于，所述运动估计模块，包括：

跨摄像机目标关联单元，用于分别获取到对应于每路摄像机的第一目标的目标匹配结果，根据所述对应于每路摄像机的第一目标的目标匹配结果进行跨摄像机的目标关联；

运动估计单元，用于当对应于每路摄像机的第一帧图像中都匹配出同一个的第一目标时，根据所述目标匹配结果对所述第一目标进行运动状态的估计。

10.根据权利要求9所述的装置，其特征在于，所述跨摄像机目标关联单元，包括：

仿射矩阵计算模块，用于使用局部特征匹配算法获取多路摄像机之间的仿射矩阵；

位置映射模块，用于根据所述仿射矩阵计算每路摄像机相机跟踪的第一目标在其他路摄像机上的对应位置；

目标关联模块，用于根据同一个的第一目标在不同的第一帧图像中的对应位置分别计算重叠率，通过最小损失值匹配出同一个的第一目标。

11.根据权利要求7至10中任一项所述的装置，其特征在于，所述运动估计模块，包括：

历史结果获取模块，用于获取所述第一目标的历史目标跟踪结果；

历史特征获取模块，用于从所述历史目标跟踪结果中获取所述第一目标的历史目标特征；

结果匹配模块，用于根据所述目标检测结果中的当前目标特征和所述历史目标特征判断所述目标检测结果和所述目标跟踪结果之间是否匹配；

表观模型输出模块，用于当所述目标检测结果和所述目标跟踪结果之间匹配时，获取到表观相似度矩阵；

第一运动估计模块，用于根据所述表观相似度矩阵对所述第一目标进行运动状态的估计。

12.根据权利要求7至10中任一项所述的装置，其特征在于，所述运动估计模块，还包括：

运动模型输出模块，用于当所述目标检测结果和所述目标跟踪结果之间不匹配时，获取所述目标跟踪结果中的预测位置和所述目标检测结果中的检测位置之间的重叠率，并根据所述重叠率输出运动相似度矩阵；

第二运动估计模块，用于根据所述表观相似度矩阵对所述第一目标进行运动状态的估计。

13.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-6任意一项所述的方法。