CN108229456A

CN108229456A - 目标跟踪方法和装置、电子设备、计算机存储介质

Info

Publication number: CN108229456A
Application number: CN201711178551.7A
Authority: CN
Inventors: 伊帅; 田茂清; 闫俊杰
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2017-11-22
Filing date: 2017-11-22
Publication date: 2018-06-29
Anticipated expiration: 2037-11-22
Also published as: CN108229456B

Abstract

本发明实施例公开了一种目标跟踪方法和装置、电子设备、计算机存储介质，其中，方法包括：根据视频的第一图像帧中的第一检测框和所述第二图像帧中的第二检测框建立所述视频中各目标对象的目标对象轨迹；所述第二图像帧为所述第一图像帧在所述视频之前的一帧图像；分别提取所述各目标对象对应的第一检测框的特征；根据所述各目标对象对应的第一检测框的特征、所述各目标对象分别在所述第一检测框和所述第二检测框的目标对象轨迹，对每个所述第一检测框进行轨迹切分，获得切分后的第一检测框信息；根据所述切分后的第一检测框信息进行目标跟踪。本发明上述实施例实现了在过滤掉了噪声的同时消除了检测跟踪错误的可能。

Description

目标跟踪方法和装置、电子设备、计算机存储介质

技术领域

本发明涉及计算机视觉技术，尤其是一种目标跟踪方法和装置、电子设备、计算机存储介质。

背景技术

轨迹是一个点在空间的移动，它所通过的全部路径叫做这个点的轨迹。而人或物的行为轨迹表示一个人在空间中移动，他所通过的全部路径叫做这个人或物的行为轨迹。

现有技术中获取的一个行人轨迹时，由于检测跟踪错误、检测框不准确、障碍物遮挡等问题，会导致这个轨迹内有很大噪声。

发明内容

本发明实施例提供一种用于目标跟踪的技术方案。

本发明实施例提供的一种目标跟踪方法，包括：

根据视频的第一图像帧中的第一检测框和所述第二图像帧中的第二检测框建立所述视频中各目标对象的目标对象轨迹；所述第二图像帧为所述第一图像帧在所述视频之前的一帧图像；

分别提取所述各目标对象对应的第一检测框的特征；

根据所述各目标对象对应的第一检测框的特征、所述各目标对象分别在所述第一检测框和所述第二检测框的目标对象轨迹，对每个所述第一检测框进行轨迹切分，获得切分后的第一检测框信息；

根据所述切分后的第一检测框信息进行目标跟踪。

在基于本发明上述方法的另一个实施例中，所述根据视频的第一图像帧中的第一检测框和所述第二图像帧中的第二检测框建立所述视频中各目标对象的目标对象轨迹之后，还包括：

对所述各目标对象轨迹依次进行轨迹号标记，得到所述各目标对象分别在所述第一检测框和所述第二检测框的轨迹号。

在基于本发明上述方法的另一个实施例中，所述切分后的第一检测框信息包括：各所述第一检测框的检测框位置，和所述第一图像帧对应于同一目标对象的轨迹号。

在基于本发明上述方法的另一个实施例中，所述切分后的第一检测框信息还包括：

各所述第一检测框的特征，

和/或所述第一图像帧对应于同一目标对象的帧号。

在基于本发明上述方法的另一个实施例中，所述根据视频的第一图像帧中的第一检测框和所述第二图像帧中的第二检测框建立所述视频中各目标对象的目标对象轨迹，包括：

获取所述第一检测框在所述第一图像帧中的位置和大小，获取第二检测框在第二图像帧中的位置和大小；

基于获得的位置和大小，对所述第一检测框和第二检测框进行匹配，得到相互匹配的所述第一检测框和第二检测框；

基于所述相互匹配的第一检测框和第二检测框建立对应各目标对象的目标对象轨迹。

在基于本发明上述方法的另一个实施例中，所述分别提取所述各目标对象对应的第一检测框的特征，包括：

基于至少一个模型对所述第一检测框提取特征向量，得到所述第一检测框的至少一个特征向量；其中，一个所述第一检测框对应至少一个特征向量；

将同一所述第一检测框对应的所有特征向量分别进行归一化；

将归一化后的所有特征向量依次拼接成新特征向量，将拼接得到的新特征向量作为对应所述第一检测框的特征向量。

在基于本发明上述方法的另一个实施例中，所述对每个所述第一检测框进行轨迹切分，包括：

根据各目标对象的第一检测框的目标对象轨迹将所述第一检测框与数据库中已保存的轨迹进行匹配，根据匹配结果将所述第一检测框对应的目标对象轨迹合并到已有轨迹中，或将所述第一检测框对应的目标对象轨迹作为新的轨迹；所述数据库中已保存的轨迹包括轨迹号和对应所述轨迹号的一个以上检测框。

在基于本发明上述方法的另一个实施例中，所述根据匹配结果将所述第一检测框对应的目标对象轨迹合并到已有轨迹中，或将所述第一检测框对应的目标对象轨迹作为新的轨迹，包括：

当所述数据库中不存在与所述目标对象轨迹的轨迹号相同的轨迹号时，将所述第一检测框对应的目标对象轨迹作为新的轨迹，所述新的轨迹对应所述第一检测框的轨迹号；

当所述数据库中存在与所述目标对象轨迹的轨迹号相同的轨迹号时，计算所述第一检测框与所述匹配轨迹号对应的轨迹中最后一个检测框的距离；

判断所述距离是否小于设定阈值；当所述距离小于设定阈值时，将所述第一检测框的目标对象轨迹存入所述匹配轨迹号对应的轨迹中；

当所述距离大于或等于设定阈值时，将所述第一检测框对应的目标对象轨迹作为新的轨迹，为所述新的轨迹建立与所述轨迹号存在关联的新的轨迹号。

在基于本发明上述方法的另一个实施例中，所述计算所述第一检测框与所述匹配轨迹号对应的轨迹中最后一个检测框的距离，包括：

基于所述第一检测框得到对应的特征向量，基于所述匹配轨迹号对应的轨迹中最后一个检测框得到对应的特征向量；

计算所述得到的两个特征向量之间的距离，将所述特征向量之间的距离作为所述检测框之间的距离。

在基于本发明上述方法的另一个实施例中，所述对每个所述第一检测框进行轨迹切分之后，还包括：

将所述切分后的第一检测框信息存入数据库中。

在基于本发明上述方法的另一个实施例中，所述将所述切分后的第一检测框信息存入数据库中，包括：

将一个所述切分后的第一检测框信息存入数据库中的一个轨迹中，基于所述轨迹号为所述轨迹建立索引。

在基于本发明上述方法的另一个实施例中，所述对所述各目标对象轨迹依次进行轨迹号标记，得到所述各目标对象分别在所述第一检测框和所述第二检测框的轨迹号之后，还包括：

基于具有相同轨迹号的所有特征向量获得对应所述轨迹号的轨迹特征向量；每个所述轨迹号对应一个轨迹特征向量。

在基于本发明上述方法的另一个实施例中，所述基于具有相同轨迹号的的所有特征向量获得对应所述轨迹的轨迹特征向量，包括：

对所述轨迹号对应的所有检测框对应的特征向量进行处理，得到与所述特征向量维度相同的轨迹特征向量。

在基于本发明上述方法的另一个实施例中，所述根据视频的第一图像帧中的第一检测框和所述第二图像帧中的第二检测框建立所述视频中各目标对象的目标对象轨迹之前，还包括：

获取对应每个所述第一检测框的相关信息；

基于预设的条件对所述第一检测框的相关信息进行筛选，得到筛选后的相关信息对应的所述第一检测框。

在基于本发明上述方法的另一个实施例中，所述相关信息包括第一检测框的宽度值、高度值、宽高比和置信度。

在基于本发明上述方法的另一个实施例中，还包括：

接收待检索图像，获取所述待检索图像行人检测框对应的待检索特征向量；

将所述待检索特征向量与所述轨迹特征向量进行匹配得到至少一个匹配度；

获取所述匹配度大于或等于预设阈值的轨迹号作为所述待检索图像的匹配轨迹号；

输出所述匹配轨迹号对应的轨迹。

在基于本发明上述方法的另一个实施例中，将所述待检索特征向量与所述轨迹特征向量进行匹配得到至少一个匹配度，包括：

分别计算所述待检索特征向量与所述轨迹特征向量之间的距离，将所述距离的倒数作为所述待检索特征向量与所述轨迹特征向量的匹配度。

本发明实施例的另一个方面，还提供了一种目标跟踪装置，包括：

检测单元，用于根据视频的第一图像帧中的第一检测框和所述第二图像帧中的第二检测框建立所述视频中各目标对象的目标对象轨迹；所述第二图像帧为所述第一图像帧在所述视频之前的一帧图像；

特征提取单元，用于分别提取所述各目标对象对应的第一检测框的特征；

轨迹切分单元，用于根据所述各目标对象对应的第一检测框的特征、所述各目标对象分别在所述第一检测框和所述第二检测框的目标对象轨迹，对每个所述第一检测框进行轨迹切分，获得切分后的第一检测框信息；

目标跟踪单元，用于根据所述切分后的第一检测框信息进行目标跟踪。

在基于本发明上述装置的另一个实施例中，还包括：

标记单元，用于对所述各目标对象轨迹依次进行轨迹号标记，得到所述各目标对象分别在所述第一检测框和所述第二检测框的轨迹号。

在基于本发明上述装置的另一个实施例中，所述切分后的第一检测框信息包括：各所述第一检测框的检测框位置，和所述第一图像帧对应于同一目标对象的轨迹号。

在基于本发明上述装置的另一个实施例中，所述切分后的第一检测框信息还包括：

各所述第一检测框的特征，

和/或所述第一图像帧对应于同一目标对象的帧号。

在基于本发明上述装置的另一个实施例中，所述检测单元，具体用于获取所述第一检测框在所述第一图像帧中的位置和大小，获取第二检测框在第二图像帧中的位置和大小；基于获得的位置和大小，对所述第一检测框和第二检测框进行匹配，得到相互匹配的所述第一检测框和第二检测框；基于所述相互匹配的第一检测框和第二检测框建立对应各目标对象的目标对象轨迹。

在基于本发明上述装置的另一个实施例中，所述特征提取单元，包括：

多模型模块，用于基于至少一个模型对所述第一检测框提取特征向量，得到所述第一检测框的至少一个特征向量；其中，一个所述第一检测框对应至少一个特征向量；

归一化模块，用于将同一所述第一检测框对应的所有特征向量分别进行归一化；

特征拼接模块，用于将归一化后的所有特征向量依次拼接成新特征向量，将拼接得到的新特征向量作为对应所述第一检测框的特征向量。

在基于本发明上述装置的另一个实施例中，所述轨迹切分单元，包括：

匹配模块，用于根据各目标对象的第一检测框的目标对象轨迹将所述第一检测框与数据库中已保存的轨迹进行匹配；

轨迹存储模块，用于根据匹配结果将所述第一检测框对应的目标对象轨迹合并到已有轨迹中，或将所述第一检测框对应的目标对象轨迹作为新的轨迹；所述数据库中已保存的轨迹包括轨迹号和对应所述轨迹号的一个以上检测框。

在基于本发明上述装置的另一个实施例中，所述轨迹存储模块，包括：

不匹配模块，用于当所述数据库中不存在与所述目标对象轨迹的轨迹号相同的轨迹号时，将所述第一检测框对应的目标对象轨迹作为新的轨迹，所述新的轨迹对应所述第一检测框的轨迹号；

匹配模块，用于当所述数据库中存在与所述目标对象轨迹的轨迹号相同的轨迹号时，计算所述第一检测框与所述匹配轨迹号对应的轨迹中最后一个检测框的距离；

阈值判断模块，用于判断所述距离是否小于设定阈值；当所述距离小于设定阈值时，将所述第一检测框的目标对象轨迹存入所述匹配轨迹号对应的轨迹中；当所述距离大于或等于设定阈值时，将所述第一检测框对应的目标对象轨迹作为新的轨迹，为所述新的轨迹建立与所述轨迹号存在关联的新的轨迹号。

在基于本发明上述装置的另一个实施例中，所述匹配模块，具体用于基于所述第一检测框得到对应的特征向量，基于所述匹配轨迹号对应的轨迹中最后一个检测框得到对应的特征向量；计算所述得到的两个特征向量之间的距离，将所述特征向量之间的距离作为所述检测框之间的距离。

在基于本发明上述装置的另一个实施例中，还包括：

存储单元，用于将所述切分后的第一检测框信息存入数据库中。

在基于本发明上述装置的另一个实施例中，所述存储单元，具体用于将一个所述切分后的第一检测框信息存入数据库中的一个轨迹中，基于所述轨迹号为所述轨迹建立索引。

在基于本发明上述装置的另一个实施例中，还包括：

融合单元，用于基于具有相同轨迹号的所有特征向量获得对应所述轨迹号的轨迹特征向量；每个所述轨迹号对应一个轨迹特征向量。

在基于本发明上述装置的另一个实施例中，所述融合单元，具体用于对所述轨迹号对应的所有检测框对应的特征向量进行处理，得到与所述特征向量维度相同的轨迹特征向量。

在基于本发明上述装置的另一个实施例中，还包括：

筛选单元，用于获取对应每个所述第一检测框的相关信息，基于预设的条件对所述第一检测框的相关信息进行筛选，得到筛选后的相关信息对应的所述第一检测框。

在基于本发明上述装置的另一个实施例中，所述相关信息包括第一检测框的宽度值、高度值、宽高比和置信度。

在基于本发明上述装置的另一个实施例中，还包括：

检索接收单元，用于接收待检索图像，获取所述待检索图像行人检测框对应的待检索特征向量；

匹配度单元，用于将所述待检索特征向量与所述轨迹特征向量进行匹配得到至少一个匹配度；

轨迹输出单元，用于获取所述匹配度大于或等于预设阈值的轨迹号作为所述待检索图像的匹配轨迹号；输出包括所述匹配轨迹号对应的轨迹。

在基于本发明上述装置的另一个实施例中，所述匹配度单元，具体用于分别计算所述待检索特征向量与所述轨迹特征向量之间的距离，将所述距离的倒数作为所述待检索特征向量与所述轨迹特征向量的匹配度。

根据本发明实施例的一个方面，提供的一种电子设备，包括处理器，所述处理器包括如上所述的目标跟踪装置。

根据本发明实施例的一个方面，提供的一种电子设备，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成如上所述目标跟踪方法的操作。

根据本发明实施例的一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时执行如上所述目标跟踪方法的操作。

基于本发明上述实施例提供的一种目标跟踪方法和装置、电子设备、计算机存储介质，根据视频的第一图像帧中的第一检测框和第二图像帧中的第二检测框建立视频中各目标对象的目标对象轨迹；实现基于目标对象的轨迹分类，初步实现了目标对象的跟踪；分别提取各目标对象对应的第一检测框的特征；根据各目标对象对应的第一检测框的特征、各目标对象分别在第一检测框和第二检测框的目标对象轨迹，对每个第一检测框进行轨迹切分，获得切分后的第一检测框信息；根据切分后的第一检测框信息进行目标跟踪；通过对每个第一检测框进行轨迹切分，获得切分后的第一检测框信息；实现了在过滤掉了噪声的同时消除了检测跟踪错误的可能。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明目标跟踪方法一个实施例的流程图。

图2为本发明目标跟踪装置一个实施例的结构示意图。

图3为用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

行人检索指的是对于一个指定的行人，给出他的一张或一组询问图片，需要在大规模的监控视频中寻找到这个人出现的所有场景。行人检索系统搭建方法的核心思路是首先对监控视频进行视频结构化得到不同的行人轨迹(一个轨迹中包含同一个行人的多帧图片)，然后对于每一个轨迹提取出一个特征，利用这个特征将不同的行人轨迹区分开。

现有技术中对于行人轨迹的获取，通常是对于所有轨迹中的所有图片都提取出一个特征，然后将询问图片的特征向量与所有特征一一比对找到目标。然而，在真实监控的场景中一个轨迹内的不同帧可能有很大的姿势、角度变化，障碍物和/或监控视频中的文字有时会遮挡住行人，甚至检测行人的框也会不准确，这些都使得仅凭轨迹内的一张图片很难全面准确地反映出一个行人的特征。

另外，在人群稍密集一些的地段，检测跟踪经常会把擦身而过或并肩行走的不同行人划到同一个轨迹内，因此如果不做处理，在同一个轨迹内可能会出现多个不同的行人的图片，影响行人的检索结果。

图1为本发明目标跟踪方法一个实施例的流程图。如图1所示，该实施例方法包括：

步骤101，根据视频的第一图像帧中的第一检测框和第二图像帧中的第二检测框建立视频中各目标对象的目标对象轨迹。

其中，第二图像帧为第一图像帧在视频之前的一帧图像，即采集时间早于第一图像帧的图像都可以是第二图像帧，优选地，可以选取紧邻第一图像帧的图像作为第二图像帧；第二图像帧和第一图像帧具体在视频流中就是按照时间顺序获取的先后两帧图像，具体地，可对行人进行追踪，因此，对于连续的视频帧中的检测框进行匹配，即可获知一个行人在连续两帧图像之间的是否移动和移动方向；在后续将视频流中的下一帧图像作为第一图像帧，将第一图像帧作为第二图像帧，以此类推，就可以得到行人在视频中完整的行为轨迹。

由于需要获得的是行为轨迹，并非对某个行人的图像进行识别，因此，采集的视频中在当前帧图像时，将第一检测框与第二图像帧中的第二检测框进行比较，以便于对行人建立轨迹；由于是对行人的行为轨迹进行切分，因此，每个第一检测框中包括一个行人图像。

步骤102，分别提取各目标对象对应的第一检测框的特征。

步骤103，根据各目标对象对应的第一检测框的特征、各目标对象分别在第一检测框和第二检测框的目标对象轨迹，对每个第一检测框进行轨迹切分，获得切分后的第一检测框信息。

其中，切分后的第一检测框信息可以包括：各第一检测框的检测框位置，和第一图像帧对应于同一目标对象的轨迹号；还可以包括：各第一检测框的特征，和/或第一图像帧对应于同一目标对象的帧号，其中轨迹号用于标记目标对象轨迹。

步骤104，根据切分后的第一检测框信息进行目标跟踪。

现有技术中获取的一个行人轨迹时，由于检测跟踪错误、检测框不准确、障碍物遮挡等问题，会导致这个轨迹内有很大噪声，这些噪声如果不加处理会严重影响到后续对轨迹计算轨迹特征向量的效果。针对这些噪声本发明提出了一种跟踪方法，在视频结构化的同时对得到的图像提取特征，将检测跟踪得到的同一个目标对象轨迹内前后两张图像的特征作为判定是否切分轨迹的依据，再次对轨迹进行切分，很好地弥补了仅凭检测跟踪算法切分轨迹的天然缺陷，并且把由于障碍物、检测框不准确而导致的噪声分到了多个独立的轨迹内，从而有效地过滤掉了噪声。

基于本发明上述实施例提供的一种目标跟踪方法，根据视频的第一图像帧中的第一检测框和第二图像帧中的第二检测框建立视频中各目标对象的目标对象轨迹；实现基于目标对象的轨迹分类，初步实现了目标对象的跟踪；分别提取各目标对象对应的第一检测框的特征；根据各目标对象对应的第一检测框的特征、各目标对象分别在第一检测框和第二检测框的目标对象轨迹，对每个第一检测框进行轨迹切分，获得切分后的第一检测框信息；根据切分后的第一检测框信息进行目标跟踪；通过对每个第一检测框进行轨迹切分，获得切分后的第一检测框信息；实现了在过滤掉了噪声的同时消除了检测跟踪错误的可能。

在本发明目标跟踪方法上述各实施例的一个具体示例中，操作101和102之间还可以包括：

对各目标对象轨迹依次进行轨迹号标记，得到各目标对象分别在第一检测框和第二检测框的轨迹号。

具体地，通过对目标对象轨迹标记轨迹号，实现对目标轨迹的快速识别，相同轨迹号代表同一目标对象的目标对象轨迹，在后续轨迹切分和存储过程中，通过轨迹号对目标对象轨迹进行识别可以极大的提高处理效率。

在本发明目标跟踪方法上述各实施例的一个具体示例中，操作101具体可以包括：

获取第一检测框在第一图像帧中的位置和大小，获取第二检测框在第二图像帧中的位置和大小；

基于获得的位置和大小，对第一检测框和第二检测框进行匹配，得到相互匹配的第一检测框和第二检测框；

基于相互匹配的第一检测框和第二检测框建立对应各目标对象的目标对象轨迹。

具体地，可以通过二分图带权匹配算法对第一检测框和第二检测框进行匹配，二分图又称作二部图，是图论中的一种特殊模型。设G＝(V,E)是一个无向图，如果顶点V可分割为两个互不相交的子集(A,B)，并且图中的每条边(i，j)所关联的两个顶点i和j分别属于这两个不同的顶点集(i in A,j in B)，则称图G为一个二分图；本实施例中希望对每个检测出来的检测框给定一个轨迹号，所以就必须经过跟踪，跟踪的想法就是把当前一帧图像的检测框的大小和位置和前一帧图像的检测框的大小和位置进行比较，利用二分图带权匹配算法将可能为同一个人的检测框标记同一个轨迹号，完成第一次轨迹切分。

本发明目标跟踪方法的另一个实施例，在上述各实施例的基础上，操作102包括：

基于至少一个模型对第一检测框提取特征向量，得到第一检测框的至少一个特征向量；其中，一个第一检测框对应至少一个特征向量；

将同一第一检测框对应的所有特征向量分别进行归一化；

将归一化后的所有特征向量依次拼接成新特征向量，将拼接得到的新特征向量作为对应第一检测框的特征向量。

通过对多个特征向量进行归一化到同一维度上，在同一维度上的多个向量才能进行拼接，拼接顺序并不做限制，但对同一个视频流中的检测框采用同一的顺序进行拼接；例如：两个1*512大小的特征向量依次拼接就能得到一个1*1024的新特征向量。

本实施例中，通过对一个检测框提取特征时采用多个模型融合的方法，模型指的是提取特征的网络，多模型指的是不同网络结构的网络；不同模型之间的差异就是网络结构不同，可以认为每一种网络结构的网络都从一个角度反映了行人的特征，那么多个模型融合就使得对一个检测框的评价更加全面、准确；具体的，模型可以包括：googlenet模型和一个resnet模型等；本实施例提取特征时采用多个不同网络结构的模型提取特征，使得特征向量能够更加全面客观地反映一个人，从而提高行人检索的准确率。

本发明目标跟踪方法的又一个实施例中，在上述各实施例的基础上，操作103可以包括：

根据各目标对象的第一检测框的目标对象轨迹将第一检测框与数据库中已保存的轨迹进行匹配，根据匹配结果将第一检测框对应的目标对象轨迹合并到已有轨迹中，或将第一检测框对应的目标对象轨迹作为新的轨迹；其中，数据库中已保存的轨迹包括轨迹号和对应所述轨迹号的一个以上检测框。

在本实施例中，对新获得的检测框进行保存时，首先需要判断其属于哪个轨迹，对于轨迹的判断可以同轨迹号进行匹配判断，同一轨迹号对应的检测框代表其属于同一个人，因此，将轨迹号相同的检测框存入同一轨迹中，以便于在后续行人检索时，能准确得到该行人的行为轨迹。

在本发明目标跟踪方法上述各实施例的一个具体示例中，根据匹配结果将第一检测框对应的目标对象轨迹合并到已有轨迹中，或将第一检测框对应的目标对象轨迹作为新的轨迹，包括：

当数据库中不存在与目标对象轨迹的轨迹号相同的轨迹号时，将第一检测框对应的目标对象轨迹作为新的轨迹，新的轨迹对应该第一检测框的轨迹号；

当数据库中存在与目标对象轨迹的轨迹号相同的轨迹号时，计算第一检测框与匹配轨迹号对应的轨迹中最后一个检测框的距离；

判断距离是否小于设定阈值；当距离小于设定阈值时，将第一检测框的目标对象轨迹存入匹配轨迹号对应的轨迹中；当距离大于或等于设定阈值时，将第一检测框对应的目标对象轨迹作为新的轨迹，为新的轨迹建立与轨迹号存在关联的新的轨迹号。

本实施例中，对于检测框的归类，包括三种情况：第一种，该检测框经过检测跟踪后的原始轨迹号之前未出现，因此建立一个新的轨迹，将该检测框记录为这个轨迹的第一帧。第二种，该检测框经过检测跟踪后的原始轨迹号之前已出现，但与原始轨迹号对应新轨迹内的最后一帧的特征距离差大于某一阈值(例如：在实际应用中可以选取0.4)，则说明该检测框可能由于检测跟踪错误、障碍物遮挡、角度光照等原因与之前同一轨迹号的检测框存在明显差异，因此重新建立一个轨迹，将该检测框记录为这个轨迹的第一帧。第三种，该检测框经过检测跟踪后的原始轨迹号之前已出现，且与该原始轨迹号对应的新轨迹内的最后一帧的特征距离差小于上述阈值，则说明该检测框与同轨迹内的帧差异较小，不属于检测跟踪错误或者轨迹内噪声，因此将该检测框加入其对应的轨迹内。

在本发明行为目标跟踪方法上述各实施例的一个具体示例中，计算第一检测框与匹配轨迹号对应的轨迹中最后一个检测框的距离，包括：

基于第一检测框得到对应的特征向量，基于匹配轨迹号对应的轨迹中最后一个检测框得到对应的特征向量；

计算得到的两个特征向量之间的距离，将特征向量之间的距离作为检测框之间的距离。

在本实施例中，对于上一实施例中提出的第二种和第三种情况中的距离，可以通过计算两个检测框对应的特征向量的cos余弦距离、欧式距离、马氏距离等等，只要能用于计算两个向量之间的距离就可以应用于本实施例；对于计算得到的距离，距离越小，说明两个特征向量对应的行人越相似。

在本发明行为轨迹切分方法上述各实施例的一个具体示例中，对每个第一检测框进行轨迹切分之后，还包括：

将切分后的第一检测框信息存入数据库中。

在本实施例中，将切分后的第一检测框信息存入数据库中，在后续得到新的检测框或轨迹时，就可以根据轨迹号将轨迹与数据库中已存储的轨迹进行合并。

在本发明行为轨迹切分方法上述各实施例的一个具体示例中，将切分后的第一检测框信息存入数据库中，包括：

将一个切分后的第一检测框信息存入数据库中的一个轨迹中，基于轨迹号为所述轨迹建立索引。

本实施例基于轨迹号对轨迹建立索引，在后续查找过程中，只需知道轨迹号，即可快速实现相同轨迹号的轨迹的合并或查找。

本发明轨迹切分方法的还一个实施例中，在上述各实施例的基础上，对各目标对象轨迹依次进行轨迹号标记，得到各目标对象分别在第一检测框和第二检测框的轨迹号之后，还包括：

基于具有相同轨迹号的所有特征向量获得对应轨迹号的轨迹特征向量；每个轨迹号对应一个轨迹特征向量。

本实施例提出了多帧图像融合的方法，即对同一个轨迹内的所有图像提取特征，将特征累加做平均得到一个新的特征来代表这个轨迹，使得特征向量更准确，同时大幅缩减了查询集的数量。

在本发明行为轨迹切分方法上述各实施例的一个具体示例中，基于具有相同轨迹号的所有特征向量获得对应轨迹号的轨迹特征向量，具体可以包括：

对轨迹号对应的所有检测框对应的特征向量进行处理，得到与特征向量维度相同的轨迹特征向量。

本实施例中所指处理，可以包括累加平均的方式，将这个轨迹内的所有帧的特征累加平均；还可以采用聚类算法，例如k-means算法，选取最大的一个类，再对这个类的特征累加平均；甚至可以专门学习一个模型给一个轨迹中的每个帧赋予不同的权值，之后再加权平均；本发明并不限制采用什么处理得到轨迹特征向量。

在本发明行为轨迹切分方法上述各实施例的一个具体示例中，还包括：

获取对应每个第一检测框的相关信息；基于预设的条件对第一检测框的相关信息进行筛选，得到筛选后的相关信息对应的第一检测框。

本实施例中，由于从一帧图像中获取的多个检测框中，可能存在一些不符合要求的检测框，需要对这些不符合要求的检测框进行筛选，而使后续行为轨迹的识别更加准确，因此，获取了对应检测框的相关信息，根据对相关信息设置的一些限制，将不符合要求的检测框筛除。

在本发明行为轨迹切分方法上述各实施例的一个具体示例中，相关信息包括检测框的宽度值、高度值、宽高比和置信度等。

每个检测框都具有宽度、高度、置信度等这些信息，这些信息都是视频帧经过检测网络后得到的，但在实际应用中，置信度小的检测框不符合要求，太小的检测框也不符合要求，所以目前通常选取长大于128pixel像素，宽大于64pixel像素，置信度大于0.8的检测框进行下一步操作，目的就是为了使检测的轨迹准确率更高。

本发明行为轨迹切分方法的再一个实施例中，在上述各实施例的基础上，还包括：

接收待检索图像，基于待检索图像获得对应的特征向量；

将待检索特征向量与轨迹特征向量进行匹配得到至少一个匹配度；

将匹配度大于或等于预设阈值的轨迹号作为待检索图像的匹配轨迹号，输出匹配轨迹号对应的轨迹。

上述实施例中对监控视频进行处理后得到每个人的特征以及出现在视频中的位置等信息，并将这些信息存储在数据库中。之后对待检索图像提取特征，与数据库中的所有特征一一比对后得到置信度最高的N个行人的信息；通过本实施例方法，克服了针对一张图片只能片面、不准确地反映一个人的特征的缺陷；本发明采用对一个轨迹内的所有图片分别提取特征，然后获得一个唯一的特征来代表这个轨迹；这样不仅使得特征更有代表性、更准确，同时大幅缩小了查询集的数量，从而明显地提高了查询的准确率。

在本发明行为轨迹切分方法上述各实施例的一个具体示例中，将待检索特征向量与轨迹特征向量进行匹配得到至少一个匹配度，包括：

分别计算待检索特征向量与轨迹特征向量之间的距离，将距离的倒数作为待检索特征向量与轨迹特征向量的匹配度。

在本实施例中，计算待检索特征向量与轨迹特征向量之间的距离，可以采用cos余弦距离、欧式距离、马氏距离等，只要能用于计算两个向量之间的距离就可以应用于本实施例；对于计算得到的距离，距离越小，说明两个特征向量的匹配度越高，因此，将距离的倒数作为匹配度的值；即距离越小，匹配度越大，对应的行人越相似；反之距离越大，匹配度越小，对应的行人越不相似。

本发明行为轨迹切分方法的上述各实施例，具体可以应用到：

视频入库：将视频库中的多个视频经过结构化以及特征提取后得到以轨迹为单位的轨迹特征向量以及附加信息(例如轨迹号，开始帧号，结束帧号，代表检测框的位置和帧号等)，并存入数据库。

图片入库：将图片库中的每张图片经过模型融合后得到的特征向量以及相关信息存入数据库，如果图片库以轨迹为单位存放图片，那么可以对轨迹内的图片进行多帧融合，之后以轨迹为单位将轨迹特征向量与相关信息入库。

图像检索：对于一个行人，询问集分为两种形式，即单张图片或一组图片。这两种形式的操作方法都是先通过多种模型融合提取出一个特征向量，再在数据库中查找出最相似的N个轨迹单张图片。不同的是对于一组图片，首先要经过多帧融合得到一个唯一的特征向量，用这个特征向量代表这个行人，再在数据库中查找相似的轨迹。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图2为本发明目标跟踪装置一个实施例的结构示意图。该实施例的装置可用于实现本发明上述各方法实施例。如图2所示，该实施例的装置包括：

检测单元21，用于根据视频的第一图像帧中的第一检测框和第二图像帧中的第二检测框建立视频中各目标对象的目标对象轨迹。

其中，第二图像帧为第一图像帧在视频之前的一帧图像，即采集时间早于第一图像帧的图像都可以是第二图像帧，优选地，可以选取紧邻第一图像帧的图像作为第二图像帧；第二图像帧和第一图像帧具体在视频流中就是按照时间顺序获取的先后两帧图像，为了对行人进行追踪，因此，对于连续的视频帧中的检测框进行匹配，即可获知一个行人在连续两帧图像之间的是否移动和移动方向；在后续将视频流中的下一帧图像作为第一图像帧，将第一图像帧作为第二图像帧，以此类推，就可以得到行人在视频中完整的行为轨迹。

特征提取单元22，用于分别提取各目标对象对应的第一检测框的特征。

轨迹切分单元23，用于根据各目标对象对应的第一检测框的特征、各目标对象分别在第一检测框和第二检测框的目标对象轨迹，对每个第一检测框进行轨迹切分，获得切分后的第一检测框信息。

其中，切分后的第一检测框信息包括：各第一检测框的检测框位置，和第一图像帧对应于同一目标对象的轨迹号；还可以包括：各第一检测框的特征，和/或第一图像帧对应于同一目标对象的帧号，其中轨迹号用于标记目标对象轨迹。

目标跟踪单元24，用于根据切分后的第一检测框信息进行目标跟踪。

基于本发明上述实施例提供的一种目标跟踪装置，根据视频的第一图像帧中的第一检测框和第二图像帧中的第二检测框建立视频中各目标对象的目标对象轨迹；实现基于目标对象的轨迹分类，初步实现了目标对象的跟踪；分别提取各目标对象对应的第一检测框的特征；根据各目标对象对应的第一检测框的特征、各目标对象分别在第一检测框和第二检测框的目标对象轨迹，对每个第一检测框进行轨迹切分，获得切分后的第一检测框信息；根据切分后的第一检测框信息进行目标跟踪；通过对每个第一检测框进行轨迹切分，获得切分后的第一检测框信息；实现了在过滤掉了噪声的同时消除了检测跟踪错误的可能。

在本发明目标跟踪装置上述各实施例的一个具体示例中，还包括：

标记单元，用于对各目标对象轨迹依次进行轨迹号标记，得到各目标对象分别在第一检测框和第二检测框的轨迹号。

在本发明目标跟踪装置上述各实施例的一个具体示例中，检测单元，具体用于获取第一检测框在第一图像帧中的位置和大小，获取第二检测框在第二图像帧中的位置和大小；基于获得的位置和大小，对第一检测框和第二检测框进行匹配，得到相互匹配的第一检测框和第二检测框；基于相互匹配的第一检测框和第二检测框建立对应各目标对象的目标对象轨迹。

本发明轨迹切分装置的另一个实施例，在上述各实施例的基础上，特征提取单元22，包括：

多模型模块，用于基于至少一个模型对第一检测框提取特征向量，得到对于第一检测框的至少一个特征向量；其中，一个第一检测框对应至少一个特征向量；

归一化模块，用于将同一第一检测框对应的所有特征向量分别进行归一化；

特征拼接模块，用于将归一化后的所有特征向量依次拼接成新特征向量，将拼接得到的新特征向量作为对应第一检测框的特征向量。

本发明轨迹切分装置的又一个实施例中，在上述各实施例的基础上，轨迹切分单元23，包括：

匹配模块，用于根据各目标对象的第一检测框的目标对象轨迹将第一检测框与数据库中已保存的轨迹进行匹配；

轨迹存储模块，用于根据匹配结果将第一检测框对应的目标对象轨迹合并到已有轨迹中，或将第一检测框对应的目标对象轨迹作为新的轨迹；数据库中已保存的轨迹包括轨迹号和对应轨迹号的一个以上检测框。

在本发明轨迹切分装置上述各实施例的一个具体示例中，轨迹存储模块，包括：

不匹配模块，用于当数据库中不存在与目标对象轨迹的轨迹号相同的轨迹号时，将第一检测框对应的目标对象轨迹作为新的轨迹，新的轨迹对应第一检测框的轨迹号；

匹配模块，用于当数据库中存在与目标对象轨迹的轨迹号相同的轨迹号时，计算第一检测框与匹配轨迹号对应的轨迹中最后一个检测框的距离；

阈值判断模块，用于判断距离是否小于设定阈值；当距离小于设定阈值时，将第一检测框的目标对象轨迹存入匹配轨迹号对应的轨迹中；当距离大于或等于设定阈值时，将第一检测框对应的目标对象轨迹作为新的轨迹，为新的轨迹建立与轨迹号存在关联的新的轨迹号。

在本发明轨迹切分装置上述各实施例的一个具体示例中，匹配模块，具体用于基于第一检测框得到对应的特征向量，基于匹配轨迹号对应的轨迹中最后一个检测框得到对应的特征向量；计算得到的两个特征向量之间的距离，将特征向量之间的距离作为检测框之间的距离。

在本发明轨迹切分装置上述各实施例的一个具体示例中，还包括：

存储单元，用于将切分后的第一检测框信息存入数据库中。

在本发明轨迹切分装置上述各实施例的一个具体示例中，存储单元，具体用于将一个切分后的第一检测框信息存入数据库中的一个轨迹中，基于轨迹号为轨迹建立索引。

本发明轨迹切分装置的还一个实施例中，在上述各实施例的基础上，还包括：

融合单元，用于基于具有相同轨迹号的所有特征向量获得对应轨迹号的轨迹特征向量；每个轨迹号对应一个轨迹特征向量。

在本发明轨迹切分装置上述各实施例的一个具体示例中，融合单元，具体用于对轨迹号对应的所有检测框对应的特征向量进行处理，得到与特征向量维度相同的轨迹特征向量。

筛选单元，用于获取对应每个第一检测框的相关信息，基于预设的条件对第一检测框的相关信息进行筛选，得到筛选后的相关信息对应的所述第一检测框。

在本发明轨迹切分装置上述各实施例的一个具体示例中，相关信息包括第一检测框的宽度值、高度值、宽高比和置信度。

本发明行为轨迹切分装置的再一个实施例中，在上述各实施例的基础上，还包括：

检索接收单元，用于接收待检索图像，获取待检索图像行人检测框对应的待检索特征向量；

匹配度单元，用于将待检索特征向量与轨迹特征向量进行匹配得到至少一个匹配度；

轨迹输出单元，用于获取匹配度大于或等于预设阈值的轨迹号作为待检索图像的匹配轨迹号；输出包括匹配轨迹号对应的轨迹。

在本发明轨迹切分装置上述各实施例的一个具体示例中，匹配度单元，具体用于分别计算待检索特征向量与轨迹特征向量之间的距离，将距离的倒数作为待检索特征向量与轨迹特征向量的匹配度。

根据本发明实施例的一个方面，提供的一种电子设备，包括处理器，处理器包括本发明上述任一实施例的目标跟踪装置。

以及处理器，用于与存储器通信以执行可执行指令从而完成本发明目标跟踪方法上述任一实施例的操作。

根据本发明实施例的一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时执行本发明目标跟踪方法上述任一实施例的操作。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图3，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备300的结构示意图：如图3所示，计算机系统300包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)301，和/或一个或多个图像处理器(GPU)313等，处理器可以根据存储在只读存储器(ROM)302中的可执行指令或者从存储部分308加载到随机访问存储器(RAM)303中的可执行指令而执行各种适当的动作和处理。通信部312可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡。

处理器可与只读存储器302和/或随机访问存储器330中通信以执行可执行指令，通过总线304与通信部312相连、并经通信部312与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，根据视频的第一图像帧中的第一检测框和第二图像帧中的第二检测框建立视频中各目标对象的目标对象轨迹；分别提取各目标对象对应的第一检测框的特征；根据各目标对象对应的第一检测框的特征、各目标对象分别在第一检测框和第二检测框的目标对象轨迹，对每个第一检测框进行轨迹切分，获得切分后的第一检测框信息；根据切分后的第一检测框信息进行目标跟踪。

此外，在RAM 303中，还可存储有装置操作所需的各种程序和数据。CPU301、ROM302以及RAM303通过总线304彼此相连。在有RAM303的情况下，ROM302为可选模块。RAM303存储可执行指令，或在运行时向ROM302中写入可执行指令，可执行指令使处理器301执行上述通信方法对应的操作。输入/输出(I/O)接口305也连接至总线304。通信部312可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口305：包括键盘、鼠标等的输入部分306；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分307；包括硬盘等的存储部分308；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器310上，以便于从其上读出的计算机程序根据需要被安装入存储部分308。

需要说明的，如图3所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图3的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，根据视频的第一图像帧中的第一检测框和第二图像帧中的第二检测框建立视频中各目标对象的目标对象轨迹；分别提取各目标对象对应的第一检测框的特征；根据各目标对象对应的第一检测框的特征、各目标对象分别在第一检测框和第二检测框的目标对象轨迹，对每个第一检测框进行轨迹切分，获得切分后的第一检测框信息；根据切分后的第一检测框信息进行目标跟踪。在这样的实施例中，该计算机程序可以通过通信部分309从网络上被下载和安装，和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(CPU)301执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种目标跟踪方法，其特征在于，包括：

根据视频的第一图像帧中的第一检测框和第二图像帧中的第二检测框建立所述视频中各目标对象的目标对象轨迹；所述第二图像帧为所述第一图像帧在所述视频之前的一帧图像；

分别提取所述各目标对象对应的第一检测框的特征；

根据所述切分后的第一检测框信息进行目标跟踪。

2.根据权利要求1所述的方法，其特征在于，所述根据视频的第一图像帧中的第一检测框和所述第二图像帧中的第二检测框建立所述视频中各目标对象的目标对象轨迹之后，还包括：

3.根据权利要求2所述的方法，其特征在于，所述切分后的第一检测框信息包括：各所述第一检测框的检测框位置，和所述第一图像帧对应于同一目标对象的轨迹号。

4.根据权利要求3所述的方法，其特征在于，所述切分后的第一检测框信息还包括：

各所述第一检测框的特征，

和/或所述第一图像帧对应于同一目标对象的帧号。

5.根据权利要求1-4任一所述的方法，其特征在于，所述根据视频的第一图像帧中的第一检测框和所述第二图像帧中的第二检测框建立所述视频中各目标对象的目标对象轨迹，包括：

6.根据权利要求1-5任一所述的方法，其特征在于，所述分别提取所述各目标对象对应的第一检测框的特征，包括：

7.一种目标跟踪装置，其特征在于，包括：

检测单元，用于根据视频的第一图像帧中的第一检测框和第二图像帧中的第二检测框建立所述视频中各目标对象的目标对象轨迹；所述第二图像帧为所述第一图像帧在所述视频之前的一帧图像；

8.一种电子设备，其特征在于，包括处理器，所述处理器包括权利要求7所述的目标跟踪装置。

9.一种电子设备，其特征在于，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成权利要求1至6任意一项所述目标跟踪方法的操作。

10.一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1至6所述的目标跟踪方法的操作。