CN114067428A

CN114067428A - 多视角多目标的跟踪方法、装置、计算机设备和存储介质

Info

Publication number: CN114067428A
Application number: CN202111286253.6A
Authority: CN
Inventors: 刘晓颖; 朱佳宝; 谢柳; 银星茜; 杨欣捷; 丁军
Original assignee: Shanghai Pudong Development Bank Co Ltd
Current assignee: Shanghai Pudong Development Bank Co Ltd
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2022-02-18
Anticipated expiration: 2041-11-02
Also published as: CN114067428B

Abstract

本申请涉及多视角多目标的跟踪方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取不同视角的多个视频，并基于所述多个视频和已训练的目标检测模型，确定每个视角的多个位置信息和多个类别标识；基于每个视角的多个位置信息和多个类别标识，通过多视角多目标跟踪算法，确定每个视角的多个初始轨迹；基于每个视角的多个初始轨迹确定多个目标的目标轨迹，并为每个目标轨迹配置目标身份标识。采用本方法能够提高多视角多目标的跟踪效率。

Description

多视角多目标的跟踪方法、装置、计算机设备和存储介质

技术领域

本申请涉及目标跟踪技术领域，特别是涉及多视角多目标的跟踪方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术、计算机视觉领域的不断发展，通过摄像头为基础设置的智能安防受到越来越多的关注，众多行业对于摄像头智能安防的需求越来越多，包括校园、社区、仓库等区域安防。

通过目标重识别与轨迹跟踪实现智能安防，目标重识别与轨迹跟踪主要包括：单视角下但目标跟踪、单视角下多目标跟踪和多视角下多目标跟踪，在实际应用场景中，当跟踪的目标较多时，跨视角关联耗时很长，效率较低，不利于现实场景的应用。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高多视角多目标的跟踪效率的多视角多目标的跟踪方法、装置和计算机设备。

第一方面，本申请提供了一种多视角多目标的跟踪方法。所述方法包括：

获取不同视角的多个视频，并基于所述多个视频和已训练的目标检测模型，确定每个视角的多个位置信息和多个类别标识；

基于每个视角的多个位置信息和多个类别标识，通过多视角多目标跟踪算法，确定每个视角的多个初始轨迹；

基于每个视角的多个初始轨迹确定多个目标的目标轨迹，并为每个目标轨迹配置目标身份标识。

在其中一个实施例中，所述基于所述多个视频和已训练的目标检测模型，确定每个视角的多个位置信息和多个类别标识，包括：

对所述多个视频进行预处理，得到多个预处理视频；

将多个预处理视频输入至已训练的目标检测模型，通过所述已训练的目标检测模型输出不同视角的多个候选位置信息和多个类别标识；

对所述多个候选位置信息进行非极大值抑制处理，得到不同视角的多个位置信息。

在其中一个实施例中，所述基于每个视角的多个位置信息和多个类别标识，通过多视角多目标跟踪算法，确定每个视角的多个初始轨迹，包括：

基于每个视角的多个位置信息和多个类别标识，通过多视角多目标跟踪算法中已训练的特征提取器，确定每个视角的多个表观特征，其中每个表观特征携带有类别标识；

通过所述多视角多目标跟踪算法，对所述每个视角的多个表观特征进行跨视角关联处理，得到每个视角下的多个初始轨迹。

在其中一个实施例中，所述已训练的特征提取器，是基于不同视角下的多个训练数据集，以及每个训练数据集的多个参考表观特征，通过圆损失函数对特征提取器进行训练，直至训练完成后得到的。

在其中一个实施例中，所述基于每个视角的多个初始轨迹确定多个目标的目标轨迹，并为每个目标轨迹配置目标身份标识，包括：

将每个视角的多个初始轨迹转换至世界坐标系下，得到每个视角的多个转换轨迹；

判断多个转换轨迹是否满足融合条件，若多个转换轨迹满足融合条件，则基于多个转换轨迹确定若干候选轨迹，将所述若干候选轨迹分别作为转换轨迹，并重复执行上述判断多个转换轨迹是否满足融合条件的过程，直至多个转换轨迹不满足所述融合条件，将不满足所述融合条件的多个转换轨迹作为多个目标轨迹；

确定所述多个目标轨迹的目标身份标识，其中，每个目标轨迹的目标身份标识互不相同。

在其中一个实施例中，所述融合条件包括：所述多个转换轨迹中存在任意两个转换轨迹之间的轨迹相似度大于阈值。

第二方面，本申请还提供了一种多视角多目标的跟踪装置。所述装置包括：

检测模块，用于获取不同视角的多个视频，并基于所述多个视频和已训练的目标检测模型，确定每个视角的多个位置信息和多个类别标识；

跟踪模块，用于基于每个视角的多个位置信息和多个类别标识，通过多视角多目标跟踪算法，确定每个视角的多个初始轨迹；

轨迹确定模块，用于基于每个视角的多个初始轨迹确定多个目标的目标轨迹，并为每个目标轨迹配置目标身份标识。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述多视角多目标的跟踪方法、装置、计算机设备、存储介质和计算机程序产品，通过已训练的目标检测模型检测每个视角的多个位置信息和多个类别标识，基于每个视角的多个位置信息和多个类别标识，进行多视角多目标跟踪处理，得到每个视角的多个初始轨迹，再根据多个初始轨迹确定多个目标的目标轨迹，为每个目标轨迹配置目标身份标识。在基于每个视角的多个位置信息和多个类别标识，进行多视角多目标跟踪处理时，根据每个位置信息的类别标识，只需要对同一类别标识的位置信息进行跨视角关联，不需要对不同类别标识的位置信息进行跨视角关联，通过增加类别标识，提高了多视角多目标跟踪的效率。

附图说明

图1为一个实施例中多视角多目标的跟踪方法的流程示意图；

图2为一个实施例中根据多个视频和已训练的目标检测模型，确定每个是假的多个位置信息和多个类别标识的流程示意图；

图3为一个实施例中根据每个视角的多个位置信息和多个类别标识，ton过多视角多目标跟踪算法，确定每个视角的多个初始轨迹的流程示意图；

图4为一个实施例中图像透视变换算法的示意图；

图5为一个实施例中卡尔曼滤波对转换轨迹进行平滑去噪的示意图；

图6为一个具体实施例中，对仓库区域的不同视角的图像进行检测，得到的每个视角的多个位置和多个类别标识的可视化结果示意图；

图7为一个具体实施例中，确定仓库区域的不同视角下的多个初始轨迹的两种可视化结果示意图；

图8为一个具体实施例中，外观相似的目标的示意图；

图9为一个实施例中多视角多目标的跟踪装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种多视角多目标的跟踪方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

S101，获取不同视角的多个视频，并基于所述多个视频和已训练的目标检测模型，确定每个视角的多个位置信息和多个类别标识。

其中，所述多个视频，通过设置在待检测区域的多个不同视角的摄影设备拍摄得到，多个摄影设备的取景区域的并集可以覆盖所述待检测区域，多个摄影设备中每个摄影设备的视场角，与至少一个其他摄影设备的视场角部分重叠，也就是说，任一摄影设备的取景区域，均与至少两个其他摄影设备的取景区域存在交集，以使得每个视频，与至少一个其他视频存在区域交叉部分。所述多个视频应是同一时间段内的多个视频，并且每个视频的时长相同，每个视频包括的视频帧数量相同。

所述已训练的目标检测模型是基于不同视角下的训练视频集，以及每个训练集的多个参考标识和多个参考位置信息，训练目标检测模型，直至训练完成得到的。

每个视角的多个位置信息用于反映每个视角中多个初始目标的检测框，位置信息通过视频的图像坐标系表示，包括检测框的第一横坐标、第二横坐标、第一纵坐标和第二纵坐标；每个视角的多个类别标识与每个视角的多个位置信息一一对应，所述多个类别标识用于反映与其对应的位置信息中物体的类别。

具体地，通过已训练的目标检测模型，对所述多个视频进行目标检测，得到每个视频中多个初始目标的位置信息，以及多个初始目标的类别标识。

S102，基于每个视角的多个位置信息和多个类别标识，通过多视角多目标跟踪算法，确定每个视角的多个初始轨迹。

其中，所述多视角多目标跟踪算法可以通过深度-简单在线实时跟踪(Deep-sort)实现。每个视角的多个初始轨迹是每个视角中多个候选目标的初始轨迹，第一视角的多个候选目标。

具体地，位置信息与初始目标相对应，多视角多目标跟踪算法可以估计候选目标的运动，更新候选目标的位置信息(更新候选目标的检测框)，多视角多目标跟踪算法提取所有位置信息的表观特征，在位置信息有更新时，同步位置信息的更新表观特征。

多视角多目标跟踪算法为每个视角下的初始目标分配一个初始身份标识，通过跨视角关联，在多个初始目标中确定多个候选目标，也就是说，多个初始目标中可能存在若干初始目标本质为一个目标；对所有初始目标的初始身份标识进行再次分配，以使得不同视角下同一初始目标的身份标识相同。在每个视频中，根据任一候选目标在该视频的每个图像帧中的位置信息，得到任一候选目标的初始轨迹。在进行跨视角关联时，根据每个位置信息的类别标识，只需要对同一类别标识下的候选目标进行跨视角关联，可以提高跨视角关联的效率。

S103，基于每个视角的多个初始轨迹确定多个目标的目标轨迹，并为每个目标轨迹配置目标身份标识。

具体地，根据每个视角的所有候选目标的初始轨迹确定多个目标，将所有视角中同一目标的初始轨迹融合，得到该目标的目标轨迹。所述根据每个视角的所有候选目标的初始轨迹确定所有目标，包括：对于多个初始轨迹，将相似度较高的若干初始轨迹所对应的若干候选目标作为同一目标。若同一初始身份标识(两个候选目标在在S102中被认为是同一目标)的两个初始轨迹之间的相似度较低，则可以确定两个初始轨迹是不同的两个目标的轨迹。将同一目标对应的若干初始轨迹融合，得到该目标的目标轨迹，并且为该目标轨迹分配目标身份标识。通过初始轨迹进一步区分不同或相同的目标，避免了因为外观相似被误分配为同一目标的情况。

上述多视角多目标的跟踪方法中，通过已训练的目标检测模型检测每个视角的多个位置信息和多个类别标识，基于每个视角的多个位置信息和多个类别标识，进行多视角多目标跟踪处理，得到每个视角的多个初始轨迹，再根据多个初始轨迹确定多个目标的目标轨迹，为每个目标轨迹配置目标身份标识。在基于每个视角的多个位置信息和多个类别标识，进行多视角多目标跟踪处理时，根据每个位置信息的类别标识，只需要对同一类别标识的位置信息进行跨视角关联，不需要对不同类别标识的位置信息进行跨视角关联，通过增加类别标识，提高了多视角多目标跟踪的效率。

在一个实施例中，S101中，所述已训练的目标检测模型是基于多个检测视频集，以及每个检测视频集的多个训练位置信息和多个训练类别，训练目标检测模型，直至训练完成得到的。

具体地，每个检测视频集包括不同视角的多个检测视频，任一检测视频的视场角，均与至少一个其他检测视频的视场角部分重叠，不同视角的多个检测视频，可以提升目标检测模型的准确率，并且每个视角均存在部分重叠的区域，能够有效减少遮挡对目标检测的影响，保证应用场景下目标检测的高召回率。

在不同视角的多个检测视频中，获取同一时刻的多个检测视频帧，在每个检测视频的多个训练位置信息和多个训练类别中，获取多个检测视频帧对应的多个训练位置信息和训练类别；对多个检测视频帧进行预处理，得到多个预处理检测视频帧，根据多个预处理检测视频帧构建输入向量：(N,C,W,H)，其中，N是不同视角的数量，目标检测模型处理输入向量，得到多个检测位置信息和检测类别；根据多个检测视频帧对应的多个训练位置信息和训练类别，和多个检测视频帧的多个检测位置信息和检测类别确定损失函数值，通过损失函数值调整目标检测模型的参数，以完成一次训练，通过迭代训练直至训练完成，得到已训练的目标检测模型。

在一个实施例中，参见图2，S101中，所述基于所述多个视频和已训练的目标检测模型，确定每个视角的多个位置信息和多个类别标识，包括：

S111、对所述多个视频进行预处理，得到多个预处理视频。

具体地，对所述多个视频进行预处理，是每个视频中的每个视频帧进行预处理。将所述多个视频中的每个视频帧缩放至预设尺寸，得到多个第一视频帧，对多个第一视频帧的所有像素值进行归一化处理，得到多个第二视频帧，根据多个第二视频确定多个预处理视频。

对多个视频帧进行预处理，得到多个预处理视频的过程，与对多个检测视频帧进行预处理，得到多个预处理检测视频帧的过程相同。

S112、将多个预处理视频输入至已训练的目标检测模型，通过所述已训练的目标检测模型输出不同视角的多个候选位置信息和多个类别标识。

具体地，在多个预处理视频中获取同一时刻的多个不同视角的第二视频帧，将同一时刻的多个不同视角的第二视频帧输入已训练的目标检测模型，通过所述已训练的目标检测模型，得到多个第二视频帧对应的多个候选位置信息和多个类别标识。

所述不同视角的多个候选位置信息和多个类别标识，包括：每个视角下的多个候选位置信息和多个类别标识，每个视角下的多个候选位置信息和多个类别标识，包括每个视角的视频中每个视频帧的若干候选位置信息和若干类别标识。

所述已训练的目标检测模型输出多个五元组信息：(xmin,xmax,ymin,ymax,class)，其中，xmin,xmax,ymin,ymax用于表示候选位置信息，class表示该候选位置信息的类别，每个五元组对应视频帧中被检测出的一个初始目标，候选位置信息是该初始目标的检测框，类别是该初始目标的类别。

根据多个预处理视频中每个时刻的多个不同视角的第二视频帧，可以得到所述多个预处理视频对应的多个候选位置信息和多个类别标识。

S113、对所述多个候选位置信息进行非极大值抑制处理，得到不同视角的多个位置信息。

具体地，通过IOU阈值和目标置信度，对多个候选位置中的冗余位置信息进行剔除，得到多个位置信息。不同视角的多个位置信息包括：每个视频中每个视频帧的若干位置信息。所述多个位置信息和所述多个类别标识一一对应。

在一个实施例中，参见图3，S102包括：

S211、基于每个视角的多个位置信息和多个类别标识，通过多视角多目标跟踪算法中已训练的特征提取器，确定每个视角的多个表观特征。

其中，每个表观特征携带有类别标识。所述多视角多目标跟踪算法可以是多视角多目标跟踪器(Multi View Multi Target tarcker，MVMT tracker)，MVMT tracker改进了单一视角下目标跟踪容易丢失、目标表观相似情况下容易误关联等缺陷。

具体地，将每个视角的多个位置信息和多个类别标识，输入已训练的特征提取器，得到每个视角的多个表观特征。每个视角的多个表观特征包括每个视角的视频中出现的每个候选目标的表观特征。

所述已训练的特征提取器，是基于不同视角下的多个训练数据集，以及每个训练数据集的多个参考表观特征，通过圆损失函数对特征提取器进行训练，直至训练完成后得到的。通过圆损失函数对特征提取器进行训练，可以提取到更加鲁棒的表观特征信息。

具体地，所述训练数据集包括：多个训练数据，以及每个训练数据的参考表观特征，多个训练数据包括多个训练位置信息和多个训练类别。其中，所述多个训练位置信息和多个训练类别是对不同视角的视频进行目标检测得到的，先在不同视角下判定目标类别，再进行深度特征匹配估算，减少待目标较多情况下的耗时，提升目标匹配准确度，一定程度上减少ID切换的问题。

所述圆损失函数(Circle loss)如公式(1)所示。通过重新加权方式，通过将最小优化单元从s_n-s_p变成了α_ns_n-α_ps_p，获得更加灵活的优化和更明确的收敛目标，从而提升特征的鲁棒性。

其中是，γ是尺度因子，

是K个类内相似性得分，

是L个类间相似性得分，通过Circle loss最小化

同时最大化

和

是非负整数权重因子。通过更新当前优化状态来更新

和

的优化权重，假设

最佳的优化效果为O_p，

最佳的优化效果为O_n，其中，(O_p>O_n)。当一个相似性得分远离其最优点时(

远离O_p，

远离O_n)，应获得更大的权重因子，以是的相似性得分趋近于最优值，因此，

和

如公式(2)所示。

其中，[·]₊表示在0截断，以确保

和

都是非负数。

S212、通过所述多视角多目标跟踪算法，对所述每个视角的多个表观特征进行跨视角关联处理，得到每个视角下的多个初始轨迹。

具体地，通过表观特征，进行逐帧、跨视角计算特征相似度和马氏距离，具体是计算任意两个初始目标之间的特征相似度和马氏距离，根据特征相似度和马氏距离确定两个初始目标是否为同一个目标，进而确定每个视角下的多个候选目标，并为每个候选目标分配初始身份标识。通过跨视角关联处理对所有视角的初始身份标识进行分配，保证不同视角下的同一目标的初始身份标识是相同的。

在计算任意两个初始目标之间的特征相似度和马氏距离时，根据每个初始目标的类别标识进行筛选，以保证所述任意两个初始目标的类别标识相同，这样，一个视角中的一类初始目标，只需要与另一个视角中同一类的初始目标进行跨视角关联处理，提升了跨视角关联的效率。例如视角1中的人只和视角2的人进行跨视角关联，而不需要和视角2中的车进行跨视角关联。

多视角多目标跟踪算法可以估计目标的运动，更新目标的边界框(不同于目标检测模型得到的检测框，边界框是对运动进行估计得到)，根据每个视角下每个候选目标的边界框，确定每个视角下每个候选目标的初始轨迹。

在一个实施例中，S103，包括：

S311、将每个视角的多个初始轨迹转换至世界坐标系下，得到每个视角的多个转换轨迹。

具体地，如图4所示，通过图像透视变换算法，将所有初始轨迹从图像坐标系转换至世界坐标系下，图像透视变换算法如公式(3)所示。

P_w＝M_wiP_i (3)

其中，P_w表示世界坐标系，P_i表示图像坐标系，M_wi是图像坐标系和世界坐标系之间的映射矩阵。

由于初始轨迹是根据每个候选目标的边界框确定，由于边界框的不稳定会导致初始轨迹不准确，将初始轨迹映射为转换轨迹会导致误差。可以通过卡尔曼滤波对转换轨迹进行平滑去噪，减少边界框不稳定带来的误差。如图5所示，经过卡尔曼滤波平滑后，转换轨迹较为平滑。

S312、判断多个转换轨迹是否满足融合条件，若多个转换轨迹满足融合条件，则基于多个转换轨迹确定若干候选轨迹，将所述若干候选轨迹分别作为转换轨迹，并重复执行上述判断多个转换轨迹是否满足融合条件的过程，直至多个转换轨迹不满足所述融合条件，将不满足所述融合条件的多个转换轨迹作为多个目标轨迹。

其中，所述融合条件包括：所述多个转换轨迹中存在任意两个转换轨迹之间的轨迹相似度大于阈值。

具体地，计算任意两个转换轨迹之间的轨迹相似度，所述轨迹相似度可以通过欧基里得距离和余弦距离表示，也就是通过距离和角度反映轨迹相似度。若存在任意两个转换轨迹之间的轨迹相似度大于阈值，则将所述任意两个转换轨迹融合，得到候选轨迹，再将候选轨迹作为转换轨迹，如此循环，直至多个转换轨迹中不存在任意两个转换轨迹之间的轨迹相似度大于阈值，将不满足所述融合条件的多个转换轨迹作为多个目标轨迹。

在计算多个转换轨迹中存在任意两个转换轨迹之间的轨迹相似度时，不区分初始身份标识，计算不同初始身份标识的任意两个转换轨迹之间的轨迹相似度，也计算同一初始身份标识的任意两个转换轨迹之间的轨迹相似度，可以避免因为外观相似被误分配为同一目标的情况。

S312、确定所述多个目标轨迹的目标身份标识，其中，每个目标轨迹的目标身份标识互不相同。

具体地，多个目标轨迹分别是不同目标的轨迹，为每个目标的目标轨迹配置目标身份标识。

本实施例中，通过已训练的目标检测模型检测每个视角的多个位置信息和多个类别标识，基于每个视角的多个位置信息和多个类别标识，进行多视角多目标跟踪处理，得到每个视角的多个初始轨迹，再根据多个初始轨迹确定多个目标的目标轨迹，为每个目标轨迹配置目标身份标识。在基于每个视角的多个位置信息和多个类别标识，进行多视角多目标跟踪处理时，根据每个位置信息的类别标识，只需要对同一类别标识的位置信息进行跨视角关联，不需要对不同类别标识的位置信息进行跨视角关联，通过增加类别标识，提高了多视角多目标跟踪的效率。通过任意两个初始轨迹之间的相似度，进一步区分不同或相同的目标，避免了因为外观相似被误分配为同一目标的情况。

所述多视角多目标的跟踪方法可以应用在运动场中，例如在足球场中，跟踪运动员、裁判员、足球等目标的目标轨迹，所述多视角多目标的跟踪方法可以应用与仓库中，跟踪工作人员、推车等目标的目标轨迹。以所述多视角多目标的跟踪方法应用于仓库为例进行说明，所述方法，包括：

100、获取仓库区域内部署的多个摄像头拍摄的多个监控视频；每个摄像头与至少一个其他摄像头的视场角部分重叠，多个监控视频是不同视角下的视频，多个监控视频的时间段一致。在此实施例中，在仓库区域内部署3个不同视角的摄像头，以获取不同视角的3个监控视频，3个摄像头分别位于：仓库门右侧、仓库门外正面，以及仓库门前。

200、根据不同视角的多个监控视频和已训练的目标检测模型，确定每个视角的多个位置信息和多个类别标识。

多个类别标识包括：人、叉车、堆垛、托盘分别对应的标识。得到的每个视角的多个位置和多个类别标识的可视化结果如图6所示。

其中，所述已训练的目标检测模型是基于不同视角的训练视频集，以及每个训练集的多个参考标识和多个参考位置信息，训练目标检测模型，直至训练完成得到的。不同视角的训练视频集通过仓库区域内部署的不同视角的摄像头获取，多个参考标识包括：人、叉车、堆垛、托盘分别对应的标识。

300、基于每个视角的多个位置信息和多个类别标识，通过多视角多目标跟踪算法，确定每个视角的多个初始轨迹。

将多个位置信息和多个类别识别输入已训练的特征提取器，得到每个视角的多个表观特征，再对每个视角的多个表观特征进行跨视角关联，得到每个视角下的多个初始轨迹。每个视角下的多个初始轨迹的两种可视化结果如图7所示。

400、基于每个视角的多个初始轨迹确定多个目标的目标轨迹，并为每个目标轨迹配置目标身份标识。

将每个视角的多个初始轨迹转换至世界坐标系下，得到多个转换轨迹。判断多个转换轨迹中是否存在任意两个转换轨迹之间的相似度大于阈值，判定相似度大于阈值的两个转换轨迹对应同一目标，将相似度大于阈值的两个转换轨迹融合，得到候选轨迹，再将候选轨迹作为转换轨迹，如此循环，直至多个转换轨迹中不存在任意两个转换轨迹之间的轨迹相似度大于阈值，得到多个目标轨迹。

在计算多个转换轨迹中存在任意两个转换轨迹之间的轨迹相似度时，不区分初始身份标识，计算不同初始身份标识的任意两个转换轨迹之间的轨迹相似度，也计算同一初始身份标识的任意两个转换轨迹之间的轨迹相似度，可以避免由于外观相似被误分配为同一目标的情况。外观相似的目标如图8所示。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的多视角多目标的跟踪方法的多视角多目标的跟踪装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个多视角多目标的跟踪装置实施例中的具体限定可以参见上文中对于多视角多目标的跟踪方法的限定，在此不再赘述。

在一个实施例中，如图9所示，提供了一种多视角多目标的跟踪装置，包括：检测模块、跟踪模块和轨迹确定模块，其中：

在一个实施例中，所述检测模块包括：预处理单元、检测单元和后处理单元，其中：

所述预处理单元，用于对所述多个视频进行预处理，得到多个预处理视频；

所述检测单元，用于将多个预处理视频输入至已训练的目标检测模型，通过所述已训练的目标检测模型输出不同视角的多个候选位置信息和多个类别标识；

所述后处理单元，用于对所述多个候选位置信息进行非极大值抑制处理，得到不同视角的多个位置信息。

在一个实施例中，所述跟踪模块包括：特征提取单元和跨视角关联单元，其中：

特征提取单元，用于基于每个视角的多个位置信息和多个类别标识，通过多视角多目标跟踪算法中已训练的特征提取器，确定每个视角的多个表观特征，其中每个表观特征携带有类别标识；

跨视角关联单元，用于通过所述多视角多目标跟踪算法，对所述每个视角的多个表观特征进行跨视角关联处理，得到每个视角下的多个初始轨迹。

在一个实施例中，所述已训练的特征提取器，是基于不同视角下的多个训练数据集，以及每个训练数据集的多个参考表观特征，通过圆损失函数对特征提取器进行训练，直至训练完成后得到的。

在一个实施例中，所述轨迹确定模块包括：映射单元、融合单元和身份标识确定单元，其中：

映射单元，用于将每个视角的多个初始轨迹转换至世界坐标系下，得到每个视角的多个转换轨迹；

融合单元，用于判断多个转换轨迹是否满足融合条件，若多个转换轨迹满足融合条件，则基于多个转换轨迹确定若干候选轨迹，将所述若干候选轨迹分别作为转换轨迹，并重复执行上述判断多个转换轨迹是否满足融合条件的过程，直至多个转换轨迹不满足所述融合条件，将不满足所述融合条件的多个转换轨迹作为多个目标轨迹；

身份标识确定单元，用于确定所述多个目标轨迹的目标身份标识，其中，每个目标轨迹的目标身份标识互不相同。

所述融合条件包括：所述多个转换轨迹中存在任意两个转换轨迹之间的轨迹相似度大于阈值。

上述多视角多目标的跟踪装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种多视角多目标的跟踪方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：所述基于所述多个视频和已训练的目标检测模型，确定每个视角的多个位置信息和多个类别标识，包括：

对所述多个视频进行预处理，得到多个预处理视频；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：所述基于每个视角的多个位置信息和多个类别标识，通过多视角多目标跟踪算法，确定每个视角的多个初始轨迹，包括：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：所述已训练的特征提取器，是基于不同视角下的多个训练数据集，以及每个训练数据集的多个参考表观特征，通过圆损失函数对特征提取器进行训练，直至训练完成后得到的。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：所述基于每个视角的多个初始轨迹确定多个目标的目标轨迹，并为每个目标轨迹配置目标身份标识，包括：

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

所述基于所述多个视频和已训练的目标检测模型，确定每个视角的多个位置信息和多个类别标识，包括：

对所述多个视频进行预处理，得到多个预处理视频；

所述基于每个视角的多个位置信息和多个类别标识，通过多视角多目标跟踪算法，确定每个视角的多个初始轨迹，包括：

所述已训练的特征提取器，是基于不同视角下的多个训练数据集，以及每个训练数据集的多个参考表观特征，通过圆损失函数对特征提取器进行训练，直至训练完成后得到的。

所述基于每个视角的多个初始轨迹确定多个目标的目标轨迹，并为每个目标轨迹配置目标身份标识，包括：

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

对所述多个视频进行预处理，得到多个预处理视频；

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种多视角多目标的跟踪方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述多个视频和已训练的目标检测模型，确定每个视角的多个位置信息和多个类别标识，包括：

对所述多个视频进行预处理，得到多个预处理视频；

3.根据权利要求1所述的方法，其特征在于，所述基于每个视角的多个位置信息和多个类别标识，通过多视角多目标跟踪算法，确定每个视角的多个初始轨迹，包括：

4.根据权利要求3所述的方法，其特征在于，所述已训练的特征提取器，是基于不同视角下的多个训练数据集，以及每个训练数据集的多个参考表观特征，通过圆损失函数对特征提取器进行训练，直至训练完成后得到的。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述基于每个视角的多个初始轨迹确定多个目标的目标轨迹，并为每个目标轨迹配置目标身份标识，包括：

6.根据权利要求5所述的方法，其特征在于，所述融合条件包括：所述多个转换轨迹中存在任意两个转换轨迹之间的轨迹相似度大于阈值。

7.一种多视角多目标的跟踪装置，其特征在于，所述装置包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。