CN111476827A

CN111476827A - 目标跟踪方法、系统、电子装置及存储介质

Info

Publication number: CN111476827A
Application number: CN201910067939.2A
Authority: CN
Inventors: 曹志杰; 吴旻烨; 张力
Original assignee: Yaoke Intelligent Technology Shanghai Co ltd
Current assignee: Yaoke Intelligent Technology Shanghai Co ltd
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2020-07-31
Anticipated expiration: 2039-01-24
Also published as: CN111476827B

Abstract

本申请的目标跟踪方法、系统、电子装置及存储介质，针对多相机系统采集的图像数据，通过目标检测模型对图像数据作目标检测，以形成边界框；根据框选图像区域得到特征向量，并将所提取的特征向量在样本集中匹配相似样本簇，并令该边界框关联至相似样本簇对应的目标类别；从多个相机采集的每个时刻的图像帧组中得到各边界框，并利用对应于同一目标上同一参考点的各边界框中点具有相同世界坐标特性，得到每组备选世界坐标；利用对应同一目标的每组备选世界坐标获取该同一目标的每个唯一世界坐标；根据每个目标在不同时刻的唯一世界坐标形成行动轨迹；本申请通过多相机配合目标检测及重识别降低遮挡干扰，得到连续精确的多目标的行动轨迹。

Description

目标跟踪方法、系统、电子装置及存储介质

技术领域

本申请涉及目标追踪技术领域，尤其涉及目标跟踪方法、系统、电子装置及存储介质。

背景技术

行人识别以及跟踪技术是计算机视觉常用应用之一，在自动驾驶，行人定位，监控行人轨迹等多个领域都有应用价值。在视频监控方面，精确的多行人跟踪技术，可以确定某个人在某个时间段在某地的移动轨迹，这对商业上分析顾客的行为趋向，客流量变化，或者安防领域分析罪犯的作案手段等都能提供很大的帮助。

近年来，关于行人跟踪的专利，有基于传统的视觉检测算法以及相似度度量方法进行行人跟踪的，有基于深度学习相关算法做行人跟踪的，但是大多基于单相机或者只是单行人跟踪，实际应用价值不高。众所周知，深度学习为计算机视觉性能上带来了巨大的提升，因此基于深度学习的行人检测以及行人特征表达的方式相比于传统的计算机视觉检测算法，优势十分明显，可以实现更精确的行人检测和定位。而基于深度学习相关检测方法的行人跟踪技术，大多只是实现了单相机下的行人检测以及跟踪，但是单相机很难处理遮挡的问题，容易因为遮挡而丢失行人的后续轨迹。

发明内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供目标跟踪方法、系统、电子装置及存储介质，解决现有技术的目标追踪技术的各种问题。

为实现上述目标及其他相关目标，本申请提供一种目标跟踪方法，用于分析多相机系统采集的图像数据实现；所述方法包括：通过目标检测模型对图像数据作目标检测，以形成在图像数据中框选每个目标的边界框；利用目标重识别模型对每个边界框所框选图像区域进行特征提取得到特征向量，并将所提取的特征向量在样本集中匹配相似样本簇，并令该边界框关联至相似样本簇对应的目标类别；从由多相机系统中已标定的多个相机采集的每个时刻的图像帧组中得到各边界框，并利用对应于同一目标上同一参考点的各边界框中的对应点具有唯一世界坐标系下的相同世界坐标的特性，得到一或多个备选世界坐标，以构成对应每个目标的一组备选世界坐标；利用对应同一目标的每组备选世界坐标获取该同一目标的每个唯一世界坐标；根据每个目标在不同时刻的图像帧所得到的每个唯一世界坐标形成每个目标的行动轨迹。

于一实施例中，所述目标检测模型通过YOLO v1～v3、R-CNN、及SSD相关模型中的一种或多种实现。

于一实施例中，所述目标检测模型是利用标记有对应不同目标类别的参考标准边界框的训练数据集的；在训练过程中，所述目标检测模型对于不同目标类别采用不同的全连接层和softmax层的参数，对于相同的目标类别采用相同的全连接层和softmax层参数。

于一实施例中，所述边界框包括多个属性值，所述多个属性值包括：边界框位置信息、及置信度；所述置信度表示预测的边界框的位置信息与参考标准间的重叠程度；所述深度信息模型包括：用于预测边界框相关的目标类别以及位置信息的边界框损失函数。

于一实施例中，所述边界框损失函数包含：关于含有目标的预测的边界框的位置信息的第一项、关于含有目标的预测的边界框的置信度的第二项、关于不含有目标的预测的边界框的置信度的第三项、及特征向量中每一个单元格的目标类别判断的第四项。

于一实施例中，所述目标重识别模型包括：基于深度学习的残差神经网络模型。

于一实施例中，所述残差神经网络模型是通过重识别损失函数训练；所述重识别损失函数为三元组损失函数，其包含正样本和锚样本的第一差异项、及锚样本和负样本的第二差异项；所述锚样本、正样本、及负样本皆为通过所述目标重识别模型根据训练数据得到的特征向量；其中，所述锚样本和正样本是来自同一目标的特征向量，负样本和锚样本是来自不同目标的特征向量；所述重识别损失函数包含或不包含用于扩大正样本和负样本之间差异的第三差异项。

于一实施例中，所述第一差异项、第二差异项和第三差异项通过余弦差异度量。

于一实施例中，所述将所提取的特征向量在样本集中匹配相似样本簇，并令该边界框关联至相似样本簇对应的目标类别，包括：计算表示所述特征向量与获取自各样本簇的平均特征向量的差异值；将差异值最小的样本簇作为该相似向本簇，且将差异值大于阈值的作为属于不同目标类别的样本簇。

于一实施例中，所述的方法，包括：在源于同一帧图像中的不同特征向量匹配于同一相似样本簇的情况下，将判定该相似样本簇同与其差异最小的特征向量匹配。

于一实施例中，每个所述备选世界坐标是通过至少两个已标定相机的内参、外参、及在同一时刻由该至少两个相机所拍摄图像帧中框选同一目标的边界框中参考点的图像坐标所计算。

于一实施例中，所述的方法，包括：通过至少前两个图像帧中的边界框的参考点的图像坐标变化计算该目标的移动速度，用于预测下一图像帧中的预测参考点的预测图像坐标及对应的预测世界坐标；所述利用对应同一目标的每组备选世界坐标获取该同一目标的每个唯一世界坐标，通过第一分支流程实现；所述第一分支流程包括：在一目标属于已知目标分类的情况下，通过对应的一组备选世界坐标进行第一判断：判断是否存在至少三个以上的相机拍摄到该目标；若第一判断结果为是，则进行第二判断：判断其中是否每两个备选世界坐标之间的差异都小于预设阈值；若第二判断结果为是，则以该组备选世界坐标的均值或任意两个备选世界坐标的均值作为唯一世界坐标，并据以执行对每个相机的目标分类判断检查；若第二判断结果为否，则进行第三判断：判断与当前图像帧中预测参考点的预测世界坐标最接近的备选世界坐标间的差异是否小于预设阈值；若第三判断结果为是，则以该预测世界坐标及其最接近的备选世界坐标的均值作为唯一世界坐标，并据以执行对每个相机的目标分类判断检查；若第三判断结果为否，则以所述预测世界坐标作为唯一世界坐标，并据以执行对每个相机的目标分类判断检查；若第一判断结果为否，则进行第四判断：判断存在两个相机或一个相机拍摄到该目标；若根据第四判断得到存在两个相机的结果，则进行所述第三判断，以得到唯一世界坐标，并据以执行对每个相机的目标分类判断检查；若根据第四判断得到存在一个相机的结果，则以所述预测世界坐标作为唯一世界坐标，并据以执行对每个相机的目标分类判断检查；

或者，

所述利用对应同一目标的每组备选世界坐标获取该同一目标的每个唯一世界坐标，通过第二分支流程实现；所述第二分支流程包括：在一目标未有已知目标分类的情况下，通过对应的一组备选世界坐标进行所述第一判断；若第一判断结果为是，则进行所述第二判断；若第二判断结果为是，则以该组备选世界坐标的均值或任意两个备选世界坐标的均值作为唯一世界坐标，并据以执行对每个相机的目标分类判断检查；若第二判断结果为否，则以该组备选世界坐标的均值作为唯一世界坐标；若第三判断结果为是，则以该预测世界坐标及其最接近的备选世界坐标的均值作为唯一世界坐标；若第三判断结果为否，则以所述预测世界坐标作为唯一世界坐标；若第一判断结果为否，则进行第四判断：判断存在两个相机拍摄到该目标；若根据第四判断得到存在两个相机的结果，则进行所述第三判断，以得到唯一世界坐标；若根据第四判断得到存在一个相机的结果，则以所述预测世界坐标作为唯一世界坐标；

其中，所述目标分类判断检查包括：将唯一世界坐标从世界坐标系转换回各个相机的原图像帧的图像坐标系中，并判断是否符合条件：转换后的图像点与原图像帧中的一边界框的参考点间差异小于预设阈值，且对应的目标分类一致；若符合，则不进行修正；若所述差异小于预设阈值而不属于同一目标分类，则将该参考点对应的边界框修正为关联于所述唯一世界坐标所属的目标分类。

于一实施例中，所述样本集是可更新的，所述更新包括以下中的一或多种：1)将对应新目标分类的边界框或其特征向量作为新样本，并加入至样本集中作为该新样本归属而新建的样本簇中；2)对于出现的样本集中已有目标分类的新样本，如果样本集中对应该已有目标分类的样本簇未满，则加入该新样本；3)对于出现的样本集中已有目标分类的新样本，如果样本集中对应该已有目标分类的样本簇已满，则在该已有目标分类的样本簇中的各样本及所述新样本所形成集合中，计算其中每一个样本与由其它各样本所组子集的差异，并剔除差异最小的样本而保存其它各样本于该样本簇；4)对于样本集中预定时间内未出现的目标分类的样本簇加以剔除。

为实现上述目标及其他相关目标，本申请提供一种目标跟踪系统，包括：目标检测模块，用于通过目标检测模型对图像数据作目标检测，以形成在图像数据中框选每个目标的边界框；重识别模块，用于利用目标重识别模型对每个边界框所框选图像区域进行特征提取得到特征向量，并将所提取的特征向量在样本集中匹配相似样本簇，并令该边界框关联至相似样本簇对应的目标类别；坐标转换模块，用于从由多相机系统中已标定的多个相机采集的每个时刻的图像帧组中得到各边界框，并利用对应于同一目标上同一参考点的各边界框中的对应点具有唯一世界坐标系下的相同世界坐标的特性，得到一或多个备选世界坐标，以构成对应每个目标的一组备选世界坐标；坐标运算模块，用于利用对应同一目标的每组备选世界坐标获取该同一目标的每个唯一世界坐标；结果输出模块，用于根据每个目标在不同时刻的图像帧所得到的每个唯一世界坐标形成每个目标的行动轨迹。

为实现上述目标及其他相关目标，本申请提供一种电子装置，包括：至少一收发器，耦接多相机系统；至少一存储器，用于存储计算机程序；至少一处理器，耦接所述收发器及存储器，用于运行所述计算机程序以执行所述的方法。

于一实施例中，所述电子装置与多相机系统集成在一图像设备中；或者，所述电子装置与多相机系统通过局域网络和/或广域网络通信连接；和/或，所述多相机系统为相机阵列形式。

为实现上述目标及其他相关目标，本申请提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被运行时执行所述的方法。

如上所述，本申请的目标跟踪方法、系统、电子装置及存储介质，针对多相机系统采集的图像数据，通过目标检测模型对图像数据作目标检测，以形成在图像数据中框选每个目标的边界框；利用目标重识别模型对每个边界框所框选图像区域进行特征提取得到特征向量，并将所提取的特征向量在样本集中匹配相似样本簇，并令该边界框关联至相似样本簇对应的目标类别；从由多相机系统中已标定的多个相机采集的每个时刻的图像帧组中得到各边界框，并利用对应于同一目标上同一参考点的各边界框中的对应点具有唯一世界坐标系下的相同世界坐标的特性，得到一或多个备选世界坐标，以构成对应每个目标的一组备选世界坐标；利用对应同一目标的每组备选世界坐标获取该同一目标的每个唯一世界坐标；根据每个目标在不同时刻的图像帧所得到的每个唯一世界坐标形成每个目标的行动轨迹；利用多相机配合行人检测及重识别能有效降低目标遮挡的干扰，得到连续精确的多目标行动轨迹。

附图说明

图1显示为本申请实施例中的目标追踪方法的流程示意图。

图2显示为本申请实施例中的目标检测结果的图像示意图。

图3显示为本申请实施例中的第一分支流程的流程示意图。

图4显示为本申请实施例中的第二分支流程的流程示意图。

图5显示为本申请实施例中的目标追踪系统的模块示意图。

图6显示为本申请实施例中的电子装置的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

针对现有的目标追踪的缺陷，本文提出通过对多相机系统所拍摄的多角度的各帧图像进行分析以实现多个或单个目标追踪的方案。

其中，所述多相机系统指的是将多个相机加以组合，以构成的对同一场景进行拍摄的拍摄装置，所述多相机系统的结构可以例如是相机阵列，例如排布在同一支架上的一行相机、一列相机、或M行*N列的相机，当然，相机阵列未必是方阵形式，也可以呈现例如圆形、三角形或其它各种形状。

需说明的是，在其它实施例中，所述多相机系统的排布结构也可以是由相互独立地设于场景不同方位的多个相机组成，也能实现本申请的方案；然，相机阵列形式的优点在于，其中的每个相机的标定参数(内参、外参)可以是相互近似或相同的，相比于独立的多相机来讲，在运算时会简单很多，尤其在多相机系统可以运动(例如转动、平移)的时候。

通过多相机系统中的多个相机从不同角度去拍摄追踪目标的图像，通过图像分析以定位该跟踪目标，能实现较好地呈现追踪目标在各角度的信息，也能避免某些相机视角下跟踪目标被遮挡而导致跟踪目标丧失的问题。

在一些实施例中，所需追踪的目标可以例如为行人、动物或其他如车等移动物体。

如图1所示，展示本申请实施例中提供的目标追踪方法的流程示意图。

所述方法应用于与多相机系统相关的电子装置。在一些实施例中，所述电子装置可以独立于多相机系统以外而与多相机系统耦接的处理终端，如台式电脑、笔记型电脑、智能手机、平板电脑或其它具有处理能力的终端；在一些实施例中，所述多相机系统和电子装置也可以作为部件集成在一起，作为一个产品，例如光场相机，则所述电子装置可以是该光场相机中的电路实现，该电路附着于光场相机中的一或多个电路板上；在一些实施例中，各所述相机之间也可以耦接，所述电子装置也可以由每个所述相机中的电路协同工作实现。

所述多相机系统中的每个相机同步拍摄，并可以每次各相机拍摄到的各图像帧作为一图像帧组。

举例来说，多相机系统中的N个相机在t时刻进行同步拍摄，得到I₁～I_N分别为N个相机所采集的图像帧，则对应的图像帧组表示为I_i，i＝1，…，N。

所述方法，通过分析该多相机系统采集的图像数据实现；本实施例中，所述方法具体包括：

步骤S101：通过目标检测模型对图像数据作目标检测，以形成在图像数据中框选每个目标的边界框(Bounding Box)。

于一实施例中，所述目标检测模型可以通过YOLO v1～v3、R-CNN、及SSD相关模型中的一种或多种实现。

举例来说，所述目标检测模型可以是YOLOv3中的Darknet-53网络模型，其输入为尺寸调整至416×416当前图像帧的图像，输出为13×13的特征图。该网络大量采用残差模块，加深了网络结构层次并保证了模型在层次很深的情况下仍能收敛，从而保证了行人检测的精确率。除此之外，残差模块中采用1×1的卷积，减少了卷积操作时的通道数，模型的参数数量和计算量也大大减少，保证了行人检测的实时性。

针对特征图中每一个单元格，需要预测多个不同尺度的边界框和该单元格属于行人类别的概率p。

于一实施例中，所述边界框包括多个属性值，所述多个属性值包括：边界框位置信息、及置信度，其中，边界框位置信息一般包含边界框中心点的坐标数据，宽、高的尺寸数据等；所述置信度表示预测的边界框的位置信息与参考标准间的重叠程度；所述深度信息模型包括：用于预测边界框相关的目标类别以及位置信息的边界框损失函数。

举例来说，就每一个边界框而言，需要预测它的五个属性值(x，y，w，h，C)，其中x，y为边界框的中心与给定单元格边界的相对值，w，h为边界框的宽度及高度相对于整幅图像的宽度及高度的比例，C为置信度(confidence)且其值为该预测边界框与真实行人边界框的重叠度(IoU)。为了能够同时兼顾类别预测和行人边界框位置预测，需要构造损失函数。

举例来说，例如在YOLO目标检测模型中，该边界框损失函数的公式可以见下式：

L＝L_coord+L_nocon+L_obcon+L_class；

对应前述，在本实施例中，该损失函数由四项组成：

(1)坐标预测L_coord：计算含有目标的边界框坐标的损失值，其中宽高都进行开根运算是为了让存在相同宽高偏差的小尺寸边界框产生更大的损失值；其中，S²表示单元格数量，B表示每一个单元格负责的目标个数；i＝0,...,S²，表示每一个单元格的索引值；j＝0,...,B，表示每一个边界框预测值；l^obj的含义为：如果单元格i中存在目标，l＝1，则第j个边界框预测值对该预测有效；如果单元格i中不存在目标，l＝0。

(2)不含目标的置信度预测L_nocon:计算不含有目标的预测边界框置信度的损失值，通常乘以一个常数λ_nocon来控制正负样本的比例；l^noobj的含义与l^obj相反。

(3)含目标的置信度预测L_obcon：计算含有目标的预测边界框置信度的损失值；；

(4)类别预测L_class：计算每一个单元格的目标判断的损失值；其中，小c为类别，p为概率值，classes为类别的集合。

另外，于一实施例中，所述目标检测模型的训练可以是基于公开数据集完成的，例如基于PASCAL VOC 2012数据集、COCO数据集等进行同时或不同时的训练，这些数据集都标记了众多不同类别的边界框。

训练时，输入是经过尺寸调整的图像及其真实对应的边界框的位置坐标，输出是预测得到的边界框的位置坐标以及置信度。

预测时，实时地将相机画面图片输入至训练好的目标检测模型，便会检测得到该画面所有的边界框，为后续的目标重识别步骤奠定了良好的基础。

步骤S102：利用目标重识别模型对每个边界框所框选图像区域进行特征提取得到特征向量。

可以理解的是，目标重识别技术主要用在目标检测出来之后，用一定的特征向量去描述每个边界框的内容，不同目标的特征向量必不同，这样便可以区别不同的目标，以及确定不同图像帧中检测出来的两个边界框是否是同一个人。

因此，目标重识别技术主要在于对边界框中目标的特征描述，以及如何判断两个目标是否为同一个人的度量方法。

于一实施例中，所述目标重识别模型包括：基于深度学习的残差神经网络模型，基于深度学习的残差神经网络(ResNet)去提取边界框的特征，即用特征向量(也可以简称特征)去表示一个目标的边界框。

选择残差神经网络提取特征，是因为ResNet在各种分类，检测等视觉领域都是十分出色的特征提取网络，它采用前馈的机制，让信息得到更好的保留。残差神经网络的输入是通过目标检测获得的边界框，然后经过神经网络的计算，将在神经网络的最后输出端获得一个1x2048维的单位特征向量。

然后，可以用例如欧氏距离或余弦距离等度量的方式去判断两个边界框的特征向量的相似度，以此来判断两个边界框是否代表同一个人。

所述残差神经网络是经过训练的，使得网络输出的特征向量具有区分度。

具体的，残差神经网络的训练也可以是基于公开数据集进行的，例如基于Market1501、以及DukeMTMC_ReID数据集等，这两大数据集都是在多相机视频中截取出来的边界框，以及描述了每个边界框的目标分类即ReID(也可以称为目标标签)，然后根据这些数据，来训练我们的目标重识别模型。

训练的目的是为了让相同目标分类(可以通过同一个人的不同边界框的特征向量来表征)更为接近，而不同的人的边界框的特征向量则差异较大。神经网络的训练本身是一个优化问题，要有一个待优化的函数，称之为损失函数(lossfunction)，需要在损失函数中体现特征向量相似度的特性，以此在损失函数被优化的同时，提取的特征向量才能达到我们的目的。

于一实施例中，所述残差神经网络模型是通过重识别损失函数训练；所述重识别损失函数为三元组损失函数，其包含正样本和锚样本的第一差异项、及锚样本和负样本的第二差异项；所述锚样本、正样本、及负样本皆为通过所述目标重识别模型根据训练数据得到的特征向量；其中，所述锚样本和正样本是来自同一目标的特征向量，负样本和锚样本是来自不同目标的特征向量；所述重识别损失函数包含或不包含用于扩大正样本和负样本之间差异的第三差异项。具体的，所述第一差异项、第二差异项和第三差异项可以通过余弦距离度量。

举例来讲，所述重识别损失函数可如下式所示：

训练时，每次可以将3个边界框作为一个三元组，每个三元组可以用网络提取3个特征向量，其中第一个边界框我们称为锚样本(anchor)，即上式中的T(a)，正样本(positive)，以及负样本(negative)，正样本是与锚样本同一个人的边界框，而负样本则是与锚样本不同人的边界框，然后我们计算正样本与锚样本之间的距离D_a,T(a),负样本与锚样本之间的距离D_a,n，m代表一定间距，确保负样本距离要与正样本之间距离拉开一定距离；上式中，[]+代表取正运算，如果[]中为正，就保留原值，为负就取0，最后我们将多个这样的三元组作为一个批次，计算一个批次所有三元组的[]₊值求和，作为L_push(θ),最后根据L_push(θ)，利用反向传播机制去更新残差神经网络。

需说明的是，该m的作用为，训练完毕之后，不同人的边界框提取的特征向量之间的距离要比同一个人的边界框提取的特征向量之间的距离大至少一个m的值，这样就可以区分是否为同一个人。

步骤S103：将所提取的特征向量在样本集中匹配相似样本簇，并令该边界框关联至相似样本簇对应的目标类别。

在前述实施例中，有说明重识别采用残差神经网络对每个目标的边界框提取了特征向量，在本实施例中，说明如何用特征向量去衡量两个边界框的相似度。

由于残差神经网络提取的特征向量是归一化的单位向量，又属于高纬度的向量，在计算特征向量的相似度时，相比于欧式距离，采用余弦距离度量的效果更好。

两个特征向量的夹角余弦值计算方法如下：

dis(α,β)＝1-cosθ＝1-α*β；

即对于单位向量来说，夹角余弦为两者乘积，当两者越接近，余弦值越大，接近于1，而当两者差异越大，夹角越大，则夹角余弦越小，接近于0，为了迎合不同目标分类的特征向量距离大于同一个人特征向量距离的概念，在上式中用1-cosθ作为距离。

在通过目标重识别技术获得了每个边界框的特征向量，以及定义了向量相似度衡量方法之后，基于此去确定每个边界框归属的目标分类(ReID)。其中，可选的，可以借鉴人脸识别的方法，将确定目标分类的方法转化为去某个数据库中寻找与待确定的边界框最接近的一类的目标分类，并以此去确定待确定的边界框的目标分类的方法。

该数据库中存储样本集(Samples)，样本集中包含关联于历史图像帧中出现过的目标分类(例如行人A，行人B)的边界框的特征向量，对应每个目标分类可以分配有存储空间，以供存储关联的样本(可以是边界框，即边界框框选的图像区域的数据；也可以是据以得到的特征向量)，同一个目标分类的几个样本组成一个样本簇，那么确定某个边界框所关联的目标分类就变成了用它或它的特征向量在样本集中进行搜索，以确定应当归为哪个样本簇的过程。

可以理解的是，为逐渐提升准确率，在新样本产生时，可能会加入至样本集中，然由于存储空间有限，每个样本簇的特征向量不超过一定数量，那么势必要剔除一些质量相对较差的样本。

具体的，所述样本集的更新可以包括以下中的一种或多种：

所述更新包括以下中的一或多种：

1)将对应新目标分类的边界框或其特征向量作为新样本，并加入至样本集中作为该新样本归属而新建的样本簇中；

2)对于出现的样本集中已有目标分类的新样本，如果样本集中对应该已有目标分类的样本簇未满，则加入该新样本；

3)对于出现的样本集中已有目标分类的新样本，如果样本集中对应该已有目标分类的样本簇已满，则在该已有目标分类的样本簇中的各样本及所述新样本所形成集合中，计算其中每一个样本与由其它各样本所组子集的差异，并剔除差异最小的样本而保存其它各样本于该样本簇；

举例来说，差异D运算原理如下：给定样本w，其它各样本组成的子集V＝[v1,v2,…vn]，线性系数A＝[a1,a2,…an]，正则约束系数λ。其中w，V，λ都已确定，A未知。

通过损失函数来确定A：

A^*＝argmin||w-AV||₂+λ||A||₂

若剔除的是新样本，说明无需进行插入操作；若剔除的是已有样本簇中的样本，则可按照上式计算历史记录中被判断为该目标分类的样本簇中各个已有样本与插入新样本后的样本子集之间的差异；若该差异小于设定的阈值，说明不会对历史判断产生非常大的影响，则可以新样本的插入替换；反之，则不能进行新样本的插入替换。

4)对于样本集中预定时间内未出现的目标分类的样本簇加以剔除。

样本集如果只插入不剔除，它必将无限扩张，导致确定边界框归属的目标分类的速度会越来越慢。为了解决这一问题，可以通过对预定时间内未出现的目标分类给予剔除，保证了实时性。

举例来说，在x分钟/小时/天/周/月/年内，始终没有特征向量在比对时被判定为归属于目标分类A相关的样本簇A1，则可以删除A1。

关于通过样本集和特征向量的比对，于一实施例中，样本集可以是多相机系统中的多个相机共用的，即每个相机下某个图像帧中的某个边界框都可以在此样本集进行检索。

当一个新检测出来的边界框需要确定归属的目标类型时，可以通过确定该边界框的对应特征向量与哪个样本簇的平均特征向量差异最小，来代表与该边界框的特征向量最相似的样本簇。

例如通过以下公式表示：

D(y,V)＝＜y,norm(Va)＞；

y是某个边界框的特征向量，V＝[v1,v2,…vk]是样本集中某个样本簇，由k个特征向量构成，a＝[a1,a2,,,ak]是一个权重向量，Va代表了[v1,v2…vk]的线性组合，通过第一个公式的最小化，计算出a，然后带入第二个公式即可计算出y和样本簇V的余弦距离，<·>表示两个向量的余弦值，norm(Va)表示将向量Va单位化。

余弦值(-1～1)越大(即距离越趋近于1)，两者间的差异越小；将这个距离与某个预设阈值相比较，如果大于预设阈值，则认为该边界框所属目标分类就是对应的样本簇的目标分类；如果不小于预设阈值，那么就认为该边界框的特征向量与样本集中每个样本簇都不接近，属于新的目标分类，则分配新的目标分类ReID，并在样本集中新建一个相应的样本簇。

另外，于一实施例中，由于同一帧图像中的多个边界框不可能属于不同目标类型，则对于出现此类冲突结果时，可以采用以下方式解决冲突。

当同一帧图像中的多个边界框都与同一样本簇最相似，则选择最相似的边界框归属于该样本簇对应的目标分类，如果仅有两个边界框冲突，则剩余的一个归属于与其次相似的样本簇对应的目标分类；如果剩余仍有两个以上边界框冲突，则可以通过相同的方式逐个解决上述冲突。

举例来说，当同一帧图像中的两个边界框，假定为A与B，都与样本集中某个样本簇C最相似，假设该样本簇关联于ReID 3，那么，比较A与B谁与C更接近，假设是A，则A标记ReID3，而B次相似的样本簇D关联于ReID 4，则对B标记ReID 4；同理，如果B还与其它边界框冲突，采用相同方式进行解决，直至没有边界框冲突为止。

步骤S104：从由多相机系统中已标定的多个相机采集的每个时刻的图像帧组中得到各边界框，并利用对应于同一目标上同一参考点的各边界框中的对应点具有唯一世界坐标系下的相同世界坐标的特性，得到一或多个备选世界坐标，以构成对应每个目标的一组备选世界坐标。

在确定了某个时刻某个相机视频帧中的边界框的ReID，单相机中根据相同ReID属于同一个人的概念，可以确定并绘制出单相机下的目标轨迹。但是，单相机存在目标因遮挡引起的轨迹不连续问题，以及有些角度的算法检测误差较大的问题，而多相机系统(例如光场相机阵列)的多相机性质可以有效弥补这个问题，当某个相机下因为遮挡而看不见某人，在其他相机却仍旧可以看到。

利用光场相机的几何特性，每两个相机可以利用彼此的几何关系，可以将各自画面中的每个边界框由2D的图像坐标，根据光场相机的多相机约束利用三角定位的方法映射到3D的空间坐标，相当于获得了目标此时的世界坐标。

通过至少两个已标定相机的内参(焦距相关的内参矩阵，畸变矩阵等)、外参(旋转矩阵、平移矩阵)、及在同一时刻由该至少两个相机所拍摄图像帧中框选同一目标的边界框中参考点的图像坐标所计算

举例来说，如图2所示，展示根据某两个相机的图像获得的各个目标的边界框的显示效果，且以每个边界框的中心为参考点(x，y)。

于一实施例中，假设两个相机的同一时刻的图像帧相同ReID的边界框的中心坐标分别为(x1,y1)，(x2,y2),则可以用这两个相机计算出该ReID对应目标世界坐标(X,Y,Z)，根据以下公式：

公式中的，K代表内参矩阵，T表示相机的外参矩阵，这都是标定好的光场相机阵列提供的，x1,y1,x2,y2都是图像中的2D坐标，为已知数，λ1，λ1，X，Y，Z是要计算的未知数，获得X,Y,Z之后，就是该人从2个相机的对应关系中计算出来世界坐标，即根据该两个相机间的约束关系罗列关于X，Y，Z的方程组，求解得到的行人身上一空间点的备选世界坐标X，Y，Z。

以此类推，每两个相机可以获得不同的备选世界坐标，构成对应每个目标分类的。

进而，本申请需要通过一定策略以通过各备选世界坐标明确唯一世界坐标，并可据以修正已识别的边界框所属目标分类的结果。当最终明确每个人在每个时刻的空间坐标之后，就可以获得其的行动轨迹。

步骤S105：利用对应同一目标的每组备选世界坐标获取该同一目标的每个唯一世界坐标。

由于从边界框的中心图像坐标出发，目标的身高不同，会导致两个人位置很接近的人，计算出来世界坐标距离却比较大，因此，为了排除身高的影响，可选的，在一些实施例中，可以将备选世界坐标统一投影到一个2D的地面坐标，以此来替代备选世界坐标；计算过程如下：

上式中，R代表旋转矩阵，将相机阵列的3D坐标系转化为一个Z轴向上的标准笛卡尔坐标系，然后P是一个投影矩阵，去掉获取笛卡尔坐标系中的高度坐标，保留平面坐标。

以下说明如何通过多个备选世界坐标确定唯一世界坐标的算法：

首先，可以通过以下算法对唯一世界坐标进行约束：

通过至少前两个图像帧中的边界框的参考点的图像坐标变化计算该目标的移动速度，用于预测下一图像帧中的预测参考点的预测图像坐标及对应的预测世界坐标。需说明的是，该前两图像帧和当前图像帧可以是同一相机采集，也可以是前后时刻多个相机的图像帧的合成图像。

举例来说，如果存在前两帧都出现了某个目标，则可以利用前两图像帧出现的该人的坐标确定一个速度向量v，并预测该人应当在此刻出现在位置P上，速度的计算方法以及预测位置P’的确定方法如下：

P′[t+1]＝P[t]+；V[t]；V[t]

其中，V[t]代表当前帧速度，它是当前帧坐标P[t]与上一帧坐标P[t-1]的差，然后用此速度向量加上当前帧的坐标P[t]，可以预测下一帧的坐标P’[t+1]，可以为下一帧该人的位置提供一个参考以及位移上的约束。

在一目标属于已知目标分类的情况下，可以通过第一分支流程实现唯一世界坐标的获取。

举例来说，所述第一分支流程包括：

通过对应的一组备选世界坐标进行第一判断：判断是否存在至少三个以上的相机拍摄到该目标；

若第一判断结果为是，则进行第二判断：判断其中是否每两个备选世界坐标之间的距离都小于预设阈值；

若第二判断结果为是，则以该组备选世界坐标的均值或任意两个备选世界坐标的均值作为唯一世界坐标，并据以执行对每个相机的目标分类判断检查；

若第二判断结果为否，则进行第三判断：判断与当前图像帧中预测参考点的预测世界坐标最接近的备选世界坐标间的距离是否小于预设阈值；

若第三判断结果为是，则以该预测世界坐标及其最接近的备选世界坐标的均值作为唯一世界坐标，并据以执行对每个相机的目标分类判断检查即步骤；

若第三判断结果为否，则以所述预测世界坐标作为唯一世界坐标，并据以执行对每个相机的目标分类判断检查；

若第一判断结果为否，则进行第四判断：判断存在两个相机或一个相机拍摄到该目标；若根据第四判断得到存在两个相机的结果，则进行所述第三判断，以得到唯一世界坐标，并据以执行对每个相机的目标分类判断检查；若根据第四判断得到存在一个相机的结果，则以所述预测世界坐标作为唯一世界坐标，并据以执行对每个相机的目标分类判断检查。

于一实施例中，所述目标分类判断检查包括：将唯一世界坐标从世界坐标系转换回各个相机的原图像帧的图像坐标系中，并判断是否符合条件：转换后的图像点与原图像帧中的一边界框的参考点间距离小于预设阈值，且对应的目标分类一致；若符合，则不进行修正；若所述距离小于预设阈值而不属于同一目标分类，则将该参考点对应的边界框修正为关联于所述唯一世界坐标所属的目标分类。

请参阅图3所示，用于说明上述第一分支流程在一具体实例中的实现。

如果某个时刻某个非新ReID，假设为#1，进行第一判断S301，如果被至少3个相机检测，那么便至少可以以两两组合的方式找出3对不同的组合，每两个相机可以利用对应关系计算出该ReID的边界框的参考点的唯一世界坐标，假设为Pi，i为自然数(其中的另一个也可以表示为j，j也是自然数)，若假设有3个相机，则对应获得P1,P2,P3。

进行第二判断S302：若三个坐标中，每两个坐标之间欧氏距离都小于阈值T，那么认为当前该人检测以及ID判断较为准确，则进至S303：用P[t]＝(P1+P2+P3)/3或者P[t]＝(Pi+Pj)/2去表示该人当前唯一世界坐，然后用该坐标P[t]去检查每个相机(S304)。

检查的方法是：将坐标P利用的2D到3D的坐标的映射的逆运算，映射回到相机的图像帧中的2D坐标B’，如果与相机中存在某坐标为B的边界框，B与B’欧氏距离小于阈值S，且ID一致，则认为该相机的ReID判断无误，不需要修正；如果存在于B’欧氏距离小于阈值S的边界框B，REID不一致，则需要将该框的REID改为#1，且后续检测不能被改变，若此时不发生REID重复，检查下一个相机，若此时发生REID冲突，就需要改变其他边界框的ReID，改变的方法同前述实施例中的解决边界框所属REID冲突的方式。

若判断出三个坐标不存在两两之间坐标欧式距离小于阈值T，则认为当前该目标的检测REID判断不准确，那么就寻找与预测坐标P’[t]最近的坐标Pi,；进行第三判断S305，如果Pi与预测坐标P[t]’误差小于阈值T，则进行S306，取P[t]＝(Pi+P[t]’)/2作为当前该人唯一世界坐标,并进至S304检查每个相机，修正相机的REID判断结果。

若Pi与P’[t]欧氏距离不小于阈值T，则认为当前相机的检测和REID判断结果误差太大，则如S307，令P[t]＝P’[t]作为当前唯一世界坐标，并进行S304检查每个相机REID判断的结果

进行第四判断S308，即判断是2个相机还是1个相机获取到REID为#1的目标，如果检测到如果某个时刻只有2个相机检测到REID为#1的目标，映射为3D空间坐标为P1,则进行S305；若误差小于阈值T，则同S306，令P[t]＝(P’[t]+P1)/2，并进行S304，用P[t]去检查每个相机的REID判断结果。

如果P1与P’[t]欧氏距离不小于T，则进入S307，取P[t]＝P’[t],然后再进行S304去检查每个相机的REID判断结果。

如果只有一个相机检测到#1的目标，则进入S307令P[t]＝P’[t]，并进行S304去检查每个相机。

可选的，在完成相机检查之后可以按预定次数循环执行第一分支流程(S309)，以如S310得到最终可靠的唯一世界坐标(即唯一空间坐标)，所述循环次数可以自行设定，例如2次、3次或更多。

在一目标未有已知目标分类的情况下，可以通过第二分支流程实现唯一世界坐标的获取。

举例来说，所述第二分支流程包括：

在一目标未有已知目标分类的情况下，通过对应的一组备选世界坐标进行所述第一判断；

若第一判断结果为是，则进行所述第二判断；

若第二判断结果为否，则以该组备选世界坐标的均值作为唯一世界坐标；

若第三判断结果为是，则以该预测世界坐标及其最接近的备选世界坐标的均值作为唯一世界坐标；

若第三判断结果为否，则以所述预测世界坐标作为唯一世界坐标；

若第一判断结果为否，则进行第四判断：判断存在两个相机拍摄到该目标；

若根据第四判断得到存在两个相机的结果，则进行所述第三判断，以得到唯一世界坐标；

若根据第四判断得到存在一个相机的结果，则以所述预测世界坐标作为唯一世界坐标。

请参阅图4所示，用于说明上述第二分支流程在一具体实例中的实现。

与图3实施例相比，图4实施例的主要差异在于由于没有历史记录来获得预测世界坐标。

相应的需要进行变化，若三个坐标不存在两两之间坐标欧式距离小于阈值T，则认为检测误差太大，不能用来检查相机REID判断结果，因此只取P[t]＝(P1+P2+P3)/3作为该人当前唯一的世界坐标，而不去检查相机，如果只存在两个相机检测到该新的REID，则直接这两个相机计算出的备选世界坐标作为该REID当前唯一世界坐标，同时认为信息量太少，无法判断检测的准确性，所以不去检查相机；若只存在一个相机检测到此新的REID，则由于无法获得世界坐标，所以不进行任何后续操作。

在本实施例中，可选的，在检查相机之后也需要循环执行预定次数的第二分支流程，以得到可靠的最终唯一世界坐标。

步骤S106：根据每个目标在不同时刻的图像帧所得到的每个唯一世界坐标形成每个目标的行动轨迹。

于一实施例中，所述行动轨迹可以通过空间内各种角度的方式展现，例如在俯视平面图中用线条展示目标移动的一条行动轨迹等。

如图5所示，展示本申请的一种目标跟踪系统的模块示意图。

本实施例中，所述系统的具体实现的技术特征与前述实施例中的目标追踪方法基本相同，实施例间可以通用的技术内容不作重复赘述。

所述系统包括：

目标检测模块501，用于通过目标检测模型对图像数据作目标检测，以形成在图像数据中框选每个目标的边界框；

重识别模块502，用于利用目标重识别模型对每个边界框所框选图像区域进行特征提取得到特征向量，并将所提取的特征向量在样本集中匹配相似样本簇，并令该边界框关联至相似样本簇对应的目标类别；

坐标转换模块503，用于从由多相机系统中已标定的多个相机采集的每个时刻的图像帧组中得到各边界框，并利用对应于同一目标上同一参考点的各边界框中的对应点具有唯一世界坐标系下的相同世界坐标的特性，得到一或多个备选世界坐标，以构成对应每个目标的一组备选世界坐标；

坐标运算模块504，用于利用对应同一目标的每组备选世界坐标获取该同一目标的每个唯一世界坐标；

结果输出模块505，用于根据每个目标在不同时刻的图像帧所得到的每个唯一世界坐标形成每个目标的行动轨迹。

于一实施例中，所述第一差异项、第二差异项和第三差异项通过余弦距离度量。

于一实施例中，所述的方法，包括：通过至少前两个图像帧中的边界框的参考点的图像坐标变化计算该目标的移动速度，用于预测下一图像帧中的预测参考点的预测图像坐标及对应的预测世界坐标；所述利用对应同一目标的每组备选世界坐标获取该同一目标的每个唯一世界坐标，通过第一分支流程实现；所述第一分支流程包括：在一目标属于已知目标分类的情况下，通过对应的一组备选世界坐标进行第一判断：判断是否存在至少三个以上的相机拍摄到该目标；若第一判断结果为是，则进行第二判断：判断其中是否每两个备选世界坐标之间的距离都小于预设阈值；若第二判断结果为是，则以该组备选世界坐标的均值或任意两个备选世界坐标的均值作为唯一世界坐标，并据以执行对每个相机的目标分类判断检查；若第二判断结果为否，则进行第三判断：判断与当前图像帧中预测参考点的预测世界坐标最接近的备选世界坐标间的距离是否小于预设阈值；若第三判断结果为是，则以该预测世界坐标及其最接近的备选世界坐标的均值作为唯一世界坐标，并据以执行对每个相机的目标分类判断检查；若第三判断结果为否，则以所述预测世界坐标作为唯一世界坐标，并据以执行对每个相机的目标分类判断检查；若第一判断结果为否，则进行第四判断：判断存在两个相机或一个相机拍摄到该目标；若根据第四判断得到存在两个相机的结果，则进行所述第三判断，以得到唯一世界坐标，并据以执行对每个相机的目标分类判断检查；若根据第四判断得到存在一个相机的结果，则以所述预测世界坐标作为唯一世界坐标，并据以执行对每个相机的目标分类判断检查；

或者，

其中，所述目标分类判断检查包括：将唯一世界坐标从世界坐标系转换回各个相机的原图像帧的图像坐标系中，并判断是否符合条件：转换后的图像点与原图像帧中的一边界框的参考点间距离小于预设阈值，且对应的目标分类一致；若符合，则不进行修正；若所述距离小于预设阈值而不属于同一目标分类，则将该参考点对应的边界框修正为关联于所述唯一世界坐标所属的目标分类。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，坐标转换模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上追踪计算模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)，或，一个或多个微处理器(digitalsingnalprocessor，简称DSP)，或，一个或者多个现场可编程门阵列(FieldProgrammableGateArray，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessingUnit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

如图6所示，展示本申请实施例中电子装置的结构示意图。

在一些实施例中，所述电子装置600可以独立于多相机系统以外而与多相机系统耦接的处理终端，如服务器、台式电脑、笔记型电脑、智能手机、平板电脑或其它具有处理能力的终端；在一些实施例中，所述多相机系统和电子装置600也可以作为部件集成在一起，作为一个产品，例如光场相机，则所述电子装置600可以是该光场相机中的电路实现，该电路附着于光场相机中的一或多个电路板上；在一些实施例中，各所述相机之间也可以耦接，所述电子装置600也可以由每个所述相机中的电路协同工作实现。

所述电子装置600包括：

至少一收发器601，耦接所述多相机系统604。

在一实施例中，所述多相机系统可以为相机阵列形式，即光场相机阵列形式；当然，在一些实施例中，也可以是多个布设在场景不同方位的独立相机构成。

在一实施例中，所述电子装置600可以与多相机系统本地连接实现；所述收发器601包括：例如CVBS、VGA、DVI、HDMI、SDI、GigE、USB3.0、Cameralink、HSLink、或CoaXPress中的一或多种接口。

在一实施例中，所述电子装置600也可以如图6一般，与多相机系统604通过局域网/广域网(例如支持TCP或UDP协议)实现网络连接，例如该电子装置600搭载在服务器实现，所述收发器601对应包含网络接口，供与所述多相机系统604网络通讯。

至少一存储器602，存储计算机程序；

至少一处理器603，耦接所述收发器601及存储器602，用于运行所述计算机程序，以执行例如图1实施例中的目标追踪方法。

在一实施例中，多相机系统获得多相机视频流，再通过网络传到控制中心的服务器即电子装置上，通过执行前述方法，在服务器上完成行人轨迹的实时分析和存储，以便有关人员在需要的时候调用和显示某个在某个时间段的行动轨迹，或者某个时间段所有人的行动轨迹。

在一些实施例中，所述存储器602可能包括但不限于高速随机存取存储器602、非易失性存储器602。例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。

所述处理器601可以是通用处理器601，包括中央处理器(CentralProcessingUnit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(DigitalSignalProcessing，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(Field－ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

另外，前述目标追踪方法实施例(例如图1的实施例)中所涉及的各种计算机程序可以装载在计算机可读存储介质中，所述计算机可读存储介质可包括，但不限于，软盘、光盘、CD-ROM(紧致盘-只读存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品，也可以是已接入计算机设备使用的部件。

在具体实现上，所述计算机程序为执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种目标跟踪方法，其特征在于，用于分析多相机系统采集的图像数据实现；所述方法包括：

通过目标检测模型对图像数据作目标检测，以形成在图像数据中框选每个目标的边界框；

利用目标重识别模型对每个边界框所框选图像区域进行特征提取得到特征向量，并将所提取的特征向量在样本集中匹配相似样本簇，并令该边界框关联至相似样本簇对应的目标类别；

从由多相机系统中已标定的多个相机采集的每个时刻的图像帧组中得到各边界框，并利用对应于同一目标上同一参考点的各边界框中的对应点具有唯一世界坐标系下的相同世界坐标的特性，得到一或多个备选世界坐标，以构成对应每个目标的一组备选世界坐标；

利用对应同一目标的每组备选世界坐标获取该同一目标的每个唯一世界坐标；

根据每个目标在不同时刻的图像帧所得到的每个唯一世界坐标形成每个目标的行动轨迹。

2.根据权利要求1所述的方法，其特征在于，所述目标检测模型通过YOLO v1～v3、R-CNN、及SSD相关模型中的一种或多种实现。

3.根据权利要求1或2所述的方法，其特征在于，所述目标检测模型是利用标记有对应不同目标类别的参考标准边界框的训练数据集的；在训练过程中，所述目标检测模型对于不同目标类别采用不同的全连接层和softmax层的参数，对于相同的目标类别采用相同的全连接层和softmax层参数。

4.根据权利要求1所述的方法，其特征在于，所述边界框包括多个属性值，所述多个属性值包括：边界框位置信息、及置信度；所述置信度表示预测的边界框的位置信息与参考标准间的重叠程度；所述深度信息模型包括：用于预测边界框相关的目标类别以及位置信息的边界框损失函数。

5.根据权利要求4所述的方法，其特征在于，所述边界框损失函数包含：关于含有目标的预测的边界框的位置信息的第一项、关于含有目标的预测的边界框的置信度的第二项、关于不含有目标的预测的边界框的置信度的第三项、及特征向量中每一个单元格的目标类别判断的第四项。

6.根据权利要求1所述的方法，其特征在于，所述目标重识别模型包括：基于深度学习的残差神经网络模型。

7.根据权利要求6所述的方法，其特征在于，所述残差神经网络模型是通过重识别损失函数训练；所述重识别损失函数为三元组损失函数，其包含正样本和锚样本的第一差异项、及锚样本和负样本的第二差异项；所述锚样本、正样本、及负样本皆为通过所述目标重识别模型根据训练数据得到的特征向量；其中，所述锚样本和正样本是来自同一目标的特征向量，负样本和锚样本是来自不同目标的特征向量；所述重识别损失函数包含或不包含用于扩大正样本和负样本之间差异的第三差异项。

8.根据权利要求7所述的方法，其特征在于，所述第一差异项、第二差异项和第三差异项通过余弦差异度量。

9.根据权利要求1所述的方法，其特征在于，所述将所提取的特征向量在样本集中匹配相似样本簇，并令该边界框关联至相似样本簇对应的目标类别，包括：

计算表示所述特征向量与获取自各样本簇的平均特征向量的差异值；

将差异值最小的样本簇作为该相似向本簇，且将差异值大于阈值的作为属于不同目标类别的样本簇。

10.根据权利要求1或9所述的方法，其特征在于，包括：在源于同一帧图像中的不同特征向量匹配于同一相似样本簇的情况下，将判定该相似样本簇同与其差异最小的特征向量匹配。

11.根据权利要求1所述的方法，其特征在于，每个所述备选世界坐标是通过至少两个已标定相机的内参、外参、及在同一时刻由该至少两个相机所拍摄图像帧中框选同一目标的边界框中参考点的图像坐标所计算。

12.根据权利要求11所述的方法，其特征在于，包括：通过至少前两个图像帧中的边界框的参考点的图像坐标变化计算该目标的移动速度，用于预测下一图像帧中的预测参考点的预测图像坐标及对应的预测世界坐标；

所述利用对应同一目标的每组备选世界坐标获取该同一目标的每个唯一世界坐标，通过第一分支流程实现；所述第一分支流程包括：

在一目标属于已知目标分类的情况下，通过对应的一组备选世界坐标进行第一判断：判断是否存在至少三个以上的相机拍摄到该目标；

若第一判断结果为是，则进行第二判断：判断其中是否每两个备选世界坐标之间的差异都小于预设阈值；

若第二判断结果为否，则进行第三判断：判断与当前图像帧中预测参考点的预测世界坐标最接近的备选世界坐标间的差异是否小于预设阈值；

若第三判断结果为是，则以该预测世界坐标及其最接近的备选世界坐标的均值作为唯一世界坐标，并据以执行对每个相机的目标分类判断检查；

若第一判断结果为否，则进行第四判断：判断存在两个相机或一个相机拍摄到该目标；

若根据第四判断得到存在两个相机的结果，则进行所述第三判断，以得到唯一世界坐标，并据以执行对每个相机的目标分类判断检查；

若根据第四判断得到存在一个相机的结果，则以所述预测世界坐标作为唯一世界坐标，并据以执行对每个相机的目标分类判断检查；

或者，

所述利用对应同一目标的每组备选世界坐标获取该同一目标的每个唯一世界坐标，通过第二分支流程实现；所述第二分支流程包括：

若第一判断结果为是，则进行所述第二判断；

若根据第四判断得到存在一个相机的结果，则以所述预测世界坐标作为唯一世界坐标；

其中，所述目标分类判断检查包括：

将唯一世界坐标从世界坐标系转换回各个相机的原图像帧的图像坐标系中，并判断是否符合条件：转换后的图像点与原图像帧中的一边界框的参考点间差异小于预设阈值，且对应的目标分类一致；

若符合，则不进行修正；

若所述差异小于预设阈值而不属于同一目标分类，则将该参考点对应的边界框修正为关联于所述唯一世界坐标所属的目标分类。

13.根据权利要求1所述的方法，其特征在于，所述样本集是可更新的，所述更新包括以下中的一或多种：

14.一种目标跟踪系统，其特征在于，包括：

目标检测模块，用于通过目标检测模型对图像数据作目标检测，以形成在图像数据中框选每个目标的边界框；

重识别模块，用于利用目标重识别模型对每个边界框所框选图像区域进行特征提取得到特征向量，并将所提取的特征向量在样本集中匹配相似样本簇，并令该边界框关联至相似样本簇对应的目标类别；

坐标转换模块，用于从由多相机系统中已标定的多个相机采集的每个时刻的图像帧组中得到各边界框，并利用对应于同一目标上同一参考点的各边界框中的对应点具有唯一世界坐标系下的相同世界坐标的特性，得到一或多个备选世界坐标，以构成对应每个目标的一组备选世界坐标；

坐标运算模块，用于利用对应同一目标的每组备选世界坐标获取该同一目标的每个唯一世界坐标；

结果输出模块，用于根据每个目标在不同时刻的图像帧所得到的每个唯一世界坐标形成每个目标的行动轨迹。

15.一种电子装置，其特征在于，包括：

至少一收发器，耦接多相机系统；

至少一存储器，用于存储计算机程序；

至少一处理器，耦接所述收发器及存储器，用于运行所述计算机程序以执行如权利要求1至13中任一项所述的方法。

16.根据权利要求15所述的电子装置，其特征在于，所述电子装置与多相机系统集成在一图像设备中；或者，所述电子装置与多相机系统通过局域网络和/或广域网络通信连接；和/或，所述多相机系统为相机阵列形式。

17.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被运行时执行如权利要求1至13中任一项所述的方法。