CN111539991A

CN111539991A - 目标跟踪方法及装置、存储介质

Info

Publication number: CN111539991A
Application number: CN202010352365.6A
Authority: CN
Inventors: 王飞; 陈光启; 钱晨
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2020-08-14
Anticipated expiration: 2040-04-28
Also published as: JP2022542566A; WO2021218671A1; KR20220024986A; TW202141424A; TWI769787B; CN111539991B; JP7292492B2

Abstract

本公开提供了一种目标跟踪方法及装置、存储介质，其中，该方法包括：获取对应同一场景的多张场景图像；对所述多张场景图像中的每张场景图像进行特征提取处理以及目标部位检测，得到所述每张场景图像的特征信息以及所述每张场景图像上的多个目标部位的位置；获取所述每张场景图像的特征信息中与所述多个目标部位的位置分别对应的目标特征信息；根据获取的所述多个目标部位的位置分别对应的目标特征信息，确定出现在所述多张场景图像上的多个相同的目标。

Description

目标跟踪方法及装置、存储介质

技术领域

本公开涉及计算机视觉领域，尤其涉及一种目标跟踪方法及装置、存储介质。

背景技术

目前，通过多目标跟踪技术分析目标的运动轨迹的需求日益增强。在进行多目标跟踪的过程中，需要先通过对目标的检测获得多个目标所在的位置，然后对每个目标进行单目标跟踪。

上述多目标跟踪的处理时间与场景中目标的数目呈线性相关。例如，场景中包括N个对象，这里的N可以为正整数，则多目标跟踪需要进行N次单目标跟踪的推理，时间会增加N倍。N的取值越大，多目标跟踪的时间就越长，这就需要设备具备较高的计算能力且耗时较长。

发明内容

本公开提供了一种目标跟踪方法及装置、存储介质。

根据本公开实施例的第一方面，提供一种目标跟踪方法，所述方法包括：获取对应同一场景的多张场景图像；对所述多张场景图像中的每张场景图像进行特征提取处理以及目标部位检测，得到所述每张场景图像的特征信息以及所述每张场景图像上的多个目标部位的位置；获取所述每张场景图像的特征信息中与所述多个目标部位的位置分别对应的目标特征信息；根据获取的所述多个目标部位的位置分别对应的目标特征信息，确定出现在所述多张场景图像上的多个相同的目标。

在一些可选实施例中，所述对所述多张场景图像中的每张场景图像进行特征提取处理以及目标部位检测，得到所述每张场景图像的特征信息以及所述每张场景图像上的多个目标部位的位置，包括：提取所述多张场景图像中的每张场景图像的第一特征图；在所述每张场景图像的第一特征图上进行目标部位检测，得到所述每张场景图像上的多个目标部位的位置；以及，对所述每张场景图像的第一特征图进行特征提取处理，得到多维度的第二特征图；所述获取所述每张场景图像的特征信息中与所述多个目标部位的位置分别对应的目标特征信息，包括：在所述多维度的第二特征图上获取与所述多个目标部位的位置分别对应的目标特征向量。

在一些可选实施例中，所述根据获取的所述多个目标部位的位置分别对应的目标特征信息，确定出现在所述多张场景图像上的多个相同的目标，包括：利用所述多张场景图像上每相邻两张场景图像分别对应的所述多个目标特征信息，得到所述每相邻两张场景图像上各个目标部位之间的相似度；基于所述每相邻两张场景图像上各个目标部位之间的相似度，确定出现在所述不同场景图像上的多个相同的目标。

在一些可选实施例中，所述每相邻两张场景图像为第一场景图像和第二场景图像；所述利用所述多张场景图像上每相邻两张场景图像分别对应的所述多个目标特征信息，得到所述每相邻两张场景图像上各个目标部位之间的相似度，包括：确定第一场景图像上的N个目标特征向量分别与第二场景图像上的M个目标特征向量之间的相似度；其中，N和M为大于等于2的正整数；根据所述第一场景图像上的N个目标特征向量分别与所述第二场景图像上的M个目标特征向量之间的所述相似度值，得到N×M维度的相似度矩阵，所述相似度矩阵中任一维度的值表示所述第一场景图像的任一第一目标部位与所述第二场景图像中的任一第二目标部位的相似度。

在一些可选实施例中，所述基于所述每相邻两张场景图像上各个目标部位之间的相似度，确定出现在所述不同场景图像上的多个相同的目标，包括：根据所述相似度矩阵，在所述N个目标特征向量中的第一目标特征向量分别与所述M个目标特征向量之间的相似度中，确定相似度最大值；若所述相似度最大值大于预设阈值，则在所述M个目标特征向量中确定所述相似度最大值对应的第二目标特征向量；将所述第一场景图像上所述第一目标特征向量对应的第一目标部位所属目标和所述第二场景图像上第二目标特征向量对应的第二目标部位所属目标，作为相同的目标。

在一些可选实施例中，所述对所述多张场景图像中的每张场景图像进行特征提取处理以及目标部位检测，得到所述每张场景图像的特征信息以及所述每张场景图像上的多个目标部位的位置，包括：通过特征检测模型的骨干网络提取所述多张场景图像中的每张场景图像的第一特征图；通过所述特征检测模型的部位检测分支，在所述每张场景图像的第一特征图上进行目标部位检测，得到所述每张场景图像上的多个目标部位的位置；以及，通过所述特征检测模型的特征提取分支，对所述每张场景图像的第一特征图进行特征提取处理，得到多维度的第二特征图。

在一些可选实施例中，所述方法还包括：将对应同一场景的多张样本场景图像输入初始神经网络模型，获得所述初始神经网络模型输出的每张样本场景图像上多个目标部位的位置分别对应的样本特征向量；根据所述每张样本场景图像上已标注的多个目标部位分别所属的目标标识，在每相邻两张样本场景图像上，确定相同的所述目标标识的所述目标部位的位置对应的所述样本特征向量之间的第一相似度，和/或确定不同的所述目标标识的所述目标部位的位置对应的所述样本特征向量之间的第二相似度；以所述每张样本场景图像上已标注的多个目标部位分别所属的目标标识为监督，根据所述第一相似度和所述第二相似度中的至少一项，对所述初始神经网络模型进行训练，得到所述特征检测模型。

在一些可选实施例中，所述以所述每张样本场景图像上已标注的多个目标部位分别所属的目标标识为监督，根据所述第一相似度和所述第二相似度中的至少一项，对所述初始神经网络模型进行训练，得到所述特征检测模型，包括：将第一相似度参考值与所述第一相似度之间的差值作为第一损失函数；其中，所述第一相似度参考值是所述每两张样本场景图像上已标注的相同的目标标识的目标部位所对应的样本特征向量之间的相似度参考值；将第二相似度参考值与所述第二相似度之间的差值作为第二损失函数；其中，所述第二相似度参考值是所述每两张样本场景图像上已标注的不同的目标标识的目标部位所对应的样本特征向量之间的相似度参考值；根据所述第一损失函数和所述第二损失函数中的至少一项，对所述初始神经网络模型进行训练，得到所述特征检测模型。

在一些可选实施例中，所述方法还包括：确定出现在所述多个场景图像上的多个相同的目标中的至少一个目标在预设时间段内的运动轨迹是否符合目标运动轨迹。

在一些可选实施例中，所述多张场景图像对应教室场景，所述目标包括教学对象，所述目标运动轨迹包括教学任务中对所述教学对象指定的至少一种运动轨迹。

根据本公开实施例的第二方面，提供一种目标跟踪装置，所述装置包括：获取模块，用于获取对应同一场景的多张场景图像；处理模块，用于对所述多张场景图像中的每张场景图像进行特征提取处理以及目标部位检测，得到所述每张场景图像的特征信息以及所述每张场景图像上的多个目标部位的位置；特征信息确定模块，用于获取所述每张场景图像的特征信息中与所述多个目标部位的位置分别对应的目标特征信息；目标确定模块，用于根据获取的所述多个目标部位的位置分别对应的目标特征信息，确定出现在所述多张场景图像上的多个相同的目标。

在一些可选实施例中，所述处理模块包括：第一处理子模块，用于提取所述多张场景图像中的每张场景图像的第一特征图；第二处理子模块，用于在所述每张场景图像的第一特征图上进行目标部位检测，得到所述每张场景图像上的多个目标部位的位置；以及，对所述每张场景图像的第一特征图进行特征提取处理，得到多维度的第二特征图；所述特征信息确定模块包括：特征向量确定子模块，用于在所述多维度的第二特征图上获取与所述多个目标部位的位置分别对应的目标特征向量。

在一些可选实施例中，所述目标确定模块包括：相似度确定子模块，用于利用所述多张场景图像上每相邻两张场景图像分别对应的所述多个目标特征信息，得到所述每相邻两张场景图像上各个目标部位之间的相似度；目标确定子模块，用于基于所述每相邻两张场景图像上各个目标部位之间的相似度，确定出现在所述不同场景图像上的多个相同的目标。

在一些可选实施例中，所述每相邻两张场景图像为第一场景图像和第二场景图像；所述相似度确定子模块包括：确定第一场景图像上的N个目标特征向量分别与第二场景图像上的M个目标特征向量之间的相似度；其中，N和M为大于等于2的正整数；根据所述第一场景图像上的N个目标特征向量分别与所述第二场景图像上的M个目标特征向量之间的所述相似度值，得到N×M维度的相似度矩阵，所述相似度矩阵中任一维度的值表示所述第一场景图像的任一第一目标部位与所述第二场景图像中的任一第二目标部位的相似度。

在一些可选实施例中，所述目标确定子模块包括：根据所述相似度矩阵，在所述N个目标特征向量中的第一目标特征向量分别与所述M个目标特征向量之间的相似度中，确定相似度最大值；若所述相似度最大值大于预设阈值，则在所述M个目标特征向量中确定所述相似度最大值对应的第二目标特征向量；将所述第一场景图像上所述第一目标特征向量对应的第一目标部位所属目标和所述第二场景图像上第二目标特征向量对应的第二目标部位所属目标，作为相同的目标。

在一些可选实施例中，所述处理模块包括：第三处理子模块，用于通过特征检测模型的骨干网络提取所述多张场景图像中的每张场景图像的第一特征图；第四处理子模块，用于通过所述特征检测模型的部位检测分支，在所述每张场景图像的第一特征图上进行目标部位检测，得到所述每张场景图像上的多个目标部位的位置；以及，通过所述特征检测模型的特征提取分支，对所述每张场景图像的第一特征图进行特征提取处理，得到多维度的第二特征图。

在一些可选实施例中，所述装置还包括：特征向量确定模块，用于将对应同一场景的多张样本场景图像输入初始神经网络模型，获得所述初始神经网络模型输出的每张样本场景图像上多个目标部位的位置分别对应的样本特征向量；相似度确定模块，用于根据所述每张样本场景图像上已标注的多个目标部位分别所属的目标标识，在每相邻两张样本场景图像上，确定相同的所述目标标识的所述目标部位的位置对应的所述样本特征向量之间的第一相似度，和/或确定不同的所述目标标识的所述目标部位的位置对应的所述样本特征向量之间的第二相似度；训练模块，用于以所述每张样本场景图像上已标注的多个目标部位分别所属的目标标识为监督，根据所述第一相似度和所述第二相似度中的至少一项，对所述初始神经网络模型进行训练，得到所述特征检测模型。

在一些可选实施例中，所述训练模块包括：第一损失函数确定子模块，用于将第一相似度参考值与所述第一相似度之间的差值作为第一损失函数；其中，所述第一相似度参考值是所述每两张样本场景图像上已标注的相同的目标标识的目标部位所对应的样本特征向量之间的相似度参考值；第二损失函数确定子模块，用于将第二相似度参考值与所述第二相似度之间的差值作为第二损失函数；其中，所述第二相似度参考值是所述每两张样本场景图像上已标注的不同的目标标识的目标部位所对应的样本特征向量之间的相似度参考值；训练子模块，用于根据所述第一损失函数和所述第二损失函数中的至少一项，对所述初始神经网络模型进行训练，得到所述特征检测模型。

在一些可选实施例中，所述装置还包括：运动轨迹确定模块，用于确定出现在所述多个场景图像上的多个相同的目标中的至少一个目标在预设时间段内的运动轨迹是否符合目标运动轨迹。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行第一方面任一所述的目标跟踪方法。

根据本公开实施例的第四方面，提供一种目标跟踪装置，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现第一方面任一项所述的目标跟踪方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开实施例中，不需要在相邻每两张场景图像中分别确定多个目标后，针对前一张场景图像上的每个目标在后一张场景图像所包括的多个目标中分别进行单目标跟踪推理，而是针对单张场景图像进行单帧推断，得到多个目标部位的位置对应的目标特征信息，针对单帧推断结果进行匹配，得到每相邻两张场景图像中的多个相同的目标，实现了多目标跟踪的目的，且即使当前场景中包括多个目标，由于针对整张场景图像进行推断，使得整个多目标跟踪过程的时长与场景图像中所包括的目标的数目无关，不会因为目标的数目的增长去逐个进行单目标跟踪推理导致跟踪时长的增加，极大节省了计算资源，缩短了多目标跟踪的时长，有效提高了多目标跟踪的检测效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本公开根据一示例性实施例示出的一种目标跟踪方法流程图；

图2是本公开根据一示例性实施例示出的另一种目标跟踪方法流程图；

图3是本公开根据一示例性实施例示出的另一种目标跟踪方法流程图；

图4是本公开根据一示例性实施例示出的另一种目标跟踪方法流程图；

图5是本公开根据一示例性实施例示出的另一种目标跟踪方法流程图；

图6是本公开根据一示例性实施例示出的一种特征检测模型的结构示意图；

图7是本公开根据一示例性实施例示出的一种多目标跟踪的推断过程示意图；

图8是本公开根据一示例性实施例示出的另一种目标跟踪方法流程图；

图9是本公开根据一示例性实施例示出的一种特征检测模型训练场景示意图；

图10是本公开根据一示例性实施例示出的另一种目标跟踪方法流程图；

图11是本公开根据一示例性实施例示出的一种目标跟踪装置框图；

图12是本公开根据一示例性实施例示出的一种用于目标跟踪装置的一结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开运行的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所运行的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中运行的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所运行的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本公开实施例提供了一种多目标跟踪方案，示例性的，可以适用于不同场景下的终端设备。不同的场景包括但不限于教室、部署了监控的地点、或其他需要对多目标跟踪的室内或室外场景。终端设备可以采用任意带摄像头的终端设备，或者，终端设备也可以是外接摄像设备。终端设备可以在同一场景下先后采集多张场景图像，或者可以直接采集视频流，将该视频流中的多张图像作为所述多张场景图像。

进一步地，终端设备对获取的多张场景图像中的每张场景图像，进行特征提取处理以及目标部位检测，基于每张场景图像的特征信息以及所述每张场景图像上的多个目标部位的位置，获取每张场景图像的特征信息中与多个目标部位的位置分别对应的目标特征信息，从而确定出现在多张场景图像中的多个相同的目标。

例如在教室中，终端设备可以采用部署在教室内的带摄像头的教学多媒体设备，包括但不限于教学投影机、教室内的监控设备等。终端设备获取教室中的多张场景图像，从而对所述多张场景图像中的每张场景图像进行特征提取处理以及目标部位检测，得到所述每张场景图像的特征信息以及所述每张场景图像上的多个目标部位的位置。获取所述每张场景图像的特征信息中与所述多个目标部位的位置分别对应的目标特征信息，从而确定出现在所述多张场景图像上的多个相同的目标，实现多目标跟踪的目的。该场景下的目标可以包括但不限于教学对象，例如学生，目标部位包括但不限于人脸部位和人体部位。

再例如，以地铁站或火车站为例，在地铁或火车站可以部署一个或多个监控摄像头，通过监控摄像头可以获取地铁或火车站的多张场景图像。该场景下的目标可以包括但不限于乘坐地铁或火车的人员。采用本公开实施例提供的方案，可以在地铁站或火车站这样存在大量乘车人员的场景下，确定出现在多张场景图像中的多个相同的目标，实现多目标跟踪的目的。

示例性的，本公开实施例提供的多目标跟踪方案还可以适用于不同场景下的云端服务器，该云端服务器可以设置外接摄像头，由外接摄像头在同一场景下采集多张场景图像，或者可以直接采集视频流，将该视频流中的多张图像作为所述多张场景图像。通过路由器或网关发送给云端服务器，由云端服务器，对每张场景图像进行特征提取处理以及目标部位检测，得到所述每张场景图像的特征信息以及所述每张场景图像上的多个目标部位的位置，从而获取所述每张场景图像的特征信息中与所述多个目标部位的位置分别对应的目标特征信息，进一步地，确定出现在所述多张场景图像上的多个相同的目标。

例如，外接摄像头设置在教室中，外接摄像头在教室内下采集多张场景图像，通过路由器或网关发送给云端服务器，云端服务器执行上述目标跟踪方法。

在本公开实施例中，还可以通过终端设备或云端服务器确定出现在多张场景图像上的多个相同的目标后，用相同的标识框对相同的目标进行标识并输出。例如在输出的相邻两张场景图像上，用红色标识框标识出该场景中的目标1，用绿色标识框标识出该场景中的目标2，用蓝色标识框标识出该场景中的目标3等等，以便更好的示出当前场景下的多个相同的目标。或者还可以通过标识框所属的目标标识来区分相同或不同的目标，例如，在输出的一张场景图像上包括3个标识框，分别对应的目标标识为1、2和3，在与其相邻的场景图像上包括2个标识框，分别对应的目标标识为1和3，那么可以确定这两张场景图像上目标标识为1的识别框对应相同的目标，目标标识为3的识别框也对应相同的目标，目标标识为1和2的识别框分别对应了不同的目标。

另外，还可以通过终端设备或云端服务器确定多个相同的目标中的至少一个目标在预设时间段内的运动轨迹，分析该运动轨迹是否符合目标运动轨迹。

例如，当前场景为教室，目标包括教学对象，则目标运动轨迹可以包括但不限于教学任务中对所述教学对象指定的至少一种运动轨迹，例如从当前所在位置移动到老师指定的其他位置，其他位置可以是讲台、黑板或其他同学所在位置，或者目标运动轨迹还可以包括处于同一位置。老师可以根据多个教学对象的运动轨迹，更好地进行教学工作。

再例如，当前场景为部署了监控的地点，以地铁站或火车站为例，目标包括但不限于乘坐地铁或火车的人员，则目标运动轨迹可以包括但不限于指定的危险运动轨迹或非法运动轨迹，例如从站台位置移动到铁轨所在位置、移动到闸机的上方或下方等。工作人员可以根据乘车人员的运动轨迹，更好地进行车站管理，避免危险行为或逃票行为的发生。

以上仅是对本公开适用的场景进行的举例说明，其他需要快速进行动作类型识别的室内或场景也属于本公开的保护范围。

例如图1所示，图1是根据一示例性实施例示出的一种目标跟踪方法，包括以下步骤：

在步骤101中，获取对应同一场景的多张场景图像。

本公开实施例中，可以在同一场景下分别采集多张场景图像，或者可以采集视频流，将视频流中的多张图像作为多张场景图像。本公开的场景包括但不限于任何需要进行多目标跟踪的场景，例如教室、布置监控的地点等。

在步骤102中，对所述多张场景图像中的每张场景图像进行特征提取处理以及目标部位检测，得到所述每张场景图像的特征信息以及所述每张场景图像上的多个目标部位的位置。

在本公开实施例中，对每张场景图像进行特征提取是指从每张场景图像中提取其中的特征信息，特征信息可以包括但不限于颜色特征、纹理特征、形状特征等。颜色特征是一种全局特征，描述了图像所对应的对象的表面颜色属性，纹理特征也是一种全局特征，它描述了图像所对应对象的表面纹理属性，形状特征有两类表示方法，一类是轮廓特征，另一类是区域特征，图像的轮廓特征主要针对对象的外边界，而图像的区域特征则关系到图像区域的形状。

目标部位可以包括但不限于人脸部位和/或人体部位，人体部位可以包括人物的整个人体部位或人体的某个指定部位，例如手部、腿部等。目标部位的位置至少可以通过该目标部位的标识框的中心位置来表示，例如目标部位包括人脸部位，则目标部位的位置可以通过人脸标识框的中心位置表示。

在步骤103中，获取所述每张场景图像的特征信息中与所述多个目标部位的位置分别对应的目标特征信息。

在本公开实施例中，每张场景图像上包括多个目标部位，在包括目标部位的区域中，根据获取到的每张场景图像的特征信息，对包括目标部位的区域的像素进行特征提取，确定与多个目标部位的位置分别对应的目标特征信息。示例性的，可以通过卷积处理等，获取每张场景图像的特征信息中与每个目标部位的区域所包括的多个像素分别对应的目标特征信息。

在步骤104中，根据获取的所述多个目标部位的位置分别对应的目标特征信息，确定出现在所述多张场景图像上的多个相同的目标。

上述实施例中，在每张场景图像上获得了多个目标部位的位置对应的目标特征信息，根据这些目标特征信息进行匹配，可以确定出现在所述多张场景图像上的多个相同的目标。

上述实施例中，不需要在相邻每两张场景图像中分别确定多个目标后，针对前一张场景图像上的每个目标在后一张场景图像所包括的多个目标中分别进行单目标跟踪推理，而是针对单张场景图像进行单帧推断，得到多个目标部位的位置对应的目标特征信息，针对单帧推断结果进行匹配，得到每相邻两张场景图像中的多个相同的目标，实现了多目标跟踪的目的，且即使当前场景中包括多个目标，由于针对整张场景图像进行推断，使得整个多目标跟踪过程的时长与场景图像中所包括的目标的数目无关，不会因为目标的数目的增长去逐个进行单目标跟踪推理导致跟踪时长的增加，极大节省了计算资源，缩短了多目标跟踪的时长，有效提高了多目标跟踪的检测效率。

在一些可选实施例中，例如图2所示，步骤102可以包括：

在步骤102-1中，提取所述多张场景图像中的每张场景图像的第一特征图。

在本公开实施例中，可以通过预先训练好的神经网络模型(backbone)，来提取每张场景图像的图像特征，得到第一特征图。该神经网络模型可以采用但不限于视觉几何群网络(Visual Geometry Group Network，VGG Net)等模型。

在步骤102-2中，在所述每张场景图像的第一特征图上进行目标部位检测，得到所述每张场景图像上的多个目标部位的位置；以及，对所述每张场景图像的第一特征图进行特征提取处理，得到多维度的第二特征图。

在本公开实施例中，目标部位可以包括人脸部位和/或人体部位。通过区域预测网络(Region Proposal Network，RPN)，可以在每张场景图像的第一特征图上，进行人脸部位和/或人体部位检测，确定属于人脸部位的人脸区域和/或属于人体部位的人体区域。其中，人脸区域可以通过人脸识别框进行标识，人体区域可以通过人体识别框进行标识。示例性的，可以将人脸识别框的中心位置作为人脸部位的位置。同样地，可以将人体识别框的中心位置作为人体部位的位置。

进一步地，还可以对每张场景图像的第一特征图进行特征提取处理，将第一特征图所包括的多类特征信息通过不同的通道提取出来，从而得到多维度的第二特征图。示例性的，第二特征图的尺寸与第一特征图的尺寸可以相同，且第二特征图的维度值为每张场景图像对应的预设通道数目。

相应地，步骤103可以包括：

在所述多维度的第二特征图上获取与所述多个目标部位的位置分别对应的目标特征向量。

在本公开实施例中，目标特征信息用于表示任一个维度的第二特征图所包括的多个目标部位的区域中的多个像素分别对应的特征信息。其中，目标部位可以包括人脸部位和/或人体部位。

根据目标特征信息，在任一个维度的第二特征图所包括的多个目标部位的区域中，任意一个像素对应的特征信息均可以构成一个一维的特征向量，为了后续便于进行相似度计算，可以从这些特征向量中选取出一个或多个特征向量来表示该目标部位的区域的特征信息。在本公开实施例中，可以选取目标部位的位置的像素所对应的特征向量，将该特征向量作为该维度的第二特征图上目标部位的位置对应的目标特征向量。其中，目标部位的位置可以包括人脸识别框的中心位置/或人体识别框的中心位置。

进一步地，为了提高后续目标部位匹配的准确度，可以针对多维度的第二特征图中至少一个维度的第二特征图，获取多个目标部位的位置的像素对应的特征信息，得到与所述多个目标部位的位置分别对应的目标特征向量。示例性的，针对每个维度的第二特征图均可以获取多个目标部位的位置分别对应的目标特征向量，使得目标特征向量的维度值与第二特征图的维度值相同。例如，第二特征图的维度值为C，则目标特征向量的维度值也为C。

上述实施例中，针对整张场景图像依次进行特征提取、目标部位检测、以及确定与多个目标部位的位置分别对应的目标特征向量，整个过程是对单张场景图像进行的单帧推断，因此与其中包括的目标的数目的多少无关，后续会针对每相邻两张场景图像上与多个目标位置分别对应的目标特征向量进行匹配，从而不需要分别进行单目标跟踪推理，即使场景图像上包括的目标数目较多，也可以一次性完成匹配过程。本公开的目标跟踪方法与场景图像中的目标数目无关，不会因为目标的数目的增长导致跟踪时长的增加，极大节省了计算资源，缩短了多目标跟踪的时长，有效提高了多目标跟踪的检测效率。

在一些可选实施例中，例如图3所示，步骤104可以包括：

在步骤104-1中，利用所述多张场景图像上每相邻两张场景图像分别对应的所述多个目标特征信息，得到所述每相邻两张场景图像上各个目标部位之间的相似度。

在本公开实施例中，已经确定了每张场景图像的特征信息中与所述多个目标部位对应的多个目标特征信息，可以利用每相邻两张场景图像分别对应的多个目标特征信息进行相似度计算，得到每相邻两张场景图像上各个目标部位之间的相似度。

在步骤104-2中，基于所述每相邻两张场景图像上各个目标部位之间的相似度，确定出现在所述不同场景图像上的多个相同的目标。

在本公开实施例中，可以将每相邻两张场景图像上，相似度最大的目标部位所属的目标作为出现在不同场景图像上的多个相同的目标。

上述实施例中，可以根据每相邻两张场景图像上各个目标部位之间的相似度来确定出现在不同场景图像上的多个相同的目标，实现了多目标跟踪的目的，且跟踪过程与目标数目无关，可用性高。

在一些可选实施例中，每相邻两张场景图像为第一场景图像T₀和第二场景图像T₁。

例如图4所示，上述步骤104-1可以包括：

在步骤104-11中，确定第一场景图像上的N个目标特征向量分别与第二场景图像上的M个目标特征向量之间的相似度。

在确定相似度的过程中，可以确定每相邻两张场景图像中第一场景图像上的N个目标特征向量分别与第二场景图像上的M个目标特征向量之间的相似度，其中，N和M为大于等于2的正整数。即确定第一场景图像上的多个目标特征向量分别与第二场景图像上的多个目标特征向量之间的相似度。

在一种可能地实现方式中，确定相似度时，可以目标特征向量之间的余弦相似度值。通过计算第一场景图像上的任一个目标特征向量与第二场景图像上的任一个目标特征向量的夹角余弦值，来评估他们的相似度。

在步骤104-12中，根据所述第一场景图像上的N个目标特征向量分别与所述第二场景图像上的M个目标特征向量之间的所述相似度值，得到N×M维度的相似度矩阵。

在本公开实施例中，相似度矩阵中任一维度的值表示所述第一场景图像的任一第一目标部位与所述第二场景图像中的任一第二目标部位的相似度。其中，N和M可以相等或不相等。

上述实施例中，可以通过确定第一场景图像上的N个目标特征向量分别与第二场景图像上的M个目标特征向量之间的相似度，得到N×M维度的相似度矩阵，通过相似度矩阵表示所述第一场景图像的任一第一目标部位与所述第二场景图像中的任一第二目标部位的相似度，实现简便，可用性高。

在一些可选实施例中，针对步骤104-2可以采用二部图算法，在满足空间距离约束的条件下，基于所述每相邻两张场景图像上各个目标部位之间的相似度，确定出现在所述不同场景图像上的多个相同的目标。

其中，二部图算法是指在一个二部图内，假设左顶点为X，右顶点为Y，现对于每组左右连接X_iY_j有权值w_ij，求一种匹配使得所有w_ij的和最大。在本公开实施例中，X_i相当于第一场景图像上的N个目标特征向量中的一个，Y_j相当于第二场景图像上的M个目标特征向量中的一个，权值w_ij就对应相似度。本公开需要在相似度最大的情况下，将N个目标特征向量与第二目标特征向量匹配起来，最终可以确定出现在相邻每两张场景图像中的多个相同的目标。

在本公开实施例中，满足空间距离约束的条件包括：N个目标特征向量与M个目标特征向量之间的相似度的维度，不超过N×M。

在一种可能地实现方式中，相似度最大的同时还需要确保这个相似度最大值超过预设阈值，以便进一步提高多目标跟踪的准确性。

例如图5所示，步骤104-2可以包括：

在步骤104-21中，根据所述相似度矩阵，在所述N个目标特征向量中的第一目标特征向量分别与所述M个目标特征向量之间的相似度中，确定相似度最大值。

在本公开实施例中，第一目标特征向量是第一场景图像上确定的N个目标特征向量中的任一个。根据相似度矩阵可以得到该第一目标特征向量与第二场景图像上的每个目标特征向量之间的相似度，在这些相似度中可以确定出一个相似度最大值。

假设相似度矩阵为A：

第一目标特征向量与M个第二目标特征向量之间的相似度分别为a₁₁、a₁₂和a₁₃，可以确定其中的最大值，假设为a₁₁。

在步骤104-22中，若所述相似度最大值大于预设阈值，则在所述M个目标特征向量中确定所述相似度最大值对应的第二目标特征向量。

在本公开实施例中，第二目标特征向量是第二场景图像所包括的M个目标特征向量中该相似度最大值对应的目标特征向量。

为了进一步确保多目标跟踪的准确性，需要确保相似度最大值大于预设阈值。

在步骤104-23中，将所述第一场景图像上所述第一目标特征向量对应的第一目标部位所属目标和所述第二场景图像上第二目标特征向量对应的第二目标部位所属目标，作为相同的目标。

在本公开实施例中，在上述的相似度最大值大于预设阈值时，才将所述第一场景图像的第一目标特征向量对应的第一目标部位所属目标和所述第二场景图像上第二目标特征向量对应的第二目标部位所属目标，作为相同的目标。

相似度最大值如果小于或等于预设阈值，可以认为第一场景图像上的第一目标特征向量对应的第一目标部位所属目标在第二场景图像上不存在相同的目标。

重复上述步骤104-21至104-23，重复次数为第一场景图像所包括的目标特征向量的数目N，最终可以确定出现在第一场景图像和第二场景图像上的所有相同的目标。

上述实施例中，可以根据相似度矩阵，将相邻每两张场景图像上目标部位之间的相似度最接近的两个目标作为相同的目标，实现了多目标跟踪的目的，可用性高。

在一些可选实施例中，在获取了多张场景图像之后，可以将所述多张场景图像中的至少两张输入预先训练好的特征检测模型，由所述特征检测模型对所述多张场景图像中的每张场景图像进行特征提取处理以及目标部位检测，得到所述每张场景图像的特征信息以及所述每张场景图像上的多个目标部位的位置，以及基于所述每张场景图像上多个目标部位的位置，获取所述每张场景图像的特征信息中与所述多个目标部位对应的多个目标特征信息。

特征检测模型的结构例如图6所示，将多张场景图像输入特征检测模型，特征检测模型先通过骨干网络(backbone)对多张场景图像中的每张场景图像进行特征提取，获得每张场景图像的第一特征图。

进一步地，通过特征检测模型的部位检测分支，在所述每张场景图像的第一特征图上进行目标部位检测，得到所述每张场景图像上的多个目标部位的位置；以及，通过所述特征检测模型的特征提取分支，对所述每张场景图像的第一特征图进行特征提取处理，得到多维度的第二特征图。其中，目标可以包括人物，目标部位可以包括人脸部位和/或人体部位。特征提取分支可以由至少一个卷积层串联而成。第二特征图的尺寸与第一特征图相同，这样在每个维度的第二特征图上多个目标部位的位置都是相同的。第二特征图的维度值与每张场景图像对应的预设通道数目相同。

进一步地在所述多维度的第二特征图上，可以获取与所述多个目标部位的位置对应的多个目标特征向量。目标部位的目标位置可以通过人脸识别框的中心位置和/或人体识别框的中心位置表示。目标特征向量的维度值与第二特征图的维度值相同。假设某个人脸识别框的中心位置坐标为(x，y)，特征提取分支得到的第二特征图的尺寸与第一特征图尺寸一致，均为H×W，其中，H和W分别为图像的长度和宽度，第二特征图的维度值为C，C是每张场景图像对应的预设通道数目。在每个通道上，均可以得到与人脸识别框中心位置(x，y)对应的目标特征向量，因此，目标特征向量的维度值为C。

在本公开实施例中，在所述多维度的第二特征图上提取与所述多个目标部位的位置对应的多个目标特征向量之后，可以确定第一场景图像上的N个目标特征向量分别与第二场景图像上的M个目标特征向量之间的相似度，从而得到相似度矩阵，根据该相似度矩阵，确定出现在所述不同场景图像上的多个相同的目标。确定方式与上述步骤104-2的方式相同，在此不再赘述。

例如图7所示，针对第一场景图像T₀和第二场景图像T₁，分别输入上述特征检测模型，可以得到分别得到N个目标特征向量和M个目标特征向量。进一步地，可以采用二部图算法，在满足空间距离约束的条件下对提取的所述目标部位的特征进行匹配，从而在确定出现在T₀和T₁中的相同的目标。

上述实施例中，针对每张场景图像进行单帧推断，无论每张场景图像中包括多少目标，都可以快速实现多目标跟踪，有效提高了多目标跟踪的检测效率。

在一些可选实施例中，例如图8所示，该方法还可以包括：

在步骤100-1中，将对应同一场景的多张样本场景图像输入初始神经网络模型，获得所述初始神经网络模型输出的每张样本场景图像上多个目标部位的位置分别对应的样本特征向量。

在本公开实施例中，采用已有的对应同一场景的多张样本图像作为初始神经网络模型的输入值，多张样本图像中预先通过每个标识框对应的目标标识，标识出了多个相同的目标和不同的目标。

在本公开实施例中，初始神经网络模型的结构同样可以如图7所示，包括骨干网络、部位检测分支和特征提取分支。在输入值包括多张样本场景图像的情况下，可以得到每张样本场景图像上多个目标部位的位置分别对应的样本特征向量。

在步骤100-2中，根据所述每张样本场景图像上已标注的多个目标部位分别所属的目标标识，在每相邻两张样本场景图像上，确定相同的所述目标标识的所述目标部位的位置对应的所述样本特征向量之间的第一相似度，和/或确定不同的所述目标标识的所述目标部位的位置对应的所述样本特征向量之间的第二相似度。

本公开实施例中，基于初始神经网络模型输出的每张样本场景图像上多个目标部位的位置分别对应的样本特征向量，可以确定出每相邻两张样本场景图像上的相同的所述目标标识的所述目标部位的位置对应的所述样本特征向量之间的第一相似度，和/或，所述每相邻两张样本场景图像上不同的所述目标标识的所述目标部位的位置对应的所述样本特征向量之间的第二相似度。

其中，可以根据样本特征向量之间的余弦相似度值来得到上述第一相似度值和第二相似度值。

在步骤100-3中，以所述每张样本场景图像上已标注的多个目标部位分别所属的目标标识为监督，根据所述第一相似度和所述第二相似度中的至少一项，对所述初始神经网络模型进行训练，得到所述特征检测模型。

在本公开实施例中，可以通过提高第一相似度值，降低第二相似度值的方式，例如图9所示，确定损失函数。以所述每相邻两张样本场景图像上多个目标部位分别所属的目标标识为监督，根据确定出的损失函数，调整预设模型的网络参数，训练完成后，得到特征检测模型。

上述实施例中，通过以所述每张样本场景图像上已标注的多个目标部位分别所属的目标标识为监督，对初始神经网络模型的训练，得到所述特征检测模型，提高了特征检测模型的检测性能和泛化性能。

在一些可选实施例中，针对步骤100-3，可以将第一相似度参考值与所述第一相似度之间的差值作为第一损失函数。其中，第一相似度参考值是所述每两张样本场景图像上已标注的相同的目标标识的目标部位所对应的样本特征向量之间的相似度参考值。示例性的，第一相似度参考值是样本特征向量之间的余弦相似度值，取值可以为1。

通过调整初始神经网络模型的网络参数，让第一损失函数最小或达到预设训练次数，得到特征检测模型。

或者，可以将第二相似度参考值与所述第二相似度之间的差值作为第二损失函数。其中，第二相似度参考值是所述每两张样本场景图像上已标注的不同的目标标识的目标部位所对应的样本特征向量之间的相似度参考值。示例性的，第二相似度参考值是样本特征向量之间的余弦相似度值，取值可以为0。

同样通过调整初始神经网络模型的网络参数，让第二损失函数最小或达到预设训练次数，得到特征检测模型。

或者，还可以同时将第一损失函数和第二损失函数作为初始神经网络模型的损失函数，调整初始神经网络模型的网络参数，让两个损失函数最小或达到预设训练次数，得到特征检测模型。

在一些可选实施例中，例如图10所示，该方法还可以包括：

在步骤105中，确定出现在所述多个场景图像上的多个相同的目标中的至少一个目标在预设时间段内的运动轨迹是否符合目标运动轨迹。

在本公开实施例中，多张场景图像对应教室场景，所述目标包括教学对象，所述目标运动轨迹包括教学任务中对所述教学对象指定的至少一种运动轨迹。其中，教学任务中对所述教学对象指定的至少一种运动轨迹包括但不限于从当前所在位置走到老师指定的其他位置，其他位置可以是讲台、黑板或其他同学所在位置，或者目标运动轨迹还可以包括在当前位置未发生移动。

例如在教室中，可以采用部署在教室内的带摄像头的教学多媒体设备，包括但不限于教学投影机、教室内的监控设备等来获取在教室中先后采集多张场景图像。确定教室场景图像包括的至少一个教学对象的运动轨迹，该教学对象可以是学生。

进一步地，可以在设定时间段内，例如老师教学的一堂课的时间段内，确定每个教学对象，例如每个学生的运动轨迹是否符合教学任务中对所述教学对象指定的至少一种运动轨迹。例如，是否根据老师的指示从当前位置移动到黑板前、或者其他同学所在位置，或者始终位于同一位置未发生运动轨迹的移动，例如始终坐在自己的位置上听讲等。可以通过教学多媒体设备显示上述结果，以便老师更好地进行教学任务。

与前述方法实施例相对应，本公开还提供了装置的实施例。

如图11所示，图11是本公开根据一示例性实施例示出的一种目标跟踪装置框图，装置包括：获取模块210，用于获取对应同一场景的多张场景图像；处理模块220，用于对所述多张场景图像中的每张场景图像进行特征提取处理以及目标部位检测，得到所述每张场景图像的特征信息以及所述每张场景图像上的多个目标部位的位置；特征信息确定模块230，用于获取所述每张场景图像的特征信息中与所述多个目标部位的位置分别对应的目标特征信息；目标确定模块240，用于根据获取的所述多个目标部位的位置分别对应的目标特征信息，确定出现在所述多张场景图像上的多个相同的目标。

在一些可选实施例中，所述处理模块包括：第一处理子模块，用于提取所述多张场景图像中的每张场景图像的第一特征图；第二处理子模块，用于在所述每张场景图像的第一特征图上进行目标部位检测，得到所述每张场景图像上的多个目标部位的位置；以及，对所述每张场景图像的第一特征图进行特征提取处理，得到多维度的第二特征图；所述特征信息确定模块包括：特征向量确定子模块，用于在所述多维度的第二特征图上获取与所述多个目标部位的位置对应的多个目标特征向量。

在一些可选实施例中，所述装置还包括：特征向量确定模块，用于将对应同一场景的多张样本场景图像输入预设模型，获得所述预设模型输出的每张样本场景图像上多个目标部位的位置对应的多个特征向量；相似度确定模块，用于根据每相邻两张样本场景图像上已标注的多个相同的目标，确定所述每相邻两张样本场景图像上的多个相同的目标的目标部位的位置所对应的特征向量之间的第一相似度；以及，所述每相邻两张样本场景图像上不相同的目标的目标部位的位置所对应的特征向量之间的第二相似度；训练模块，用于以所述每相邻两张样本场景图像上已标注的多个相同的目标为监督，所述第二相似度与所述第一相似度的比值作为损失函数，对所述预设模型进行训练，在所述损失函数最小时，得到所述特征检测模型。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本公开实施例还提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序用于执行上述任一所述的目标跟踪方法。

在一些可选实施例中，本公开实施例提供了一种计算机程序产品，包括计算机可读代码，当计算机可读代码在设备上运行时，设备中的处理器执行用于实现如上任一实施例提供的目标跟踪方法的指令。

在一些可选实施例中，本公开实施例还提供了另一种计算机程序产品，用于存储计算机可读指令，指令被执行时使得计算机执行上述任一实施例提供的目标跟踪方法的操作。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

本公开实施例还提供了一种目标跟踪装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为调用所述存储器中存储的可执行指令，实现上述任一项所述的目标跟踪方法。

图12为本公开实施例提供的一种目标跟踪装置的硬件结构示意图。该目标跟踪装置310包括处理器311，还可以包括输入装置312、输出装置313和存储器314。该输入装置312、输出装置313、存储器314和处理器311之间通过总线相互连接。

存储器包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmable readonly memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器用于相关指令及数据。

输入装置用于输入数据和/或信号，以及输出装置用于输出数据和/或信号。输出装置和输入装置可以是独立的器件，也可以是一个整体的器件。

处理器可以包括是一个或多个处理器，例如包括一个或多个中央处理器(centralprocessing unit，CPU)，在处理器是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。

存储器用于存储网络设备的程序代码和数据。

处理器用于调用该存储器中的程序代码和数据，执行上述方法实施例中的步骤。具体可参见方法实施例中的描述，在此不再赘述。

可以理解的是，图12仅仅示出了一种目标跟踪装置的简化设计。在实际应用中，目标跟踪装置还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、控制器、存储器等，而所有可以实现本公开实施例的目标跟踪装置都在本公开的保护范围之内。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或者惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

Claims

1.一种目标跟踪方法，其特征在于，包括：

获取对应同一场景的多张场景图像；

对所述多张场景图像中的每张场景图像进行特征提取处理以及目标部位检测，得到所述每张场景图像的特征信息以及所述每张场景图像上的多个目标部位的位置；

获取所述每张场景图像的特征信息中与所述多个目标部位的位置分别对应的目标特征信息；

根据获取的所述多个目标部位的位置分别对应的目标特征信息，确定出现在所述多张场景图像上的多个相同的目标。

2.根据权利要求1所述的方法，其特征在于，所述对所述多张场景图像中的每张场景图像进行特征提取处理以及目标部位检测，得到所述每张场景图像的特征信息以及所述每张场景图像上的多个目标部位的位置，包括：

提取所述多张场景图像中的每张场景图像的第一特征图；

在所述每张场景图像的第一特征图上进行目标部位检测，得到所述每张场景图像上的多个目标部位的位置；以及，对所述每张场景图像的第一特征图进行特征提取处理，得到多维度的第二特征图；

所述获取所述每张场景图像的特征信息中与所述多个目标部位的位置分别对应的目标特征信息，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据获取的所述多个目标部位的位置分别对应的目标特征信息，确定出现在所述多张场景图像上的多个相同的目标，包括：

利用所述多张场景图像上每相邻两张场景图像分别对应的所述多个目标特征信息，得到所述每相邻两张场景图像上各个目标部位之间的相似度；

基于所述每相邻两张场景图像上各个目标部位之间的相似度，确定出现在所述不同场景图像上的多个相同的目标。

4.根据权利要求3所述的方法，其特征在于，所述每相邻两张场景图像为第一场景图像和第二场景图像；

所述利用所述多张场景图像上每相邻两张场景图像分别对应的所述多个目标特征信息，得到所述每相邻两张场景图像上各个目标部位之间的相似度，包括：

确定第一场景图像上的N个目标特征向量分别与第二场景图像上的M个目标特征向量之间的相似度；其中，N和M为大于等于2的正整数；

根据所述第一场景图像上的N个目标特征向量分别与所述第二场景图像上的M个目标特征向量之间的所述相似度值，得到N×M维度的相似度矩阵，所述相似度矩阵中任一维度的值表示所述第一场景图像的任一第一目标部位与所述第二场景图像中的任一第二目标部位的相似度。

5.根据权利要求4所述的方法，其特征在于，所述基于所述每相邻两张场景图像上各个目标部位之间的相似度，确定出现在所述不同场景图像上的多个相同的目标，包括：

根据所述相似度矩阵，在所述N个目标特征向量中的第一目标特征向量分别与所述M个目标特征向量之间的相似度中，确定相似度最大值；

若所述相似度最大值大于预设阈值，则在所述M个目标特征向量中确定所述相似度最大值对应的第二目标特征向量；

将所述第一场景图像上所述第一目标特征向量对应的第一目标部位所属目标和所述第二场景图像上第二目标特征向量对应的第二目标部位所属目标，作为相同的目标。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述对所述多张场景图像中的每张场景图像进行特征提取处理以及目标部位检测，得到所述每张场景图像的特征信息以及所述每张场景图像上的多个目标部位的位置，包括：

通过特征检测模型的骨干网络提取所述多张场景图像中的每张场景图像的第一特征图；

通过所述特征检测模型的部位检测分支，在所述每张场景图像的第一特征图上进行目标部位检测，得到所述每张场景图像上的多个目标部位的位置；以及，通过所述特征检测模型的特征提取分支，对所述每张场景图像的第一特征图进行特征提取处理，得到多维度的第二特征图。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

将对应同一场景的多张样本场景图像输入初始神经网络模型，获得所述初始神经网络模型输出的每张样本场景图像上多个目标部位的位置分别对应的样本特征向量；

根据所述每张样本场景图像上已标注的多个目标部位分别所属的目标标识，在每相邻两张样本场景图像上，确定相同的所述目标标识的所述目标部位的位置对应的所述样本特征向量之间的第一相似度，和/或确定不同的所述目标标识的所述目标部位的位置对应的所述样本特征向量之间的第二相似度；

以所述每张样本场景图像上已标注的多个目标部位分别所属的目标标识为监督，根据所述第一相似度和所述第二相似度中的至少一项，对所述初始神经网络模型进行训练，得到所述特征检测模型。

8.根据权利要求7所述的方法，其特征在于，所述以所述每张样本场景图像上已标注的多个目标部位分别所属的目标标识为监督，根据所述第一相似度和所述第二相似度中的至少一项，对所述初始神经网络模型进行训练，得到所述特征检测模型，包括：

将第一相似度参考值与所述第一相似度之间的差值作为第一损失函数；其中，所述第一相似度参考值是所述每两张样本场景图像上已标注的相同的目标标识的目标部位所对应的样本特征向量之间的相似度参考值；

将第二相似度参考值与所述第二相似度之间的差值作为第二损失函数；其中，所述第二相似度参考值是所述每两张样本场景图像上已标注的不同的目标标识的目标部位所对应的样本特征向量之间的相似度参考值；

根据所述第一损失函数和所述第二损失函数中的至少一项，对所述初始神经网络模型进行训练，得到所述特征检测模型。

9.根据权利要求1-8任一项所述的方法，其特征在于，所述方法还包括：

确定出现在所述多个场景图像上的多个相同的目标中的至少一个目标在预设时间段内的运动轨迹是否符合目标运动轨迹。

10.根据权利要求9所述的方法，其特征在于，所述多张场景图像对应教室场景，所述目标包括教学对象，所述目标运动轨迹包括教学任务中对所述教学对象指定的至少一种运动轨迹。

11.一种目标跟踪装置，其特征在于，所述装置包括：

获取模块，用于获取对应同一场景的多张场景图像；

处理模块，用于对所述多张场景图像中的每张场景图像进行特征提取处理以及目标部位检测，得到所述每张场景图像的特征信息以及所述每张场景图像上的多个目标部位的位置；

特征信息确定模块，用于获取所述每张场景图像的特征信息中与所述多个目标部位的位置分别对应的目标特征信息；

目标确定模块，用于根据获取的所述多个目标部位的位置分别对应的目标特征信息，确定出现在所述多张场景图像上的多个相同的目标。

12.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-10任一所述的目标跟踪方法。

13.一种目标跟踪装置，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现权利要求1-10中任一项所述的目标跟踪方法。