CN111127509B

CN111127509B - 目标跟踪方法、装置和计算机可读存储介质

Info

Publication number: CN111127509B
Application number: CN201811285529.7A
Authority: CN
Inventors: 范晶
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2023-09-01
Anticipated expiration: 2038-10-31
Also published as: CN111127509A

Abstract

本发明公开了一种目标跟踪方法和装置，属于电子技术领域。该方法包括：通过目标识别模型确定视频的每帧视频图像中的检测框的位置和每个检测框内的目标的类别和图像特征，目标识别模型是使用目标检测数据集和检索数据集对神经网络模型进行训练得到，每个目标检测数据标记有检测框位置及对应的目标类别，每个检索数据标记有目标标识；根据视频的每帧视频图像中的检测框的位置和每个检测框内的目标的类别和图像特征，对视频中包含的目标进行跟踪。本发明中目标识别模型可以定位目标并同时提取出目标的图像特征，在不增加额外的时间消耗和资源消耗的情况下，能够直接提供目标的图像特征用于目标跟踪的评价参考，可以提高目标跟踪的实时性和准确性。

Description

目标跟踪方法、装置和计算机可读存储介质

技术领域

本发明涉及电子技术领域，特别涉及一种目标跟踪方法、装置和计算机可读存储介质。

背景技术

随着电子技术的发展，对图像内容进行识别与理解已经成为研究的热点。目标跟踪作为识别与理解图像内容的一个重要方面，在安防监控、智能交通、自动驾驶等领域有着广泛的应用。目标跟踪是指在视频中持续不断地自动识别和定位目标，以记录目标的运动轨迹。

目前，在视频中进行目标跟踪时，先用目标检测模型检测出视频的每帧视频图像中的检测框位置及其对应的目标类别，再使用预设的跟踪算法对每帧视频图像中的检测框内的图像进行识别，得到检测框内的目标的跟踪特征，然后根据每帧视频图像中包含的目标的跟踪特征、每帧视频图像中的检测框位置及其对应的目标类别，对该视频中包含的目标进行跟踪。

然而，上述目标跟踪过程中，需要先使用目标检测模型对视频图像进行检测，再使用预设的跟踪算法对视频图像进行跟踪，整体过程复杂，目标跟踪的实时性较低。并且，由于只是使用目标的跟踪特征来对目标进行跟踪，所以目标跟踪的准确性较低。

发明内容

本发明实施例提供了一种目标跟踪方法、装置和计算机可读存储介质，可以解决相关技术中目标跟踪的实时性和准确性较低的问题。所述技术方案如下：

一方面，提供了一种目标跟踪方法，所述方法包括：

获取需要进行目标跟踪的视频；

通过目标识别模型，确定所述视频的每帧视频图像中的检测框的位置，以及确定每个检测框内的目标的类别和图像特征，所述目标识别模型是使用目标检测数据集和检索数据集对神经网络模型进行训练得到，所述目标检测数据集中的每个目标检测数据标记有检测框位置及对应的目标类别，所述检索数据集中的每个检索数据标记有目标标识；

根据所述视频的每帧视频图像中的检测框的位置和每个检测框内的目标的类别和图像特征，对所述视频中包含的目标进行跟踪。

可选地，所述目标识别模型是交替使用所述目标检测数据集和所述检索数据集对所述神经网络模型进行训练得到；或者，所述目标识别模型是同时使用所述目标检测数据集和所述检索数据集对所述神经网络模型进行训练得到。

可选地，当所述目标识别模型是交替使用所述目标检测数据集和所述检索数据集对所述神经网络模型进行训练得到时，所述目标识别模型是根据第一神经网络模型中的参数的梯度值，对所述第一神经网络模型中的参数进行更新后得到，所述第一神经网络模型中的参数的梯度值是根据所述检索数据集确定得到，所述第一神经网络模型是根据所述神经网络模型中的参数的梯度值，对所述神经网络模型中的参数进行更新后得到，所述神经网络模型中的参数的梯度值是根据所述目标检测数据集确定得到；或者，当所述目标识别模型是交替使用所述目标检测数据集和所述检索数据集对所述神经网络模型进行训练得到时，所述目标识别模型是根据第二神经网络模型中的参数的梯度值，对所述第二神经网络模型中的参数进行更新后得到，所述第二神经网络模型中的参数的梯度值是根据所述目标检测数据集确定得到，所述第二神经网络模型是根据所述神经网络模型中的参数的梯度值，对所述神经网络模型中的参数进行更新后得到，所述神经网络模型中的参数的梯度值是根据所述检索数据集确定得到。

可选地，当所述目标识别模型是同时使用所述目标检测数据集和所述检索数据集对所述神经网络模型进行训练得到时，所述目标识别模型是根据所述神经网络模型中的参数的平均梯度值，对所述神经网络模型中的参数进行更新后得到，所述神经网络模型中的参数的平均梯度值是对所述神经网络模型中的参数的第一梯度值和第二梯度值进行平均后得到，所述神经网络模型中的参数的第一梯度值是根据所述目标检测数据集确定得到，所述神经网络模型中的参数的第二梯度值是根据所述检索数据集确定得到。

可选地，所述获取需要进行目标跟踪的视频之后，还包括：

获取所述视频的每帧视频图像中每个检测框内的目标的跟踪特征；

相应地，所述根据所述视频的每帧视频图像中的检测框的位置和每个检测框内的目标的类别和图像特征，对所述视频中包含的目标进行跟踪，包括：

根据所述视频的每帧视频图像中的检测框的位置和每个检测框内的目标的类别、图像特征和跟踪特征，对所述视频中包含的目标进行跟踪。

可选地，所述根据所述视频的每帧视频图像中的检测框的位置和每个检测框内的目标的类别、图像特征和跟踪特征，对所述视频中包含的目标进行跟踪，包括：

根据所述视频的前n帧视频图像中每帧视频图像中的检测框的位置和每个检测框内的目标的类别、图像特征和跟踪特征，确定跟踪目标集和所述跟踪目标集中每个跟踪目标的跟踪片段和跟踪信息，所述n为大于或等于2的整数；

令i＝n，根据所述视频的第i+1帧视频图像中的检测框的位置和每个检测框内的目标的类别、图像特征、跟踪特征和所述跟踪目标集中每个跟踪目标的跟踪信息，将所述第i+1帧视频图像中包含的目标与所述跟踪目标集中的每个跟踪目标进行匹配；

如果所述第i+1帧视频图像中包含的指定目标与所述跟踪目标集中的指定跟踪目标匹配成功，则将所述第i+1帧视频图像添加到所述指定跟踪目标的跟踪片段中，并根据所述指定目标所在的检测框的位置、所述指定目标的类别、图像特征和跟踪特征，更新所述指定跟踪目标的跟踪信息，所述指定目标为所述第i+1帧视频图像中包含的任意一个目标，所述指定跟踪目标为所述跟踪目标集中的任意一个跟踪目标；

如果所述第i+1帧视频图像中包含的指定目标与所述跟踪目标集中所有的跟踪目标均未匹配成功，则将所述指定目标添加到所述跟踪目标集中；将所述第i+1帧视频图像确定为所述指定目标的跟踪片段，并根据所述指定目标所在的检测框的位置、所述指定目标的类别、图像特征和跟踪特征，生成所述指定目标的跟踪信息；

令i＝i+1，返回所述根据所述视频的第i+1帧视频图像中的检测框的位置和每个检测框内的目标的类别、图像特征、跟踪特征和所述跟踪目标集中每个跟踪目标的跟踪信息，将所述第i+1帧视频图像中包含的目标与所述跟踪目标集中的每个跟踪目标进行匹配的步骤。

一方面，提供了一种目标跟踪装置，所述装置包括：

第一获取模块，用于获取需要进行目标跟踪的视频；

确定模块，用于通过目标识别模型，确定所述视频的每帧视频图像中的检测框的位置，以及确定每个检测框内的目标的类别和图像特征，所述目标识别模型是使用目标检测数据集和检索数据集对神经网络模型进行训练得到，所述目标检测数据集中的每个目标检测数据标记有检测框位置及对应的目标类别，所述检索数据集中的每个检索数据标记有目标标识；

跟踪模块，用于根据所述视频的每帧视频图像中的检测框的位置和每个检测框内的目标的类别和图像特征，对所述视频中包含的目标进行跟踪。

可选地，所述装置还包括：

第二获取模块，用于获取所述视频的每帧视频图像中每个检测框内的目标的跟踪特征；

相应地，所述跟踪模块包括：

跟踪单元，用于根据所述视频的每帧视频图像中的检测框的位置和每个检测框内的目标的类别、图像特征和跟踪特征，对所述视频中包含的目标进行跟踪。

可选地，所述跟踪单元用于：

一方面，提供了一种目标跟踪装置，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述的目标跟踪方法的步骤。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述的目标跟踪方法的步骤。

本发明实施例提供的技术方案至少可以带来以下有益效果：

获取需要进行目标跟踪的视频后，通过目标识别模型，确定该视频的每帧视频图像中的检测框的位置，以及确定每个检测框内的目标的类别和图像特征。之后，根据该视频的每帧视频图像中的检测框的位置和每个检测框内的目标的类别和图像特征，对该视频中包含的目标进行跟踪。本发明实施例中通过目标识别模型可以定位目标并同时提取出目标的图像特征，从而在不会增加额外的时间消耗和资源消耗的情况下，能够直接提供目标的图像特征来用于目标跟踪的评价参考，进而可以显著提高目标跟踪的实时性和准确性，提高目标跟踪效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种目标跟踪方法的流程图；

图2是本发明实施例提供的另一种目标跟踪方法的流程图；

图3是本发明实施例提供的一种模型训练过程的示意图；

图4是本发明实施例提供的一种视频中的目标跟踪过程的示意图；

图5是本发明实施例提供的一种目标跟踪装置的结构示意图；

图6是本发明实施例提供的另一种目标跟踪装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种目标跟踪方法的流程图。参见图1，该方法包括：

步骤101：获取需要进行目标跟踪的视频。

需要说明的是，该视频可以为安防监控、智能交通、自动驾驶等领域中使用的摄像头拍摄到的视频，当然，该视频也可以为其它有目标跟踪需求的视频，本发明实施例对此不作限定。

步骤102：通过目标识别模型，确定该视频的每帧视频图像中的检测框的位置，以及确定每个检测框内的目标的类别和图像特征。

需要说明的是，目标识别模型是使用目标检测数据集和检索数据集对神经网络模型进行训练得到，目标检测数据集中的每个目标检测数据标记有检测框位置及对应的目标类别，检索数据集中的每个检索数据标记有目标标识。

另外，目标识别模型可以是交替使用目标检测数据集和检索数据集对神经网络模型进行训练得到。例如，目标识别模型可以是根据第一神经网络模型中的参数的梯度值，对第一神经网络模型中的参数进行更新后得到，第一神经网络模型中的参数的梯度值是根据检索数据集确定得到，第一神经网络模型是根据神经网络模型中的参数的梯度值，对该神经网络模型中的参数进行更新后得到，该神经网络模型中的参数的梯度值是根据目标检测数据集确定得到；或者，目标识别模型可以是根据第二神经网络模型中的参数的梯度值，对第二神经网络模型中的参数进行更新后得到，第二神经网络模型中的参数的梯度值是根据目标检测数据集确定得到，第二神经网络模型是根据神经网络模型中的参数的梯度值，对该神经网络模型中的参数进行更新后得到，该神经网络模型中的参数的梯度值是根据检索数据集确定得到。

再者，目标识别模型也可以是同时使用目标检测数据集和检索数据集对神经网络模型进行训练得到。例如，目标识别模型可以是根据神经网络模型中的参数的平均梯度值，对该神经网络模型中的参数进行更新后得到，该神经网络模型中的参数的平均梯度值是对该神经网络模型中的参数的第一梯度值和第二梯度值进行平均后得到，该神经网络模型中的参数的第一梯度值是根据目标检测数据集确定得到，该神经网络模型中的参数的第二梯度值是根据检索数据集确定得到。

值得注意的是，在获取到需要进行目标跟踪的视频后，即可通过目标识别模型顺序地确定该视频的每帧视频图像中的检测框的位置和每个检测框内类别和图像特征，如此可以实现对该视频的每帧视频图像中包含的目标的初步识别和定位。例如，目标识别模型包括有输入层、卷积层、LSTM(Long Short-Term Memory，长短期记忆)层、MLP(Multi-LayerPerceptron，多层感知机)层和输出层，如此，将某一帧视频图像输入至目标识别模型后，目标识别模型包括的各个层可以依次进行数据处理，处理完成后即可输出这一帧视频图像中的检测框的位置和每个检测框内的目标的类别和图像特征。

步骤103：根据该视频的每帧视频图像中的检测框的位置和每个检测框内的目标的类别和图像特征，对该视频中包含的目标进行跟踪。

在本发明实施例中，获取需要进行目标跟踪的视频后，通过目标识别模型，确定该视频的每帧视频图像中的检测框的位置，以及确定每个检测框内的目标的类别和图像特征。之后，根据该视频的每帧视频图像中的检测框的位置和每个检测框内的目标的类别和图像特征，对该视频中包含的目标进行跟踪。本发明实施例中通过目标识别模型可以定位目标并同时提取出目标的图像特征，从而在不会增加额外的时间消耗和资源消耗的情况下，能够直接提供目标的图像特征来用于目标跟踪的评价参考，进而可以显著提高目标跟踪的实时性和准确性，提高目标跟踪效果。

图2是本发明实施例提供的一种目标跟踪方法的流程图。参见图2，该方法包括：

步骤201：使用目标检测数据集和检索数据集对神经网络模型进行训练，得到目标识别模型。

需要说明的是，目标检测数据集中的每个目标检测数据标记有检测框位置及对应的目标类别，且每个目标检测数据可以标记有多个检测框位置，每个检测框位置可以对应一个目标类别，某个检测框位置对应的目标类别为这个检测框位置指示的检测框内的目标的类别。目标检测数据集中可以包括多组目标检测数据，每组目标检测数据中所有的目标检测数据至少标记有一个相同的目标类别，也即每组目标检测数据中所有的目标检测数据中至少包含有一个同类别的目标。

另外，检索数据集中的每个检索数据标记有目标标识，且每个检索数据可以标记有一个目标标识，目标标识用于唯一标识目标，如目标标识可以为目标的名称等。检索数据集中可以包括多组检索数据，每组检索数据中所有的检索数据标记有相同的目标标识，也即每组检索数据中所有的检索数据中包含的目标为同一目标。

再者，目标检测数据和检索数据均可以为图像。例如，目标检测数据可以为视频图像，该视频图像可以标记有多个检测框位置以及每个检测框位置在该视频图像中指示的检测框内的目标的类别；检索数据可以为目标图像，该目标图像可以标记有该目标图像中包含的目标的标识。

值得说明的是，本发明实施例中使用目标检测数据集和检索数据集对神经网络模型进行训练，即是采用多任务学习的方式训练神经网络模型，可以实现目标检测任务和特征提取任务对神经网络模型中的各个层(如卷积层、池化层、全连接层等)的共享，从而使得最终训练得到的目标识别模型不仅可以检测出目标所在的检测框的位置和目标的类别，还可以提取出目标的图像特征。

例如，如图3所示，使用目标检测数据集和检索数据集对神经网络模型进行训练，此时目标检测任务和特征提取任务可以对神经网络模型中的各个层进行共享，如此训练得到的目标识别模型可以确定出目标所在的检测框的位置、目标的类别和图像特征。

具体地，步骤201的操作可以通过如下第一种方式或第二种方式实现。

第一种方式：交替使用目标检测数据集和检索数据集对神经网络模型进行训练，得到目标识别模型。

需要说明的是，当仅有一个设备执行步骤201时，这个设备可以交替使用目标检测数据集和检索数据集对神经网络模型进行训练来得到目标识别模型。

具体地，可以先根据目标检测数据集对神经网络模型中的参数进行调整，再根据检索数据集对调整后的神经网络模型中的参数进行调整，得到目标识别模型；或者，可以先根据检索数据集对神经网络模型中的参数进行调整，再根据目标检测数据集对调整后的神经网络模型中的参数进行调整，得到目标识别模型。

需要说明的是，当目标检测数据集中包括多组目标检测数据，且检索数据集中包括多组检索数据时，可以依次交替使用该多组目标检测数据中的每组目标检测数据和该多组检索数据中的每组检索数据对神经网络模型进行训练来得到目标识别模型。

也即是，可以先根据该多组目标检测数据中的第一组目标检测数据对神经网络模型中的参数进行调整，再根据该多组检索数据中的第一组检索数据对调整后的神经网络模型中的参数进行调整，之后，继续根据该多组目标检测数据中的第二组目标检测数据对调整后的神经网络模型中的参数进行调整，再根据该多组检索数据中的第二组检索数据对调整后的神经网络模型中的参数进行调整，以此类推，直至根据该多组目标检测数据和该多组检索数据均已对神经网络模型中的参数进行调整为止，最后将参数调整完成后的神经网络模型作为目标识别模型。或者，可以先根据该多组检索数据中的第一组检索数据对神经网络模型中的参数进行调整，再根据该多组目标检测数据中的第一组目标检测数据对调整后的神经网络模型中的参数进行调整，之后，继续根据该多组检索数据中的第二组检索数据对调整后的神经网络模型中的参数进行调整，再根据该多组目标检测数据中的第二组目标检测数据对调整后的神经网络模型中的参数进行调整，以此类推，直至根据该多组检索数据和该多组目标检测数据均已对神经网络模型中的参数进行调整为止，最后将参数调整完成后的神经网络模型作为目标识别模型。

其中，先根据目标检测数据集对神经网络模型中的参数进行调整，再根据检索数据集对调整后的神经网络模型中的参数进行调整的操作与相关技术中依次根据两个数据集对神经网络模型中的参数进行调整的操作类似，本发明实施例对此不进行详细阐述。

例如，可以根据目标检测数据集确定神经网络模型中的参数的梯度值，根据该神经网络模型中的参数的梯度值，对该神经网络模型中的参数进行更新，得到第一神经网络模型；根据检索数据集确定第一神经网络模型中的参数的梯度值，根据第一神经网络模型中的参数的梯度值，对第一神经网络模型中的参数进行更新，得到目标识别模型。

同样，先根据检索数据集对神经网络模型中的参数进行调整，再根据目标检测数据集对调整后的神经网络模型中的参数进行调整的操作与相关技术中依次根据两个数据集对神经网络模型中的参数进行调整的操作类似，本发明实施例对此不进行详细阐述。

例如，可以根据检索数据集确定神经网络模型中的参数的梯度值，根据该神经网络模型中的参数的梯度值，对该神经网络模型中的参数进行更新，得到第二神经网络模型；根据目标检测数据集确定第二神经网络模型中的参数的梯度值，根据第二神经网络模型中的参数的梯度值，对第二神经网络模型中的参数进行更新，得到目标识别模型。

需要说明的是，某个参数的梯度值为损失函数对这个参数的偏导，这种情况下，用这个参数减去学习率与这个参数的梯度值之积，就可以得到更新后的参数。

第二种方式：同时使用目标检测数据集和检索数据集对神经网络模型进行训练，得到目标识别模型。

需要说明的是，当有多个设备执行步骤201时，该多个设备可以相互配合实现同时使用目标检测数据集和检索数据集对神经网络模型进行训练来得到目标识别模型。

具体地，可以同时根据目标检测数据集和检索数据集对神经网络模型中的参数进行调整，得到目标识别模型。

需要说明的是，当目标检测数据集中包括多组目标检测数据，且检索数据集中包括多组检索数据时，可以依次同时使用该多组目标检测数据中的每组目标检测数据和该多组检索数据中的每组检索数据对神经网络模型进行训练来得到目标识别模型。

也即是，可以同时根据该多组目标检测数据中的第一组目标检测数据和该多组检索数据中的第一组检索数据对神经网络模型中的参数进行调整，再继续根据该多组目标检测数据中的第二组目标检测数据和该多组检索数据中的第二组检索数据对调整后的神经网络模型中的参数进行调整，以此类推，直至根据该多组目标检测数据和该多组检索数据均已对神经网络模型中的参数进行调整为止，最后将参数调整完成后的神经网络模型作为目标识别模型。

其中，同时根据目标检测数据集和检索数据集对神经网络模型中的参数进行调整的操作与相关技术中同时根据两个数据集对神经网络模型中的参数进行调整的操作类似，本发明实施例对此不进行详细阐述。

例如，可以根据目标检测数据集确定神经网络模型中的参数的梯度值作为第一梯度值，并根据检索数据集确定神经网络模型中的参数的梯度值作为第二梯度值；对该神经网络模型中的参数的第一梯度值和第二梯度值进行平均，得到该神经网络模型中的参数的平均梯度值；根据该神经网络模型中的参数的平均梯度值，对该神经网络模型中的参数进行更新，得到目标识别模型。

需要说明的是，有多个设备执行步骤201时，该多个设备中的一个设备可以根据目标检测数据集确定神经网络模型中的参数的梯度值作为第一梯度值，同时，另一个设备可以根据检索数据集确定神经网络模型中的参数的梯度值作为第二梯度值，然后这两个设备可以将第一梯度值和第二梯度值传输给该多个设备中除这两个设备之外的其它设备。之后，该其它设备可以根据第一梯度值和第二梯度值对参数进行更新，并将更新后的参数回传给这两个设备，由这两个设备据此进行下一轮的梯度值确定。

当通过上述步骤201得到目标识别模型后，即可使用目标识别模型来进行目标跟踪，具体使用目标识别模型进行目标跟踪的过程可以通过如下步骤202-步骤204实现。

步骤202：获取需要进行目标跟踪的视频。

步骤203：通过目标识别模型，确定该视频的每帧视频图像中的检测框的位置，以及确定每个检测框内的目标的类别和图像特征。

实际应用中，在获取到需要进行目标跟踪的视频后，即可通过目标识别模型顺序地确定该视频的每帧视频图像中的检测框的位置和每个检测框内的目标的类别和图像特征，如此可以实现对该视频的每帧视频图像中包含的目标的初步识别和定位。例如，目标识别模型包括有输入层、卷积层、LSTM层、MLP层和输出层，如此，将某一帧视频图像输入至目标识别模型后，目标识别模型包括的各个层可以依次进行数据处理，处理完成后即可输出这一帧视频图像中的检测框的位置和每个检测框内的目标的类别和图像特征。

具体地，对于该视频中的任意一帧视频图像，可以将这帧视频图像输入到目标识别模型中，由目标识别模型输出这帧视频图像的目标框链表和每个目标对应的特征链表，这帧视频图像的目标框链表中包括这帧视频图像中包含的每个目标所在的检测框的位置和每个目标的类别，每个目标对应的特征链表中包括每个目标的图像特征。如此，将该视频中任意一帧视频图像输入目标识别模型中后，目标识别模型就可以输出这帧视频图像中的检测框的位置和每个检测框内的目标的类别和图像特征。

值得说明的是，本发明实施例中可以通过目标识别模型定位目标并同时提取出目标的图像特征，从而在不会增加额外的时间消耗和资源消耗的情况下，能够直接提供目标的图像特征来用于后续目标跟踪的评价参考，进而可以显著提高目标跟踪的实时性和准确性，提高目标跟踪效果。

进一步地，本发明实施例中获取需要进行目标跟踪的视频之后，不仅可以通过目标识别模型确定该视频的每帧视频图像中的检测框的位置和每个检测框内的目标的类别和图像特征，还可以获取该视频的每帧视频图像中每个检测框内的目标的跟踪特征。该跟踪特征可以包括运动特征、统计特征(直方图、矩特征等)、变换系数特征(傅里叶描绘子、自回归模型等)、代数特征(图像矩阵的奇异值分解等)等中的至少一个。

需要说明的是，获取每个检测框内的目标的跟踪特征时，可以使用预设的跟踪算法来获取，且使用预设的跟踪算法来获取每个检测框内的目标的跟踪特征的操作可以参考相关技术，本发明实施例对此不进行详细阐述。

步骤204：根据该视频的每帧视频图像中的检测框的位置和每个检测框内的目标的类别和图像特征，对该视频中包含的目标进行跟踪。

具体地，可以直接根据该视频的每帧视频图像中的检测框的位置和每个检测框内的目标的类别和图像特征，对该视频中包含的目标进行跟踪；或者，当获取到该视频的每帧视频图像中每个检测框内的目标的跟踪特征时，可以根据该视频的每帧视频图像中的检测框的位置和每个检测框内的目标的类别、图像特征和跟踪特征，对该视频中包含的目标进行跟踪。

其中，根据该视频的每帧视频图像中的检测框的位置和每个检测框内的目标的类别、图像特征和跟踪特征，对该视频中包含的目标进行跟踪的操作可以为：根据该视频的前n帧视频图像中每帧视频图像中的检测框的位置和每个检测框内的目标的类别、图像特征和跟踪特征，确定跟踪目标集和该跟踪目标集中每个跟踪目标的跟踪片段和跟踪信息，n为大于或等于2的整数；令i＝n，根据该视频的第i+1帧视频图像中的检测框的位置和每个检测框内的目标的类别、图像特征、跟踪特征和该跟踪目标集中每个跟踪目标的跟踪信息，将第i+1帧视频图像中包含的目标与该跟踪目标集中的每个跟踪目标进行匹配；如果第i+1帧视频图像中包含的指定目标与该跟踪目标集中的指定跟踪目标匹配成功，则将第i+1帧视频图像添加到指定跟踪目标的跟踪片段中，并根据指定目标所在的检测框的位置、指定目标的类别、图像特征和跟踪特征，更新指定跟踪目标的跟踪信息，指定目标为第i+1帧视频图像中包含的任意一个目标，指定跟踪目标为该跟踪目标集中的任意一个跟踪目标；如果第i+1帧视频图像中包含的指定目标与该跟踪目标集中所有的跟踪目标均未匹配成功，则将指定目标添加到该跟踪目标集中，将第i+1帧视频图像确定为指定目标的跟踪片段，并根据指定目标所在的检测框的位置、指定目标的类别、图像特征和跟踪特征，生成指定目标的跟踪信息；令i＝i+1，返回上述根据该视频的第i+1帧视频图像中的检测框的位置和每个检测框内的目标的类别、图像特征、跟踪特征和该跟踪目标集中每个跟踪目标的跟踪信息，将第i+1帧视频图像中包含的目标与该跟踪目标集中的每个跟踪目标进行匹配的步骤。

需要说明的是，本发明实施例中可以根据该视频的前n帧视频图像中的检测框的位置和每个检测框内的目标的类别、图像特征和跟踪特征，生成初始的跟踪目标集、跟踪片段和跟踪信息。之后，依次根据该视频的前n帧视频图像后的每帧视频图像中的检测框的位置和每个检测框内的目标的类别、图像特征和跟踪特征，将该视频的前n帧视频图像后的每帧视频图像中包含的目标与跟踪目标集中的跟踪目标进行关联，如果关联上已有的跟踪目标，则更新该跟踪目标的跟踪片段和跟踪信息，如果未关联上已有的跟踪目标，则生成新的跟踪目标、跟踪片段和跟踪信息。

另外，跟踪目标的跟踪片段可以包括该视频中包含有该跟踪目标的视频图像，跟踪目标的跟踪信息可以包括该跟踪目标在其跟踪片段中所在的检测框的位置、该跟踪目标的图像特征和跟踪特征等，本发明实施例对此不作限定。

其中，根据该视频的前n帧视频图像中的每帧视频图像中的检测框的位置和每个检测框内的目标的类别、图像特征和跟踪特征，确定跟踪目标集和该跟踪目标集中每个跟踪目标的跟踪片段和跟踪信息的操作与相关技术中根据多帧视频图像中的每帧视频图像的目标检测信息，确定跟踪目标集和该跟踪目标集中每个跟踪目标的跟踪片段和跟踪信息的操作类似，本发明实施例对此不进行详细阐述。

其中，根据该视频的第i+1帧视频图像中的检测框的位置和每个检测框内的目标的类别、图像特征、跟踪特征和该跟踪目标集中每个跟踪目标的跟踪信息，将第i+1帧视频图像中包含的目标与该跟踪目标集中的每个跟踪目标进行匹配的操作与相关技术中根据某一帧视频图像的目标检测信息和另一帧视频图像的目标检测信息，将这两帧视频图像中包含的目标进行匹配的操作类似，本发明实施例对此不进行详细阐述。

下面结合图4来对上述视频中的目标跟踪过程进行说明。

如图4所示，将视频中的视频图像输入目标识别模型中来进行目标定位和识别，得到该视频中的视频图像的目标框链表和每个目标对应的特征链表。然后根据该视频的前n帧视频图像的目标框链表和每个目标对应的特征链表，生成跟踪目标集、跟踪片段和跟踪信息。之后，依次对该视频的前n帧视频图像后的每帧视频图像中包含的目标进行跟踪关联，根据跟踪关联的结果更新跟踪目标集、跟踪片段和跟踪信息。如此循环，直至对该视频的前n帧视频图像后所有的视频图像中包含的目标均进行了跟踪关联为止，最终输出目标跟踪结果。

在本发明实施例中，使用目标检测数据集和检索数据集对神经网络模型进行训练，得到目标识别模型。之后，获取需要进行目标跟踪的视频，通过目标识别模型，确定该视频的每帧视频图像的检测框的位置，以及确定每个检测框内的目标的类别和图像特征。最后，根据该视频的每帧视频图像中的检测框的位置和每个检测框内的目标的类别和图像特征，对该视频中包含的目标进行跟踪。本发明实施例中通过目标识别模型可以定位目标并同时提取出目标的图像特征，从而在不会增加额外的时间消耗和资源消耗的情况下，能够直接提供目标的图像特征来用于目标跟踪的评价参考，进而可以显著提高目标跟踪的实时性和准确性，提高目标跟踪效果。

图5是本发明实施例提供的一种目标跟踪装置的结构示意图。参见图5，该装置包括第一获取模块501，确定模块502和跟踪模块503。

第一获取模块501，用于获取需要进行目标跟踪的视频；

确定模块502，用于通过目标识别模型，确定视频的每帧视频图像中的检测框的位置，以及确定每个检测框内的目标的类别和图像特征，目标识别模型是使用目标检测数据集和检索数据集对神经网络模型进行训练得到，目标检测数据集中的每个目标检测数据标记有检测框位置及对应的目标类别，检索数据集中的每个检索数据标记有目标标识；

跟踪模块503，用于根据视频的每帧视频图像中的检测框的位置和每个检测框内的目标的类别和图像特征，对视频中包含的目标进行跟踪。

可选地，目标识别模型是交替使用目标检测数据集和检索数据集对神经网络模型进行训练得到；或者，目标识别模型是同时使用目标检测数据集和检索数据集对神经网络模型进行训练得到。

可选地，当目标识别模型是交替使用目标检测数据集和检索数据集对神经网络模型进行训练得到时，目标识别模型是根据第一神经网络模型中的参数的梯度值，对第一神经网络模型中的参数进行更新后得到，第一神经网络模型中的参数的梯度值是根据检索数据集确定得到，第一神经网络模型是根据神经网络模型中的参数的梯度值，对神经网络模型中的参数进行更新后得到，神经网络模型中的参数的梯度值是根据目标检测数据集确定得到；或者，当目标识别模型是交替使用目标检测数据集和检索数据集对神经网络模型进行训练得到时，目标识别模型是根据第二神经网络模型中的参数的梯度值，对第二神经网络模型中的参数进行更新后得到，第二神经网络模型中的参数的梯度值是根据目标检测数据集确定得到，第二神经网络模型是根据神经网络模型中的参数的梯度值，对神经网络模型中的参数进行更新后得到，神经网络模型中的参数的梯度值是根据检索数据集确定得到。

可选地，当目标识别模型是同时使用目标检测数据集和检索数据集对神经网络模型进行训练得到时，目标识别模型是根据神经网络模型中的参数的平均梯度值，对神经网络模型中的参数进行更新后得到，神经网络模型中的参数的平均梯度值是对神经网络模型中的参数的第一梯度值和第二梯度值进行平均后得到，神经网络模型中的参数的第一梯度值是根据目标检测数据集确定得到，神经网络模型中的参数的第二梯度值是根据检索数据集确定得到。

可选地，该装置还包括：

第二获取模块，用于获取视频的每帧视频图像中每个检测框内的目标的跟踪特征；

相应地，跟踪模块503包括：

跟踪单元，用于根据视频的每帧视频图像中的检测框的位置和每个检测框内的目标的类别、图像特征和跟踪特征，对视频中包含的目标进行跟踪。

可选地，跟踪单元用于：

根据视频的前n帧视频图像中每帧视频图像中的检测框的位置和每个检测框内的目标的类别、图像特征和跟踪特征，确定跟踪目标集和跟踪目标集中每个跟踪目标的跟踪片段和跟踪信息，n为大于或等于2的整数；

令i＝n，根据视频的第i+1帧视频图像中的检测框的位置和每个检测框内的目标的类别、图像特征、跟踪特征和跟踪目标集中每个跟踪目标的跟踪信息，将第i+1帧视频图像中包含的目标与跟踪目标集中的每个跟踪目标进行匹配；

如果第i+1帧视频图像中包含的指定目标与跟踪目标集中的指定跟踪目标匹配成功，则将第i+1帧视频图像添加到指定跟踪目标的跟踪片段中，并根据指定目标所在的检测框的位置、指定目标的类别、图像特征和跟踪特征，更新指定跟踪目标的跟踪信息，指定目标为第i+1帧视频图像中包含的任意一个目标，指定跟踪目标为跟踪目标集中的任意一个跟踪目标；

如果第i+1帧视频图像中包含的指定目标与跟踪目标集中所有的跟踪目标均未匹配成功，则将指定目标添加到跟踪目标集中；将第i+1帧视频图像确定为指定目标的跟踪片段，并根据指定目标所在的检测框的位置、指定目标的类别、图像特征和跟踪特征，生成指定目标的跟踪信息；

令i＝i+1，返回根据视频的第i+1帧视频图像中的检测框的位置和每个检测框内的目标的类别、图像特征、跟踪特征和跟踪目标集中每个跟踪目标的跟踪信息，将第i+1帧视频图像中包含的目标与跟踪目标集中的每个跟踪目标进行匹配的步骤。

需要说明的是：上述实施例提供的目标跟踪装置在目标跟踪时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的目标跟踪装置与目标跟踪方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图6是本发明实施例提供的一种目标跟踪装置的结构示意图。参见图6，该装置可以为终端600，终端600可以是：智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的目标跟踪方法。

在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、触摸显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本申请对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置在终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时，由处理器601根据用户对触摸显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置在终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制触摸显示屏605的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏605的显示亮度；当环境光强度较低时，调低触摸显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种目标跟踪方法，其特征在于，所述方法包括：

获取需要进行目标跟踪的视频；

通过目标识别模型，确定所述视频的每帧视频图像中的检测框的位置，以及确定每个检测框内的目标的类别和图像特征，所述目标识别模型是交替使用或者同时使用目标检测数据集和检索数据集，采用多任务学习的方式对神经网络模型进行训练得到，所述目标检测数据集中的每个目标检测数据标记有检测框位置及对应的目标类别，所述检索数据集中的每个检索数据标记有目标标识，所述目标检测数据集用于训练所述神经网络模型执行目标检测任务，所述检索数据集用于训练所述神经网络模型执行特征提取任务，所述神经网络模型中的各个层共同完成所述目标检测任务和所述特征提取任务；

2.如权利要求1所述的方法，其特征在于，

当所述目标识别模型是交替使用所述目标检测数据集和所述检索数据集对所述神经网络模型进行训练得到时，所述目标识别模型是根据第一神经网络模型中的参数的梯度值，对所述第一神经网络模型中的参数进行更新后得到，所述第一神经网络模型中的参数的梯度值是根据所述检索数据集确定得到，所述第一神经网络模型是根据所述神经网络模型中的参数的梯度值，对所述神经网络模型中的参数进行更新后得到，所述神经网络模型中的参数的梯度值是根据所述目标检测数据集确定得到；或者，

当所述目标识别模型是交替使用所述目标检测数据集和所述检索数据集对所述神经网络模型进行训练得到时，所述目标识别模型是根据第二神经网络模型中的参数的梯度值，对所述第二神经网络模型中的参数进行更新后得到，所述第二神经网络模型中的参数的梯度值是根据所述目标检测数据集确定得到，所述第二神经网络模型是根据所述神经网络模型中的参数的梯度值，对所述神经网络模型中的参数进行更新后得到，所述神经网络模型中的参数的梯度值是根据所述检索数据集确定得到。

3.如权利要求1所述的方法，其特征在于，

当所述目标识别模型是同时使用所述目标检测数据集和所述检索数据集对所述神经网络模型进行训练得到时，所述目标识别模型是根据所述神经网络模型中的参数的平均梯度值，对所述神经网络模型中的参数进行更新后得到，所述神经网络模型中的参数的平均梯度值是对所述神经网络模型中的参数的第一梯度值和第二梯度值进行平均后得到，所述神经网络模型中的参数的第一梯度值是根据所述目标检测数据集确定得到，所述神经网络模型中的参数的第二梯度值是根据所述检索数据集确定得到。

4.如权利要求1-3任一所述的方法，其特征在于，所述获取需要进行目标跟踪的视频之后，还包括：

5.如权利要求4所述的方法，其特征在于，所述根据所述视频的每帧视频图像中的检测框的位置和每个检测框内的目标的类别、图像特征和跟踪特征，对所述视频中包含的目标进行跟踪，包括：

令i=n，根据所述视频的第i+1帧视频图像中的检测框的位置和每个检测框内的目标的类别、图像特征、跟踪特征和所述跟踪目标集中每个跟踪目标的跟踪信息，将所述第i+1帧视频图像中包含的目标与所述跟踪目标集中的每个跟踪目标进行匹配；

如果所述第i+1帧视频图像中包含的指定目标与所述跟踪目标集中所有的跟踪目标均未匹配成功，则将所述指定目标添加到所述跟踪目标集中；将所述第i+1帧视频图像确定为所述指定目标的跟踪片段，并根据所述指定目标所在的检测框的位置、所述指定目标的类别、图像特征和跟踪特征，生成所述指定目标的跟踪信息;

令i=i+1，返回所述根据所述视频的第i+1帧视频图像中的检测框的位置和每个检测框内的目标的类别、图像特征、跟踪特征和所述跟踪目标集中每个跟踪目标的跟踪信息，将所述第i+1帧视频图像中包含的目标与所述跟踪目标集中的每个跟踪目标进行匹配。

6.一种目标跟踪装置，其特征在于，所述装置包括：

第一获取模块，用于获取需要进行目标跟踪的视频；

确定模块，用于通过目标识别模型，确定所述视频的每帧视频图像中的检测框的位置，以及确定每个检测框内的目标的类别和图像特征，所述目标识别模型是交替使用或者同时使用目标检测数据集和检索数据集，采用多任务学习的方式对神经网络模型进行训练得到，所述目标检测数据集中的每个目标检测数据标记有检测框位置及对应的目标类别，所述检索数据集中的每个检索数据标记有目标标识，所述目标检测数据集用于训练所述神经网络模型执行目标检测任务，所述检索数据集用于训练所述神经网络模型执行特征提取任务，所述神经网络模型中的各个层共同完成所述目标检测任务和所述特征提取任务；

7.如权利要求6所述的装置，其特征在于，

8.如权利要求6所述的装置，其特征在于，

9.如权利要求6-8任一所述的装置，其特征在于，所述装置还包括：

相应地，所述跟踪模块包括：

10.如权利要求9所述的装置，其特征在于，所述跟踪单元用于：

11.一种目标跟踪装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-5任一项所述的方法的步骤。

12.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现权利要求1-5任一项所述的方法的步骤。