CN108230358A

CN108230358A - 目标跟踪及神经网络训练方法、装置、存储介质、电子设备

Info

Publication number: CN108230358A
Application number: CN201711031418.9A
Authority: CN
Inventors: 李博; 武伟
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2018-06-29
Also published as: WO2019080747A1

Abstract

本发明实施例提供一种目标跟踪及神经网络训练方法、装置、存储介质、电子设备，涉及人工智能领域。其中，所述目标跟踪方法包括：通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，所述第一神经网络用于根据所述检测图像回归所述目标物体在所述非检测图像中的位置，所述非检测图像为所述检测图像的在后图像；根据所述目标物体在所述检测图像中的位置数据和所述目标物体在所述非检测图像中的位置数据确定所述目标物体的轨迹。通过本发明实施例，不仅提高了目标跟踪的检测效率，而且还提高了目标跟踪的精度。

Description

目标跟踪及神经网络训练方法、装置、存储介质、电子设备

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种目标跟踪方法、装置、存储介质和电子设备，以及，一种神经网络的训练方法、装置、存储介质和电子设备。

背景技术

目标跟踪技术是智能视频监控技术中的重要组成部分。对于静态图像，只需要检测出静态图像中物体的限位框的位置，但是对于智能视频，在检测出每一帧视频图像中物体的限位框的位置之后，还需要对每一帧视频图像中物体的限位框进行匹配，以确定目标物体的轨迹。

然而，现有的针对智能视频的目标跟踪技术存在以下几个问题：

1、如果对于智能视频中每一帧视频图像都做物体位置的检测，那么目标跟踪的耗时太长，因为每一帧视频图像都需要经过一个较大的神经网络，计算复杂度会比较大。

2、如果对于智能视频中的视频帧选择跳帧检测，即每隔预设帧数的视频图像做一次视频图像中物体位置的检测，虽然目标跟踪中所花费的检测时间会减少，但是这样就浪费了很多视频帧的信息。此外，如果选择跳帧检测，被检测的视频图像中物体之间的位置变化比较大，目标跟踪系统会需要比较复杂的设计。

发明内容

本发明实施例的目的在于，提供一种目标跟踪的技术方案和神经网络训练的技术方案。

根据本发明实施例的第一方面，提供了一种目标跟踪方法。所述方法包括：通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，所述第一神经网络用于根据所述检测图像回归所述目标物体在所述非检测图像中的位置，所述非检测图像为所述检测图像的在后图像；根据所述目标物体在所述检测图像中的位置数据和所述目标物体在所述非检测图像中的位置数据确定所述目标物体的轨迹。

可选地，所述通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，包括：通过所述第一神经网络，根据所述视频帧序列中的检测图像和在所述检测图像之后的第一非检测图像，获取所述目标物体在所述第一非检测图像中的位置数据。

可选地，所述方法还包括：通过所述第一神经网络，根据所述视频帧序列中的第一非检测图像和在所述第一非检测图像之后的第二非检测图像，获取所述目标物体在所述第二非检测图像中的位置数据。

可选地，所述通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据之前，所述方法还包括：根据所述检测图像中目标物体的位置数据，分别对所述检测图像和所述非检测图像进行裁剪，获得与所述检测图像对应的第一区域图像以及与所述非检测图像对应的第二区域图像，其中，所述第一区域图像与所述第二区域图像均包含所述目标物体；所述通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，包括：通过所述第一神经网络，根据含有所述目标物体的第一区域图像和第二区域图像，获取所述目标物体在所述第二区域图像中的位置数据。

可选地，所述方法还包括：按照时间顺序，将所述视频帧序列划分为多组视频帧；针对每一组视频帧，从首帧视频图像中获取所述目标物体的位置数据，并通过所述第一神经网络，获取所述首帧视频图像后续的视频图像中目标物体的位置数据，从而获得该组中每个视频图像的目标物体的位置数据；根据每组视频帧中每个视频图像的目标物体的位置数据确定所述目标物体的轨迹。

可选地，所述从首帧视频图像中获取所述目标物体的位置数据，包括：通过用于目标位置检测的第二神经网络，从首帧视频图像中获取所述目标物体的位置数据，所述第二神经网络包括快速卷积神经网络。

可选地，所述通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据之前，所述方法还包括：根据所述目标物体的类别选择与所述目标物体的类别对应的第一神经网络。

可选地，所述通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据之前，所述方法还包括：根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像训练所述第一神经网络，所述非检测样本图像为所述检测样本图像的在后图像。

可选地，所述根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像训练所述第一神经网络，包括：通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据；根据所述检测样本图像中所述目标物体的位置数据和所述非检测样本图像中所述目标物体的位置数据，确定所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据；根据第一位置偏移数据和所述第二位置偏移数据，训练所述第一神经网络，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量。

可选地，所述通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据之前，所述方法还包括：根据所述检测样本图像中目标物体的位置数据，分别对所述检测样本图像和所述非检测样本图像进行裁剪，获得与所述检测样本图像对应的第三区域图像以及与所述非检测样本图像对应的第四区域图像，其中，所述第三区域图像与所述第四区域图像均包含所述目标物体；所述通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据，包括：通过所述待训练的第一神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据。

可选地，所述第一神经网络具有卷积层、连接在所述卷积层末端的拼接层，以及连接在所述拼接层末端的全连接层，其中，通过所述第一神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据，包括：通过所述卷积层，对所述第三区域图像和所述第四区域图像进行特征提取，获得所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量；通过所述拼接层，对所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量进行拼接，获得拼接后的位置特征向量；通过所述全连接层，对所述拼接后的位置特征向量进行映射操作，获得所述目标物体在所述第四区域图像中的位置数据。

可选地，所述通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据之前，所述方法还包括：根据所述检测样本图像中目标物体的位置数据和所述非检测样本图像中目标物体的位置标定数据确定所述第一位置偏移数据。

可选地，所述位置数据包括所述目标物体的限位框的长度、宽度以及中心位置坐标。

根据本发明实施例的第二方面，提供了一种神经网络的训练方法。所述方法包括：通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据，所述非检测样本图像为所述检测样本图像的在后图像；根据所述检测样本图像中所述目标物体的位置数据和所述非检测样本图像中所述目标物体的位置数据，确定所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据；根据第一位置偏移数据和所述第二位置偏移数据，训练所述神经网络，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量。

可选地，所述通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据之前，所述方法还包括：根据所述检测样本图像中目标物体的位置数据，分别对所述检测样本图像和所述非检测样本图像进行裁剪，获得与所述检测样本图像对应的第三区域图像以及与所述非检测样本图像对应的第四区域图像，其中，所述第三区域图像与所述第四区域图像均包含所述目标物体；所述通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据，包括：通过所述待训练的神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据。

可选地，所述神经网络具有卷积层、连接在所述卷积层末端的拼接层，以及连接在所述拼接层末端的全连接层，其中，通过所述神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据，包括：通过所述卷积层，对所述第三区域图像和所述第四区域图像进行特征提取，获得所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量；通过所述拼接层，对所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量进行拼接，获得拼接后的位置特征向量；通过所述全连接层，对所述拼接后的位置特征向量进行映射操作，获得所述目标物体在所述第四区域图像中的位置数据。

可选地，所述通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据之前，所述方法还包括：根据所述检测样本图像中目标物体的位置数据和所述非检测样本图像中目标物体的位置标定数据确定所述第一位置偏移数据。

根据本发明实施例的第三方面，提供了一种目标跟踪装置。所述装置包括：第一获取模块，用于通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，所述第一神经网络用于根据所述检测图像回归所述目标物体在所述非检测图像中的位置，所述非检测图像为所述检测图像的在后图像；第一确定模块，用于根据所述目标物体在所述检测图像中的位置数据和所述目标物体在所述非检测图像中的位置数据确定所述目标物体的轨迹。

可选地，所述第一获取模块，包括：第一获取子模块，用于通过所述第一神经网络，根据所述视频帧序列中的检测图像和在所述检测图像之后的第一非检测图像，获取所述目标物体在所述第一非检测图像中的位置数据。

可选地，所述装置还包括：第二获取模块，用于通过所述第一神经网络，根据所述视频帧序列中的第一非检测图像和在所述第一非检测图像之后的第二非检测图像，获取所述目标物体在所述第二非检测图像中的位置数据。

可选地，所述第一获取模块之前，所述装置还包括：第一裁剪模块，用于根据所述检测图像中目标物体的位置数据，分别对所述检测图像和所述非检测图像进行裁剪，获得与所述检测图像对应的第一区域图像以及与所述非检测图像对应的第二区域图像，其中，所述第一区域图像与所述第二区域图像均包含所述目标物体；所述第一获取模块，包括：第二获取子模块，用于通过所述第一神经网络，根据含有所述目标物体的第一区域图像和第二区域图像，获取所述目标物体在所述第二区域图像中的位置数据。

可选地，所述装置还包括：划分模块，用于按照时间顺序，将所述视频帧序列划分为多组视频帧；第三获取模块，用于针对每一组视频帧，从首帧视频图像中获取所述目标物体的位置数据，并通过所述第一神经网络，获取所述首帧视频图像后续的视频图像中目标物体的位置数据，从而获得该组中每个视频图像的目标物体的位置数据；第二确定模块，用于根据每组视频帧中每个视频图像的目标物体的位置数据确定所述目标物体的轨迹。

可选地，所述第三获取模块，包括：第三获取子模块，用于通过用于目标位置检测的第二神经网络，从首帧视频图像中获取所述目标物体的位置数据，所述第二神经网络包括快速卷积神经网络。

可选地，所述第一获取模块之前，所述装置还包括：选择模块，用于根据所述目标物体的类别选择与所述目标物体的类别对应的第一神经网络。

可选地，所述第一获取模块之前，所述装置还包括：第一训练模块，用于根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像训练所述第一神经网络，所述非检测样本图像为所述检测样本图像的在后图像。

可选地，所述第一训练模块，包括：第四获取子模块，用于通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据；第一确定子模块，用于根据所述检测样本图像中所述目标物体的位置数据和所述非检测样本图像中所述目标物体的位置数据，确定所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据；第一训练子模块，用于根据第一位置偏移数据和所述第二位置偏移数据，训练所述第一神经网络，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量。

可选地，所述第四获取子模块之前，所述装置还包括：第一裁剪子模块，用于根据所述检测样本图像中目标物体的位置数据，分别对所述检测样本图像和所述非检测样本图像进行裁剪，获得与所述检测样本图像对应的第三区域图像以及与所述非检测样本图像对应的第四区域图像，其中，所述第三区域图像与所述第四区域图像均包含所述目标物体；所述第四获取子模块，包括：获取单元，用于通过所述待训练的第一神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据。

可选地，所述第一神经网络具有卷积层、连接在所述卷积层末端的拼接层，以及连接在所述拼接层末端的全连接层，其中，所述获取单元，具体用于：通过所述卷积层，对所述第三区域图像和所述第四区域图像进行特征提取，获得所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量；通过所述拼接层，对所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量进行拼接，获得拼接后的位置特征向量；通过所述全连接层，对所述拼接后的位置特征向量进行映射操作，获得所述目标物体在所述第四区域图像中的位置数据。

可选地，所述第四获取子模块之前，所述装置还包括：第二确定子模块，用于根据所述检测样本图像中目标物体的位置数据和所述非检测样本图像中目标物体的位置标定数据确定所述第一位置偏移数据。

根据本发明实施例的第四方面，提供了一种神经网络的训练装置。所述装置包括：第四获取模块，用于通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据，所述非检测样本图像为所述检测样本图像的在后图像；第三确定模块，用于根据所述检测样本图像中所述目标物体的位置数据和所述非检测样本图像中所述目标物体的位置数据，确定所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据；第二训练模块，用于根据第一位置偏移数据和所述第二位置偏移数据，训练所述神经网络，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量。

可选地，所述第四获取模块之前，所述装置还包括：第二裁剪模块，用于根据所述检测样本图像中目标物体的位置数据，分别对所述检测样本图像和所述非检测样本图像进行裁剪，获得与所述检测样本图像对应的第三区域图像以及与所述非检测样本图像对应的第四区域图像，其中，所述第三区域图像与所述第四区域图像均包含所述目标物体；所述第四获取模块，包括：第五获取子模块，用于通过所述待训练的神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据。

可选地，所述神经网络具有卷积层、连接在所述卷积层末端的拼接层，以及连接在所述拼接层末端的全连接层，其中，通过第五获取子模块，具体用于：通过所述卷积层，对所述第三区域图像和所述第四区域图像进行特征提取，获得所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量；通过所述拼接层，对所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量进行拼接，获得拼接后的位置特征向量；通过所述全连接层，对所述拼接后的位置特征向量进行映射操作，获得所述目标物体在所述第四区域图像中的位置数据。

可选地，所述第四获取模块之前，所述装置还包括：第四确定模块，用于根据所述检测样本图像中目标物体的位置数据和所述非检测样本图像中目标物体的位置标定数据确定所述第一位置偏移数据。

根据本发明实施例的第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现本发明实施例第一方面所述的目标跟踪方法的步骤。

根据本发明实施例的第六方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现本发明实施例第二方面所述的神经网络的训练方法的步骤。

根据本发明实施例的第七方面，提供了一种计算机程序产品，其包括有计算机程序指令，其中，所述程序指令被处理器执行时实现本发明实施例第一方面所述的目标跟踪方法的步骤。

根据本发明实施例的第八方面，提供了一种计算机程序产品，其包括有计算机程序指令，其中，所述程序指令被处理器执行时实现本发明实施例第二方面所述的神经网络的训练方法的步骤。

根据本发明实施例的第九方面，提供了一种电子设备，包括：第一处理器、第一存储器、第一通信元件和第一通信总线，所述第一处理器、所述第一存储器和所述第一通信元件通过所述第一通信总线完成相互间的通信；所述第一存储器用于存放至少一可执行指令，所述可执行指令使所述第一处理器执行如本发明实施例第一方面所述的目标跟踪方法的步骤。

根据本发明实施例的第十方面，提供了一种电子设备，包括：第二处理器、第二存储器、第二通信元件和第二通信总线，所述第二处理器、所述第二存储器和所述第二通信元件通过所述第二通信总线完成相互间的通信；所述第二存储器用于存放至少一可执行指令，所述可执行指令使所述第二处理器执行如本发明实施例第二方面所述的神经网络的训练方法的步骤。

根据本发明实施例提供的技术方案，通过用于根据检测图像回归目标物体在非检测图像中的位置的第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取目标物体在非检测图像中的位置数据；并根据目标物体在检测图像中的位置数据和目标物体在非检测图像中的位置数据确定目标物体的轨迹，相比于现有隔帧检测的技术，本发明实施例可以根据检测图像回归非检测图像中目标物体的位置，在兼顾目标跟踪的检测效率的同时，还提高了目标跟踪的精度。

附图说明

图1是根据本发明实施例一的一种目标跟踪方法的流程图；

图2是根据本发明实施例二的一种目标跟踪方法的流程图；

图3是根据本发明实施例三的一种神经网络的训练方法的流程图；

图4是根据本发明实施例四的一种神经网络的训练方法的流程图；

图5是根据本发明实施例五的一种目标跟踪装置的结构示意图；

图6是根据本发明实施例六的一种目标跟踪装置的结构示意图；

图7是根据本发明实施例七的一种目标跟踪装置的结构示意图；

图8是根据本发明实施例八的一种神经网络的训练装置的结构示意图；

图9是根据本发明实施例九的一种神经网络的训练装置的结构示意图；

图10是根据本发明实施例十的一种电子设备的结构示意图；

图11是根据本发明实施例十一的一种电子设备的结构示意图。

具体实施方式

下面结合附图(若干附图中相同的标号表示相同的元素)和实施例，对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

本领域技术人员可以理解，本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

实施例一

图1是根据本发明实施例一的一种目标跟踪方法的流程图。如图1所示，本实施例的目标跟踪方法包括以下步骤：

在步骤S101中，通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据。

其中，所述第一神经网络用于根据所述检测图像回归所述目标物体在所述非检测图像中的位置。所述目标物体可包括交通工具、行人、无人机等。目标物体在图像中的位置数据可包括目标物体的限位框的顶点坐标和中心位置坐标。具体地，所述目标物体的限位框可为正方形或长方形。当所述目标物体的限位框为正方形时，目标物体的限位框的顶点坐标可为正方形的四个角所在的点的坐标。

在具体的实施方式中，所述检测图像可为在视频帧序列中利用检测器检测得到目标物体的位置的图像，所述非检测图像可为所述检测图像的在后图像，且非利用检测器检测得到目标物体的位置的图像。所述检测图像与所述非检测图像可为视频帧序列中相邻的视频图像，也可为视频帧序列中不相邻的视频图像，即检测图像与非检测图像之间具有相隔的视频图像。

在步骤S102中，根据所述目标物体在所述检测图像中的位置数据和所述目标物体在所述非检测图像中的位置数据确定所述目标物体的轨迹。

其中，所述目标物体在所述检测图像中的位置数据是事先确定好的，不需要第一神经网络进行获取。具体地，可事先通过用于目标位置检测的神经网络检测出所述检测图像中目标物体的位置数据。当然，也可以采用其它的实施方式事先检测出所述检测图像中的目标物体的位置数据，本发明实施例对此不作限制。所述非检测图像中所述目标物体的位置数据是通过第一神经网络，根据检测图像和非检测图像获取得到的。

在具体的实施方式中，所述含有目标物体的视频帧序列中包括多帧视频图像。由于所述目标物体在在前的检测图像中的位置数据以及所述目标物体在在后的非检测图像中的位置数据均是已知的，可得到目标物体在所述视频帧序列的每一帧视频图像中的位置数据。根据所述目标物体在所述视频帧序列的每一帧视频图像中的位置数据可确定得到所述目标物体的轨迹。

本实施例的目标跟踪方法可以由任意适当的具有图像或数据处理能力的设备执行，包括但不限于：摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、Gear VR)等。

实施例二

图2是根据本发明实施例二的一种目标跟踪方法的流程图。如图2所示，本实施例的目标跟踪方法包括以下步骤：

在步骤S201中，根据所述检测图像中目标物体的位置数据，分别对所述检测图像和所述非检测图像进行裁剪，获得与所述检测图像对应的第一区域图像以及与所述非检测图像对应的第二区域图像。

其中，所述目标物体的位置数据可包括所述目标物体的限位框的长度、宽度以及中心位置坐标。所述第一区域图像与所述第二区域图像均包含所述目标物体。

在具体的实施方式中，首先可根据所述检测图像中目标物体的位置数据确定得到图像的裁剪位置数据。具体地，可保证裁剪框的中心位置坐标与目标物体的限位框的中心位置坐标相同，并将目标物体的限位框的长度和宽度按照一定的比例进行扩大，获得裁剪框的长度和宽度，从而得到图像的裁剪位置数据。在获得图像的裁剪位置数据之后，可根据图像的裁剪位置数据，分别对所述检测图像和所述非检测图像进行裁剪，获得与所述检测图像对应的第一区域图像以及与所述非检测图像对应的第二区域图像。之所以对检测图像和非检测图像进行裁剪，是因为检测图像与非检测图像之间相隔的视频图像的帧数很小，一般在0到3之间，那么目标物体在非检测图像中的位置相对于目标物体在检测图像中的位置的变化也很小，目标物体在非检测图像中的限位框的位置会落入非检测图像的裁剪框内。籍此，可减轻第一神经网络的数据处理量，第一神经网络能够基于视频帧序列中在前的检测图像的目标物体位置快速回归出视频帧序列中在后的非检测图像的目标物体位置。此外，由于图像的裁剪位置数据是根据检测图像中目标物体的位置数据确定得到的，因此，检测图像中目标物体的位置数据隐含在裁剪后的检测图像(第一区域图像)中。具体地，可根据第一区域图像的中心位置坐标、长度和宽度确定得到第一区域图像中目标物体的限位框的长度、宽度和中心位置坐标。

在步骤S202中，通过所述第一神经网络，根据含有所述目标物体的第一区域图像和第二区域图像，获取所述目标物体在所述第二区域图像中的位置数据。

其中，所述第一神经网络用于根据所述第一区域图像回归所述目标物体在所述第二区域图像中的位置。所述目标物体在所述第二区域图像中的位置数据可包括所述目标物体的限位框的长度、宽度以及中心位置坐标。

在不对所述检测图像和所述非检测图像进行裁剪的情况下，通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据。在本发明一可选实施方式中，所述通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，包括：通过所述第一神经网络，根据所述视频帧序列中的检测图像和在所述检测图像之后的第一非检测图像，获取所述目标物体在所述第一非检测图像中的位置数据。籍此，能够非常准确地预测出在检测图像之后的第一非检测图像中的目标物体的位置数据。

进一步地，在本发明一可选实施方式中，所述方法还包括：通过所述第一神经网络，根据所述视频帧序列中的第一非检测图像和在所述第一非检测图像之后的第二非检测图像，获取所述目标物体在所述第二非检测图像中的位置数据。籍此，能够较为准确地预测出在第一非检测图像之后的第二非检测图像中的目标物体的位置数据。

其中，所述检测图像与所述第一非检测图像可为视频帧序列中相邻的视频图像，也可为视频帧序列中不相邻的视频图像，即检测图像与第一非检测图像之间具有相隔的视频图像。所述第一非检测图像与所述第二非检测图像可为视频帧序列中相邻的视频图像，也可为视频帧序列中不相邻的视频图像，即第一非检测图像与第二非检测图像之间具有相隔的视频图像。所述第一神经网络根据检测图像回归出目标物体在检测图像之后的第一非检测图像中的位置的准确度较高，所述第一神经网络根据第一非检测图像回归出目标物体在第一非检测图像之后的第二非检测图像中的位置的准确度较低。

可选地，在该步骤S202之前，所述方法还包括：根据所述目标物体的类别选择与所述目标物体的类别对应的第一神经网络。籍此，能够进一步提高目标跟踪的精度。

在具体的实施方式中，可以针对目标物体的不同类别分别训练对应的第一神经网络。例如，对于移动较快的车辆可以单独训练一个相应的第一神经网络，而对于移动较慢的车辆可以单独训练一个相应的第一神经网络，从而能够进一步提高目标车辆跟踪的精度。

在步骤S203中，根据所述目标物体在所述第一区域图像中的位置数据和所述目标物体在所述第二区域图像中的位置数据确定所述目标物体的轨迹。

其中，所述第一区域图像中所述目标物体的位置数据就是所述检测图像中所述目标物体的位置数据，因为第一区域图像是通过对检测图像进行裁剪得到的。所述第二区域图像中所述目标物体的位置数据是通过第一神经网络，根据第一区域图像和第二区域图像获取得到的。

在具体的实施方式中，所述含有目标物体的视频帧序列中包括多帧视频图像。由于所述目标物体在所述第一区域图像中的位置数据和所述目标物体在所述第二区域图像中的位置数据均是已知的，相应地，所述目标物体在在前的检测图像中的位置数据以及所述目标物体在在后的非检测图像中的位置数据也是已知的，可得到目标物体在所述视频帧序列的每一帧视频图像中的位置数据。根据所述目标物体在所述视频帧序列的每一帧视频图像中的位置数据可确定得到所述目标物体的轨迹。

可选地，所述方法还包括：按照时间顺序，将所述视频帧序列划分为多组视频帧；针对每一组视频帧，从首帧视频图像中获取所述目标物体的位置数据，并通过所述第一神经网络，获取所述首帧视频图像后续的视频图像中目标物体的位置数据，从而获得该组中每个视频图像的目标物体的位置数据；根据每组视频帧中每个视频图像的目标物体的位置数据确定所述目标物体的轨迹。籍此，能够进一步提高目标跟踪的精度。

其中，所述从首帧视频图像中获取所述目标物体的位置数据，包括：通过用于目标位置检测的第二神经网络，从首帧视频图像中获取所述目标物体的位置数据。具体地，所述第二神经网络包括快速卷积神经网络(Faster Region with CNN，Faster RCNN)。所述通过所述第一神经网络，获取所述首帧视频图像后续的视频图像中目标物体的位置数据，包括：通过所述第一神经网络，根据所述首帧视频图像和后续的视频图像获取后续的视频图像中目标物体的位置数据。

在具体的实施方式中，每组视频帧包括四帧视频图像。首帧视频图像为关键帧，需要所述第二神经网络从首帧视频图像中检测出所述目标物体的位置数据，首帧视频图像后续的三帧视频图像需要所述第一神经网络根据首帧视频图像和后续的视频图像回归出所述后续的视频图像中目标物体的位置数据。籍此，智能视频可以以分段的形式进行检测，一个分段内，首帧为关键帧，首帧后面的几个视频帧都做回归，这样一个分段的整体检测时间和现有技术中一帧视频图像的检测时间几乎差不多，可以让目标跟踪的反应时间更短。

在本实施例中，所述通过所述第一神经网络，根据含有所述目标物体的第一区域图像和第二区域图像，获取所述目标物体在所述第二区域图像中的位置数据之前，需要对所述第一神经网络进行训练。在训练所述第一神经网络时，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像训练所述第一神经网络，所述非检测样本图像为所述检测样本图像的在后图像。

在本发明一可选实施方式中，所述根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像训练所述第一神经网络，包括：通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据；并根据所述检测样本图像中所述目标物体的位置数据和所述非检测样本图像中所述目标物体的位置数据，确定所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据；再根据第一位置偏移数据和所述第二位置偏移数据，训练所述第一神经网络，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量。其中，所述标准位置偏移量为根据所述目标物体在所述检测样本图像和所述非检测样本图像中的实际位置测量得到的。

在本发明一可选实施方式中，所述通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据之前，所述方法还包括：根据所述检测样本图像中目标物体的位置数据，分别对所述检测样本图像和所述非检测样本图像进行裁剪，获得与所述检测样本图像对应的第三区域图像以及与所述非检测样本图像对应的第四区域图像，其中，所述第三区域图像与所述第四区域图像均包含所述目标物体。相应地，所述通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据，包括：通过所述待训练的第一神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据。

在本发明一可选实施方式中，所述第一神经网络具有卷积层、连接在所述卷积层末端的拼接层，以及连接在所述拼接层末端的全连接层，其中，通过所述第一神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据，包括：通过所述卷积层，对所述第三区域图像和所述第四区域图像进行特征提取，获得所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量；通过所述拼接层，对所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量进行拼接，获得拼接后的位置特征向量；通过所述全连接层，对所述拼接后的位置特征向量进行映射操作，获得所述目标物体在所述第四区域图像中的位置数据。

在本发明一可选实施方式中，所述通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据之前，所述方法还包括：根据所述检测样本图像中目标物体的位置数据和所述非检测样本图像中目标物体的位置标定数据确定所述第一位置偏移数据。

本发明实施例提供的目标跟踪方法，与现有技术中对视频帧序列中每帧视频图像都做检测的方法相比，不仅能够提高目标跟踪的速度，还能够保证目标跟踪的精度，并且与现有技术中对视频帧序列进行跳帧检测的方法相比，能够综合运用视频帧序列中每一帧视频图像的目标物体的位置信息，目标跟踪的精度更高。此外，本发明实施例提供的目标跟踪方法可以保证获取得到的在后的非检测图像中物体的位置数据与目标物体是一对一的关系，而不需要在得到视频帧序列中每一帧视频图像的物体位置数据之后，再通过对每一帧视频图像中的物体的位置数据进行匹配来获得每一帧视频图像中目标物体的位置数据，从而得到目标物体的轨迹。

本发明实施例提供的目标跟踪方法可以应用于实际的场景中。例如，在实时的交通路面上，如果交通管理部门希望通过目标跟踪来确认车辆的运行轨迹，而又无法为每个监控摄像头都支付一笔昂贵的设备费用的时候，通过本发明实施例提供的基于回归的目标跟踪方法则可以让一台设备实时跟踪数个甚至数十个监控摄像头，降低成本。

根据本实施例提供的目标跟踪方法，根据所述检测图像中目标物体的位置数据，分别对所述检测图像和所述非检测图像进行裁剪，获得与所述检测图像对应的第一区域图像以及与所述非检测图像对应的第二区域图像，再通过用于根据第一区域图像回归目标物体在第二区域图像中的位置的第一神经网络，根据含有所述目标物体的第一区域图像和第二区域图像，获取所述目标物体在所述第二区域图像中的位置数据；并根据所述目标物体在所述第一区域图像中的位置数据和所述目标物体在所述第二区域图像中的位置数据确定所述目标物体的轨迹，相比于现有隔帧检测的技术，本发明实施例可以根据第一区域图像回归第二区域图像中目标物体的位置，在兼顾目标跟踪的检测效率的同时，还提高了目标跟踪的精度。

实施例三

图3是根据本发明实施例三的一种神经网络的训练方法的流程图。如图3所示，本实施例的神经网络的训练方法包括以下步骤：

在步骤S301中，通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据。

在本发明实施例中，所述神经网络可以是任意适当的可实现特征提取或目标对象检测的神经网络，包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定，如卷积层的层数、卷积核的大小、通道数等等，本发明实施例对此不作限制。其中，所述目标物体可包括交通工具、行人、无人机等。所述样本图像中目标物体的位置数据可包括目标物体的限位框的顶点坐标和中心位置坐标。具体地，所述目标物体的限位框可为正方形或长方形。当所述目标物体的限位框为长方形时，目标物体的限位框的顶点坐标可为长方形的四个角所在的点的坐标。

在具体的实施方式中，所述检测样本图像可为在视频帧样本序列中利用检测器检测得到目标物体的位置的图像，所述非检测样本图像可为所述检测样本图像的在后图像，且非利用检测器检测得到目标物体的位置的图像。所述检测样本图像与所述非检测样本图像可为视频帧样本序列中相邻的视频图像，也可为视频帧样本序列中不相邻的视频图像，即检测样本图像与非检测样本图像之间具有相隔的视频图像。为了让训练得到的神经网络的适应性更好，效果更佳，不仅限于选择相邻的检测样本图像和非检测样本图像，还可以选择不相邻的检测样本图像和非检测样本图像，让训练得到的神经网络能够获取目标位置变化更大的样本图像中目标物体的位置，即可以让训练得到的神经网络能够根据过去几帧的视频图像中的目标物体位置更精确地获取当前视频帧图像中的物体的位置，而不是只能通过前一帧视频图像中目标物体的位置获取当前视频帧图像中的物体的位置。

在步骤S302中，根据所述检测样本图像中所述目标物体的位置数据和所述非检测样本图像中所述目标物体的位置数据，确定所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据。

其中，所述检测样本图像中所述目标物体的位置数据是事先确定好的，不需要待训练的神经网络进行获取。具体地，可事先通过用于目标位置检测的神经网络检测出所述检测样本图像中目标物体的位置数据。当然，也可以采用其它的实施方式事先检测出所述检测样本图像中的目标物体的位置数据，本发明实施例对此不作限制。所述非检测样本图像中所述目标物体的位置数据是通过待训练的神经网络，根据检测样本图像和非检测样本图像获取得到的。

在具体的实施方式中，可将所述非检测样本图像中所述目标物体的位置数据减去所述检测样本图像中所述目标物体的位置数据，获得所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据。

在步骤S303中，根据第一位置偏移数据和所述第二位置偏移数据，训练所述神经网络。

其中，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量。具体地，所述第一位置偏移数据是根据检测样本图像中目标物体的位置和所述非检测样本图像中目标物体的标注位置确定得到的，可作为神经网络训练的监督量。在具体的实施方式中，该步骤S303可包括：根据所述第一位置偏移数据和所述第二位置偏移数据确定所述目标物体的位置差异，再根据所述目标物体的位置差异调整所述神经网络的网络参数。通过计算目标物体的位置差异，对当前获得的第二位置偏移数据进行评估，以作为后续训练神经网络的依据。

具体地，可将所述目标物体的位置差异反向传输给神经网络，从而迭代地训练该神经网络。神经网络的训练是一个迭代的过程，本发明实施例仅对其中的一次训练过程进行了说明，但本领域技术人员应当明了，对神经网络的每次训练都可采用该训练方式，直至完成所述神经网络的训练。

本发明的示例性实施例旨在提出一种神经网络的训练方法，通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取目标物体在非检测样本图像中的位置数据，并根据检测样本图像中目标物体的位置数据和非检测样本图像中目标物体的位置数据，确定目标物体在检测样本图像和非检测样本图像之间的第二位置偏移数据，再根据目标物体在检测样本图像和非检测样本图像之间的标准位置偏移量和所述第二位置偏移数据，训练所述神经网络，与现有技术相比，使得训练得到的神经网络能够基于视频帧序列中在前视频图像的目标物体位置回归出视频帧序列中在后视频图像的目标物体位置。

本实施例的神经网络的训练方法可以由任意适当的具有图像或数据处理能力的设备执行，包括但不限于：摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、GearVR)等。

实施例四

图4是根据本发明实施例四的一种神经网络的训练方法的流程图。如图4所示，本实施例的神经网络的训练方法包括以下步骤：

在步骤S401中，根据所述检测样本图像中目标物体的位置数据，分别对所述检测样本图像和所述非检测样本图像进行裁剪，获得与所述检测样本图像对应的第三区域图像以及与所述非检测样本图像对应的第四区域图像。

其中，所述目标物体的位置数据可包括所述目标物体的限位框的长度、宽度以及中心位置坐标。所述第三区域图像与所述第四区域图像均包含所述目标物体。

在具体的实施方式中，首先可根据所述检测样本图像中目标物体的位置数据确定得到样本图像的裁剪位置数据。具体地，可保证裁剪框的中心位置坐标与目标物体的限位框的中心位置坐标相同，并将目标物体的限位框的长度和宽度按照一定的比例进行扩大，获得裁剪框的长度和宽度，从而得到样本图像的裁剪位置数据。在获得样本图像的裁剪位置数据之后，可根据样本图像的裁剪位置数据，分别对所述检测样本图像和所述非检测样本图像进行裁剪，获得与所述检测样本图像对应的第三区域图像以及与所述非检测样本图像对应的第四区域图像。之所以对检测样本图像和非检测样本图像进行裁剪，是因为检测样本图像与非检测样本图像之间相隔的视频图像的帧数很小，一般在0到3之间，那么目标物体在非检测样本图像中的位置相对于目标物体在检测样本图像中的位置的变化也很小，目标物体在非检测样本图像中的限位框的位置会落入非检测样本图像的裁剪框内。籍此，可减轻神经网络的数据处理量，从而训练得到的神经网络可基于视频帧序列中在前视频图像的目标物体位置快速回归出视频帧序列中在后视频图像的目标物体位置。此外，由于样本图像的裁剪位置数据是根据检测样本图像中目标物体的位置数据确定得到的，因此，检测样本图像中目标物体的位置数据隐含在裁剪后的检测样本图像(第三区域图像)中。具体地，可根据第三区域图像的中心位置坐标、长度和宽度确定得到第三区域图像中目标物体的限位框的长度、宽度和中心位置坐标。

在步骤S402中，通过所述待训练的神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据。

其中，所述待训练的神经网络具有卷积层、连接在所述卷积层末端的拼接层，以及连接在所述拼接层末端的全连接层。具体地，所述神经网络具有六层连续的卷积层，为了使得训练得到的神经网络基于视频帧序列中在前视频图像的目标物体位置快速回归出视频帧序列中在后视频图像的目标物体位置，所述神经网络没有采用池化层。更具体地，所述待训练的神经网络具有两个输入端和一个输出端，一个输入端用于输入第三区域图像，另一个输入端用于输入第四区域图像，输出端用于输出目标物体在第四区域图像中的位置数据。

具体地，通过所述待训练的神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据，包括：通过所述卷积层，对所述第三区域图像和所述第四区域图像进行特征提取，获得所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量；通过所述拼接层，对所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量进行拼接，获得拼接后的位置特征向量；通过所述全连接层，对所述拼接后的位置特征向量进行映射操作，获得所述目标物体在所述第四区域图像中的位置数据。

在步骤S403中，根据所述第三区域图像中所述目标物体的位置数据和所述第四区域图像中所述目标物体的位置数据，确定所述目标物体在所述第三区域图像和所述第四区域图像之间的第二位置偏移数据。

其中，所述第三区域图像中所述目标物体的位置数据就是所述检测样本图像中所述目标物体的位置数据，因为第三区域图像是通过对检测样本图像进行裁剪得到的。所述第四区域图像中所述目标物体的位置数据是通过待训练的神经网络，根据第三区域图像和第四区域图像获取得到的。

在具体的实施方式中，所述第二位置偏移数据是非检测样本图像中目标物体的位置相对于检测样本图像中目标物体的位置的偏移量。具体地，可将所述第四区域图像中所述目标物体的位置数据减去所述第三区域图像中所述目标物体的位置数据，获得所述目标物体在所述第三区域图像和所述第四区域图像之间的第二位置偏移数据。当所述目标物体的位置数据包括所述目标物体的限位框的长度、宽度以及中心位置坐标时，所述第二位置偏移数据包括目标物体的限位框的中心位置坐标的改变量以及目标物体的限位框的长度和宽度的改变量。

在步骤S404中，根据第一位置偏移数据和所述第二位置偏移数据，训练所述神经网络。

其中，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量，也即是所述第一位置偏移数据为所述目标物体在所述第三区域图像和所述第四区域图像之间的标准位置偏移量。可选地，根据所述检测样本图像中目标物体的位置数据，分别对所述检测样本图像和所述非检测样本图像进行裁剪之前，所述方法还包括：根据所述检测样本图像中目标物体的位置数据和所述非检测样本图像中目标物体的位置标定数据确定所述第一位置偏移数据。

在本实施例中，所述检测样本图像中所述目标物体的位置数据是事先确定好的，不需要待训练的神经网络进行获取。具体地，可事先通过用于目标位置检测的神经网络检测出所述检测样本图像中目标物体的位置数据。当然，也可以采用其它的实施方式事先检测出所述检测样本图像中的目标物体的位置数据，本发明实施例对此不作限制。所述非检测样本图像中目标物体的位置标定数据也是事先确定好的。具体地，可事先通过用于目标位置检测的神经网络检测出所述非检测样本图像中目标物体的位置标定数据。在本发明一可选实施方式中，还可通过人工标定的方式对非检测样本图像中目标物体的限位框的位置进行标定，从而得到非检测样本图像中目标物体的位置标定数据。当然，也可以采用其它的实施方式事先获得非检测样本图像中目标物体的位置标定数据，本发明实施例对此不作限制。

在具体的实施方式中，所述第一位置偏移数据是非检测样本图像中目标物体的标定位置相对于检测样本图像中目标物体的位置的偏移量。具体地，可将所述非检测样本图像中所述目标物体的位置标定数据减去所述检测样本图像中所述目标物体的位置数据，获得所述目标物体在所述检测样本图像和所述非检测样本图像之间的第一位置偏移数据。当所述目标物体的位置数据包括所述目标物体的限位框的长度、宽度以及中心位置坐标时，所述第一位置偏移数据包括目标物体的限位框的中心位置坐标的改变量以及目标物体的限位框的长度和宽度的改变量。

在本发明一可选实施方式中，还可以采取以下方法对神经网络进行训练。具体地，首先通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据，其中，所述非检测样本图像含有所述目标物体的位置标定数据；然后，再根据所述目标物体在所述非检测样本图像中的位置数据和所述非检测样本图像含有的所述目标物体的位置标定数据训练所述神经网络。

在本发明另一可选实施方式中，还可以采取以下方法对神经网络进行训练。具体地，首先根据所述检测样本图像中目标物体的位置数据，分别对所述检测样本图像和所述非检测样本图像进行裁剪，获得与所述检测样本图像对应的第三区域图像以及与所述非检测样本图像对应的第四区域图像，再通过所述待训练的神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据，其中，所述第四区域图像含有所述目标物体的位置标定数据。然后，再根据所述目标物体在所述第四区域图像中的位置数据和所述第四区域图像含有的所述目标物体的位置标定数据训练所述神经网络。

本发明的示例性实施例旨在提出一种神经网络的训练方法，根据所述检测样本图像中目标物体的位置数据，分别对所述检测样本图像和所述非检测样本图像进行裁剪，获得与所述检测样本图像对应的第三区域图像以及与所述非检测样本图像对应的第四区域图像，并通过待训练的神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据，再根据所述第三区域图像中所述目标物体的位置数据和所述第四区域图像中所述目标物体的位置数据，确定所述目标物体在所述第三区域图像和所述第四区域图像之间的第二位置偏移数据，再根据目标物体在第三区域图像和第四区域图像之间的标准位置偏移量和所述第二位置偏移数据，训练所述神经网络，与现有技术相比，使得训练得到的神经网络能够基于视频帧序列中在前视频图像的目标物体位置快速回归出视频帧序列中在后视频图像的目标物体位置。

实施例五

基于相同的技术构思，图5是示出根据本发明实施例五的一种目标跟踪装置的结构示意图。可用以执行如实施例一所述的目标跟踪方法流程。

参照图5，该目标跟踪装置包括第一获取模块501和第一确定模块502。

第一获取模块501，用于通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，所述第一神经网络用于根据所述检测图像回归所述目标物体在所述非检测图像中的位置，所述非检测图像为所述检测图像的在后图像；

第一确定模块502，用于根据所述目标物体在所述检测图像中的位置数据和所述目标物体在所述非检测图像中的位置数据确定所述目标物体的轨迹。

通过本实施例提供的目标跟踪装置，通过用于根据检测图像回归目标物体在非检测图像中的位置的第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取目标物体在非检测图像中的位置数据；并根据目标物体在检测图像中的位置数据和目标物体在非检测图像中的位置数据确定目标物体的轨迹，相比于现有隔帧检测的技术，本发明实施例可以根据检测图像回归非检测图像中目标物体的位置，在兼顾目标跟踪的检测效率的同时，还提高了目标跟踪的精度。

实施例六

基于相同的技术构思，图6是根据本发明实施例六的一种目标跟踪装置的结构示意图。可用以执行如实施例二所述的目标跟踪方法流程。

参照图6，该目标跟踪装置包括第一获取模块602和第一确定模块603。其中，第一获取模块602，用于通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，所述第一神经网络用于根据所述检测图像回归所述目标物体在所述非检测图像中的位置，所述非检测图像为所述检测图像的在后图像；第一确定模块603，用于根据所述目标物体在所述检测图像中的位置数据和所述目标物体在所述非检测图像中的位置数据确定所述目标物体的轨迹。

可选地，所述第一获取模块602，包括：第一获取子模块6021，用于通过所述第一神经网络，根据所述视频帧序列中的检测图像和在所述检测图像之后的第一非检测图像，获取所述目标物体在所述第一非检测图像中的位置数据。

可选地，所述装置还包括：第二获取模块604，用于通过所述第一神经网络，根据所述视频帧序列中的第一非检测图像和在所述第一非检测图像之后的第二非检测图像，获取所述目标物体在所述第二非检测图像中的位置数据。

可选地，所述第一获取模块602之前，所述装置还包括：第一裁剪模块601，用于根据所述检测图像中目标物体的位置数据，分别对所述检测图像和所述非检测图像进行裁剪，获得与所述检测图像对应的第一区域图像以及与所述非检测图像对应的第二区域图像，其中，所述第一区域图像与所述第二区域图像均包含所述目标物体；所述第一获取模块602，包括：第二获取子模块6022，用于通过所述第一神经网络，根据含有所述目标物体的第一区域图像和第二区域图像，获取所述目标物体在所述第二区域图像中的位置数据。

可选地，所述装置还包括：划分模块605，用于按照时间顺序，将所述视频帧序列划分为多组视频帧；第三获取模块606，用于针对每一组视频帧，从首帧视频图像中获取所述目标物体的位置数据，并通过所述第一神经网络，获取所述首帧视频图像后续的视频图像中目标物体的位置数据，从而获得该组中每个视频图像的目标物体的位置数据；第二确定模块607，用于根据每组视频帧中每个视频图像的目标物体的位置数据确定所述目标物体的轨迹。

可选地，所述第三获取模块606，包括：第三获取子模块6061，用于通过用于目标位置检测的第二神经网络，从首帧视频图像中获取所述目标物体的位置数据，所述第二神经网络包括快速卷积神经网络。

需要说明的是，对于本发明实施例提供的目标跟踪装置还涉及的具体细节已在本发明实施例提供的目标跟踪方法中作了详细的说明，在此不在赘述。

实施例七

基于相同的技术构思，图7是根据本发明实施例七的一种目标跟踪装置的结构示意图。可用以执行如实施例二所述的目标跟踪方法流程。

参照图7，该目标跟踪装置包括第一获取模块703和第一确定模块704。其中，第一获取模块703，用于通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，所述第一神经网络用于根据所述检测图像回归所述目标物体在所述非检测图像中的位置，所述非检测图像为所述检测图像的在后图像；第一确定模块704，用于根据所述目标物体在所述检测图像中的位置数据和所述目标物体在所述非检测图像中的位置数据确定所述目标物体的轨迹。

可选地，所述第一获取模块之前，所述装置还包括：选择模块702，用于根据所述目标物体的类别选择与所述目标物体的类别对应的第一神经网络。

可选地，所述第一获取模块703之前，所述装置还包括：第一训练模块701，用于根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像训练所述第一神经网络，所述非检测样本图像为所述检测样本图像的在后图像。

可选地，所述第一训练模块701，包括：第四获取子模块7013，用于通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据；第一确定子模块7014，用于根据所述检测样本图像中所述目标物体的位置数据和所述非检测样本图像中所述目标物体的位置数据，确定所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据；第一训练子模块7015，用于根据第一位置偏移数据和所述第二位置偏移数据，训练所述第一神经网络，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量。

可选地，所述第四获取子模块7013之前，所述装置还包括：第一裁剪子模块7012，用于根据所述检测样本图像中目标物体的位置数据，分别对所述检测样本图像和所述非检测样本图像进行裁剪，获得与所述检测样本图像对应的第三区域图像以及与所述非检测样本图像对应的第四区域图像，其中，所述第三区域图像与所述第四区域图像均包含所述目标物体；所述第四获取子模块7013，包括：获取单元70131，用于通过所述待训练的第一神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据。

可选地，所述第一神经网络具有卷积层、连接在所述卷积层末端的拼接层，以及连接在所述拼接层末端的全连接层，其中，所述获取单元70131，具体用于：通过所述卷积层，对所述第三区域图像和所述第四区域图像进行特征提取，获得所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量；通过所述拼接层，对所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量进行拼接，获得拼接后的位置特征向量；通过所述全连接层，对所述拼接后的位置特征向量进行映射操作，获得所述目标物体在所述第四区域图像中的位置数据。

可选地，所述第四获取子模块7013之前，所述装置还包括：第二确定子模块7011，用于根据所述检测样本图像中目标物体的位置数据和所述非检测样本图像中目标物体的位置标定数据确定所述第一位置偏移数据。

实施例八

基于相同的技术构思，图8是示出根据本发明实施例八的一种神经网络的训练装置的结构示意图。可用以执行如实施例三所述的神经网络的训练方法流程。

参照图8，该神经网络的训练装置包括第四获取模块801、第三确定模块802和第二训练模块803。

第四获取模块801，用于通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据，所述非检测样本图像为所述检测样本图像的在后图像；

第三确定模块802，用于根据所述检测样本图像中所述目标物体的位置数据和所述非检测样本图像中所述目标物体的位置数据，确定所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据；

第二训练模块803，用于根据第一位置偏移数据和所述第二位置偏移数据，训练所述神经网络，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量。

通过本实施例提供的神经网络的训练装置，通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取目标物体在非检测样本图像中的位置数据，并根据检测样本图像中目标物体的位置数据和非检测样本图像中目标物体的位置数据，确定目标物体在检测样本图像和非检测样本图像之间的第二位置偏移数据，再根据目标物体在检测样本图像和非检测样本图像之间的标准位置偏移量和所述第二位置偏移数据，训练所述神经网络，与现有技术相比，使得训练得到的神经网络能够基于视频帧序列中在前视频图像的目标物体位置回归出视频帧序列中在后视频图像的目标物体位置。

实施例九

基于相同的技术构思，图9是根据本发明实施例九的一种神经网络的训练装置的结构示意图。可用以执行如实施例四所述的神经网络的训练方法流程。

参照图9，该神经网络的训练装置包括第四获取模块903、第三确定模块904和第二训练模块905。其中，第四获取模块903，用于通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据，所述非检测样本图像为所述检测样本图像的在后图像；第三确定模块904，用于根据所述检测样本图像中所述目标物体的位置数据和所述非检测样本图像中所述目标物体的位置数据，确定所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据；第二训练模块905，用于根据第一位置偏移数据和所述第二位置偏移数据，训练所述神经网络，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量。

可选地，所述第四获取模块903之前，所述装置还包括：第二裁剪模块902，用于根据所述检测样本图像中目标物体的位置数据，分别对所述检测样本图像和所述非检测样本图像进行裁剪，获得与所述检测样本图像对应的第三区域图像以及与所述非检测样本图像对应的第四区域图像，其中，所述第三区域图像与所述第四区域图像均包含所述目标物体；所述第四获取模块903，包括：第五获取子模块9031，用于通过所述待训练的神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据。

可选地，所述神经网络具有卷积层、连接在所述卷积层末端的拼接层，以及连接在所述拼接层末端的全连接层，其中，通过第五获取子模块9031，具体用于：通过所述卷积层，对所述第三区域图像和所述第四区域图像进行特征提取，获得所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量；通过所述拼接层，对所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量进行拼接，获得拼接后的位置特征向量；通过所述全连接层，对所述拼接后的位置特征向量进行映射操作，获得所述目标物体在所述第四区域图像中的位置数据。

可选地，所述第四获取模块903之前，所述装置还包括：第四确定模块901，用于根据所述检测样本图像中目标物体的位置数据和所述非检测样本图像中目标物体的位置标定数据确定所述第一位置偏移数据。

需要说明的是，对于本发明实施例提供的神经网络的训练装置还涉及的具体细节已在本发明实施例提供的神经网络的训练方法中作了详细的说明，在此不在赘述。

实施例十

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图10，其示出了适于用来实现本发明实施例的终端设备或服务器的电子设备1000的结构示意图。如图10所示，电子设备1000包括一个或多个第一处理器、第一通信元件等，所述一个或多个第一处理器例如：一个或多个中央处理单元(CPU)1001，和/或一个或多个图像处理器(GPU)1013等，第一处理器可以根据存储在只读存储器(ROM)1002中的可执行指令或者从存储部分1008加载到随机访问存储器(RAM)1003中的可执行指令而执行各种适当的动作和处理。本实施例中，第一只读存储器1002和随机访问存储器1003统称为第一存储器。第一通信元件包括通信组件1012和/或通信接口1009。其中，通信组件1012可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，通信接口1009包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，通信接口1009经由诸如因特网的网络执行通信处理。

第一处理器可与只读存储器1002和/或随机访问存储器1003中通信以执行可执行指令，通过第一通信总线1004与通信组件1012相连、并经通信组件1012与其他目标设备通信，从而完成本发明实施例提供的任一项目标跟踪方法对应的操作，例如，通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，所述第一神经网络用于根据所述检测图像回归所述目标物体在所述非检测图像中的位置，所述非检测图像为所述检测图像的在后图像；根据所述目标物体在所述检测图像中的位置数据和所述目标物体在所述非检测图像中的位置数据确定所述目标物体的轨迹。

此外，在RAM 1003中，还可存储有装置操作所需的各种程序和数据。CPU1001或GPU1013、ROM1002以及RAM1003通过第一通信总线1004彼此相连。在有RAM1003的情况下，ROM1002为可选模块。RAM1003存储可执行指令，或在运行时向ROM1002中写入可执行指令，可执行指令使第一处理器执行上述通信方法对应的操作。输入/输出(I/O)接口1005也连接至第一通信总线1004。通信组件1012可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在通信总线链接上。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口1009。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

需要说明的，如图10所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图10的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信元件可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明的保护范围。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令，例如，通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，所述第一神经网络用于根据所述检测图像回归所述目标物体在所述非检测图像中的位置，所述非检测图像为所述检测图像的在后图像；根据所述目标物体在所述检测图像中的位置数据和所述目标物体在所述非检测图像中的位置数据确定所述目标物体的轨迹。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被第一处理器执行时，执行本发明实施例的方法中限定的上述功能。

实施例十一

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图11，其示出了适于用来实现本发明实施例的终端设备或服务器的电子设备1100的结构示意图。如图11所示，电子设备1100包括一个或多个第二处理器、第二通信元件等，所述一个或多个第二处理器例如：一个或多个中央处理单元(CPU)1101，和/或一个或多个图像处理器(GPU)1113等，第二处理器可以根据存储在只读存储器(ROM)1102中的可执行指令或者从存储部分1108加载到随机访问存储器(RAM)1103中的可执行指令而执行各种适当的动作和处理。本实施例中，第二只读存储器1102和随机访问存储器1103统称为第二存储器。第二通信元件包括通信组件1112和/或通信接口1109。其中，通信组件1112可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，通信接口1109包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，通信接口1109经由诸如因特网的网络执行通信处理。

第二处理器可与只读存储器1102和/或随机访问存储器1103中通信以执行可执行指令，通过第二通信总线1104与通信组件1112相连、并经通信组件1112与其他目标设备通信，从而完成本发明实施例提供的任一项神经网络的训练方法对应的操作，例如，通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据，所述非检测样本图像为所述检测样本图像的在后图像；根据所述检测样本图像中所述目标物体的位置数据和所述非检测样本图像中所述目标物体的位置数据，确定所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据；根据第一位置偏移数据和所述第二位置偏移数据，训练所述神经网络，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量。

此外，在RAM 1103中，还可存储有装置操作所需的各种程序和数据。CPU1101或GPU1113、ROM1102以及RAM1103通过第二通信总线1104彼此相连。在有RAM1103的情况下，ROM1102为可选模块。RAM1103存储可执行指令，或在运行时向ROM1102中写入可执行指令，可执行指令使第二处理器执行上述通信方法对应的操作。输入/输出(I/O)接口1105也连接至第二通信总线1104。通信组件1112可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在通信总线链接上。

以下部件连接至I/O接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口1109。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

需要说明的，如图11所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图11的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信元件可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明的保护范围。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令，例如，通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据，所述非检测样本图像为所述检测样本图像的在后图像；根据所述检测样本图像中所述目标物体的位置数据和所述非检测样本图像中所述目标物体的位置数据，确定所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据；根据第一位置偏移数据和所述第二位置偏移数据，训练所述神经网络，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被第二处理器执行时，执行本发明实施例的方法中限定的上述功能。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种目标跟踪方法，其特征在于，所述方法包括：

通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，所述第一神经网络用于根据所述检测图像回归所述目标物体在所述非检测图像中的位置，所述非检测图像为所述检测图像的在后图像；

根据所述目标物体在所述检测图像中的位置数据和所述目标物体在所述非检测图像中的位置数据确定所述目标物体的轨迹。

2.一种神经网络的训练方法，其特征在于，所述方法包括：

通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据，所述非检测样本图像为所述检测样本图像的在后图像；

根据所述检测样本图像中所述目标物体的位置数据和所述非检测样本图像中所述目标物体的位置数据，确定所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据；

根据第一位置偏移数据和所述第二位置偏移数据，训练所述神经网络，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量。

3.一种目标跟踪装置，其特征在于，所述装置包括：

第一获取模块，用于通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，所述第一神经网络用于根据所述检测图像回归所述目标物体在所述非检测图像中的位置，所述非检测图像为所述检测图像的在后图像；

第一确定模块，用于根据所述目标物体在所述检测图像中的位置数据和所述目标物体在所述非检测图像中的位置数据确定所述目标物体的轨迹。

4.一种神经网络的训练装置，其特征在于，所述装置包括：

第四获取模块，用于通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据，所述非检测样本图像为所述检测样本图像的在后图像；

第三确定模块，用于根据所述检测样本图像中所述目标物体的位置数据和所述非检测样本图像中所述目标物体的位置数据，确定所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据；

第二训练模块，用于根据第一位置偏移数据和所述第二位置偏移数据，训练所述神经网络，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量。

5.一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现权利要求1所述的目标跟踪方法的步骤。

6.一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现权利要求2所述的神经网络的训练方法的步骤。

7.一种计算机程序产品，其包括有计算机程序指令，其中，所述程序指令被处理器执行时实现权利要求1所述的目标跟踪方法的步骤。

8.一种计算机程序产品，其包括有计算机程序指令，其中，所述程序指令被处理器执行时实现权利要求2所述的神经网络的训练方法的步骤。

9.一种电子设备，包括：第一处理器、第一存储器、第一通信元件和第一通信总线，所述第一处理器、所述第一存储器和所述第一通信元件通过所述第一通信总线完成相互间的通信；

所述第一存储器用于存放至少一可执行指令，所述可执行指令使所述第一处理器执行如权利要求1所述的目标跟踪方法的步骤。

10.一种电子设备，包括：第二处理器、第二存储器、第二通信元件和第二通信总线，所述第二处理器、所述第二存储器和所述第二通信元件通过所述第二通信总线完成相互间的通信；

所述第二存储器用于存放至少一可执行指令，所述可执行指令使所述第二处理器执行如权利要求2所述的神经网络的训练方法的步骤。