CN105976400A

CN105976400A - 基于神经网络模型的目标跟踪方法及装置

Info

Publication number: CN105976400A
Application number: CN201610306250.7A
Authority: CN
Inventors: 俞刚; 李超; 何奇正; 陈牧歌; 彭雨翔; 印奇
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Aperture Science and Technology Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2016-05-10
Filing date: 2016-05-10
Publication date: 2016-09-28
Anticipated expiration: 2036-05-10
Also published as: CN105976400B

Abstract

本发明的实施例提供了基于神经网络模型的目标跟踪方法和装置。神经网络模型包括特征提取神经网络、第一神经网络和第二神经网络，目标跟踪方法包括：S120，将待处理视频输入至特征提取神经网络，以提取待处理视频的特征数据；S140，将待处理视频的特征数据输入至第一神经网络，以获得待处理视频中的至少一个目标的边界框；以及S160，将待处理视频的特征数据和边界框输入至第二神经网络，从而获得边界框的标识符，以跟踪待处理视频中的至少一个目标，其中标识符用于指示至少一个目标。上述目标跟踪方法和装置能够针对视频更好地完成目标的检测和跟踪，提高了目标跟踪的速度和准确性。

Description

基于神经网络模型的目标跟踪方法及装置

技术领域

本发明涉及图像处理领域，更具体地涉及一种基于神经网络模型的目标跟踪方法及装置。

背景技术

随着监控摄像头越来越普及，通过摄像头对重点场景的安防监控的等需求也越来越普及。这类需求中最急切的是对目标(例如行人、车辆等)的准确检测和跟踪。检测和跟踪视频场景中的每一个目标是很多应用最基本且最重要的环节。简而言之，准确、高效地定位和跟踪视频场景中的每一个目标在诸如监控等实际应用中有着非常重要的意义。

现有的目标跟踪方法通常分为两个独立的步骤。首先，针对待处理视频中的每一帧分别做行人检测。然后，根据行人检测的结果来单独做跟踪。这会造成重复计算从而导致计算时间增加，影响运算速度，并且还会导致待处理视频的目标检测跟踪结果不能相互优化从而影响检测跟踪的准确性。

发明内容

考虑到上述问题而提出了本发明。根据本发明一方面，提供了一种基于神经网络模型的目标跟踪方法，其中所述神经网络模型包括特征提取神经网络、第一神经网络和第二神经网络，所述目标跟踪方法包括：

S120，将待处理视频输入至所述特征提取神经网络，以提取所述待处理视频的特征数据；

S140，将所述待处理视频的特征数据输入至所述第一神经网络，以获得所述待处理视频中的至少一个目标的边界框；以及

S160，将所述待处理视频的特征数据和所述边界框输入至所述第二神经网络，从而获得所述边界框的标识符，以跟踪所述待处理视频中的所述至少一个目标，其中所述标识符用于指示所述至少一个目标。

示例性地，所述第一神经网络包括第一子神经网络和第二子神经网络，所述步骤S140包括：

S142，将所述待处理视频的特征数据输入至所述第一子神经网络，以获得所述边界框的粗略位置；以及

S144，将所述待处理视频的特征数据和所述边界框的粗略位置输入至所述第二子神经网络，以获得所述边界框的准确位置和指示所述边界框内包括所述至少一个目标的概率值。

示例性地，所述第二神经网络包括第三子神经网络和第四子神经网络，所述步骤S160包括：

将所述特征数据和所述边界框输入至所述第三子神经网络，以获得所述待处理视频中的不同帧中的边界框之间的外观相似度；

根据所述外观相似度和所述不同帧中的边界框之间的距离计算所述待处理视频中的所述不同帧中的边界框之间的距离相似度；以及

将所述外观相似度和所述距离相似度输入至所述第四子神经网络，从而获得所述边界框的标识符，以跟踪所述待处理视频中的所述至少一个目标。

示例性地，所述第一神经网络和/或所述特征提取神经网络包括卷积神经网络。

示例性地，所述目标跟踪方法还包括以下步骤：

使用训练视频训练所述神经网络模型，其中，在所述训练视频中，针对训练目标标注了边界框和标识符，所述标识符用于指示所述训练目标；

其中，所述使用训练视频训练所述神经网络模型包括：

S112，将所述训练视频输入至所述特征提取神经网络，以提取所述训练视频的特征数据；

S114，将所述训练视频的特征数据输入至所述第一神经网络以获得所述训练目标的边界框，并且根据所标注的边界框和所述第一神经网络获得的所述训练目标的边界框计算检测损失函数值；

S116，将所述训练视频的特征数据和所述第一神经网络获得的所述训练目标的边界框输入至所述第二神经网络以获得所述训练目标的边界框的标识符，并根据所标注的标识符和所述第二神经网络获得的所述训练目标的边界框的标识符计算跟踪损失函数值；以及

S118，在所述检测损失函数值和/或所述跟踪损失函数值不满足预设条件的情况和/或迭代次数小于第一阈值的情况下，同时调整所述特征提取神经网络的参数以及所述第一神经网络的参数和/或所述第二神经网络的参数并且转所述步骤S112，否则，停止对所述神经网络模型的训练并获得训练好的所述神经网络模型以用于跟踪目标。

示例性地，所述检测损失函数值包括检测交叉熵和检测回归损失函数值，所述步骤S118包括：

根据所述检测交叉熵和所述检测回归损失函数值的加权和，同时调整所述特征提取神经网络的参数和所述第一神经网络的参数。

示例性地，所述跟踪损失函数值包括跟踪交叉熵和跟踪回归损失函数值，所述步骤S118包括：

根据所述跟踪交叉熵和所述跟踪回归损失函数值的加权和，同时调整所述特征提取神经网络的参数、所述第一神经网络的参数和所述第二神经网络的参数。

示例性地，所述第二神经网络包括第三子神经网络和第四子神经网络，所述步骤S116包括：

将所述训练视频的特征数据和所述第一神经网络获得的所述训练目标的边界框输入至所述第三子神经网络，以获得所述训练视频的不同帧中的边界框之间的外观相似度；

根据所述外观相似度和所述训练视频中的不同帧中的边界框之间的距离计算所述训练视频的不同帧中的边界框之间的距离相似度；

将所述外观相似度和所述距离相似度输入至所述第四子神经网络，以获得所述训练目标的边界框的标识符；以及

根据所标注的标识符和所获得的所述训练目标的边界框的标识符，计算所述跟踪损失函数值。

示例性地，所述目标跟踪方法还包括：

S180，根据所述待处理视频的特征数据、所述边界框和所述标识符，分析所述至少一个目标的属性和/或动作。

示例性地，所述步骤S180包括：

将所述待处理视频的特征数据、所述边界框和所述标识符输入至第一卷积神经网络，经由全连接层，输出所述至少一个目标的属性和/或动作。

根据本发明另一方面，还提供了一种基于神经网络模型的目标跟踪装置，其中所述神经网络模型包括特征提取神经网络、第一神经网络和第二神经网络，所述目标跟踪装置包括：

第一特征提取模块，用于将待处理视频输入至所述特征提取神经网络，以提取所述待处理视频的特征数据；

检测模块，用于将所述待处理视频的特征数据输入至所述第一神经网络，以获得所述待处理视频中的至少一个目标的边界框；以及

跟踪模块，用于将所述待处理视频的特征数据和所述边界框输入至所述第二神经网络，从而获得所述边界框的标识符，以跟踪所述待处理视频中的所述至少一个目标，其中所述标识符用于指示所述至少一个目标。

示例性地，所述第一神经网络包括第一子神经网络和第二子神经网络，所述检测模块包括：

边界框初定单元，用于将所述待处理视频的特征数据输入至所述第一子神经网络，以获得所述边界框的粗略位置；以及

边界框确定单元，用于将所述待处理视频的特征数据和所述边界框的粗略位置输入至所述第二子神经网络，以获得所述边界框的准确位置和指示所述边界框内包括所述至少一个目标的概率值。

示例性地，所述第二神经网络包括第三子神经网络和第四子神经网络，所述跟踪模块包括：

外观相似度计算单元，用于将所述待处理视频的特征数据和所述边界框输入至所述第三子神经网络，以获得所述待处理视频中的不同帧中的边界框之间的外观相似度；

距离相似度计算单元，用于根据所述外观相似度和所述不同帧中的边界框之间的距离计算所述待处理视频中的所述不同帧中的边界框之间的距离相似度；以及

标识符确定单元，用于将所述外观相似度和所述距离相似度输入至所述第四子神经网络，从而获得所述边界框的标识符，以跟踪所述待处理视频中的所述至少一个目标。

示例性地，所述目标跟踪装置还包括：训练模块，用于使用训练视频训练所述神经网络模型，其中，在所述训练视频中，针对训练目标标注了边界框和标识符，所述标识符用于指示所述训练目标，所述训练模块包括：

训练特征提取模块，用于将所述训练视频输入至所述特征提取神经网络，以提取所述训练视频的特征数据；

检测训练模块，用于将所述训练视频的特征数据输入至所述第一神经网络以获得所述训练目标的边界框，并且根据所标注的边界框和所述第一神经网络获得的所述训练目标的边界框计算检测损失函数值；

跟踪训练模块，用于将所述训练视频的特征数据和所述第一神经网络获得的所述训练目标的边界框输入至所述第二神经网络以获得所述训练目标的边界框的标识符，并根据所标注的标识符和所述第二神经网络获得的所述训练目标的边界框的标识符计算跟踪损失函数值；以及

调整模块，用于在所述检测损失函数值和/或所述跟踪损失函数值不满足预设条件的情况和/或迭代次数小于第一阈值的情况下，同时调整所述特征提取神经网络的参数以及所述第一神经网络的参数和/或所述第二神经网络的参数；否则，停止对所述神经网络模型的训练并获得训练好的所述神经网络模型以用于跟踪目标。

示例性地，所述检测损失函数值包括检测交叉熵和检测回归损失函数值，所述调整模块用于根据所述检测交叉熵和所述检测回归损失函数值的加权和，同时调整所述特征提取神经网络的参数和所述第一神经网络的参数。

示例性地，所述跟踪损失函数值包括跟踪交叉熵和跟踪回归损失函数值，所述调整模块用于根据所述跟踪交叉熵和所述跟踪回归损失函数值的加权和，同时调整所述特征提取神经网络的参数、所述第一神经网络的参数和所述第二神经网络的参数。

示例性地，所述第二神经网络包括第三子神经网络和第四子神经网络，所述跟踪训练模块包括：

外观相似度训练计算单元，用于将所述训练视频的特征数据和所述第一神经网络获得的所述训练目标的边界框输入至所述第三子神经网络，以获得所述训练视频的不同帧中的边界框之间的外观相似度；

距离相似度训练计算单元，用于根据所述外观相似度和所述训练视频中的不同帧中的边界框之间的距离计算所述训练视频的不同帧中的边界框之间的距离相似度；

标识符训练获得单元，用于将所述外观相似度和所述距离相似度输入至所述第四子神经网络，以获得所述训练目标的边界框的标识符；以及

跟踪损失函数值计算单元，用于根据所标注的标识符和所获得的所述训练目标的边界框的标识符，计算所述跟踪损失函数值。

示例性地，所述目标跟踪装置还包括：

分析模块，用于根据所述待处理视频的特征数据、所述边界框和所述标识符，分析所述至少一个目标的属性和/或动作。

示例性地，所述分析模块用于将所述待处理视频的特征数据、所述边界框和所述标识符输入至第一卷积神经网络，经由全连接层，输出所述至少一个目标的属性和/或动作。

在上述基于神经网络模型的目标跟踪方法和装置中，目标检测和目标跟踪共用视频的相同特征数据，并且这两个过程互相影响、促进和优化，从而能够显著提高目标跟踪的速度和准确性。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同或相似部件或步骤。

图1示出了用于实现根据本发明实施例的基于神经网络模型的目标跟踪方法和装置的示例电子设备的示意性框图；

图2示出了根据本发明一个实施例的基于神经网络模型的目标跟踪方法的示意性流程图；

图3示出了根据本发明一个实施例的目标检测的示意性流程图；

图4示出了根据本发明一个实施例的根据目标检测结果进行目标跟踪的示意性流程图；

图5示出了根据本发明一个实施例的根据目标检测结果进行目标跟踪的网络流的示意图；

图6示出了根据本发明另一个实施例的基于神经网络模型的目标跟踪方法的示意性流程图；

图7示出了根据本发明一个实施例的使用训练视频训练神经网络模型的示意性流程图；

图8示出了根据本发明一个实施例的将训练视频的特征数据和训练目标的边界框输入至第二神经网络并根据训练目标的所标注的标识符和获得的训练目标的边界框的标识符计算跟踪损失函数值的示意性流程图；

图9示出了根据本发明另一实施例的基于神经网络模型的目标跟踪方法的示意性流程图；

图10示出了根据本发明一个实施例的基于神经网络模型的目标跟踪装置的示意性框图；

图11示出了根据本发明一个实施例的检测模块的示意性框图；

图12示出了根据本发明一个实施例的跟踪模块的示意性框图；

图13示出了根据本发明另一个实施例的基于神经网络模型的目标跟踪装置的示意性框图；

图14示出了根据本发明一个实施例的训练模块的示意性框图；

图15示出了根据本发明一个实施例的跟踪训练模块的示意性框图；以及

图16示出了根据本发明实施例的基于神经网络模型的目标跟踪系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

首先，参照图1来描述用于实现本发明实施例的基于神经网络模型的目标跟踪方法和装置的示例电子设备的示意性框图100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106和输出装置108，这些组件通过总线系统110和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的计算机功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用来接收用户所输入的指令以及采集数据的装置，并且可以包括键盘、鼠标、麦克风、触摸屏和摄像头等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

上述输入装置106和输出装置108主要用于与用户交互，电子设备100也可以不包括二者。

下面，将参考图2描述根据本发明一个实施例的基于神经网络模型的目标跟踪方法200。

神经网络(Neural Network，简写为NN)是一种模仿动物神经网络行为特征、进行分布式并行信息处理的算法数学模型。神经网络依靠模型的复杂程度，通过调整神经网络内部大量节点之间相互连接的关系，从而达到处理信息的目的。

在本发明的实施例中，将神经网络模型用于视频中的目标检测和跟踪。优选地，该神经网络是深度神经网络。深度神经网络能够很好地利用大数据的信息，并且高效地在并行平台上得到很好的效果。

对视频的目标跟踪处理基本包括检测和跟踪两个过程。检测和跟踪这两个过程相辅相成。检测的结果往往可以利用跟踪的结果来优化；反之，跟踪的结果也可以利用到优化的检测的结果。因此，将检测和跟踪这两个过程整合在一个框架中，共用一些视频特征数据，并利用结果之间的互相优化，能够有效提高目标跟踪精度并且加快视频处理速度。根据本发明的一个实施例，神经网络模型包括特征提取神经网络、第一神经网络和第二神经网络。特征提取神经网络主要用于提取视频的特征数据，第一神经网络主要用于接收特征提取神经网络提取的视频的特征数据以进行视频中的目标检测，第二神经网络主要用于接收特征提取神经网络提取的视频的特征数据和第一神经网络的目标检测结果，以进行视频中的目标跟踪。

具体地，如图2所示，目标跟踪方法200包括步骤S220、步骤S240和步骤S260。

在步骤S220中，将待处理视频输入至特征提取神经网络，以提取所述待处理视频的特征数据。

可以将待处理视频的原始数据或经压缩的视频数据输入至特征提取神经网络。然后，利用特征提取神经网络获得待处理视频的特征数据。待处理视频的该特征数据可以用于输入到第一神经网络和第二神经网络。神经网络适于处理复杂的、无法简单地用函数处理的计算。而视频数据本身不仅数据量大，而且数据没有简单的规律性，利用特征提取神经网络可以更好地提取待处理视频的特征数据，以用其有效地代表待处理视频本身。并且，将特征提取神经网络所提取到的待处理视频的该特征数据输入至第一神经网络和第二神经网络共用，可以减少重复计算，节约计算资源，提高运算速度。特征提取神经网络可以包括卷积神经网络。卷积神经网络适于准确提取视频的特征数据，从而保证目标跟踪的准确性。

在步骤S240中，将步骤S220所提取的待处理视频的特征数据输入至第一神经网络，以获得所述待处理视频中的至少一个目标的边界框(bounding box)。

目标是视频中的跟踪对象。示例性地，在一些应用场景中，跟踪的目标是视频中出现的行人、车辆等。目标的边界框用于给出该目标在视频帧中的位置信息。例如将目标框定在边界框内部。可选地，每个边界框内包括一个目标。边界框可以是矩形的，其位置可以用矩形的对顶角的位置坐标来表示。因此，边界框可用于目标检测。

神经网络模型的第一神经网络主要用于针对视频进行目标检测。在目标检测过程中，可将视频的每一帧的特征数据逐一输入至第一神经网络。第一神经网络可以包括卷积神经网络。优选地，第一神经网络是用于大规模图像识别的深度卷积神经网络。将待处理视频的视频帧的特征数据输入至第一神经网络后，第一神经网络可以检测视频帧中的目标并输出一系列与所检测目标对应的边界框。可以理解，视频帧中可以包括一个或多个目标。

在步骤S260中，将步骤S220所提取的待处理视频的特征数据和步骤S240所获得的边界框输入至第二神经网络，从而获得边界框的标识符，以跟踪待处理视频中的至少一个目标。

神经网络模型的第二神经网络主要用于针对视频进行目标跟踪。对于视频，可将特征提取神经网络中获得的连续数帧(例如连续10帧)的视频的特征数据和第一神经网络中获得的边界框输入至第二神经网络，第二神经网络可以根据来自第一神经网络的边界框的相似度(例如，距离相似度以及外观相似度)计算并输出视频中各个边界框的标识符，以跟踪所述待处理视频中的所述至少一个目标。

标识符用于指示或标识目标。换言之，目标的标识符用于标识该目标是哪个目标，即目标的身份信息。获得了边界框的标识符，即可获得边界框内的目标是哪一个目标的信息。对于视频的任意不同的视频帧，如果其中的某些不同的边界框相似度(例如，距离相似度以及外观相似度)很大，则可以认为这些边界框中的目标为同一目标，即标识符相同。标识了相同标识符的目标在不同视频帧中的位置表明了视频中该目标的行动轨迹。因此，通过第二神经网络得到的视频中各个边界框的标识符，可以实现对视频中的至少一个目标的跟踪。

在上述基于神经网络模型的目标跟踪方法和装置中，特征提取神经网络所提取的视频的特征数据不仅为第一网络所用，还为第二神经网络所用，避免了计算开销的浪费，提高了整个算法的计算效率，节省了计算时间。同时，目标检测和目标跟踪这两个过程互相促进和影响，能够显著提高目标跟踪的速度和准确性。

可选地，目标跟踪方法200中所述的用于目标检测的第一神经网络包括第一子神经网络和第二子神经网络。图3示出了根据本发明一个实施例的目标检测(如上步骤S240)的示意性流程图。如图3所示，目标检测步骤S240可以包括步骤S342和S344。

在步骤S342中，将从特征提取神经网络中得到的待处理视频的特征数据输入至第一子神经网络，以获得边界框的粗略位置。第一子神经网络用于根据待处理视频的特征数据进行实时目标粗检测并获得边界框的粗略位置。边界框的粗略位置标识了目标在视频帧中的可能位置或大概位置。第一子神经网络可以是区域建议网络(Region Proposal Network，简称RPN)。区域建议网络可以包括卷积神经网络，用于向第二子神经网络提供边界框的粗略位置。

在步骤S344中，将待处理视频的特征数据和第一子神经网络获得的边界框的粗略位置输入至第二子神经网络，以获得所述边界框的准确位置和指示所述边界框内包括至少一个目标的概率值。

第二子神经网络可以包括三层全连接(fully connected)层，其可以根据待处理视频的特征数据和边界框的粗略位置确定所述边界框的准确位置并针对每个边界框给出一个概率值。该概率值可以表示对应的边界框内部确实包括目标的概率。该概率值可以用于后续的目标跟踪过程，在一个示例中，目标跟踪过程可以仅利用概率值高于预定阈值的边界框，由此，提供更准确的跟踪结果。

通过步骤S342和步骤S344来给出边界框的准确位置，第一子神经网络和第二子神经网络共用特征提取神经网络提取到的特征数据，从而在一定计算速度下不仅能够得到边界框的准确位置，还能够得到该边界框的可信度。

可选地，目标跟踪方法200中所述的用于目标跟踪的第二神经网络包括第三子神经网络和第四子神经网络。图4示出了根据本发明一个实施例的目标跟踪(如上步骤S260)的示意性流程图。如图4所示，目标跟踪步骤S260可以包括步骤S462、步骤S464和步骤S466。

在步骤S462中，将步骤220中由特征提取神经网络所提取的待处理视频的特征数据和步骤240所获得的边界框输入至所述第三子神经网络，以获得所述待处理视频中的不同帧中的边界框之间的外观相似度。

边界框是第一神经网络得到的目标检测的结果。第三子神经网络基于待处理视频的特征数据和目标检测结果(以目标的边界框表示所述检测结果)，获得不同视频帧中的边界框之间的外观相似度。边界框的外观相似度主要表征了边界框中的目标的外观差异性，例如大小差异、纹理差异、颜色差异等。其中，边界框中目标的大小可以根据边界框在视频帧中所占有的像素个数来确定。

在步骤S464中，根据上述外观相似度和待处理视频的不同帧中的边界框之间的距离计算待处理视频中的不同帧中的边界框之间的距离相似度。

距离相似度可以根据边界框之间的外观相似度以及边界框在视频帧的空间中的距离等因素来计算。视频帧的空间是一个二维空间，可以以视频帧中的任意一点为坐标原点将边界框的中心作为该边界框在该原点下的坐标位置。在一个示例中，不同帧中的边界框之间的距离可以用不同帧中的边界框的坐标位置之间的欧式距离来定义。一般而言，不同的边界框在不同的视频帧之间的距离越小、外观相似度越大，则所述边界框在不同帧之间的距离相似度越大那么其属于同一目标的概率越大，即，该不同的边界框的标识符相同的概率越大。

在步骤S466中，将外观相似度和距离相似度输入至第四子神经网络，从而确定边界框的标识符，以跟踪待处理视频中的所述至少一个目标。

在一个示例中，第四子神经网络是网络流神经网络，其基于网络流的方法来实现其功能。下面详细描述该方法。网络流神经网络适于进行非线性的目标跟踪。其不仅保证了跟踪精度，还保证了跟踪速度。本领域普通技术人员可以理解，在此，网络流作为一种示例性方法进行描述，其不构成对本发明的限制。

在网络流中，每个视频帧中的边界框即是网络流的一个顶点。网络流的边只在不同视频帧之间建立。边并非一定要在相邻的视频帧之间建立，也可以在不相邻的视频帧之间建立。

如图5中大的矩形框代表视频帧，如图5所示，从左至右示出了3个连续的视频帧(应该理解的是，这里还可以使用不连续的视频帧；此外，3个视频帧也只是示例性的)。每个视频帧内包括2或3个边界框，如图5中大的矩形框内的小矩形框所示。换言之，每个视频帧内检测出了2或3个目标。特别注意，在图5中间的大矩形框表示的视频帧中，虚线所示的小矩形框为应检测出但实际未能检测出的边界框。可以理解，该边界框内的目标在该视频帧中被其前方的目标所遮挡，所以在实际计算中第一神经网络未能输出该边界框。视频框下面是根据视频帧建立的网络流模型。每个顶点对应一个矩形框，顶点之间的连线是网络流的边。即，不同视频帧的边界框会边相连。如图5中所示，基于上述情况，第二个视频帧中只有两个顶点。

可选地，如果两个视频帧的时间间隔过大，则不在二者之间建立边。优选地，从时间上来讲，可以跨越5至9帧建立边。以建立边的、间隔最大的帧之间的帧数是6的情况为例来说明，第1帧可以和第2帧、第3帧、第4帧、第5帧、第6帧、第7帧和第8帧来建立边。第1帧和第8帧是间隔最大的帧，二者之间的帧间隔数是6。对建立边的视频帧的时间距离进行适当限定，可以有效避免网络流的图模型过大，从而减少计算量。

在一个示例中，网络流中边的边权可定义如下：

W_ij＝d(B_i,B_j)+ɑA(B_i,B_j)

其中B_i,B_j表示不同帧中的两个边界框。d()表示边界框的距离相似度，A()表示边界框的外观相似度。ɑ表示用于调节距离相似度和外观相似度之间的关系的参数值。

可以理解，边权表示了两个不同帧中的边界框之间的总的相似度。根据该边权可以给每个边界框一个特定的标识符。边权越大，则相似度越高，两个边界框标识为同一个标识符的概率越大。根据计算结果，将具有最大边权的边连接的边界框标识为同一个标识符，即具有相同标识符的边界框指示的是同一个目标，从而实现了对目标的跟踪。

综合外观相似度和距离相似度两个参数来确定边界框的标识符，进而进行目标跟踪，保证了目标跟踪的准确性。

图6示出了根据本发明另一实施例的基于神经网络模型的目标跟踪方法600。如图6所示，与目标跟踪方法200相比，目标跟踪方法600增加了使用训练视频训练神经网络模型的步骤S610。目标跟踪方法600中的步骤S620、步骤S640、和步骤S660分别与目标跟踪方法200中的步骤S220、步骤S240、和步骤S260相对应，为了简洁，在此不再赘述。

神经网络模型的训练要基于训练视频进行神经网络的参数的调整。在训练视频中，标注了目标的边界框和标识符。可以理解，边界框标识了训练目标的位置。该标识符标识了训练目标是哪一个。该标注过程可以是人工标注过程，还可以是机器标注过程。可以认为所标注的边界框和标识符都是客观且准确的。

通过该步骤S610，期望获得一个神经网络模型，以利用该神经网络模型对视频进行准确的目标跟踪。通过该神经网络模型获得的边界框对应于视频帧中的真实目标。换言之，通过该神经网络模型获得的边界框的标识符与实际目标是一致的。由此，该神经网络模型可以保证在其使用过程中可以获得理想的目标跟踪结果。

图7示出了根据本发明一个实施例的使用训练视频训练神经网络模型(步骤S610)的示意性流程图。

在步骤S712中，将训练视频输入至神经网络模型的特征提取神经网络，以提取训练视频的特征数据。

在步骤S714中，将训练视频的特征数据输入至神经网络模型的第一神经网络以获得训练目标的边界框，并且根据所标注的边界框和第一神经网络获得的所述训练目标的边界框计算第一神经网络的检测损失函数值。

可选地，第一神经网络所获得的训练目标的边界框与所标注的边界框差异越大，那么检测损失函数值越大，这表明越需要调整特征提取神经网络和第一神经网络的当前参数。检测损失函数值可以包括检测交叉熵和检测回归损失函数值。

在步骤S716中，将训练视频的特征数据和步骤S715中第一神经网络获得的所述训练目标的边界框输入至神经网络模型的第二神经网络以获得训练目标的边界框的标识符，并根据训练目标的所标注的标识符和第二神经网络所获得的所述训练目标的边界框的标识符计算跟踪损失函数值。在一个实施例中，跟踪损失函数值包括跟踪交叉熵和跟踪回归损失函数值。

期望所获得的标识符对应视频帧中的实际的相应目标，以对视频进行准确的目标跟踪。如前所述，认为训练视频中所标注的标识符客观准确地标识了视频帧中训练目标的位置。可选地，所获得的标识符与所标注的标识符差异越大，那么跟踪损失函数值越大，这表明越需要调整特征提取神经网络和第二神经网络的当前参数，同时，为了在目标跟踪中实现跟踪结果对检测结果的优化，还可以利用跟踪损失函数值同时调整特征提取神经网络的参数、第一神经网络的参数和第二神经网络的当前参数。

在步骤S718中，在检测损失函数值和跟踪损失函数值不满足预设条件的情况和/或步骤S610的总迭代次数小于第一阈值的情况下，同时调整特征提取神经网络的参数以及第一神经网络的参数和/或第二神经网络的参数并且转步骤S712；否则，停止对神经网络模型的训练并获得训练好的神经网络模型。该训练好的神经网络模型即可用于目标跟踪，即用于上述目标跟踪方法600。换言之，将检测损失函数值和跟踪损失函数值二者均满足预设条件以及迭代次数大于或等于第一阈值这两个条件中的一个或二者作为步骤S610执行结束的条件。

如前所述，检测损失函数值可以包括检测交叉熵和检测回归损失函数值。示例性地，步骤S718可以包括：根据检测交叉熵和检测回归损失函数值的加权和，同时调整特征提取神经网络的参数和第一神经网络的参数。可以首先计算检测交叉熵和检测回归损失函数值的加权和。然后判断检测交叉熵和检测回归损失函数值的加权和是否满足预设条件和/或迭代次数是否满足预设条件。例如，可以通过判断检测交叉熵和检测回归损失函数值的加权和是否小于第二阈值来确定其是否满足预设条件。如果不满足，那么同时调整特征提取神经网络的参数和第一神经网络的参数，以使检测交叉熵和检测回归损失函数值的加权和更小。

此外，跟踪损失函数值可以包括跟踪交叉熵和跟踪回归损失函数值。示例性地，步骤S718可以包括：根据跟踪交叉熵和跟踪回归损失函数值的加权和，同时调整特征提取神经网络的参数、第一神经网络的参数和第二神经网络的参数。可以首先计算跟踪交叉熵和跟踪回归损失函数值的加权和。然后判断跟踪交叉熵和跟踪回归损失函数值的加权和是否分别满足预设条件和/或迭代次数是否满足预设条件。例如，可以通过判断跟踪交叉熵和跟踪回归损失函数值的加权和是否小于第三阈值来确定其是否满足预设条件。如果不满足，那么同时调整特征提取神经网络的参数、第一神经网络的参数和第二神经网络的参数，以使跟踪交叉熵和跟踪回归损失函数值的加权和更小。在一个实施例中，使用跟踪损失函数值来同时调整提取神经网络的参数、第一神经网络的参数和第二神经网络的参数，可以实现用跟踪结果对检测结果的优化。例如，对于图5所示的中间帧中的目标被遮挡的情况，利用跟踪结果，可以实现对目标被遮挡的情况的检测的优化，即可以利用被遮挡目标的跟踪结果，获得该目标被遮挡前后的两帧，根据该目标在被遮挡前后两帧中的位置L1和L2，可以对这两个位置取距离平均值得到平均位置信息L，从而将该平均位置信息L作为该帧在被遮挡的帧中的检测位置，以实现对检测结果的优化。

如上所述，迭代次数可以作为步骤S610执行结束的一个依据。特别是经过数次迭代，检测损失函数值和跟踪损失函数值仍无法满足期望要求时，迭代次数作为步骤S610结束的依据可以避免大量无谓计算，提高计算效率和速度。

对于预设条件没有完全满足的情况，同时调整特征提取神经网络的参数、第一神经网络的参数和/或第二神经网络的参数。换言之，将神经网络模型作为一个整体，来调整其中的参数。然后，通过再次执行步骤S712、步骤S714和步骤S716，基于具有更新参数的特征提取神经网络、第一神经网络和第二神经网络，重新计算新的检测损失函数值和跟踪损失函数值，然后再次判断预设条件是否已经满足，在预设条件不满足的情况下，继续调整提取神经网络的参数、第一神经网络的参数和/或第二神经网络的参数；在预设条件获得满足的情况下，停止对所述神经网络模型的训练并获得训练好的所述神经网络模型以用于跟踪目标。

总之，在步骤S610中，重复执行步骤S712、步骤S714、步骤S716和S718，直至预设条件均已经满足，则步骤S610执行结束，此时所获得的神经网络模型即可用于针对视频的目标跟踪。

在上述步骤S610中，同时对特征提取神经网络以及用于目标检测的第一神经网络和/或用于目标跟踪的第二神经网络进行训练，它们互相促进和影响。由此，能够获得更理想的神经网络模型，来针对视频更好地完成目标跟踪，显著提高了目标跟踪的速度和准确性。

如上所述，第二神经网络可以包括第三子神经网络和第四子神经网络。图8示出了根据本发明一个实施例的将训练视频的特征数据和第一神经网络获得的所述训练目标的边界框输入至第二神经网络并根据训练目标的所标注的标识符和第二神经网络获得的训练目标的边界框的标识符计算跟踪损失函数值(如上步骤S716)的示意性流程图。如图8所示，步骤S716可以包括步骤S716a、S716b、S716c和S716d。

在步骤S716a中，将训练视频的特征数据和步骤S714中第一神经网络获得的训练目标的边界框输入至第三子神经网络，以获得训练视频的不同帧中的边界框之间的外观相似度。

可以理解，第三子神经网络的参数可以是固定的，也可以是可调的。如果属于后者，那么可以在神经网络模型训练的过程中，与特征提取神经网络和第一神经网络同时调整。

在步骤S716b中，根据所述外观相似度和所述训练视频中的不同帧中的边界框之间的距离，计算训练视频的不同帧中的边界框之间的距离相似度。

在步骤S716c中，将步骤S716a所计算的外观相似度和步骤S716b所计算的距离相似度输入至第四子神经网络，以获得所述训练目标的边界框的标识符。

在步骤S716d中，根据所标注的标识符和步骤S716c所获得的所述训练目标的边界框的标识符，计算第二神经网络的跟踪损失函数值。在一个示例中，跟踪损失函数值与所标注的标识符和所获得的所述训练目标的边界框的标识符之间的差异大小成正比。

上述利用所获得的训练目标的标识符与所标注的训练目标的标识符之间的差异的方法计算跟踪损失函数值的方法，保证了跟踪损失函数值得计算精度。根据该跟踪损失函数值所训练的神经网络模型能够更准确地进行目标跟踪。

在一个示例中，由任意监控摄像头采集视频，并根据本发明的目标跟踪方法来分析处理该视频，以对视频中出现的目标(例如，行人、车辆等)进行检测和跟踪。可选地，监控摄像头针对目标区域以一定俯视角来采集视频。示例性地，根据本发明实施例的目标跟踪方法可以在具有存储器和处理器的设备、装置或者系统中实现，例如服务器。监控摄像头可以与实现本发明的目标跟踪方法的设备、装置或者系统直接连接或间接连接，例如经由网络连接。该网络可以是有线网络或无线网络。可选地，该监控摄像头还可以与实现本发明的目标跟踪方法的设备、装置或者系统集成在一起。例如，本发明的目标跟踪方法由一个计算处理单元来实现。可以将该计算处理单元集成到监控摄像头内，由此，监控摄像头所采集的视频可以直接传输到计算处理单元进行后续检测和跟踪分析。

上述目标跟踪方法，显著提高了目标检测和跟踪的准确性。此外，该目标跟踪方法执行速度快，进而保证了目标检测和跟踪的实时性。

图9示出了根据本发明另一实施例的基于神经网络模型的目标跟踪方法900。与图2所示的目标跟踪方法200相比，该目标跟踪方法900增加了步骤S980。

在步骤S980中，根据步骤S920所提取的待处理视频的特征数据、步骤S940所获得的边界框和步骤S960所获得的标识符，分析所跟踪的至少一个目标的属性和/或动作。示例性地，所述属性可以包括诸如年龄、性别、身高、体重和穿着等属性信息。所述动作可以包括诸如摔倒、招手和走路等动作信息。

示例性地，可以首先将步骤S920所提取的待处理视频的每一帧的特征数据、步骤S940所获得的边界框和步骤S960所获得的标识符输入至第一卷积神经网络，然后经由例如两个全连接层，以获取帧属性分析结果。可选地，对于多个视频帧，可以将所有帧的帧属性分析结果进行池化(pool)，输出最终属性分析结果。

动作分析可以采用与属性分析类似的方式，先后利用卷积神经网络，经由全连接层，从而获得动作的开始帧和结束帧，进而获得动作的类别。

在另外一个实施例中，还可以根据步骤S920所提取的待处理视频的特征数据、步骤S940所获得的边界框和步骤S960所获得的标识符以及步骤S980获得的属性分析结果识别所跟踪的目标。例如，可以将所检测的目标与数据库中存储的对象进行比较，从而识别目标的具体身份。例如，数据库中可以预存犯罪分子的相关图像数据以及属性信息，可以将所具有相同属性信息的检测到的行人与数据库中的相关图像数据和其它数据进行比较，以确定行人是否为在逃的犯罪分子。

这里，基于检测和跟踪结果给出了一些相关的智能分析应用，提高了用户体验。在分析过程中，通过直接利用特征提取神经网络获得的待处理视频的特征数据，从而减少了计算量，提高了计算速度。

图10示出了根据本发明一个实施例的基于神经网络模型的目标跟踪装置1000的示意性框图。该神经网络模型包括特征提取神经网络、第一神经网络和第二神经网络。如图10所示，目标跟踪装置1000包括第一特征提取模块1020、检测模块1040和跟踪模块1060。

第一特征提取模块1020用于将待处理视频输入至所述特征提取神经网络，以提取所述待处理视频的特征数据。特征提取神经网络可以包括卷积神经网络。第一特征提取模块1020可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明一个实施例的目标跟踪方法中的步骤S220。

检测模块1040用于将所述待处理视频的特征数据输入至所述第一神经网络，以获得所述待处理视频中的至少一个目标的边界框。第一神经网络可以包括卷积神经网络。检测模块1040可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明一个实施例的目标跟踪方法中的步骤S240。

跟踪模块1060用于将所述待处理视频的特征数据和所述边界框输入至所述第二神经网络，从而获得所述边界框的标识符，以跟踪所述待处理视频中的所述至少一个目标，其中所述标识符用于指示所述至少一个目标。跟踪模块1060可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明一个实施例的目标跟踪方法中的步骤S260。

在上述基于神经网络模型的目标跟踪装置1000中，目标检测和目标跟踪均利用视频的相同特征数据并且这两个过程互相促进和优化，能够显著提高目标跟踪的速度和准确性。

图11示出了根据本发明一个实施例的检测模块1040的示意性框图。如图11所示，所述检测模块1040可以包括边界框初定单元1042和边界框确定单元1044。在此实施例中，第一神经网络包括第一子神经网络和第二子神经网络。

边界框初定单元1042用于将所述待处理视频的特征数据输入至所述第一子神经网络，以获得所述边界框的粗略位置。所述边界框初定单元1042可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明实施例的目标跟踪方法的步骤S342。

边界框确定单元1044用于将所述待处理视频的特征数据和所述边界框的粗略位置输入至所述第二子神经网络，以获得所述边界框的准确位置和指示所述边界框内包括所述至少一个目标的概率值。所述边界框确定单元1044可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明实施例的目标跟踪方法的步骤S344。

图12示出了根据本发明一个实施例的跟踪模块1060的示意性框图。如图12所示，所述跟踪模块1060可以包括外观相似度计算单元1262、距离相似度计算单元1264和标识符确定单元1266。在一个实施例中，第二神经网络包括第三子神经网络和第四子神经网络。

外观相似度计算单元1262用于将由特征提取神经网络提取的所述待处理视频的特征数据和所述第一神经网络获得的边界框输入至所述第三子神经网络，以获得所述待处理视频中的不同帧中的边界框之间的外观相似度。边界框的外观相似度主要表征了边界框中的目标的外观差异性，例如大小差异、纹理差异、颜色差异等。外观相似度计算单元1262可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明实施例的目标跟踪方法的步骤S462。

距离相似度计算单元1264用于根据所述外观相似度和所述不同帧中的边界框之间的距离计算所述待处理视频中的所述不同帧中的边界框之间的距离相似度。所述距离相似度计算单元1264可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明实施例的目标跟踪方法的步骤S464。

标识符确定单元1266用于将所述外观相似度和所述距离相似度输入至所述第四子神经网络，从而获得所述边界框的标识符，以跟踪所述待处理视频中的所述至少一个目标。在一个示例中，第四子神经网络是网络流神经网络，其基于网络流的方法来实现其功能。所述标识符确定单元1266可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明实施例的目标跟踪方法的步骤S466。在一个示例中，网络流中连接不同视频帧中的不同边界框的边的边权可定义如下：

W_ij＝d(B_i,B_j)+ɑA(B_i,B_j)

可以理解，边权表示了不同帧中的两个边界框之间的总的相似度。根据该边权可以给每个边界框一个特定的标识符。边权越大，则相似度越高，两个边界框标识为同一个标识符的概率越大。根据计算结果，将具有最大边权的边连接的边界框标识为同一个标识符，即具有相同标识符的边界框指示的是同一个目标，从而实现了对目标的跟踪。

图13示出了根据本发明另一个实施例的基于神经网络模型的目标跟踪装置1300的示意性框图。与目标跟踪装置1000相比，增加了训练模块1310。

训练模块1310用于使用训练视频训练所述神经网络模型。在训练视频中，针对训练目标标注了边界框和标识符，所述标识符用于指示所述训练目标。所述训练模块1310可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明实施例的目标跟踪方法的步骤S610。

图14示出了根据本发明一个实施例的训练模块1310的示意性框图。如图14所示，训练模块1310包括训练特征提取模块1412、检测训练模块1414、跟踪训练模块1416和调整模块1418。

训练特征提取模块1412用于将训练视频输入至所述特征提取神经网络，以提取所述训练视频的特征数据。训练特征提取模块1412可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明一个实施例的目标跟踪方法中的步骤S712。

检测训练模块1414用于将所述训练视频的特征数据输入至所述第一神经网络以获得所述训练目标的边界框，并且根据所标注的边界框和所述第一神经网络获得的所述训练目标的边界框计算第一神经网络的检测损失函数值。所述检测损失函数值可以包括检测交叉熵和检测回归损失函数值。检测训练模块1412可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明一个实施例的目标跟踪方法中的步骤S714。

跟踪训练模块1416用于将所述训练视频的特征数据和所述第一神经网络获得的所述训练目标的边界框输入至所述第二神经网络以获得所述训练目标的边界框的标识符，并根据所述训练目标的所标注的标识符和所述第二神经网络获得的训练目标的边界框的标识符计算跟踪损失函数值。在一个实施例中，跟踪损失函数值包括跟踪交叉熵和跟踪回归损失函数值。跟踪训练模块1416可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明一个实施例的目标跟踪方法中的步骤S716。

调整模块1418用于在所述检测损失函数值和/或所述跟踪损失函数值不满足预设条件的情况和/或迭代次数小于第一阈值的情况下，同时调整所述特征提取神经网络的参数以及所述第一神经网络的参数和/或所述第二神经网络的参数；否则，停止对神经网络模型的训练并获得训练好的所述神经网络模型以用于跟踪目标。调整模块1418可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明一个实施例的目标跟踪方法中的步骤S718。

示例性地，调整模块1418可以用于根据所述检测交叉熵和所述检测回归损失函数值的加权和，同时调整所述特征提取神经网络的参数和所述第一神经网络的参数。

示例性地，调整模块1418还可以用于根据所述跟踪交叉熵和所述跟踪回归损失函数值的加权和，同时调整所述特征提取神经网络的参数、所述第一神经网络的参数和所述第二神经网络的参数。

图15示出了根据本发明一个实施例的跟踪训练模块1416的示意性框图。如图15所示，跟踪训练模块1416进一步包括外观相似度训练计算单元、距离相似度训练计算单元、标识符训练获得单元和跟踪损失函数值计算单元。如前所述，第二神经网络可以包括第三子神经网络和第四子神经网络。

外观相似度训练计算单元用于将所述训练视频的特征数据和第一神经网络获得的训练目标的边界框输入至所述第三子神经网络，以获得所述训练视频的不同帧中的边界框之间的外观相似度。外观相似度训练计算单元可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明一个实施例的目标跟踪方法中的步骤S716a。

距离相似度训练计算单元用于根据所述外观相似度和所述训练视频中的不同帧中的边界框之间的距离计算所述训练视频的不同帧中的边界框之间的距离相似度。距离相似度训练计算单元可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明一个实施例的目标跟踪方法中的步骤S716b。

标识符训练获得单元用于将所述外观相似度和所述距离相似度输入至所述第四子神经网络，以获得所述训练目标的边界框的标识符。标识符训练确定单元可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明一个实施例的目标跟踪方法中的步骤S716c。

跟踪损失函数值计算单元用于根据所标注的标识符和标识符训练获得单元所获得的所述训练目标的边界框的标识符，计算所述跟踪损失函数值。跟踪损失函数值计算单元可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明一个实施例的目标跟踪方法中的步骤S716d。

可选地，上述目标跟踪装置1000还可以包括分析模块(未示出)，用于根据所述特征提取神经网络提取的待处理视频的特征数据、所述第一神经网络获得的边界框和所述第二神经网络获得的所述边界框的标识符，分析所跟踪的目标的属性和/或动作。可选地，所述分析模块用于将所述待处理视频的特征数据、所述边界框和所述标识符输入至第一卷积神经网络，经由全连接层，输出所述至少一个目标的属性和/或动作。所述分析模块可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明实施例的目标跟踪方法的步骤S980。

本领域普通技术人员通过阅读上文关于基于神经网络模型的目标跟踪方法的详细描述，能够理解上述基于神经网络模型的目标跟踪装置的结构、实现以及优点，因此这里不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图16示出了根据本发明实施例的目标跟踪系统1600的示意性框图。该目标跟踪系统1600可以用于执行基于神经网络模型的目标跟踪方法，所述神经网络模型包括特征提取神经网络、第一神经网络和第二神经网络。目标跟踪系统1600包括输入装置1610、存储装置1620、处理器1630以及输出装置1640。

所述输入装置1610用于接收用户所输入的操作指令以及采集数据。输入装置1610可以包括键盘、鼠标、麦克风、触摸屏和摄像头等中的一个或多个。

所述存储装置1620存储用于实现根据本发明实施例的目标跟踪方法的相应步骤的程序代码。

所述处理器1630用于运行所述存储装置1620中存储的程序代码，以执行根据本发明实施例的目标跟踪方法的相应步骤，并且用于实现根据本发明实施例的目标跟踪装置中的第一特征提取模块1020、检测模块1040和跟踪模块1060。

在一个实施例中，在所述程序代码被所述处理器1630运行时使所述目标跟踪系统1600执行以下步骤：

S220，将待处理视频输入至特征提取神经网络，以提取所述待处理视频的特征数据。

S240，将步骤S220所提取的待处理视频的特征数据输入至第一神经网络，以获得所述待处理视频中的至少一个目标的边界框。

S260，将步骤S220所提取的待处理视频的特征数据和步骤S240所获得的边界框输入至第二神经网络，从而获得所述边界框的标识符，以跟踪待处理视频中的所述至少一个目标，其中所述标识符用于指示所述至少一个目标。

示例性地，所述第一神经网络包括第一子神经网络和第二子神经网络。在所述程序代码被所述处理器1630运行时使所述目标跟踪系统1600执行步骤S240包括：

S342，将所述待处理视频的特征数据输入至所述第一子神经网络，以获得所述边界框的粗略位置；以及

S344，将所述待处理视频的特征数据和所述边界框的粗略位置输入至所述第二子神经网络，以获得所述边界框的准确位置和指示所述边界框内包括所述至少一个目标的概率值。

示例性地，所述第二神经网络包括第三子神经网络和第四子神经网络。在所述程序代码被所述处理器1630运行时使所述目标跟踪系统1600执行的步骤S260包括：

S462，将所述特征数据和所述边界框输入至所述第三子神经网络，以获得所述待处理视频中的不同帧中的边界框之间的外观相似度；

S464，根据所述外观相似度和所述不同帧中的边界框之间的距离计算所述待处理视频中的所述不同帧中的边界框之间的距离相似度；以及

S466，将所述外观相似度和所述距离相似度输入至所述第四子神经网络，从而获得所述边界框的标识符，以跟踪所述待处理视频中的所述至少一个目标。

示例性地，在所述程序代码被所述处理器1630运行时还使所述目标跟踪系统1600执行以下步骤：

S610，使用训练视频训练所述神经网络模型，其中，在所述训练视频中，针对训练目标标注了边界框和标识符，所述标识符用于指示所述训练目标；

其中，S610，使用训练视频训练所述神经网络模型包括：

S712，将所述训练视频输入至所述特征提取神经网络，以提取所述训练视频的特征数据；

S714，将所述训练视频的特征数据输入至所述第一神经网络以获得所述训练目标的边界框，并且根据所标注的边界框和所述第一神经网络获得的所述训练目标的边界框计算检测损失函数值；

S716，将所述训练视频的特征数据和所述第一神经网络获得的所述训练目标的边界框输入至所述第二神经网络以获得所述训练目标的边界框的标识符，并根据所述训练目标的所标注的标识符和所述第二神经网络获得的所述训练目标的边界框的标识符计算跟踪损失函数值；

S718，在所述检测损失函数值和/或所述跟踪损失函数值不满足预设条件的情况和/或迭代次数小于第一阈值的情况下，同时调整所述特征提取神经网络的参数以及所述第一神经网络的参数和/或所述第二神经网络的参数并且转所述步骤S712，否则，停止对所述神经网络模型的训练并获得训练好的所述神经网络模型以用于跟踪目标。

示例性地，所述第二神经网络包括第三子神经网络和第四子神经网络。在所述程序代码被所述处理器1630运行时使所述目标跟踪系统1600执行步骤S716包括：

示例性地，所述检测损失函数值包括检测交叉熵和检测回归损失函数值。在所述程序代码被所述处理器1630运行时使所述目标跟踪系统1600执行步骤S718包括：

示例性地，所述跟踪损失函数值包括跟踪交叉熵和跟踪回归损失函数值。在所述程序代码被所述处理器1630运行时使所述目标跟踪系统1600执行步骤S718包括：

S980，根据所述待处理视频的特征数据、所述边界框和所述标识符，分析所述至少一个目标的属性和/或动作。

示例性地，在所述程序代码被所述处理器1630运行时使所述目标跟踪系统1600执行步骤S980包括：

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的目标跟踪方法的相应步骤，并且用于实现根据本发明实施例的目标跟踪装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

在一个实施例中，所述神经网络模型包括特征提取神经网络、第一神经网络和第二神经网络。所述计算机程序指令在被计算机或处理器运行时使所述计算机或处理器执行以下步骤：

S220，将待处理视频输入至所述特征提取神经网络，以提取所述待处理视频的特征数据；

S240，将所述待处理视频的特征数据输入至所述第一神经网络，以获得所述待处理视频中的至少一个目标的边界框；以及

S260，将所述待处理视频的特征数据和所述边界框输入至所述第二神经网络，从而获得所述边界框的标识符，以跟踪所述待处理视频中的所述至少一个目标，其中所述标识符用于指示所述至少一个目标。

示例性地，第一神经网络包括第一子神经网络和第二子神经网络。在所述计算机程序指令在被所述计算机或处理器运行时使计算机或处理器执行的步骤S240包括：

示例性地，所述第二神经网络包括第三子神经网络和第四子神经网络。在所述计算机程序指令在被所述计算机或处理器运行时使计算机或处理器执行的步骤S260包括：

示例性地，所述计算机程序指令在被计算机或处理器运行时还使所述计算机或处理器执行以下步骤：

其中，在所述计算机程序指令在被所述计算机或处理器运行时使计算机或处理器执行步骤S610包括：

S716，将所述训练视频的特征数据和所述第一神经网络获得的所述训练目标的边界框输入至所述第二神经网络以获得所述训练目标的边界框的标识符，并根据所述训练目标的所标注的标识符和所述第二神经网络获得的所述训练目标的边界框的标识符计算跟踪损失函数值；以及

示例性地，所述第二神经网络包括第三子神经网络和第四子神经网络。在所述计算机程序指令在被所述计算机或处理器运行时使计算机或处理器执行步骤S716包括：

示例性地，所述检测损失函数值包括检测交叉熵和检测回归损失函数值。在所述计算机程序指令在被所述计算机或处理器运行时使计算机或处理器执行步骤S718包括：

示例性地，所述跟踪损失函数值包括跟踪交叉熵和跟踪回归损失函数值。在所述计算机程序指令在被所述计算机或处理器运行时使计算机或处理器执行步骤S718包括：

示例性地，所述计算机程序指令在被计算机或处理器运行时还执行以下步骤：

示例性地，在所述计算机程序指令在被所述计算机或处理器运行时使计算机或处理器执行步骤S980包括：

根据本发明实施例的目标跟踪装置中的各模块可以通过根据本发明实施例的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

根据本发明实施例的目标跟踪方法及装置、电子设备以及存储介质，能够针对视频更好地完成目标的检测和跟踪。显著提高了目标跟踪的速度和准确性。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的目标跟踪装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于神经网络模型的目标跟踪方法，其中所述神经网络模型包括特征提取神经网络、第一神经网络和第二神经网络，所述目标跟踪方法包括：

2.如权利要求1所述的目标跟踪方法，其中，所述第一神经网络包括第一子神经网络和第二子神经网络，所述步骤S140包括：

3.如权利要求1所述的目标跟踪方法，其中，所述第二神经网络包括第三子神经网络和第四子神经网络，所述步骤S160包括：

4.如权利要求1或2所述的目标跟踪方法，其中，所述第一神经网络和/或所述特征提取神经网络包括卷积神经网络。

5.如权利要求1所述的目标跟踪方法，所述目标跟踪方法还包括以下步骤：

其中，所述使用训练视频训练所述神经网络模型包括：

6.如权利要求5所述的目标跟踪方法，其中，所述检测损失函数值包括检测交叉熵和检测回归损失函数值，所述步骤S118包括：

7.如权利要求5所述的目标跟踪方法，其中，所述跟踪损失函数值包括跟踪交叉熵和跟踪回归损失函数值，所述步骤S118包括：

8.如权利要求5所述的目标跟踪方法，其中，所述第二神经网络包括第三子神经网络和第四子神经网络，所述步骤S116包括：

9.如权利要求1至3任一权利要求所述的目标跟踪方法，所述目标跟踪方法还包括：

10.如权利要求9所述的目标跟踪方法，其中，所述步骤S180进一步包括：

11.一种基于神经网络模型的目标跟踪装置，其中所述神经网络模型包括特征提取神经网络、第一神经网络和第二神经网络，所述目标跟踪装置包括：

12.如权利要求11所述的目标跟踪装置，其中，所述第一神经网络包括第一子神经网络和第二子神经网络，所述检测模块包括：

13.如权利要求11所述的目标跟踪装置，其中，所述第二神经网络包括第三子神经网络和第四子神经网络，所述跟踪模块包括：

14.如权利要求11或12所述的目标跟踪装置，其中，所述第一神经网络和/或所述特征提取神经网络包括卷积神经网络。

15.如权利要求11所述的目标跟踪装置，所述目标跟踪装置还包括训练模块，用于使用训练视频训练所述神经网络模型，其中，在所述训练视频中，针对训练目标标注了边界框和标识符，所述标识符用于指示所述训练目标，所述训练模块包括：

16.如权利要求15所述的目标跟踪装置，其中，所述检测损失函数值包括检测交叉熵和检测回归损失函数值，所述调整模块用于根据所述检测交叉熵和所述检测回归损失函数值的加权和，同时调整所述特征提取神经网络的参数和所述第一神经网络的参数。

17.如权利要求15所述的目标跟踪装置，其中，所述跟踪损失函数值包括跟踪交叉熵和跟踪回归损失函数值，所述调整模块用于根据所述跟踪交叉熵和所述跟踪回归损失函数值的加权和，同时调整所述特征提取神经网络的参数、所述第一神经网络的参数和所述第二神经网络的参数。

18.如权利要求15所述的目标跟踪装置，其中，所述第二神经网络包括第三子神经网络和第四子神经网络，所述跟踪训练模块包括：

19.如权利要求11至13任一权利要求所述的目标跟踪装置，其中，所述目标跟踪装置还包括：

20.如权利要求19所述的目标跟踪装置，其中，所述分析模块用于将所述待处理视频的特征数据、所述边界框和所述标识符输入至第一卷积神经网络，经由全连接层，输出所述至少一个目标的属性和/或动作。