CN110998606B

CN110998606B - 生成标记数据用于深度对象跟踪

Info

Publication number: CN110998606B
Application number: CN201780093862.5A
Authority: CN
Inventors: 伊赫桑·塔哈维
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-08-14
Filing date: 2017-10-19
Publication date: 2023-08-22
Anticipated expiration: 2037-10-19
Also published as: CN110998606A; US10592786B2; US20190050693A1; WO2019033541A1

Abstract

用于生成注释数据集以训练深度跟踪神经网络，以及使用所述注释数据集训练所述神经网络的方法和系统。对于数据集的每个帧中的每个对象，计算一个或多个似然函数，以将所述对象的特征分数与相应特征分数关联，每个特征分数与选定帧范围中一个或多个先前分配的目标标识符(identifier，简称ID)关联。通过分配先前分配的目标ID(与计算出的最高似然值关联)或分配新的目标ID，为所述对象分配目标ID。根据预定义的跟踪管理方案执行跟踪管理，为所述对象分配跟踪类型。对所述数据集的所有帧中的所有对象执行此操作。所述生成的注释数据集包含分配给所有帧中所有对象的目标ID和跟踪类型。

Description

生成标记数据用于深度对象跟踪

相关申请案交叉申请

本发明要求2017年8月14日递交的发明名称为“生成标记数据用于深度对象跟踪”的第15/676,682号美国专利申请案的在先申请优先权，该在先申请的内容以引入的方式并入本文中。

技术领域

本发明涉及神经网络中的目标跟踪。特别地，本发明描述了用于对神经网络训练数据进行注释以跟踪多个目标的方法和系统。

背景技术

通过深度神经网络(deep neural network，简称DNN)进行跟踪是一种机器学习(machine learning，简称ML)，比使用经典卡尔曼滤波器及其已知扩展等其它跟踪方法具有优势。通常，使用DNN进行跟踪(也称为深度跟踪神经网络或简单深度跟踪)需要根据训练数据集对所述DNN进行训练。这些数据集可以进行注释以包含对象标签，偶尔也可以手动进行注释以将跟踪标识符(identifier，简称ID)应用到跟踪对象。但是，通常不会对数据集注释所述对象的任何其它时间特征。如果训练所述DNN缺少具有此类注释的大量数据集，很可能意味着所产生的深度跟踪算法在实际应用(例如在一种自动驾驶车辆中)中不会执行得很好，在这种情况下，使用不同的运动模型跟踪多个对象是非常重要的。

大多数DNN跟踪算法的训练方式通常缺少对所述数据集中的所述对象的时间行为进行全面观察，而且通常在具有跟踪相关注释的数据集的数量上也受到限制。手动对数据加上高度详细(例如，包括目标ID和跟踪类型)的注释的成本很高，而且人类通常难以遵循不同的跟踪管理规则。

发明内容

本文所述的示例方法和系统可以自动对数据集加上注释，包括对若干帧数据上的目标ID和跟踪类型等时间特征加上注释。在帧序列中检测到的对象可以进行关联(例如，使用似然函数)，以便在对象上自动标注所述帧上的相应目标ID，并自动确定这些帧上所述对象的跟踪类型。本发明的示例使不同的跟踪管理方案能够自动应用于对数据集进行注释。所生成的注释数据集可用于训练DNN跟踪算法。

在一些方面/实施例中，本发明描述了一种用于生成注释数据集以训练深度跟踪神经网络的方法。对于感兴趣帧中的感兴趣对象，在数据集的多个帧中，所述方法包括计算一个或多个似然函数，以将所述感兴趣对象的特征分数与相应特征分数关联，每个特征分数与选定帧范围中一个或多个先前分配的目标标识符(identifier，简称ID)关联。所述方法还包括通过以下方式将目标ID分配给所述感兴趣对象：识别与计算出的最高似然值关联的先前分配的目标ID，并将所述识别的目标ID分配给所述感兴趣对象；或在所述先前分配的目标ID都未与计算出的满足预定阈值的似然值关联时，发起新目标ID，并将所述发起的新目标ID分配给所述感兴趣对象。所述方法还包括根据预定义的跟踪管理方案执行跟踪管理，为所述感兴趣对象分配跟踪类型。所述方法包括对所述数据集的所有帧中的所有对象迭代所述计算、分配和执行；输出所述注释数据集，其中所述注释数据集包含分配给所有帧中所有对象的目标ID和跟踪类型。

在上述任一方面/实施例中，所述方法可以包括对于所述多个帧中的第一帧，发起新目标ID并分配给所述第一帧中识别的每个对象。

在上述任何方面/实施例中，所述方法可以包括获取所述数据集的所述所有帧中所有对象的对象标签。

在上述任何方面/实施例中，获取对象标签可以包括应用对象检测算法。

在上述任何方面/实施例中，所述方法可以包括获取所述数据集的所述所有帧中所有对象的特征分数。

在上述任何方面/实施例中，获取特征分数可以包括计算每个对象的特征映射函数。

在上述任何方面/实施例中，所述方法可包括使用不同的跟踪管理方案，对所述注释数据集再次执行跟踪管理，以获取不同的注释数据集，其中包含以不同方式分配给所有帧中的所有对象的跟踪类型。

在一些方面/实施例中，本发明描述了一种系统，所述系统包括：处理器和耦合到所述处理器的存储器。所述存储器存储计算机执行指令，所述计算机执行指令在由所述处理器执行时使所述系统执行以下操作：对于感兴趣帧中的感兴趣对象，在数据集的多个帧中：计算一个或多个似然函数，以将所述感兴趣对象的特征分数与相应特征分数关联，每个特征分数与选定帧范围中一个或多个先前分配的目标标识符(identifier，简称ID)关联。所述指令还使所述系统通过以下方式将目标ID分配给所述感兴趣对象：识别与计算出的最高似然值关联的先前分配的目标ID，并将所述识别的目标ID分配给所述感兴趣对象；或在所述先前分配的目标ID都未与计算出的满足预定阈值的似然值关联时，发起新目标ID，并将所述发起的新目标ID分配给所述感兴趣对象。所述指令还使所述系统根据预定义的跟踪管理方案执行跟踪管理，为所述感兴趣对象分配跟踪类型。所述指令还使所述系统对所述数据集的所有帧中的所有对象迭代所述计算、分配和执行；输出所述注释数据集，其中所述注释数据集包含分配给所有帧中所有对象的目标ID和跟踪类型。

在上述任一方面/实施例中，所述指令在由所述处理器执行时还可以使所述系统对于所述多个帧中的第一帧，发起新目标ID并分配给所述第一帧中识别的每个对象。

在上述任一方面/实施例中，所述指令在由所述处理器执行时还可以使所述系统获取所述数据集的所述所有帧中所有对象的对象标签。

在上述任一方面/实施例中，所述指令在由所述处理器执行时还可以使所述系统获取所述数据集的所述所有帧中所有对象的特征分数。

在上述任何方面/实施例中，所述指令在由所述处理器执行时还可以使所述系统使用不同的跟踪管理方案，对所述注释数据集再次执行跟踪管理，以获取不同的注释数据集，其中包含以不同方式分配给所有帧中的所有对象的跟踪类型。

在一些方面，本发明描述了一种训练深度跟踪神经网络的方法。所述方法包括将训练数据集输入所述深度跟踪神经网络的输入层。所述方法还包括生成第一误差向量，将所述深度跟踪神经网络的输出与第一注释数据集进行比较，所述第一注释数据集包含所述训练数据集的时间信息。所述时间信息包括分配给所述训练数据集的每个帧中每个对象的目标标识(identifier，简称ID)和跟踪类型。所述方法还包括调整所述深度跟踪神经网络的权重以减少所述第一误差矢量。

在上述任一方面/实施例中，所述第一注释数据集可以包含根据第一跟踪管理方案分配的时间信息。所述方法可以包括根据第二跟踪管理方案对所述深度跟踪神经网络进行以下训练：提供第二注释数据集，其中包含根据所述第二跟踪管理方案分配的所述训练数据集的时间信息；生成第二误差向量，将所述深度跟踪神经网络的输出与所述第二注释数据集进行比较；调整所述深度跟踪神经网络的权重以减少所述第二误差矢量。

附图说明

现在将通过示例参考示出本申请的示例实施例的附图，其中：

图1是示出了缺少时间特征注释的示例数据集的示图；

图2是示出了示例跟踪管理方案的示图；

图3是示出了应用用于注释数据集的示例方法的示图；

图4是示出了图3中应用的所述示例方法的流程图；

图5是示出了用于训练神经网络的示例方法的流程图；

图6是示出了适用于实施本文所公开的示例的示例处理系统的框图；

图7是示出了示例深度神经网络的框图。

在不同的图中可能使用了类似的附图标记来表示类似的部件。

具体实施方式

深度跟踪算法的性能取决于训练阶段使用的数据集。为了使所述深度跟踪算法能够准确执行跟踪，需要使用注释有对象标签的数据集以及所述跟踪对象的时间特征(例如，目标ID和跟踪类型)信息(例如，暂定的、已确认或失效)根据跟踪管理方案对所述算法进行训练。在注释所述数据集时，也可以考虑已知的跟踪对象检测的不确定性或信度。

传统上，用于训练深度跟踪算法的数据集有限，因为使用目标ID和跟踪类型等详细信息手动注释数据困难且成本高。大多数传统数据集一直专注于检测和识别单个帧中的不同对象。在多个帧上注释目标ID的数据集很少，而注释跟踪管理信息的数据集则更少。特别是，人很难手动应用跟踪管理方案来注释跟踪类型，尤其是如果要应用不同的跟踪管理方案。此外，对数据集的手动注释通常不能考虑对象检测的不确定性。用于训练深度跟踪算法的大多数数据集通常不包含基于跟踪管理的注释。

为了训练深度跟踪算法如何随时间推移跟踪多个对象的图像数据或任何其它传感器数据(例如，包括激光雷达、雷达或其它此类数据)，需要详细标记大量数据。在本文所述的示例中，提供了生成注释数据集的方法和系统，所述数据集可适用于训练DNN跟踪算法，但很少或根本不用人输入。

本发明参考数据帧，其中每个帧在给定时刻捕获数据集。应当理解的是，术语帧通常用于指在某一时刻捕获的数据集，本发明不限于图像或视频数据。

在未注释目标ID和跟踪类型的数据集中，可能会丢失所述数据集中对象的时间特征。图1示出了这方面的示例。

在图1中，示出了视频的两个帧110和120。所述第一帧110捕获两个类似的对象102和104。所述第二帧120在所述第一帧110后面，在稍后的时间点捕获数据。在所述第二帧120中，所述两个对象102和104交换了位置。使用任何合适的对象检测算法，所述对象102和104可以在每个帧110和120中检测到并适当标记(例如，在所示示例中检测到并标记为行人)。此外，可以为每个检测到的对象102和104确定适当的边界框(未示出)。应当注意的是，本发明提及对象检测，但此术语的使用意在包括各种对象检测方法，例如对象识别、分割和本地化。无论使用何种所述对象检测算法，此类检测都不会提供有关帧序列中对象的时间特征的信息。例如，尽管所述对象102和104可以在每个帧110和120中检测到并标记为行人，但此类对象检测不提供任何信息来指示所述对象102和104已在所述第二帧120中交换位置。因此，使用缺少此类跟踪信息的数据集训练的深度跟踪算法在跟踪多个类似对象时可能不太准确。

即使在手动注释以包含目标ID来区分多帧110和120中的两个类似对象102和104的数据集中，通常也缺少跟踪管理信息。例如，所述数据集可能缺少任何跟踪信息，或者所述跟踪信息可能过于简化(例如，仅限于表示跟踪是否存在的二进制指示)。这是因为人很难手动应用跟踪管理方案的规则。此外，将不同的跟踪管理方案应用到同一数据集上，生成带不同注释的数据集，不仅成本高昂，而且耗时长。

要正确训练深度跟踪算法以对多帧数据执行跟踪，所述训练数据集应包括跟踪管理信息。跟踪管理方案定义了如何将跟踪识别为几种跟踪类型中的一种，例如暂定的、已确认或失效。通过在一系列帧上注释对象的跟踪类型，可以了解所述数据集中提供的跟踪对象的运动信息。

图2是示出了应用于跟踪对象运动的示例跟踪管理方案的示图。为简化起见，图2示出了在多个帧上以单维度(本示例中的x轴)移动的一个对象(显示为十字)。

典型的跟踪管理用于发起暂定的跟踪，将暂定的跟踪升级为已确认跟踪，将暂定的跟踪降级为失效跟踪，或将确认跟踪降级为失效跟踪。跟踪管理可能基于规则集，由跟踪管理方案定义。所述规则集还可以考虑对象检测的信度。通常，跟踪管理包括通过评估先前帧和所述当前帧在每个单独帧中应用所述定义的规则集。跟踪管理方案的示例定义如下：

暂定的跟踪：为初始检测到的对象初始分配暂定的跟踪，用于跟踪检测到所述对象的最早帧。这表示所述跟踪未确认与实际跟踪对象关联。

已确认跟踪：已确认跟踪表示所述跟踪已确定与有效的跟踪对象关联。当暂定的跟踪满足所述跟踪管理方案定义的某些要求时，所述暂定的跟踪将升级为已确认跟踪。例如，如果在三个连续先前帧和当前帧中检测到所述关联对象，或者在七个连续先前帧中的四个帧以及包括所述当前帧中检测到所述关联对象，则可以将暂定的跟踪升级为已确认跟踪。在升级暂定的跟踪时也可以考虑对象检测的信度。例如，如果在连续三个先前帧以及所述当前帧的信度超过0.7的情况下检测到所述关联对象，则可以将暂定的跟踪升级为已确认跟踪。在满足所述升级标准的最早帧中，为所述检测到的对象分配已确认跟踪。

失效跟踪：当无法一致地检测到所述关联对象时(例如，无法满足升级为已确认跟踪的要求)，将暂定的跟踪降级为失效跟踪。这表明所述暂定的跟踪是误报检测。当所述关联对象不再满足跟踪管理方案定义的已确认跟踪的要求时，将已确认跟踪降级为失效跟踪。例如，当在少于四个连续帧(从所述当前帧开始按时间往前数)或少于七个连续帧中的四个帧(从所述当前帧开始按时间往前数)中检测到所述关联对象时，已确认跟踪可能会降级为失效跟踪。在降级已确认跟踪时还可以考虑对象检测的信度。例如，当在连续四个帧(从所述当前帧开始按时间往前数)的信度小于0.7的情况下检测到所述关联对象时，可以将已确认跟踪降级为失效跟踪。在将跟踪降级为失效跟踪的帧中，从注释中删除与该跟踪关联的所有信息(例如，目标ID、对象标签和跟踪类型)。

在图2示例中，在第一帧205处初始检测到对象。发起暂定的跟踪并分配给所述第-帧205处的所述对象。在本示例中，升级为已确认跟踪的条件是，必须对从所述当前帧开始按时间往前数的四个连续帧检测到所述对象。因此，对于所述前三个帧210，将为所述对象分配暂定的跟踪，因为帧数量不足，无法满足升级标准。在所述第四帧215中，满足升级为已确认跟踪的条件。因此，对于以下帧220，将为所述对象分配已确认跟踪。在所述第九帧225处，不再检测到所述对象(用虚线表示)。因此，对于从所述第九帧225开始的后续帧230，所述跟踪已失效，并且从这些帧230中删除所述对象的注释。

图2的上述描述己被简化，以说明如何实施跟踪管理。为了训练深度跟踪算法，还可以为所述数据集注释与每个帧中检测到的对象关联的目标ID和对象标签。

图4是示出了自动注释数据集的示例方法400的流程图。所述方法400可以使用处理系统执行，例如，如下文所述。

所述方法400可以在有限帧集上执行，并且可能不需要实时执行所述方法400。也就是说，所述方法400可以在先前收集的帧集上执行。此外，可以在先前注释的数据集上追溯性地执行所述方法400。例如，所述方法400可以在先前注释有目标ID和对象标签但缺少跟踪管理信息的数据集上执行。在另一示例中，可以对先前使用第一跟踪管理方案注释的数据集执行方法400，以使用不同的跟踪管理方案生成新数据集。

为了帮助理解，将结合图3中所示的示例讨论所述方法400。图3示出了两个连续帧：帧k-1 310和帧k 320。

假设所述帧k-1 310已完全注释。在帧k-1 310中，检测到四个对象并为其分别分配了相应的唯一目标ID，具体来说，为第一检测对象330a分配A，为第二检测对象332a分配B，为第三检测对象334a分配C，为第四检测对象336分配D。每个检测对象也被分配对象标签和跟踪类型(未示出)。帧k-1 310的注释用于注释帧k 320。

在下一帧k 320中，检测到四个对象。所述检测到的四个对象被索引为对象1332b、对象2 330b、对象3 334b和对象4 338。应当注意的是，在帧k 320中检测到的所述对象330b、332b、334b和338不一定与在帧k-1 310中检测到的所述对象330a、332a、334a和336的索引顺序相同。可以执行所述示例方法400，将在帧k 320中检测到的对象330b、332b、334b和338与在帧k-1 310中检测到的所述对象330a、332a、334a和336关联。这可以根据帧k-1 310的注释准确注释帧k 320。

在402处，针对在第一帧中检测到的所有对象发起目标ID。所述第一帧可以是帧序列中的所述第一时间帧。如果所述数据集初始没有任何目标ID，402可以包括为在所述第一帧中检测到的对象分配目标ID。在所述数据集已包含目标ID的情况下，402可包括从所述第一帧中提取所述现有目标ID。在图3的示例中，如果帧k-1 310是所述第一时间帧，则分配给对象330a、332a、334a和336的目标IDA、B、C和D可以任意初始化。

在404处，获取所有帧中检测到的所有对象的对象标签。获取对象标签可能涉及执行任何适当的对象检测算法以检测和识别所述帧中的对象。在某些示例中，获取对象标签可能涉及检索先前确定的对象标签(例如，从存储的地面真值数据，例如，手动分配的标签，或从先前对象检测实例的结果)。此外，可能会以类似的方式为每个对象获取边界框。通常，可以在所述方法400之前提前执行对象检测，在这种情况下，404可能涉及从存储器检索所述对象标签。

在图3的示例中，针对帧k中的对象330b、332b、334b和338以及帧k-1中的对象330a、332a、334a和336获取所述对象标签和边界框。

在406处，为所有帧中的每个已识别对象获取至少一个特征映射函数H的输出。使用的特征映射函数可能是任何合适的特征映射函数。可以根据每个对象的标签选择用于每个对象的特征映射函数。例如，可以选择与所述感兴趣对象的对象标签相关的特征映射函数(例如，对于对象332b，所述对象标签可以是“三角形”，并且可以选择直线或锐角的特征映射函数)。所述特征映射函数的输出可以是特征向量，也可以是标量值。为了简单起见，所述特征映射函数的输出(包括特征向量和标量输出)在这里可以称为特征分数。

在一些示例中，可以在所述方法400之前提前计算所述特征映射函数，在这种情况下，406可能涉及从存储器检索所述计算出的输出。

然后，所述方法400遍历每帧k(在402处发起的第一帧除外)。对于每个帧k，所述方法400会遍历所述帧中标识的每个对象。

对于帧k中识别的每个对象，可以执行408到414。下面针对待标注目标ID标记的帧k中的感兴趣对象讨论一个408到414的实例。针对408到414可以遍历帧k中的所有对象迭代，然后进一步遍历所有帧，直到所述数据集的所有帧中的所有已识别对象都已标记。为了帮助理解，以下讨论以帧k中的对象332b为例，但应理解的是，对于帧k中确定的每个对象，可以执行类似的过程。

在408处，通过计算似然函数，将存在于所选帧范围内的每个目标ID与帧k中的所述感兴趣对象关联。高似然性表示与所述感兴趣对象的相关性高。

所述选定的帧范围可以概括为帧k-m至k+n，m是等于或大于1的任何正整数，n是0或任何正整数(提供的k-m和k+n属于可用帧范围)。至少只选择帧k-1和帧k进行所述似然计算；最多选择所述数据集中的所有可用帧。为所述似然计算选择的帧数越多，所述目标ID分配的准确性就越高。但是，所述权衡是更多地利用处理资源。由于不需要实时执行所述方法400，并且通常希望在所述数据集的注释中具有高准确性，以便正确训练深度跟踪算法，因此可能需要增加处理成本，以提高准确性。例如，选择k-2到k+1的帧范围可以适当地平衡准确性和处理成本。

所述似然函数L使用所述帧k-m到k+n中对象的特征分数(在406处获得)计算。所述似然函数可以是任何适当的似然函数，例如，根据所述应用或传感器选择的似然函数。

从数学上讲，用于将目标ID与所述感兴趣对象关联的特征映射函数可以表示为：

其中Hⁱ(k)表示针对对象k中第i个帧计算的特征映射函数H，1：i_k-m是帧k-m中识别的对象的索引，i_k表示待在帧k中标记的感兴趣对象，k-m至k+n是正在考虑的帧范围。

在某些示例中，通过计算所述似然函数仅关联k-m至k+n帧范围中的已识别对象的子集。例如，仅针对与所述感兴趣对象具有相同对象标签的那些对象计算所述似然函数，可能效率更高。在图3中所述感兴趣对象是对象332b(具有对象标签“三角形”)的示例中，可以通过计算所述似然函数仅关联帧k-1 310中也具有对象标签“三角形”的对象330a和332a。

在图3的示例中，可以通过计算似然函数确定所述给定对象332b与帧k-1 310中的对象330a(具有目标ID A)和对象332a(具有目标ID B)关联。从数学上讲，这可以表示为：

应当理解的是，此示例可以扩展为考虑k-1之前的帧，同样考虑k之后的帧。如果考虑k之后的帧，则后面的帧尚未标记任何目标ID，但可能有助于提高所述关联的准确性。

所述似然函数也可以加权或以其它方式被分配相应的信度，例如，考虑所述传感器数据和/或对象检测算法的信度。

在410处，根据所述似然计算的结果，将所述目标ID分配给帧k中的感兴趣对象。所述似然函数L的值越大，与所述感兴趣对象的匹配就越高。

分配所述目标ID可能涉及识别具有超过预定阈值(例如，大于0.7)的似然函数的目标ID，进一步识别具有超过阈值的最大似然函数的目标ID，并将所述识别的目标ID分配给所述感兴趣对象。一旦目标ID分配给帧k中的某个对象，该目标ID就不会被帧k中的其它对象考虑。

在图3的示例中，所述计算的似然函数可能是L₁＝0.95和L₂＝0.6。然后，所述目标ID B被识别为具有超过预定阈值的最大似然函数，并为对象332b分配目标ID B。然后，目标ID B将不会被帧k 320中剩余对象考虑。

在412处，如果无法为帧k中的对象分配现有目标ID(例如，已将所有现有目标ID分配给所述帧中的其它对象，或为所有现有目标ID计算的似然性低于预定阈值)，则可以发起新目标ID并将其分配给该对象。这表示与所述新目标ID关联的对象新出现在帧k中。

应注意的是，现有目标ID可能未分配给帧k中的任何对象，表明在帧k中未找到与该目标ID关联的对象。

在414处，按照预定的跟踪管理方案执行跟踪管理。这可能涉及根据所述跟踪管理方案评估新分配给帧k中感兴趣对象的目标ID，并根据跟踪管理方案将跟踪类型分配给帧k中感兴趣对象。通过在每次迭代中执行跟踪管理，目标ID可以在后续帧中更高效和/或更准确地分配。例如，执行跟踪管理可能会允许为目标ID分配失效跟踪，因此以后帧可以不考虑该目标ID。

对于帧k中的每个对象以及所述数据集中的所有帧，将迭代408到414。

在某些示例中，可以在所述迭代之外执行跟踪管理。也就是说，在所有帧中的所有对象都已分配目标ID后，可以执行跟踪管理。这种方法可以应用不同的跟踪管理方案，生成多个不同的注释数据集，而不必通过所有帧和对象迭代重新分配目标ID，从而节省计算资源。

在某些示例中，不同的跟踪管理方案可能会导致目标ID以不同方式分配给对象。在这种情况下，可能需要迭代所有帧和对象以重新分配目标ID，以便根据不同的跟踪管理方案准确地注释数据集。

在416处，将输出所生成的注释数据集。在所述注释数据集中，每个帧中的每个已识别对象除了使用非时间对象标签外，还使用时间信息进行标记。带有时间信息的注释包括分配给每个帧中每个已识别对象的目标ID和跟踪类型。如前所述，此类信息被视为时间性信息，因为它们通过两个或更多帧考虑对象的变化(例如，运动)。

提供带有此类时间信息注释的大型数据集，即使并非不可能，目前也非常费时和昂贵。这是因为当前对数据集进行注释的方法主要依靠手动标记。典型数据集可能包含以每秒30帧(frames per second，简称fps)捕获的帧，并且平均每帧包含3-10个识别对象。为了实用起见，数据集应至少包含5-10分钟的数据。这意味着至少有9000帧需要注释，平均每帧3-10个对象。要应用跟踪管理方案，必须在一系列帧中对每个对象进行评估，这对于人来说是很难做到高准确性的。此外，深度跟踪神经网络需要数小时的这类数据才能进行训练。本领域的技术人员应该很容易认识到，以这种方式手动标记所述数据集所需的人力资源将非常费时和昂贵，而且不能保证结果足够准确。

使用本文中披露的示例，可以使用适当的时间信息对数据集进行注释，其中使用自动方法为对象分配时间信息。虽然可以使用手动、半自动或全自动方法分配非时间性信息(例如，对象标识和对象标签)，但所述时间信息使用全自动方法分配。虽然人可能会进一步验证所述时间信息是否已准确分配，但所述时间信息的分配是在人不参与的情况下执行。所述注释的数据集可以存储在内部或外部存储器中，和/或可以传输到其它系统。所述注释的数据集可用于训练深度跟踪神经网络。

在某些情况下，所披露的示例能够考虑所述对象检测算法中的不确定性和/或传感器数据的信度。例如，通过将传感器数据的信度应用到所述似然函数的值，可以在评估所述似然函数时包含传感器不确定性。如果使用手动方法，这将很难实现。

图5是示出了示例性方法500的流程图，所述示例性方法500用于使用带有时间信息注释的数据集训练深度神经网络以执行跟踪。应当理解的是，也可以使用注释数据集执行其它训练深度跟踪神经网络的方法。

在502处，将训练数据集输入DNN。502处输入的所述训练数据集不包含跟踪信息，但具有相应的注释数据集，其中包括分配给每个帧中每个已识别对象的时间跟踪信息。所述注释数据集中的所述时间跟踪信息包括分配给每个帧中每个已识别对象的目标ID和跟踪类型(根据特定的跟踪管理方案)。例如，所述注释数据集可能是使用上述方法400从所述非注释数据集生成的。

在502处，从所述DNN获得输出。所述DNN的输出是所述DNN向所述训练数据集分配跟踪信息的尝试。

在506处，通过比较502处获得的输出与所述注释数据集来计算错误向量。

在508处，确定所述DNN的训练是否完成。例如，当所述错误向量低于预定阈值时，可能会确定完成训练。如果训练未完成，所述方法500将转到510以调整所述DNN中的权重，从而减少所述错误向量。所述方法500返回至504。如果完成训练，则认为DNN已接受跟踪训练，所述方法500结束。

可以使用图6中所示的示例处理系统600执行所述方法400和/或500。

图6是简化的示例处理系统600的框图，所述示例处理系统600可用于实施本文所公开的实施例，并提供了更高级别的实施例。所述方法400可以使用示例处理系统600或所述处理系统600的变体来实施。在一些示例中，所述示例处理系统600也可以实施所述方法500。所述处理系统600可以是服务器或桌面终端，例如任何适当的处理系统。可以使用适用于实施本发明所述实施例的其它处理系统，其中可能包括与下文讨论的组件不同的组件。虽然图6显示每个组件的单个实例，但所述处理系统600中每个组件可能有多个实例。

所述处理系统600可以包括一个或多个处理设备602，例如处理器、微处理器、图形处理单元、专用集成电路(application-specific integrated circuit，简称ASIC)、现场可编程门阵列(field-programmable gate array，简称FPGA)、专用逻辑电路或其组合。所述处理系统600还可以包括一个或多个输入/输出(input/output，简称I/O)接口604，其可以与一个或多个适当的输入设备614和/或输出设备616的对接。所述处理系统600可以包括一个或多个网络接口606，用于与网络(例如，内部网、互联网、P2P网络、WAN和/或LAN)或其它节点进行有线或无线通信。所述网络接口606可包括用于网络内和/或网络间通信的有线链路(例如，以太网电缆)和/或无线链路(例如，一根或多根天线)。

所述处理系统600还可以包括一个或多个存储单元608，其可以包括大容量存储单元，例如固态硬盘、硬盘驱动器、磁盘驱动器和/或光盘驱动器。所述处理系统600可以包括一个或多个存储器610，其可以包括易失性或非易失性存储器(例如，闪存、随机存取存储器(random access memory，简称RAM)和/或只读存储器(read-only memory，简称ROM))。所述非瞬时性存储器610可以存储用于由处理设备602执行的指令，例如执行本发明中描述的示例，例如执行编码或解码。所述存储器610可以包括其它软件指令，例如用于实施操作系统和其它应用程序/功能。在一些示例中，一个或多个数据集和/或模块可以由外部存储器(例如，与所述处理系统600进行有线或无线通信的外部驱动器)提供，也可以由瞬时性或非瞬时性计算机可读介质提供。非瞬时性计算机可读介质的示例包括RAM、ROM、可擦除可编程ROM(erasable programmable ROM，简称EPROM)、电可擦除可编程ROM(electricallyerasable programmable ROM，简称EEPROM)、闪存、CD-ROM或其它便携式存储器。

可能有总线612在所述处理系统600的组件之间提供通信，所述组件包括所述处理设备602、所述I/O接口604、所述网络接口606、所述存储单元608和/或所述存储器610。所述总线612可以是任何合适的总线架构，例如包括内存总线、外围总线或视频总线。

在图6中，所述输入设备614(例如，键盘、鼠标、麦克风、触摸屏和/或键盘)和输出设备616(例如，显示器、扬声器和/或打印机)显示为所述处理系统600的外部设备。在其它示例中，所述输入设备614和/或所述输出设备616中的一个或多个可为所述处理系统600的组件。在其它示例中，可能不存在任何输入设备614和输出设备616，在这种情况下，可能不需要所述I/O接口604。

所述存储器610可以包括用于执行注释模块618的指令，该指令在执行时使所述处理系统600执行用于数据集自动注释的方法，例如所述方法400。所述存储器610还可以存储训练数据620，其中所述训练数据620可以包括待由所述注释模块618注释的训练数据620和/或已由所述注释模块618注释的训练数据620。

图7示出了示例DNN 700，其可以使用已使用时间信息进行注释的数据集(例如所述方法400输出的注释数据集)进行训练。可以训练所述DBB 700，例如使用所述方法500，以生成用于对象跟踪的深度跟踪神经网络。应当理解的是，图7是DNN 700的简化说明。

所述DNN 700包括输入层710，所述输入层710包含多个输入节点712。训练数据输入到所述输入层710。所述DNN 700包括多个隐藏层720，每个隐藏层720包括多个隐藏节点722。通常，隐藏层720的数量越多，所述DNN 700的“深度”越大。所述DNN 700还包括输出层730，所述输出层730包括至少一个输出节点732。

所述DNN 700的节点在前馈配置中连接。每个输入节点712将馈送到所述第一隐藏层720中的每个隐藏节点722。每个隐藏节点722将馈送到后续隐藏层720中的每个隐藏节点722。最后一个隐藏层720的隐藏节点722馈送到所述输出层730的所述输出节点732。此外，可以例如在递归神经网络中使用一个或多个反馈通道(为了简单起见，图7中示出了一个)。在一示例中，节点之间的每个连接都具有关联的权重，并且所述权重在所述DNN 700的训练期间进行调整。使用注释数据集对所述DNN 700进行适当训练以进行跟踪后，所述DNN 700可以接收所述输入层710中的传感器数据，并在所述输出层730中输出跟踪数据。

所述DNN 700可由任何适当的处理单元实施，包括所述处理系统600或其变体。此外，任何适当的神经网络(包括诸如递归神经网络长短期记忆(long short-term memory，简称LSTM)神经网络或任何其它神经网络)都可用于实施深度跟踪神经网络。

尽管本发明可以按特定顺序描述具有步骤的方法和过程，但是可以适当地省略或改变方法和过程的一个或多个步骤。在适当的情况下，一个或多个步骤可以按不同于其描述的顺序发生。

尽管可以至少部分地按照方法描述本发明，但是本领域一般技术人员将理解，本发明还涉及用于执行所述方法的至少一些方面和特征的各种组件，无论是通过硬件组件、软件还是两者的任意组合。因此，本发明的技术方案可以按软件产品的形式体现。合适的软件产品可以存储在预先记录的存储设备或其它类似的非易失性或非瞬时性计算机可读介质中，包括DVD、CD-ROM、USB闪存盘、可移动硬盘或其它存储介质等。所述软件产品包括有形地存储在其上的指令，所述指令使处理设备(例如，个人计算机、服务器或网络设备)能够执行本文公开的方法的示例。

在不脱离权利要求的主题的前提下，本发明可以按其它特定形式实施。所描述的示例性实施例在所有方面均应被视为仅是示意性的，而非限制性的。可以组合来自上述一个或多个实施例的所选特征来创建未明确描述的替代实施例以及适合在本发明范围内理解的这类组合的特征。

还公开了所公开范围内的所有值和子范围。而且，尽管本文公开和示出的系统、设备和过程可以包括特定数量的元件/组件，但是所述系统、设备和组件还可以被修改为包括更多或更少的这类元件/组件。例如，尽管所公开的任何元件/组件可以作为单数引用，但是本文公开的实施例可以被修改为包括多个的这类元件/组件。本文描述的主题旨在涵盖并包含技术中的所有适当变化。

Claims

1.一种用于生成注释数据集以训练深度跟踪神经网络的方法，其特征在于，所述方法包括：对于感兴趣帧中的感兴趣对象，在数据集的多个帧中：

计算一个或多个似然函数，以将所述感兴趣对象的特征分数与相应特征分数关联，每个特征分数与选定帧范围中一个或多个先前分配的目标ID关联；每个相应特征分数为所述选定帧范围中一个或多个先前分配的目标ID对应的对象的特征分数；

通过以下方式将目标ID分配给所述感兴趣对象：

识别与计算出的最高似然值关联的先前分配的目标ID，并将所述识别的目标ID分配给所述感兴趣对象；或

在所述先前分配的目标ID都未与计算出的满足预定阈值的似然值关联时，发起新目标ID，并将所述发起的新目标ID分配给所述感兴趣对象；

根据预定义的跟踪管理方案执行跟踪管理，为所述感兴趣对象分配跟踪类型；所述跟踪类型包括暂定的跟踪、已确认跟踪以及失效跟踪；

对所述数据集的所有帧中的所有对象迭代所述计算、分配和执行；

输出所述注释数据集，其中所述注释数据集包含分配给所有帧中所有对象的目标ID和跟踪类型。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对于所述多个帧中的第一帧：

发起新目标ID并分配给所述第一帧中识别的每个对象。

3.根据权利要求1或权利要求2所述的方法，其特征在于，还包括：

获取所述数据集的所述所有帧中所有对象的对象标签。

4.根据权利要求3所述的方法，其特征在于，获取对象标签包括应用对象检测算法。

5.根据权利要求1或权利要求2所述的方法，其特征在于，还包括：

获取所述数据集的所述所有帧中所有对象的特征分数。

6.根据权利要求5所述的方法，其特征在于，获取特征分数包括计算每个对象的特征映射函数。

7.根据权利要求1或权利要求2所述的方法，其特征在于，还包括：

使用不同的跟踪管理方案，对所述注释数据集再次执行跟踪管理，以获取不同的注释数据集，其中包含以不同方式分配给所有帧中的所有对象的跟踪类型。

8.一种系统，其特征在于，包括：

处理器；

一种耦合到所述处理器的存储器，所述存储器存储计算机执行指令，所述计算机执行指令在由所述处理器执行时使所述系统执行以下操作：

对于感兴趣帧中的感兴趣对象，在数据集的多个帧中：

通过以下方式将目标ID分配给所述感兴趣对象：

对所述数据集的所有帧中的所有对象迭代所述计算、分配和执行；以及

输出注释数据集，其中所述注释数据集包含分配给所有帧中所有对象的目标ID和跟踪类型。

9.根据权利要求8所述的系统，其特征在于，所述指令在由所述处理器执行时还使所述系统执行以下操作：

对于所述多个帧中的第一帧：

发起新目标ID并分配给所述第一帧中识别的每个对象。

10.根据权利要求8或权利要求9所述的系统，其特征在于，所述指令在由所述处理器执行时还使所述系统执行以下操作：

获取所述数据集的所述所有帧中所有对象的对象标签。

11.根据权利要求10所述的系统，其特征在于，获取对象标签包括应用对象检测算法。

12.根据权利要求8或权利要求9所述的系统，其特征在于，所述指令在由所述处理器执行时还使所述系统执行以下操作：

获取所述数据集的所述所有帧中所有对象的特征分数。

13.根据权利要求12所述的系统，其特征在于，获取特征分数包括计算每个对象的特征映射函数。

14.根据权利要求8或权利要求9所述的系统，其特征在于，所述指令在由所述处理器执行时还使所述系统执行以下操作：

15.一种训练深度跟踪神经网络的方法，其特征在于，所述方法包括：

将训练数据集输入所述深度跟踪神经网络的输入层；所述训练数据集包括相应的注释数据集；所述注释数据集采用如权利要求1所述的方法生成；

生成第一误差向量，将所述深度跟踪神经网络的输出与第一注释数据集进行比较，所述第一注释数据集包含所述训练数据集的时间信息，所述时间信息包括分配给所述训练数据集的每个帧中每个对象的目标ID和跟踪类型；所述跟踪类型包括暂定的跟踪、已确认跟踪以及失效跟踪；

调整所述深度跟踪神经网络的权重以减少所述第一误差向量。

16.根据权利要求15所述的方法，其特征在于，所述第一注释数据集包含根据第一跟踪管理方案分配的时间信息，所述方法还包括根据第二跟踪管理方案对所述深度跟踪神经网络进行以下训练：

提供第二注释数据集，其中包含根据所述第二跟踪管理方案分配的所述训练数据集的时间信息；

生成第二误差向量，将所述深度跟踪神经网络的输出与所述第二注释数据集进行比较；

调整所述深度跟踪神经网络的权重以减少所述第二误差向量。