CN115280373A

CN115280373A - 使用结构化丢弃来管理孪生网络跟踪中的遮挡

Info

Publication number: CN115280373A
Application number: CN202180020550.8A
Authority: CN
Inventors: D·K·古普塔; E·加维斯; A·W·M·斯穆尔德
Original assignee: Qualcomm Technologies Inc
Current assignee: Qualcomm Technologies Inc
Priority date: 2020-03-18
Filing date: 2021-03-18
Publication date: 2022-11-01
Also published as: EP4121896A1; US20230070439A1; WO2021188843A1

Abstract

一种用于对象跟踪的方法包括接收感兴趣对象的目标图像。目标图像的潜在空间特征在神经网络的前向传递处通过丢弃潜在空间特征中的至少一个通道、丢弃与潜在空间特征的片段相对应的通道、或丢弃潜在空间特征中的一个或多个特征来修改。在前向传递处，感兴趣对象在搜索图像中的位置基于经修改的潜在空间特征来预测。感兴趣对象的位置通过聚集来自前向传递的所预测位置来标识。

Description

使用结构化丢弃来管理孪生网络跟踪中的遮挡

相关申请的交叉引用

本申请要求于2020年3月18日提交的题为“MANAGING OCCLUSION IN SIAMESETRACKING USING STRUCTURED DROPOUTS(使用结构化丢弃来管理孪生网络跟踪中的遮挡)”的希腊专利申请No.20200100142的优先权，其公开内容通过援引全部明确纳入于此。

公开领域

本公开的各方面一般涉及对象跟踪。

背景

可包括一群互连的人工神经元(例如，神经元模型)的人工神经网络是一种计算设备或者表示将由计算设备执行的方法。人工神经网络可被用于各种应用和/或设备，诸如网际协议(IP)相机、物联网(IoT)设备、机器视觉、对象跟踪、自主交通工具、和/或服务机器人。

可以训练人工神经网络(诸如，卷积神经网络(CNN))以标识图像或图像序列(例如，视频)中的对象。例如，可训练CNN以标识和跟踪由一个或多个传感器(诸如，光检测和测距(LIDAR)传感器、声纳传感器、红绿蓝(RGB)相机、RGB深度(RGB-D)相机等)捕获的对象。传感器可耦合至设备(诸如，自动交通工具)或与该设备处于通信。

对象跟踪器在跟踪对象时面临各种挑战。这些挑战包括例如外观变化、遮挡、杂波和/或采样漂移。如此，鉴于前述挑战，改进对象跟踪器以使其更稳健是期望的。

概述

在本公开的一方面，提供了一种用于对象跟踪的方法。该方法包括接收感兴趣对象的目标图像。该方法还包括在神经网络的前向传递处修改目标图像的潜在空间特征。附加地，该方法包括在前向传递处基于经修改的潜在空间特征来预测感兴趣对象在搜索图像中的位置。进一步，该方法包括通过聚集来自前向传递的所预测位置来标识感兴趣对象的位置。

在本公开的一方面，提供了一种用于对象跟踪的装置。该装置包括存储器以及耦合至该存储器的一个或多个处理器。该处理器被配置成接收感兴趣对象的目标图像。该处理器还被配置成在神经网络的前向传递处修改目标图像的潜在空间特征。另外，该处理器被配置成在前向传递处基于经修改的潜在空间特征来预测感兴趣对象在搜索图像中的位置。进一步地，该处理器被配置成通过聚集来自前向传递的所预测位置来标识感兴趣对象的位置。

在本公开的一方面，提供了一种用于对象跟踪的装置。该装备包括用于接收感兴趣对象的目标图像的装置。该装备还包括用于在神经网络的前向传递处修改目标图像的潜在空间特征的装置。附加地，该装备包括用于在前向传递处基于经修改的潜在空间特征来预测感兴趣对象在搜索图像中的位置的装置。进一步地，该装备包括用于通过聚集来自前向传递的所预测位置来标识感兴趣对象的位置的装置。

根据本公开的一方面，提供了一种非瞬态计算机可读介质。该计算机可读介质上编码有用于对象跟踪的程序代码。该程序代码由处理器执行并且包括用于接收感兴趣对象的目标图像的代码。该程序代码还包括用于在神经网络的前向传递处修改目标图像的潜在空间特征的代码。附加地，该程序代码包括用于在前向传递处基于经修改的潜在空间特征来预测感兴趣对象在搜索图像中的位置的代码。进一步地，该程序代码包括用于通过聚集来自前向传递的所预测位置来标识感兴趣对象的位置的代码。

本公开的附加特征和优点将在下文描述。本领域技术人员应当领会，本公开可容易地被用作修改或设计用于实施与本公开相同的目的的其他结构的基础。本领域技术人员还应认识到，这样的等效构造并不脱离所附权利要求中所阐述的本公开的教导。被认为是本公开的特性的新颖特征在其组织和操作方法两方面连同进一步的目的和优点在结合附图来考虑以下描述时将被更好地理解。然而，要清楚理解的是，提供每一幅附图均仅用于解说和描述目的，且无意作为对本公开的限定的定义。

附图简述

在结合附图理解下面阐述的详细描述时，本公开的特征、本质和优点将变得更加明显，在附图中，相同附图标记始终作相应标识。

图1解说了根据本公开的某些方面的使用片上系统(SOC)(包括通用处理器)来设计神经网络的示例实现。

图2A、2B和2C是解说根据本公开的各方面的神经网络的示图。

图2D是解说根据本公开的各方面的示例性深度卷积网络(DCN)的示图。

图3是解说根据本公开的各方面的示例性深度卷积网络(DCN)的框图。

图4是解说根据本公开的各个方面的用于对象跟踪的示例架构的框图。

图5是解说根据本公开的各方面的用于使用结构化丢弃来修改目标特征以对外观变化进行建模的示例办法的框图。

图6A-B是解说根据本公开的各方面的结构化丢弃的示例架构的框图。

图7解说了根据本公开的各方面的方法的流程图。

详细描述

以下参照附图更全面地描述本公开的各个方面。然而，本公开可用许多不同形式来实施并且不应解释为被限于本公开通篇给出的任何具体结构或功能。相反，提供这些方面是为了使得本公开将是透彻和完整的，并且其将向本领域技术人员完全传达本公开的范围。基于本文中的教导，本领域技术人员应领会，本公开的范围旨在覆盖所披露的本公开的任何方面，不论其是与本公开的任何其他方面相独立地实现还是组合地实现的。例如，可使用所阐述的任何数目的方面来实现装置或实践方法。另外，本公开的范围旨在覆盖使用作为所阐述的本公开的各个方面的补充或者另外的其他结构、功能性、或者结构及功能性来实践的此类装置或方法。应当理解，所披露的本公开的任何方面可由权利要求的一个或多个元素来实施。

基于本教导，本领域技术人员应领会，本公开的范围旨在覆盖本公开的任何方面，不论其是与本公开的任何其他方面相独立地还是组合地实现的。例如，可使用所阐述的任何数目的方面来实现装置或实践方法。另外，本公开的范围旨在覆盖使用作为所阐述的本公开的各个方面的补充或者与之不同的其他结构、功能性、或者结构及功能性来实践的此类装置或方法。应当理解，所披露的本公开的任何方面可由权利要求的一个或多个元素来实施。

措辞“示例性”在本文中用于表示“用作示例、实例、或解说”。本文中描述为“示例性”的任何方面不必被解释为优于或胜过其他方面。

尽管本文描述了特定方面，但这些方面的众多变体和置换落在本公开的范围之内。虽然提到了优选方面的一些益处和优点，但本公开的范围并非旨在被限定于特定益处、用途或目标。相反，本公开的各方面旨在能宽泛地应用于不同的技术、系统配置、网络和协议，其中一些作为示例在附图以及以下对优选方面的描述中解说。详细描述和附图仅仅解说本公开而非限定本公开，本公开的范围由所附权利要求及其等效技术方案来定义。

对象跟踪指基于视频的第一帧中所提供的准确初始状态来标识给定视频的每一帧中感兴趣对象的状态的问题。对象跟踪涉及基于仅为视频序列的第一帧提供的地面真实标签来预测目标对象在整个视频序列中的位置。如所讨论的，对象跟踪器在跟踪对象时面临各种挑战。由于外观变化、遮挡、杂波、采样漂移和/或其他跟踪挑战，常用对象跟踪器可能无法跟踪对象。随着普及的深度学习方法的出现，跟踪系统(例如，基于CNN的跟踪系统)可以学习与感兴趣对象有关的过滤器。

过滤器可以改进对象跟踪器的辨别能力。一些常用系统已专注于将更大和更强的主干网(例如，CNN)嵌入跟踪模型中。尽管增加主干网的处理能力可以改进跟踪准确性，但增加的处理能力可能降低跟踪速度。

本公开的各方面涉及一种丢弃机制以计及遮挡相关的误差和外观变化的不利影响。

图1解说了根据本公开的某些方面的片上系统(SOC)100的示例实现，其可包括被配置成用于对象跟踪的中央处理单元(CPU)102或多核CPU。变量(例如，神经信号和突触权重)、与计算设备(例如，带有权重的神经网络)相关联的系统参数、延迟、频率槽信息、以及任务信息可被存储在与神经处理单元(NPU)108相关联的存储器块、与CPU 102相关联的存储器块、与图形处理单元(GPU)104相关联的存储器块、与数字信号处理器(DSP)106相关联的存储器块、存储器块118中，或可跨多个块分布。在CPU 102处执行的指令可从与CPU 102相关联的程序存储器加载或可从存储器块118加载。

SOC 100还可包括为具体功能定制的附加处理块，诸如GPU 104、DSP 106、连通性块110(其可包括第五代(5G)连通性、第四代长期演进(4G LTE)连通性、Wi-Fi连通性、USB连通性、蓝牙连通性等)以及例如可检测和识别姿势的多媒体处理器112。在一种实现中，NPU实现在CPU、DSP、和/或GPU中。SOC 100还可包括传感器处理器114、图像信号处理器(ISP)116、和/或导航模块120(其可包括全球定位系统)。

SOC 100可基于ARM指令集。在本公开的一方面，被加载到通用处理器102中的指令可包括用于接收感兴趣对象的目标图像的代码。通用处理器102还可包括用于在神经网络的前向传递处修改目标图像的潜在空间特征的代码。通用处理器102可进一步包括用于在前向传递处基于经修改的潜在空间特征来预测感兴趣对象在搜索图像中的位置的代码。通用处理器102还可进一步包括用于通过聚集来自前向传递的所预测位置来标识感兴趣对象的位置的代码。

深度学习架构可通过学习在每一层中以逐次更高的抽象程度来表示输入、藉此构建输入数据的有用特征表示来执行对象识别任务。以此方式，深度学习解决了传统机器学习的主要瓶颈。在深度学习出现之前，用于对象识别问题的机器学习办法可能严重依赖人类工程设计的特征，或许与浅分类器相结合。浅分类器可以是两类线性分类器，例如，其中可将特征向量分量的加权和与阈值作比较以预测输入属于哪一类。人类工程设计的特征可以是由拥有领域专业知识的工程师针对具体问题领域定制的模版或内核。相反，深度学习架构可学习以表示与人类工程师可能会设计的相似的特征，但它是通过训练来学习的。此外，深度网络可以学习以表示和识别人类可能还没有考虑过的新类型的特征。

深度学习架构可以学习特征阶层。例如，如果向第一层呈递视觉数据，则第一层可学习以识别输入流中的相对简单的特征(诸如边)。在另一示例中，如果向第一层呈递听觉数据，则第一层可学习以识别特定频率中的频谱功率。取第一层的输出作为输入的第二层可以学习以识别特征组合，诸如对于视觉数据识别简单形状或对于听觉数据识别声音组合。例如，更高层可学习以表示视觉数据中的复杂形状或听觉数据中的词语。再高层可学习以识别常见视觉对象或口述短语。

深度学习架构在被应用于具有自然阶层结构的问题时可能表现特别好。例如，机动交通工具的分类可受益于首先学习以识别轮子、挡风玻璃、以及其他特征。这些特征可在更高层以不同方式被组合以识别轿车、卡车和飞机。

神经网络可被设计成具有各种连通性模式。在前馈网络中，信息从较低层被传递到较高层，其中给定层中的每个神经元向更高层中的神经元进行传达。如上所述，可在前馈网络的相继层中构建阶层式表示。神经网络还可具有回流或反馈(也被称为自顶向下(top-down))连接。在回流连接中，来自给定层中的神经元的输出可被传达给相同层中的另一神经元。回流架构可有助于识别跨越不止一个按顺序递送给该神经网络的输入数据组块的模式。从给定层中的神经元到较低层中的神经元的连接被称为反馈(或自顶向下)连接。当高层级概念的识别可辅助辨别输入的特定低层级特征时，具有许多反馈连接的网络可能是有助益的。

神经网络的各层之间的连接可以是全连通的或局部连通的。图2A解说了全连通神经网络202的示例。在全连通神经网络202中，第一层中的神经元可将它的输出传达给第二层中的每个神经元，从而第二层中的每个神经元将从第一层中的每个神经元接收输入。图2B解说了局部连通神经网络204的示例。在局部连通神经网络204中，第一层中的神经元可连接到第二层中有限数目的神经元。更一般化地，局部连通神经网络204的局部连通层可被配置成使得一层中的每个神经元将具有相同或相似的连通性模式，但其连接强度可具有不同的值(例如，210、212、214和216)。局部连通的连通性模式可能在更高层中产生空间上相异的感受野，这是由于给定区域中的更高层神经元可接收到通过训练被调谐为到网络的总输入的受限部分的性质的输入。

局部连通神经网络的一个示例是卷积神经网络。图2C解说了卷积神经网络206的示例。卷积神经网络206可被配置成使得与针对第二层中每个神经元的输入相关联的连接强度被共享(例如，208)。卷积神经网络可能非常适合于其中输入的空间位置有意义的问题。

一种类型的卷积神经网络是深度卷积网络(DCN)。图2D解说了被设计成从自图像捕捉设备230(诸如车载相机)输入的图像226识别视觉特征的DCN 200的详细示例。可对当前示例的DCN 200进行训练以标识交通标志以及在交通标志上提供的数字。当然，DCN 200可被训练用于其他任务，诸如标识车道标记或标识交通信号灯。

可以用受监督式学习来训练DCN 200。在训练期间，可向DCN 200呈递图像(诸如限速标志的图像226)，并且随后可计算“前向传递(forward pass)”以产生输出222。DCN 200可包括特征提取区段和分类区段。在接收到图像226之际，卷积层232可向图像226应用卷积核(未示出)，以生成第一组特征图218。作为示例，卷积层232的卷积核可以是生成28x28特征图的5x5内核。在本示例中，由于在第一组特征图218中生成四个不同的特征图，因此在卷积层232处四个不同的卷积核被应用于图像226。卷积核还可被称为过滤器或卷积过滤器。

第一组特征图218可由最大池化层(未示出)进行子采样以生成第二组特征图220。最大池化层减小了第一组特征图218的大小。即，第二组特征图220的大小(诸如14x14)小于第一组特征图218的大小(诸如28x28)。减小的大小向后续层提供类似的信息，同时降低存储器消耗。第二组特征图220可经由一个或多个后续卷积层(未示出)被进一步卷积，以生成后续的一组或多组特征图(未示出)。

在图2D的示例中，第二组特征图220被卷积以生成第一特征向量224。此外，第一特征向量224被进一步卷积以生成第二特征向量228。第二特征向量228的每个特征可包括与图像226的可能特征(诸如，“标志”、“60”和“100”)相对应的数字。softmax(软最大化)函数(未示出)可将第二特征向量228中的数字转换为概率。如此，DCN 200的输出222是图像226包括一个或多个特征的概率。

在本示例中，输出222中关于“标志”和“60”的概率高于输出222的其他特征(诸如“30”、“40”、“50”、“70”、“80”、“90”和“100”)的概率。在训练之前，由DCN 200产生的输出222很可能是不正确的。由此，可计算输出222与目标输出之间的误差。目标输出是图像226的真值(例如，“标志”和“60”)。DCN 200的权重可随后被调整以使得DCN 200的输出222与目标输出更紧密地对齐。

为了调整权重，学习算法可为权重计算梯度向量。该梯度可指示在权重被调整情况下误差将增加或减少的量。在顶层，该梯度可直接对应于连接倒数第二层中的活化神经元与输出层中的神经元的权重的值。在较低层中，该梯度可取决于权重的值以及所计算出的较高层的误差梯度。权重可随后被调整以减小误差。这种调整权重的方式可被称为“反向传播”，因为其涉及在神经网络中的“反向传递(backward pass)”。

在实践中，权重的误差梯度可能是在少量示例上计算的，从而计算出的梯度近似于真实误差梯度。这种近似方法可被称为随机梯度下降法。随机梯度下降法可被重复，直到整个系统可达成的误差率已停止下降或直到误差率已达到目标水平。在学习之后，DCN可被呈递新图像(例如，图像226的限速标志)并且通过网络前向传递可产生输出222，其可被认为是该DCN的推断或预测。

深度置信网络(DBN)是包括多层隐藏节点的概率性模型。DBN可被用于提取训练数据集的阶层式表示。DBN可通过堆叠多层受限波尔兹曼机(RBM)来获得。RBM是一类可在输入集上学习概率分布的人工神经网络。由于RBM可在没有关于每个输入应该被分类到哪个类的信息的情况下学习概率分布，因此RBM经常被用在无监督式学习中。使用混合无监督式和受监督式范式，DBN的底部RBM可按无监督方式被训练并且可以用作特征提取器，而顶部RBM可按受监督方式(在来自先前层的输入和目标类的联合分布上)被训练并且可用作分类器。

深度卷积网络(DCN)是卷积网络的网络，其配置有附加的池化和归一化层。DCN已在许多任务上达成现有最先进的性能。DCN可以使用受监督式学习来训练，其中输入和输出目标两者对于许多典范是已知的并被用于通过使用梯度下降法来修改网络的权重。

DCN可以是前馈网络。另外，如上所述，从DCN的第一层中的神经元到下一更高层中的神经元群的连接跨第一层中的各神经元被共享。DCN的前馈和共享连接可被用于进行快速处理。DCN的计算负担可比例如类似大小的包括回流或反馈连接的神经网络的计算负担小得多。

卷积网络的每一层的处理可被认为是空间不变模版或基础投影。如果输入首先被分解成多个通道，诸如彩色图像的红色、绿色和蓝色通道，那么在该输入上训练的卷积网络可被认为是三维的，其具有沿着该图像的轴的两个空间维度以及捕捉颜色信息的第三维度。卷积连接的输出可被认为在后续层中形成特征图，该特征图(例如，220)中的每个元素从先前层(例如，特征图218)中一定范围的神经元以及从该多个通道中的每个通道接收输入。特征图中的值可以用非线性(诸如矫正，max(0，x))进一步处理。来自毗邻神经元的值可被进一步池化(这对应于降采样)并可提供附加的局部不变性以及维度缩减。还可通过特征图中神经元之间的侧向抑制来应用归一化，其对应于白化。

深度学习架构的性能可随着有更多被标记的数据点变为可用或随着计算能力提高而提高。现代深度神经网络用比仅仅十五年前可供典型研究者使用的计算资源多数千倍的计算资源来例行地训练。新的架构和训练范式可进一步推升深度学习的性能。经矫正的线性单元可减少被称为梯度消失的训练问题。新的训练技术可减少过度拟合(over-fitting)并因此使更大的模型能够达成更好的普遍化。封装技术可抽象出给定的感受野中的数据并进一步提升总体性能。

图3是解说深度卷积网络350的框图。深度卷积网络350可包括多个基于连通性和权重共享的不同类型的层。如图3中示出的，深度卷积网络350包括卷积块354A、354B。卷积块354A、354B中的每一者可配置有卷积层(CONV)356、归一化层(LNorm)358、和最大池化层(MAX POOL)360。

卷积层356可包括一个或多个卷积过滤器，其可被应用于输入数据以生成特征图。尽管仅示出了两个卷积块354A、354B，但本公开不限于此，而是代之以根据设计偏好可将任何数目的卷积块354A、354B包括在深度卷积网络350中。归一化层358可对卷积过滤器的输出进行归一化。例如，归一化层358可提供白化或侧向抑制。最大池化层360可提供在空间上的降采样聚集以实现局部不变性以及维度缩减。

例如，深度卷积网络的并行过滤器组可被加载到SOC 100的CPU 102或GPU 104上以达成高性能和低功耗。在替换实施例中，并行过滤器组可被加载到SOC 100的DSP 106或ISP 116上。另外，深度卷积网络350可访问其他可存在于SOC 100上的处理块，诸如分别专用于传感器和导航的传感器处理器114和导航模块120。

深度卷积网络350还可包括一个或多个全连通层362(FC1和FC2)。深度卷积网络350可进一步包括逻辑回归(LR)层364。深度卷积网络350的每一层356、358、360、362、364之间是要被更新的权重(未示出)。每一层(例如，356、358、360、362、364)的输出可以用作深度卷积网络350中一后续层(例如，356、358、360、362、364)的输入以从第一卷积块354A处供应的输入数据352(例如，图像、音频、视频、传感器数据和/或其他输入数据)学习阶层式特征表示。深度卷积网络350的输出是针对输入数据352的分类得分366。分类得分366可以是概率集，其中每个概率是输入数据包括来自特征集的特征的概率。

如所讨论的，外观变化、遮挡、杂波和采样漂移是目标跟踪中的众多挑战。遮挡问题可能特别具有挑战性。当目标的一部分被隐藏或阻挡时，可能发生遮挡。如此，搜索对象或目标对象的一些突出特征可能不可用。因此，可能降低搜索对象和目标对象的相似性得分。相应地，也可能降低用于预测目标位置的置信度得分。

为了减少由于丢失特征导致的预测中的不确定性，本公开的各方面从目标图像的潜在特征图中执行部分通道集或块的丢弃，诸如随机丢弃。可执行具有丢弃的多个推断(例如，预测)。随后，可聚集该推断。作为结果，在存在遮挡的情况下，可以改进跟踪器模型的性能。为了进一步处置遮挡场景，可以使用非随机片段丢弃方法。

模型在潜在空间中观察目标图像的变化可能是有益的。相应地，在一些方面，当搜索候选图像中的对象时，模型在变化上进行推断。另外，当搜索对象时，可通过在变化上进行推断来改进激活得分。

图4是解说根据本公开的各个方面的用于对象跟踪的示例架构400的框图。参照图4，示例架构400是孪生网络的形式。然而，这仅仅是示例性的，并且也可使用用于对象跟踪的其他架构。孪生网络是一种包括两个子网络的神经网络体系结构，这两个子网络具有相同或相似的参数和权重配置。孪生网络可用于比较两个输入以确定指示输入是否匹配的相似性得分。

如图4中所示，示例架构400接收目标图像402和候选图像404作为输入。示例架构400的每个子网络(例如，A、B)可以分别单独地处理目标图像402和候选图像404。在跟踪期间，可通过在潜在空间中的匹配来找到目标图像402在候选图像404中的定位。潜在表示

(406)和

(408)可通过使目标图像402和候选图像404经受卷积过滤器层以分别提取特征集406、408来获得。在一些方面，子网络(A、B)中的每一个子网络可被配置成自动编码器。在此配置中，可经由对每个子网络的各部分进行编码来生成潜在表示。

潜在表示(例如，目标特征406和候选特征408)可以被互相关并组合以产生单个特征图410。特征图410中的峰值能量可以对应于目标图像402在候选图像404中的位置。在一些方面，孪生跟踪器可以采用不同机制来定位来自目标特征406和候选特征408的最终边界框输出。例如，孪生跟踪器可通过以几个不同比例将候选与目标进行匹配来生成特征图。具有最高值的特征图像素可被转换回边界框，作为目标图像在候选图像中的位置的预测。在另一示例中，孪生跟踪器可使用区域提议网络来回归所期望的边界框。

如所讨论的，在外观变化、遮挡、杂波或采样漂移的情形中，特征图410中的能量变化可被减少，并且所得到的预测或置信度得分可被减少，从而限制对象跟踪器的有效性。

为了解决该问题，本公开的各方面可使用结构化丢弃来修改目标特征406，以模拟遮挡或其他外观变化。

图5是解说根据本公开的各方面的用于使用结构化丢弃来修改目标特征以对外观变化进行建模的示例办法的框图。参照图5，示出了潜在表示502、504和506。潜在表示502、504和506中的每一者可包括一组N个通道。每个通道可被解读为指示某个特征在图像中的分布的空间图。丢弃指丢弃通道(例如，502)的一部分。例如，结构化丢弃可以指应用于孪生跟踪器的目标子网络(例如，图4所示的子网络A的目标特征406)的潜在空间中以模拟目标遮挡的丢弃。在一些方面，可以基于外观变化或遮挡的类型来应用结构化丢弃的不同变化。例如，结构化丢弃可基于遮挡对象跟踪是特征遮挡还是块遮挡而变化。特征遮挡可指图像中由目标变化引起的被遮挡部分，其导致目标的一些典型特征消失，而许多其他典型特征仍然存在。特征遮挡的一个示例可包括太阳镜或雨衣遮住部分原始目标特征的人的图像。在另一方面，例如，块遮挡可以指目标的被另一对象遮挡的紧密部分。例如，当另一对象在图像的一侧进入目标的视场并部分地遮挡目标的视场时，可能发生块遮挡。

在一个示例方法中，潜在表示502可以使用通道结构化丢弃来修改。在通道结构化丢弃中，可以从潜在表示中丢弃通道的随机集合。例如，通道502c-e可以从潜在表示502中被随机地丢弃(通道的所丢弃部分在图5中示出为斑点部分)。在一些方面，随机地丢弃通道(例如，502i-j)的过程可以重复多次，并且结果可以被组合以获得最终投影。在一些方面，当遮挡类型是特征遮挡时，可以应用通道结构化丢弃。

在另一示例办法中，潜在表示504可以使用区段结构化丢弃来修改。在区段结构化丢弃中，沿空间维度的部分潜在特征表示可被丢弃。例如，在潜在表示504中，潜在表示504的每个通道的部分P被丢弃。在一些方面，当遮挡类型是块遮挡时，可以应用区段丢弃。

在另一示例方法中，潜在表示506可以使用片段结构化丢弃来修改。在片段结构化丢弃中，通道的一个或多个整个边缘可被丢弃。由于遮挡可能随机地发生在目标的任何部分，因此区段丢弃也是随机的。然而，这也可能意味着，为了最佳匹配被遮挡的目标，可能应用大量的区段丢弃，这可能增加计算足迹。在块遮挡的一个示例中，可能在目标的一侧(例如，顶部、底部、左侧或右侧)遮挡目标。例如，行人可能在左侧或右侧包括彼此。因此，代替采样所有随机位置，可以迭代从图像的每个不同侧面或边缘采样的一组预定义的遮挡块，以覆盖的大多数遮挡情形，并且因此实现与复杂度的良好权衡。例如，在潜在表示506中，每个通道的片段S可被丢弃。

在一种配置中，丢弃采样和与旋转相关的增强办法被组合到单个端到端潜在空间丰富(LSE)框架中，以用于跟踪期间的稳健推断。本公开的各方面可被实现为孪生跟踪器的附件。

在一种配置中，基于丢弃的推断方法被实现为模型架构的一部分。该模型学习从通过丢弃采样获得的各种样本中进行推断。因此，本公开的各方面涉及用于使用所提议的丢弃方法在潜在空间中执行增强并对结果进行推断以确定最终预测的LSE策略。

如所讨论的，丢弃方案模拟遮挡和外观变化的行为。推断阶段期间多个丢弃的集合改进了跟踪模型的性能。可使用用于稳健推断的不同丢弃策略。丢弃策略包括但不限于通道丢弃、区段丢弃和片段丢弃。

LSE策略可用于根据与旋转有关的外观变化的跟踪。端到端LSE框架用于基于旋转和丢弃采样的稳健推断。

图6A-B是解说根据本公开的各方面的结构化丢弃的示例架构600、650的框图。例如，可使用小型编码器网络直接组合激活图，而不是显式地组合多个丢弃预测。即，可使用隐式办法产生推断。在隐式办法中，可以端到端地训练示例架构600以产生单个预测(例如，目标图像的定位)。如图6A中所示，示例架构600接收候选特征图602和目标特征图604。候选特征图602可以对应于候选图像(例如，图4的404)。目标特征图604可以对应于目标图像(例如，图4的402)。可以通过对目标特征图604(例如，502、504和506)应用结构化丢弃策略来处理目标特征图604，以产生n个特征图样本606a-n(例如，SD-3可以表示片段丢弃，SD-2可以表示区段丢弃)。特征图样本606a-n可被堆叠(608)并传递通过编码块610的一组卷积层。编码块610输出可被提供给回归块612，以生成预测(例如，目标图像(例如402)在候选图像(例如，404)内的位置)。

在另一方面，在图6B中所示的实现中，可以显式地生成一组预测(660a-n)。示例架构650接收候选特征图652和目标特征图654。可以通过对目标特征图654(例如，502、504和506)应用结构化丢弃策略来处理目标特征图654，以产生n个特征图样本656a-n(例如，SD-1可以表示通道丢弃，SD-2可以表示区段丢弃)。对于通道丢弃，在第i个推断步骤要丢弃的特征图(例如654)的通道的一部分可被表达为γ_i。经修改的特征图(例如，656a-n)可以与候选特征图交叉进行互相关，并经受回归块658a-n以生成一组预测(例如，时间步骤t处的预测)。每个步骤处的预测(例如，660a-n)可以由D_t,i{y_t,i，s_s,i}表示，其中y_t,i和s_s,i表示时间步骤t处针对第i个前向传递的所预测边界框和它们相应的置信度得分。从n个前向传递中，该组预测则可被表示为D_t,i{D_t,1,D_t,2,…,D_t,n,}。最终预测为

图7解说了根据本公开的一方面的方法700的流程图。方法700是通过人工神经网络在目标跟踪中用于稳健推断的潜在空间丰富的示例。如图7中所示，在框702处，人工神经网络接收感兴趣对象的目标图像。目标图像可以是从帧序列的一帧中裁剪的。在一种配置中，人工神经网络是孪生神经网络。

附加地，如图7中所示，在框704处，人工神经网络在前向传递处修改目标图像的潜在空间特征。例如，潜在空间特征可通过丢弃潜在空间特征中的至少一个通道、丢弃与潜在空间特征的片段相对应的通道、或丢弃潜在空间特征中的至少一个特征来修改。

如图7中所示，在框706处，人工神经网络在前向传递处基于经修改的潜在空间特征来预测感兴趣对象在搜索图像中的位置。例如，人工神经网络对经修改的潜在空间特征和搜索图像的特征进行卷积。附加地，人工神经网络基于卷积来预测感兴趣对象在搜索图像中的位置。最终，如图7中所示，在框708处，人工神经网络通过聚集来自前向传递的所预测位置来标识感兴趣对象的位置。

在一个方面，接收装置、确定装置和量化装置和/或生成装置可以是CPU 102、与CPU 102相关联的程序存储器、GPU 104、NPU 108、专用存储器块118和/或被配置成执行所述功能的全连通层362。在另一种配置中，前述装置可以是被配置成执行由前述装置所叙述的功能的任何模块或任何装置。

以上所描述的方法的各种操作可由能够执行相应功能的任何合适的装置来执行。这些装置可包括各种硬件和/或软件组件和/或模块，包括但不限于电路、专用集成电路(ASIC)、或处理器。一般而言，在附图中有解说的操作的场合，那些操作可具有带相似编号的相应配对装置加功能组件。

在以下经编号条款中提供了各实现示例：

1.一种方法，包括：

接收感兴趣对象的目标图像；

在神经网络的前向传递处修改目标图像的潜在空间特征；

在前向传递处基于经修改的潜在空间特征来预测感兴趣对象在搜索图像中的位置；以及

通过聚集来自前向传递的所预测位置来标识感兴趣对象的位置。

2.如条款1的方法，进一步包括通过丢弃潜在空间特征中的至少一个通道、丢弃与潜在空间特征的片段相对应的通道、或丢弃潜在空间特征中的至少一个特征来修改潜在空间特征。

3.如条款1或2中任一项的方法，其中丢弃潜在空间特征中的至少一个通道以及丢弃潜在空间特征中的至少一个特征包括随机丢弃。

4.如条款1或2中任一项的方法，其中丢弃与潜在空间特征的片段相对应的通道包括非随机丢弃。

5.如条款1-4中任一项的方法，其中该神经网络包括孪生神经网络。

6.如条款1-5中任一项的方法，进一步包括对经修改的潜在空间特征和搜索图像的特征进行卷积。

7.如条款1-6中任一项的方法，进一步包括基于经修改的潜在空间特征和搜索图像的特征的卷积来预测感兴趣对象在搜索图像中的位置。

8.一种装置，包括：

存储器，以及

操作地耦合到该存储器的至少一个处理器，该存储器和该至少一个处理器被配置成：

接收感兴趣对象的目标图像；

在神经网络的前向传递处修改目标图像的潜在空间特征；

9.如条款8的装置，其中该至少一个处理器被进一步配置成通过丢弃潜在空间特征中的至少一个通道、丢弃与潜在空间特征的片段相对应的通道、或丢弃潜在空间特征中的至少一个特征来修改潜在空间特征。

10.如条款8或9中任一项的方法，其中该至少一个处理器被进一步配置成通过随机丢弃来丢弃潜在空间特征中的至少一个通道以及丢弃潜在空间特征中的至少一个特征。

11.如条款8或9中任一项的装置，其中该至少一个处理器被进一步配置成通过包括非随机丢弃来丢弃与潜在空间特征的片段相对应的通道。

12.如条款8-11中任一项的装置，其中该神经网络包括孪生神经网络。

13.如条款8-12中任一项的装置，其中该至少一个处理器被进一步配置成对经修改的潜在空间特征和搜索图像的特征进行卷积。

14.如条款8-13中任一项的装置，其中该至少一个处理器被进一步配置成基于经修改的潜在空间特征和搜索图像的特征的卷积来预测感兴趣对象在搜索图像中的位置。

15.一种装备，包括：

用于接收感兴趣对象的目标图像的装置；

用于在神经网络的前向传递处修改目标图像的潜在空间特征的装置；

用于在前向传递处基于经修改的潜在空间特征来预测感兴趣对象在搜索图像中的位置的装置；以及

用于通过聚集来自前向传递的所预测位置来标识感兴趣对象的位置的装置。

16.如条款15的装备，进一步包括用于通过丢弃潜在空间特征中的至少一个通道、丢弃与潜在空间特征的片段相对应的通道、或丢弃潜在空间特征中的至少一个特征来修改潜在空间特征的装置。

17.如条款15或16中任一项的装备，其中用于丢弃潜在空间特征中的至少一个通道的装置以及用于丢弃潜在空间特征中的至少一个特征的装置包括用于随机丢弃的装置。

18.如条款15或16中任一项的装备，其中用于丢弃与潜在空间特征的片段相对应的通道的装置包括用于非随机丢弃的装置。

19.如条款15-18中任一项的装备，其中该神经网络包括孪生神经网络。

20.如条款15-19中任一项的装备，进一步包括用于对经修改的潜在空间特征和搜索图像的特征进行卷积的装置。

21.如条款15-20中任一项的装备，进一步包括用于基于经修改的潜在空间特征和搜索图像的特征的卷积来预测感兴趣对象在搜索图像中的位置的装置。

22.一种其上记录有程序代码的非瞬态计算机可读介质，该程序代码由至少一个处理器执行并且包括：

用于接收感兴趣对象的目标图像的程序代码；

用于在神经网络的前向传递处修改目标图像的潜在空间特征的程序代码；

用于在前向传递处基于经修改的潜在空间特征来预测感兴趣对象在搜索图像中的位置的程序代码；以及

用于通过聚集来自前向传递的所预测位置来标识感兴趣对象的位置的程序代码。

23.如条款22的非瞬态计算机可读介质，其中用于修改潜在空间特征的程序代码包括：用于丢弃潜在空间特征中的至少一个通道的程序代码、用于丢弃与潜在空间特征的片段相对应的通道的程序代码、或用于丢弃潜在空间特征中的至少一个特征的程序代码。

24.如条款22或23中任一项的非瞬态计算机可读介质，其中用于丢弃潜在空间特征中的至少一个通道的程序代码以及用于丢弃潜在空间特征中的至少一个特征的程序代码包括用于执行随机丢弃的程序代码。

25.如条款22或23中任一项的非瞬态计算机可读介质，其中用于丢弃与潜在空间特征的片段相对应的通道的程序代码包括用于执行非随机丢弃的程序代码。

26.如条款22-25中任一项的非瞬态计算机可读介质，其中该神经网络包括孪生神经网络。

27.如条款22-26中任一项的非瞬态计算机可读介质，进一步包括用于对经修改的潜在空间特征和搜索图像的特征进行卷积的程序代码。

28.如条款22-27中任一项的非瞬态计算机可读介质，进一步包括用于基于经修改的潜在空间特征和搜索图像的特征的卷积来预测感兴趣对象在搜索图像中的位置的程序代码。

如所使用的，术语“确定”涵盖各种各样的动作。例如，“确定”可包括演算、计算、处理、推导、研究、查找(例如，在表、数据库或另一数据结构中查找)、查明及诸如此类。附加地，“确定“可包括接收(例如接收信息)、访问(例如访问存储器中的数据)、及类似动作。此外，“确定”可包括解析、选择、选取、确立及类似动作。

前述公开提供了解说和描述，但不旨在穷举或将各方面限于所公开的精确形式。修改和变体可以鉴于以上公开内容来作出或者可通过实践各方面来获得。

如本文所使用的，术语“组件”旨在被宽泛地解释为硬件、固件和/或硬件与软件的组合。如本文所使用的，处理器用硬件、固件、和/或硬件与软件的组合来实现。

一些方面在本文中是与阈值相结合地描述的。如本文所使用的，取决于上下文，满足阈值可以指值大于阈值、大于或等于阈值、小于阈值、小于或等于阈值、等于阈值、不等于阈值等。

所描述的系统和/或方法可以按硬件、固件、和/或硬件与软件的组合的不同形式来实现将会是显而易见的。用于实现这些系统和/或方法的实际的专用控制硬件或软件代码不限制各方面。由此，这些系统和/或方法的操作和行为在本文中在不参照特定软件代码的情况下描述——理解到，软件和硬件可被设计成至少部分地基于本文的描述来实现这些系统和/或方法。

尽管在权利要求书中叙述和/或在说明书中公开了特定特征组合，但这些组合不旨在限制各个方面的公开。事实上，许多这些特征可以按权利要求书中未专门叙述和/或说明书中未公开的方式组合。尽管以下列出的每一项从属权利要求可以直接从属于仅仅一项权利要求，但各个方面的公开包括每一项从属权利要求与这组权利要求中的每一项其他权利要求相组合。引述一列项目中的“至少一个”的短语指代这些项目的任何组合，包括单个成员。作为示例，“a、b或c中的至少一个”旨在涵盖：a、b、c、a-b、a-c、b-c、和a-b-c，以及具有多重相同元素的任何组合(例如，a-a、a-a-a、a-a-b、a-a-c、a-b-b、a-c-c、b-b、b-b-b、b-b-c、c-c、和c-c-c，或者a、b和c的任何其他排序)。

本文所使用的元素、动作或指令不应被解释为关键或必要的，除非被明确描述为这样。而且，如本文所使用的，冠词“一”和“某一”旨在包括一个或多个项目，并且可与“一个或多个”可互换地使用。此外，如本文所使用的，术语“集合”和“群”旨在包括一个或多个项目(例如，相关项、非相关项、相关和非相关项的组合等)，并且可以与“一个或多个”可互换地使用。在旨在仅有一个项目的场合，使用短语“仅一个”或类似语言。而且，如本文所使用的，术语“具有”、“含有”、“包含”等旨在是开放性术语。此外，短语“基于”旨在意指“至少部分地基于”，除非另外明确陈述。

Claims

1.一种方法，包括：

接收感兴趣对象的目标图像；

在神经网络的前向传递处修改所述目标图像的潜在空间特征；

在所述前向传递处基于经修改的潜在空间特征来预测所述感兴趣对象在搜索图像中的位置；以及

通过聚集来自所述前向传递的所预测位置来标识所述感兴趣对象的所述位置。

2.如权利要求1所述的方法，进一步包括通过丢弃所述潜在空间特征中的至少一个通道、丢弃与所述潜在空间特征的片段相对应的通道、或丢弃所述潜在空间特征中的至少一个特征来修改所述潜在空间特征。

3.如权利要求2所述的方法，其中丢弃所述潜在空间特征中的所述至少一个通道以及丢弃所述潜在空间特征中的所述至少一个特征包括随机丢弃。

4.如权利要求2所述的方法，其中丢弃与所述潜在空间特征的所述片段相对应的通道包括非随机丢弃。

5.如权利要求1所述的方法，其中所述神经网络包括孪生神经网络。

6.如权利要求1所述的方法，进一步包括对所述经修改的潜在空间特征和所述搜索图像的特征进行卷积。

7.如权利要求6所述的方法，进一步包括基于所述经修改的潜在空间特征和所述搜索图像的特征的卷积来预测所述感兴趣对象在所述搜索图像中的位置。

8.一种装置，包括：

存储器，以及

操作地耦合到所述存储器的至少一个处理器，所述存储器和所述至少一个处理器被配置成：

接收感兴趣对象的目标图像；

9.如权利要求8所述的装置，其中所述至少一个处理器被进一步配置成通过丢弃所述潜在空间特征中的至少一个通道、丢弃与所述潜在空间特征的片段相对应的通道、或丢弃所述潜在空间特征中的至少一个特征来修改所述潜在空间特征。

10.如权利要求9所述的装置，其中所述至少一个处理器被进一步配置成通过随机丢弃来丢弃所述潜在空间特征中的所述至少一个通道以及丢弃所述潜在空间特征中的所述至少一个特征。

11.如权利要求9所述的装置，其中所述至少一个处理器被进一步配置成通过包括非随机丢弃来丢弃与所述潜在空间特征的所述片段相对应的通道。

12.如权利要求8所述的装置，其中所述神经网络包括孪生神经网络。

13.如权利要求8所述的装置，其中所述至少一个处理器被进一步配置成对所述经修改的潜在空间特征和所述搜索图像的特征进行卷积。

14.如权利要求13所述的装置，其中所述至少一个处理器被进一步配置成基于所述经修改的潜在空间特征和所述搜索图像的特征的卷积来预测所述感兴趣对象在所述搜索图像中的位置。

15.一种装备，包括：

用于接收感兴趣对象的目标图像的装置；

用于在神经网络的前向传递处修改所述目标图像的潜在空间特征的装置；

用于在所述前向传递处基于经修改的潜在空间特征来预测所述感兴趣对象在搜索图像中的位置的装置；以及

用于通过聚集来自所述前向传递的所预测位置来标识所述感兴趣对象的所述位置的装置。

16.如权利要求15所述的装备，进一步包括用于通过丢弃所述潜在空间特征中的至少一个信道、丢弃与所述潜在空间特征的片段相对应的信道、或丢弃所述潜在空间特征中的至少一个特征来修改所述潜在空间特征的装置。

17.如权利要求16所述的装备，其中用于丢弃所述潜在空间特征中的所述至少一个通道的装置以及用于丢弃所述潜在空间特征中的所述至少一个特征的装置包括用于随机丢弃的装置。

18.如权利要求16所述的装备，其中用于丢弃与所述潜在空间特征的所述片段相对应的通道的装置包括用于非随机丢弃的装置。

19.如权利要求15所述的装备，其中所述神经网络包括孪生神经网络。

20.如权利要求15所述的装备，进一步包括用于对所述经修改的潜在空间特征和所述搜索图像的特征进行卷积的装置。

21.如权利要求20所述的装备，进一步包括用于基于所述经修改的潜在空间特征和所述搜索图像的特征的卷积来预测所述感兴趣对象在所述搜索图像中的位置的装置。

22.一种其上记录有程序代码的非瞬态计算机可读介质，所述程序代码由至少一个处理器执行并且包括：

用于接收感兴趣对象的目标图像的程序代码；

用于在神经网络的前向传递处修改所述目标图像的潜在空间特征的程序代码；

用于在所述前向传递处基于经修改的潜在空间特征来预测所述感兴趣对象在搜索图像中的位置的程序代码；以及

用于通过聚集来自所述前向传递的所预测位置来标识所述感兴趣对象的所述位置的程序代码。

23.如权利要求22所述的非瞬态计算机可读介质，其中用于修改所述潜在空间特征的程序代码包括：用于丢弃所述潜在空间特征中的至少一个通道的程序代码、用于丢弃与所述潜在空间特征的片段相对应的通道的程序代码、或用于丢弃所述潜在空间特征中的至少一个特征的程序代码。

24.如权利要求23所述的非瞬态计算机可读介质，其中用于丢弃所述潜在空间特征中的所述至少一个通道的程序代码以及用于丢弃所述潜在空间特征中的所述至少一个特征的程序代码包括用于执行随机丢弃的程序代码。

25.如权利要求23所述的非瞬态计算机可读介质，其中用于丢弃与所述潜在空间特征的所述片段相对应的通道的程序代码包括用于执行非随机丢弃的程序代码。

26.如权利要求22所述的非瞬态计算机可读介质，其中所述神经网络包括孪生神经网络。

27.如权利要求22所述的非瞬态计算机可读介质，进一步包括用于对所述经修改的潜在空间特征和所述搜索图像的特征进行卷积的程序代码。

28.如权利要求27所述的非瞬态计算机可读介质，进一步包括用于基于所述经修改的潜在空间特征和所述搜索图像的特征的卷积来预测所述感兴趣对象在所述搜索图像中的位置的程序代码。