CN116472560A

CN116472560A - 视觉对象的话语约束跟踪

Info

Publication number: CN116472560A
Application number: CN202180075565.4A
Authority: CN
Inventors: C·M·费尔腾伯格; D·K·古普塔
Original assignee: Qualcomm Technologies Inc
Current assignee: Qualcomm Technologies Inc
Priority date: 2020-11-16
Filing date: 2021-11-16
Publication date: 2023-07-21
Also published as: US20220156502A1; WO2022104249A1; EP4244827A1

Abstract

一种用视觉对象约束进行跟踪的计算机实现的方法包括接收话语约束和视频。基于该话语约束来生成词嵌入。针对该视频的一个或多个帧提取特征集合。将该词嵌入与该视频的该一个或多个帧的该特征集合进行互相关。基于该互相关来生成指示该话语约束是否在该视频的该一个或多个帧中的预测。

Description

视觉对象的话语约束跟踪

相关申请的交叉引用

本申请要求于2021年11月15日提交的题为“LINGUALLY CONSTRAINED TRACKINGOF VISUAL OBJECTS(视觉对象的话语约束跟踪)”的美国专利申请No.17/526,969的优先权，其要求于2020年11月16日提交的题为“LINGUALLY CONSTRAINED TRACKING OF VISUALOBJECTS(视觉对象的话语约束跟踪)”的美国临时专利申请No.63/114,356的权益，这些申请的公开内容通过援引整体明确纳入于此。

发明领域

本公开的各方面一般涉及视频中对象的跟踪。

背景技术

人工神经网络可包括诸群互连的人工神经元(例如，神经元模型)。人工神经网络可以是计算设备，或者可被表示为要由计算设备执行的方法。

神经网络由消耗张量和产生张量的操作数组成。神经网络可以被用来解决复杂问题；然而，由于网络大小和可被执行以产生解的运算量可能是浩繁的，因此网络完成任务的时间可能很长。此外，由于这些任务可在移动设备(其可能具有有限的计算能力)上执行，因此深度神经网络的计算成本可能会有问题。

卷积神经网络是一种前馈人工神经网络。卷积神经网络可包括神经元集合，其中每个神经元具有感受野并且共同地拼出一输入空间。卷积神经网络(CNN)(诸如深度卷积神经网络(DCN))具有众多应用。具体而言，这些神经网络架构被用于各种技术，诸如图像识别、模式识别、语音识别、自动驾驶和其他分类任务。

神经网络在基于图像的视频或视频流处理方面也有众多应用，诸如对象检测和跟踪。视觉对象跟踪是在整个给定视频中跟随目标对象的任务。视觉对象跟踪有许多实际应用，包括视频监控和特定于目标的视频摘要，其中遵循某些预定义约束对目标进行监视。常规跟踪系统可提供关于对象的运动轨迹信息。然而，由于缺乏语义信息，因此在具有视觉对象约束的情况下进行跟踪是有挑战性的。

概述

在本公开的一方面，提供了一种用于跟踪视觉对象的计算机实现的方法。该计算机实现的方法包括接收话语约束和视频。该计算机实现的方法还包括基于该话语约束来生成词嵌入。附加地，该计算机实现的方法包括针对该视频的一个或多个帧提取特征集合。该计算机实现的方法还包括将该词嵌入与该视频的该一个或多个帧的该特征集合进行互相关。此外，该计算机实现的方法包括基于该互相关来生成预测。

在本公开的其他方面，提供了一种用于跟踪视觉对象的装置。该装置包括存储器以及耦合到该存储器的一个或多个处理器。该处理器被配置成接收话语约束和视频。该处理器还被配置成基于该话语约束来生成词嵌入。另外，该处理器被配置成针对该视频的一个或多个帧提取特征集合。该处理器还被配置成将该词嵌入与该视频的该一个或多个帧的该特征集合进行互相关。此外，该处理器被配置成基于该互相关来生成预测。

在本公开的其他方面，提供了一种用于跟踪视觉对象的设备。该设备包括用于接收话语约束和视频的装置。该设备还包括用于基于该话语约束来生成词嵌入的装置。附加地，该设备包括用于针对该视频的一个或多个帧提取特征集合的装置。该设备还包括用于将该词嵌入与该视频的该一个或多个帧的该特征集合进行互相关的装置。此外，该设备包括用于基于该互相关来生成预测的装置。

在本公开的进一步方面，提供了一种非瞬态计算机可读介质。该计算机可读介质上编码有用于跟踪视觉对象的程序代码。该程序代码由处理器执行，并且包括用于接收话语约束和视频的代码。该程序代码还包括用于基于该话语约束来生成词嵌入的代码。附加地，该程序代码包括用于针对该视频的一个或多个帧提取特征集合的代码。该程序代码还包括用于将该词嵌入与该视频的该一个或多个帧的该特征集合进行互相关的代码。此外，该程序代码包括用于基于该互相关来生成预测的代码。

本公开的附加特征和优点将在下文描述。本领域技术人员应当领会，本公开可容易地被用作修改或设计用于实施与本公开相同的目的的其他结构的基础。本领域技术人员还应认识到，这样的等效构造并不脱离所附权利要求中所阐述的本公开的教导。被认为是本公开的特性的新颖特征在其组织和操作方法两方面连同进一步的目的和优点在结合附图来考虑以下描述时将被更好地理解。然而，要清楚理解的是，提供每一幅附图均仅用于解说和描述目的，且无意作为对本公开的限定的定义。

附图简述

在结合附图理解下面阐述的详细描述时，本公开的特征、本质和优点将变得更加明显，在附图中，相同附图标记始终作相应标识。

图1解说了根据本公开的某些方面的使用片上系统(SoC)(包括通用处理器)的神经网络的示例实现。

图2A、2B和2C是解说根据本公开的各方面的神经网络的示图。

图2D是解说根据本公开的各方面的示例性深度卷积网络(DCN)的示图。

图3是解说根据本公开的各方面的示例性深度卷积网络(DCN)的框图。

图4是解说可使人工智能(AI)功能模块化的示例性软件架构的框图。

图5是解说根据本公开的各方面的用于视觉对象的话语约束跟踪的示例架构的高级框图。

图6是解说根据本公开的各方面的用话语约束进行跟踪的示例约束预测块的示图。

图7是解说根据本公开的各方面的用话语约束进行跟踪的示例约束预测块的示图。

图8是解说根据本公开的各方面的用话语约束跟踪视觉对象的计算机实现的方法的流程图。

详细描述

以下结合附图阐述的详细描述旨在作为各种配置的描述，而无意表示可实践所描述的概念的仅有配置。本详细描述包括具体细节以便提供对各种概念的透彻理解。然而，对于本领域技术人员将显而易见的是，没有这些具体细节也可实践这些概念。在一些实例中，以框图形式示出众所周知的结构和组件以避免湮没此类概念。

基于本教导，本领域技术人员应领会，本公开的范围旨在覆盖本公开的任何方面，不论其是与本公开的任何其他方面相独立地还是组合地实现的。例如，可使用所阐述的任何数目的方面来实现装置或实践方法。另外，本公开的范围旨在覆盖使用作为所阐述的本公开的各个方面的补充或者与之不同的其他结构、功能性、或者结构及功能性来实践的此类装置或方法。应当理解，所披露的本公开的任何方面可由权利要求的一个或多个元素来实施。

措辞“示例性”用于意指“用作示例、实例、或解说”。描述为“示例性”的任何方面不必被解释为优于或胜过其他方面。

尽管描述了特定方面，但这些方面的众多变体和置换落在本公开的范围之内。虽然提到了优选方面的一些益处和优点，但本公开的范围并非旨在被限定于特定益处、用途或目标。相反，本公开的各方面旨在能宽泛地应用于不同的技术、系统配置、网络和协议，其中一些作为示例在附图以及以下对优选方面的描述中解说。详细描述和附图仅仅解说本公开而非限定本公开，本公开的范围由所附权利要求及其等效技术方案来定义。

神经网络在基于图像的视频或视频流处理方面具有众多应用，诸如对象检测和跟踪。视觉对象跟踪是在整个给定视频中跟随目标对象的任务。视觉对象跟踪有许多实际应用，包括视频监控和特定于目标的视频摘要，其中遵循某些预定义约束对目标进行监视。常规跟踪系统可提供关于对象的运动轨迹信息。然而，由于缺乏语义信息，因此在具有视觉对象约束的情况下进行跟踪是有挑战性的。

相应地，本公开的各方面涉及跟踪域中以句子形式的话语约束。这些话语约束被纳入跟踪内。即，可以对跟踪过程施加诸如自然语言句子之类的附加约束，而不是仅仅执行相似性学习以将目标与真值帧相匹配。与常规跟踪技术不同，本公开减轻了用户必须查看或观看潜在很长轨迹(例如，目标被跟踪的帧序列)的所有图像以定位目标的负担。话语约束是与帧集合相匹配以使得跟踪序列可以被过滤到这些帧的话语规范。例如，诸如短语“在黄色汽车旁边”之类的话语约束可被应用于人以确定视频(例如，视频流)中人靠近黄色汽车的帧。

为了确定话语约束是否得到满足，所描述的约束(例如，对象)可能必须邻近或“靠近”正被跟踪的目标对象。在一些方面，该约束可在目标对象和约束对象紧邻时得到满足。例如，如果话语对象约束是铅笔，并且跟踪目标是人，则该约束可在人正拿着铅笔或以其他方式处于铅笔附近的情况下得到满足。为了在约束得到满足时跟踪(或找到)目标，目标在那些帧中被定位。在一些方面，跟踪器可以持续跟踪目标，即使在约束未得到满足时亦如此。如果约束得到满足，则用户也可获得关于这些视频帧的该信息。

图1解说了片上系统(SoC)100的示例实现，其可包括被配置成用话语约束进行视觉对象跟踪的中央处理单元(CPU)102或多核CPU。变量(例如，神经信号和突触权重)、与计算设备(例如，带有权重的神经网络)相关联的系统参数、延迟、频率槽信息、以及任务信息可被存储在与神经处理单元(NPU)108相关联的存储器块、与CPU 102相关联的存储器块、与图形处理单元(GPU)104相关联的存储器块、与数字信号处理器(DSP)106相关联的存储器块、存储器块118中，或可跨多个块分布。在CPU 102处执行的指令可从与CPU 102相关联的程序存储器加载或者可从存储器块118加载。

SoC 100还可包括为具体功能定制的附加处理块，诸如GPU 104、DSP 106、连通性块110(其可包括第五代(5G)连通性、第四代长期演进(4G LTE)连通性、Wi-Fi连通性、USB连通性、蓝牙连通性等)以及例如可检测和识别姿势的多媒体处理器112。在一种实现中，NPU108被实现在CPU 102、DSP 106和/或GPU 104中。SoC 100还可包括传感器处理器114、图像信号处理器(ISP)116、和/或导航模块120(其可包括全球定位系统)。

SoC 100可基于ARM指令集。在本公开的一方面，加载到通用处理器102中的指令可包括用于接收话语约束和视频的代码。通用处理器102还可包括用于基于话语约束来生成词嵌入的代码。通用处理器102可进一步包括用于针对视频的一个或多个帧提取特征集合的代码。通用处理器102还可包括用于将词嵌入与视频的一个或多个帧的特征集合进行互相关的代码。通用处理器102可包括用于基于互相关来生成预测的代码。

深度学习架构可通过学习在每一层中以逐次更高的抽象程度来表示输入、藉此构建输入数据的有用特征表示来执行对象识别任务。以此方式，深度学习解决了传统机器学习的主要瓶颈。在深度学习出现之前，用于对象识别问题的机器学习办法可能严重依赖人类工程设计的特征，或许与浅分类器相结合。浅分类器可以是两类线性分类器，例如，其中可将特征向量分量的加权和与阈值作比较以预测输入属于哪一类。人类工程设计的特征可以是由拥有领域专业知识的工程师针对具体问题领域定制的模版或内核。相反，深度学习架构可学习以表示与人类工程师可能会设计的相似的特征，但它是通过训练来学习的。此外，深度网络可以学习以表示和识别人类可能还没有考虑过的新类型的特征。

深度学习架构可以学习特征阶层。例如，如果向第一层呈递视觉数据，则第一层可学习以识别输入流中的相对简单的特征(诸如边)。在另一示例中，如果向第一层呈递听觉数据，则第一层可学习以识别特定频率中的频谱功率。取第一层的输出作为输入的第二层可以学习以识别特征组合，诸如对于视觉数据识别简单形状或对于听觉数据识别声音组合。例如，更高层可学习以表示视觉数据中的复杂形状或听觉数据中的词语。再高层可学习以识别常见视觉对象或口述短语。

深度学习架构在被应用于具有自然阶层结构的问题时可能表现特别好。例如，机动交通工具的分类可受益于首先学习以识别轮子、挡风玻璃、以及其他特征。这些特征可在更高层以不同方式被组合以识别轿车、卡车和飞机。

神经网络可被设计成具有各种连通性模式。在前馈网络中，信息从较低层被传递到较高层，其中给定层中的每个神经元向更高层中的神经元进行传达。如上所述，可在前馈网络的相继层中构建阶层式表示。神经网络还可具有回流或反馈(也被称为自顶向下(top-down))连接。在回流连接中，来自给定层中的神经元的输出可被传达给相同层中的另一神经元。回流架构可有助于识别跨越不止一个按顺序递送给该神经网络的输入数据组块的模式。从给定层中的神经元到较低层中的神经元的连接被称为反馈(或自顶向下)连接。当高层级概念的识别可辅助辨别输入的特定低层级特征时，具有许多反馈连接的网络可能是有助益的。

神经网络的各层之间的连接可以是全连接的或局部连接的。图2A解说了全连接神经网络202的示例。在全连接神经网络202中，第一层中的神经元可将它的输出传达给第二层中的每个神经元，从而第二层中的每个神经元将从第一层中的每个神经元接收输入。图2B解说了局部连接神经网络204的示例。在局部连接神经网络204中，第一层中的神经元可连接到第二层中有限数目的神经元。更一般化地，局部连接神经网络204的局部连接层可被配置成使得一层中的每个神经元将具有相同或相似的连通性模式，但其连接强度可具有不同的值(例如，210、212、214和216)。局部连接的连通性模式可能在更高层中产生空间上相异的感受野，这是由于给定区域中的更高层神经元可接收到通过训练被调谐为到网络的总输入的受限部分的性质的输入。

局部连接神经网络的一个示例是卷积神经网络。图2C解说了卷积神经网络206的示例。卷积神经网络206可被配置成使得与针对第二层中每个神经元的输入相关联的连接强度被共享(例如，208)。卷积神经网络可能非常适合于其中输入的空间位置有意义的问题。

一种类型的卷积神经网络是深度卷积网络(DCN)。图2D解说了被设计成从自图像捕捉设备230(诸如车载相机)输入的图像226识别视觉特征的DCN 200的详细示例。可对当前示例的DCN 200进行训练以标识交通标志以及在交通标志上提供的数字。当然，DCN 200可被训练用于其他任务，诸如标识车道标记或标识交通信号灯。

可以用受监督式学习来训练DCN 200。在训练期间，可向DCN 200呈递图像(诸如限速标志的图像226)，并且随后可计算前向传递(forward pass)以产生输出222。DCN 200可包括特征提取区段和分类区段。在接收到图像226之际，卷积层232可向图像226应用卷积核(未示出)，以生成第一组特征图218。作为示例，卷积层232的卷积核可以是生成28x28特征图的5x5内核。在本示例中，由于在第一组特征图218中生成四个不同的特征图，因此在卷积层232处四个不同的卷积核被应用于图像226。卷积核还可被称为过滤器或卷积过滤器。

第一组特征图218可由最大池化层(未示出)进行子采样以生成第二组特征图220。最大池化层减小了第一组特征图218的大小。即，第二组特征图220的大小(诸如14x14)小于第一组特征图218的大小(诸如28x28)。减小的大小向后续层提供类似的信息，同时降低存储器消耗。第二组特征图220可经由一个或多个后续卷积层(未示出)被进一步卷积，以生成后续的一组或多组特征图(未示出)。

在图2D的示例中，第二组特征图220被卷积以生成第一特征向量224。此外，第一特征向量224被进一步卷积以生成第二特征向量228。第二特征向量228的每个特征可包括与图像226的可能特征(诸如，“标志”、“60”和“100”)相对应的数字。softmax(软最大化)函数(未示出)可将第二特征向量228中的数字转换为概率。如此，DCN 200的输出222是图像226包括一个或多个特征的概率。

在本示例中，输出222中关于“标志”和“60”的概率高于输出222的其他特征(诸如“30”、“40”、“50”、“70”、“80”、“90”和“100”)的概率。在训练之前，由DCN 200产生的输出222很可能是不正确的。由此，可计算输出222与目标输出之间的误差。目标输出是图像226的真值(例如，“标志”和“60”)。DCN 200的权重可随后被调整以使得DCN 200的输出222与目标输出更紧密地对齐。

为了调整权重，学习算法可为权重计算梯度向量。梯度可指示在权重被调整情况下误差将增加或减少的量。在顶层，梯度可直接对应于连接倒数第二层中的活化神经元与输出层中的神经元的权重的值。在较低层中，梯度可取决于权重的值以及所计算出的较高层的误差梯度。权重可随后被调整以减小误差。这种调整权重的方式可被称为“反向传播”，因为其涉及在神经网络中的“反向传递(backward pass)”。

在实践中，权重的误差梯度可能是在少量示例上计算的，从而计算出的梯度近似于真实误差梯度。这种近似方法可被称为随机梯度下降法。随机梯度下降法可被重复，直到整个系统可达成的误差率已停止下降或直到误差率已达到目标水平。在学习之后，可以向DCN呈递新图像并且在网络中的前向传递可产生输出222，其可被认为是该DCN的推断或预测。

深度置信网络(DBN)是包括多层隐藏节点的概率性模型。DBN可被用于提取训练数据集的阶层式表示。DBN可通过堆叠多层受限波尔兹曼机(RBM)来获得。RBM是一类可在输入集上学习概率分布的人工神经网络。由于RBM可在没有关于每个输入应该被分类到哪个类的信息的情况下学习概率分布，因此RBM经常被用在无监督式学习中。使用混合无监督式和受监督式范式，DBN的底部RBM可按无监督方式被训练并且可以用作特征提取器，而顶部RBM可按受监督方式(在来自先前层的输入和目标类的联合分布上)被训练并且可用作分类器。

深度卷积网络(DCN)是卷积网络的网络，其配置有附加的池化和归一化层。DCN已在许多任务上达成现有最先进的性能。DCN可以使用受监督式学习来训练，其中输入和输出目标两者对于许多典范是已知的并被用于通过使用梯度下降法来修改网络的权重。

DCN可以是前馈网络。另外，如上所述，从DCN的第一层中的神经元到下一更高层中的神经元群的连接跨第一层中的各神经元被共享。DCN的前馈和共享连接可被用于进行快速处理。DCN的计算负担可比例如类似大小的包括回流或反馈连接的神经网络的计算负担小得多。

卷积网络的每一层的处理可被认为是空间不变模版或基础投影。如果输入首先被分解成多个通道，诸如彩色图像的红色、绿色和蓝色通道，则在该输入上训练的卷积网络可被认为是三维的，其具有沿着该图像的轴的两个空间维度以及捕获颜色信息的第三维度。卷积连接的输出可被认为在后续层中形成特征图，该特征图(例如，220)中的每个元素从先前层(例如，特征图218)中一定范围的神经元以及从该多个通道中的每个通道接收输入。特征图中的值可以用非线性(诸如修正，max(0,x))进一步处理。来自毗邻神经元的值可被进一步池化(这对应于降采样)并可提供附加的局部不变性以及维度缩减。还可通过特征图中神经元之间的侧向抑制来应用归一化，其对应于白化。

深度学习架构的性能可随着有更多被标记的数据点变为可用或随着计算能力提高而提高。现代深度神经网络用比仅仅十五年前可供典型研究者使用的计算资源多数千倍的计算资源来例行地训练。新的架构和训练范式可进一步推升深度学习的性能。修正线性单元可减少被称为梯度消失的训练问题。新的训练技术可减少过度拟合(over-fitting)并因此使更大的模型能够达成更好的普遍化。封装技术可抽象出给定的感受野中的数据并进一步提升总体性能。

图3是解说深度卷积网络350的框图。深度卷积网络350可包括多个基于连通性和权重共享的不同类型的层。如图3中示出的，深度卷积网络350包括卷积块354A、354B。卷积块354A、354B中的每一者可配置有卷积层(CONV)356、归一化层(LNorm)358、和最大池化层(MAX POOL)360。

卷积层356可包括一个或多个卷积过滤器，其可被应用于输入数据以生成特征图。尽管仅示出了两个卷积块354A、354B，但本公开不限于此，而是代之以根据设计偏好可将任何数目的卷积块354A、354B包括在深度卷积网络350中。归一化层358可对卷积过滤器的输出进行归一化。例如，归一化层358可提供白化或侧向抑制。最大池化层360可提供在空间上的降采样聚集以实现局部不变性以及维度缩减。

例如，深度卷积网络的并行过滤器组可被加载到SoC 100的CPU 102或GPU 104上以达成高性能和低功耗。在替换实施例中，并行过滤器组可被加载到SoC 100的DSP 106或ISP 116上。另外，深度卷积网络350可访问可存在于SoC 100上的其他处理块，诸如分别专用于传感器和导航的传感器处理器114和导航模块120。

深度卷积网络350还可包括一个或多个全连接层362(FC1和FC2)。深度卷积网络350可进一步包括逻辑回归(LR)层364。深度卷积网络350的每一层356、358、360、362、364之间是要被更新的权重(未示出)。每一层(例如，356、358、360、362、364)的输出可以用作深度卷积网络350中一后续层(例如，356、358、360、362、364)的输入以从第一卷积块354A处供应的输入数据352(例如，图像、音频、视频、传感器数据和/或其他输入数据)学习阶层式特征表示。深度卷积网络350的输出是针对输入数据352的分类得分366。分类得分366可以是概率集，其中每个概率是输入数据包括来自特征集的特征的概率。

图4是解说可使人工智能(AI)功能模块化的示例性软件架构400的框图。根据本公开的各方面，通过使用该架构，应用可以被设计成可使得片上系统(SoC)420的各种处理块(例如，CPU 422、DSP 424、GPU 426和/或NPU 428)支持如所公开的用于针对AI应用402的后训练量化的自适应舍入。

AI应用402可被配置成调用在用户空间404中定义的功能，例如，这些功能可提供对指示设备当前操作位置的场景的检测和识别。例如，AI应用402可以取决于所识别的场景是办公室、演讲厅、餐厅、还是室外环境(诸如湖泊)来不同地配置话筒和相机。AI应用402可作出对与在AI功能应用编程接口(API)406中定义的库相关联的经编译程序代码的请求。该请求可最终依赖于被配置成基于例如视频和定位数据来提供推断响应的深度神经网络的输出。

运行时引擎408(其可以是运行时框架的经编译代码)可进一步可由AI应用402访问。例如，AI应用402可使得运行时引擎按特定时间间隔或由应用的用户接口检测到的事件触发来请求推断。当使得运行时引擎提供推断响应时，运行时引擎可进而向在SoC 420上运行的操作系统(OS)空间(诸如Linux内核412)中的操作系统发送信号。操作系统进而可使得在CPU 422、DSP 424、GPU 426、NPU 428或其某种组合上执行连续量化松弛。CPU 422可由操作系统直接访问，而其他处理块可通过驱动器(诸如分别用于DSP 424、GPU 426或NPU 428的驱动器414、416或418)来访问。在示例性示例中，深度神经网络可被配置成在处理块(诸如CPU 422、DSP 424和GPU 426)的组合上运行，或可在NPU 428上运行。

应用402(例如，AI应用)可被配置成调用在用户空间404中定义的功能，例如，这些功能可提供对指示设备当前操作位置的场景的检测和识别。例如，应用402可以取决于所识别的场景是办公室、演讲厅、餐厅、还是室外环境(诸如湖泊)来不同地配置话筒和相机。应用402可作出对与在场景检测应用编程接口(API)406中定义的库相关联的经编译程序代码的请求以提供对当前场景的估计。该请求可最终依赖于被配置成基于例如视频和定位数据来提供场景估计的差分神经网络的输出。

运行时引擎408(其可以是运行时框架的经编译代码)可进一步可由应用402访问。例如，应用402可使得运行时引擎按特定时间间隔或由应用的用户接口检测到的事件触发来请求场景估计。在使得运行时引擎估计场景时，运行时引擎可进而发送信号给在SoC 420上运行的操作系统410(诸如Linux内核412)。操作系统410进而可使得在CPU 422、DSP 424、GPU 426、NPU 428或其某种组合上执行计算。CPU 422可由操作系统直接访问，而其他处理块可通过驱动器(诸如分别用于DSP 424、GPU 426或NPU 428的驱动器414-488)来访问。在示例性示例中，差分神经网络可被配置成在处理块(诸如CPU 422和GPU 426)的组合上运行，或可在NPU 428上运行。

本公开的各方面涉及使用话语约束来跟踪视频中的对象。话语约束是描述目标对象的某种状态或环境的句子或短语。话语约束可例如由用户提供，并且可按自然语言句子的形式。自然语言句子是一种口头或书面的人类语言(例如，英语、西班牙语或法语，而不是计算机编程语言)，其可包括上下文细微差别。在一些方面，话语约束不是预定义实体，并且可在内容上不受限制。即，话语约束不绑定到任何一组词或类。

根据本公开的各方面，话语约束被纳入到跟踪模型架构中。为了将约束的预测整合到架构中，首先用词嵌入模型对自然语言查询进行处理。词嵌入模型可生成词嵌入，其提供针对话语约束的稳健特征图，以减少或在一些方面避免为此目的训练语言模型。在一些方面，每个词嵌入可能有300个维度。输入序列可以用零填充到固定长度L——最大句子长度——以获得每个词嵌入的一致表示。例如，给定固定最大句子大小L＝20，则词嵌入产生特征图其中输入序列被标示为词序列(w₁,…,w_k)。给定处理为嵌入的话语约束和由骨干网络/>处理为特征图的搜索图像约束可根据特征图的特征来预测。

图5是解说根据本公开的各方面的用于视觉对象的话语约束跟踪的示例架构500的高级框图。参照图5，架构500包括跟踪组件502和约束预测组件504。在图5的示例中，跟踪组件502被示为孪生神经网络。然而，本公开不限于此，并且其他系统和网络架构可被用于对象跟踪。孪生神经网络是一类人工神经网络，其包括具有相同参数和权重的两个或更多个子网络。这些子网络在两个不同的输入向量上协同工作(例如，从两个不同角度拍摄的人的图像或两个签名的图像)，并且将每个子网络的输出进行比较以确定是否有匹配。

示例架构500可接收话语约束(也可被称为“句子约束”)和要搜索的视频作为输入。视频例如可以是视频流或帧序列。帧序列中的每一帧可包括图像，其可被称为搜索图像x。话语约束例如可以是要针对其搜索视频的自然语言句子或短语。例如，话语约束可以是“背书包的男孩”、“黄色汽车上的鸟”或“自行车上的女孩”。由此，示例架构500的一个任务是搜索视频(例如，时间t的帧的搜索图像x_t)以找到包括与话语约束相对应的图像的帧。

约束预测的一个挑战是将话语约束特征S中的信息与搜索图像特征X进行整合。换言之，这种挑战涉及搜索图像中话语约束的检测和分类。跟踪组件502接收目标在时步t的x_t(例如，视频在时间t的帧的图像)作为输入，使用真值参考图像z^t＝0来确定x_t是否包括参考图像z。搜索图像x_t和参考图像z分别经由具有相同参数的卷积过滤器506a和506b的相继层进行处理。卷积过滤器506a生成与参考图像z相对应的特征图Z，并且卷积过滤器506b生成与搜索图像x_t相对应的特征图X。分别经由卷积过滤器506a和506b输出的特征图Z和X被供应给区域提议网络(RPN)508。RPN 508处理特征图Z和X以基于这些特征图和对应的分类集合512来生成不同大小的一组限界框提议510。分类集合512可指示对应的限界框提议510是否包括搜索图像x_t和参考图像z的匹配。换言之，分类集合512可指示是否在搜索图像x_t(例如，视频的帧)中检测到参考图像z中示出的对象。

另一方面，约束预测组件504可接收话语约束作为输入。话语约束可被供应给嵌入块514。嵌入块514处理话语约束以生成词嵌入。嵌入块514可包括从文本语料库中学习词关联的神经网络。嵌入块可以用向量列表来表示每个不同的词。例如，通过使用余弦相似性，可以指示词之间的语义相似性。词嵌入例如可以是特征图S。词嵌入连同与搜索图像x_t相对应的卷积过滤器506b的特征图输出一起被供应给约束预测块516。进而，约束预测块516可经由激活层518来生成约束预测约束预测/>指示搜索图像x_t是否与话语约束相匹配。

在一些方面，约束预测可如下使用二进制交叉熵损失来优化：

图6是解说根据本公开的各方面的用话语约束进行跟踪的示例约束预测块516的示图。如图6中所示，约束预测块516可包括动态过滤器生成(DFG)块602和注意力块604。DFG块602生成由搜索帧x注意或被包括在搜索帧x中的词嵌入。在生成了词嵌入之后，DFG块602可根据话语约束(例如，句子)来生成动态卷积过滤器。动态卷积过滤器可使得能够生成特定于话语约束中更重要的词的过滤器，从而产生特定于话语约束中存在的更重要的词的激活。进而，约束预测块516产生动态过滤器f与搜索帧x的特征之间的互相关，以生成约束预测

词嵌入可经由全卷积的网络(例如，深度卷积网络350)来处理，而不是使用常规办法中的长短期记忆(LSTM)进行处理。例如，如图6中所示，词嵌入可通过常规神经网络(CNN)606来馈送。CNN 606可接收词嵌入(例如，特征图S)作为输入。CNN 606可包括一维卷积层622以处理词嵌入。在一些方面，可实现填充(例如，添加零)以维持词嵌入的维度。诸特征经由最大池化层624进行最大池化。经由修正线性单元(ReLU)626来应用ReLU激活函数以生成特征矩阵H。在一个示例中，例如，词嵌入可被变换成特征矩阵

注意力块604将来自搜索帧(搜索图像x_t)的信息整合到词嵌入S中。在一些方面，注意力块604可被实现为多层感知器(MLP)。MLP是一种前馈网络，其使用数学函数来将输入集合映射到输出集合。注意力块604为话语约束中很可能(例如，有最大概率)最重要的词生成注意力权重。注意力块604基于搜索帧和每个词嵌入本身来生成注意力权重。这样做的一个目的是基于约束中在搜索帧中也可见的词来注意或强调约束。即，注意力块604将焦点吸引到句子(例如，约束)中由词嵌入表示的更重要的词。为了这样做，注意力块604可纳入搜索帧(搜索图像x_t)和句子(例如，约束)本身，其中句子(约束)中的词与搜索帧之间的任何匹配应当得到注意力块604的注意。

注意力块604接收每个词嵌入和搜索帧x的特征作为输入。词嵌入S和搜索帧的特征分别经由线性层632和634来处理。线性层是能学习约束(诸如输出和输入之间的平均相关率)的层。在图6的示例中，线性层(例如，612、632、634、642)可修改其输入特征的特征维度。偏置636可表示被初始化为全零的向量，其可通过反向传播机制来调谐。可添加偏置636以使得输出可以偏移标量值。相应地，词嵌入S和搜索帧X的特征可经由线性层632、634进行线性化并经由求和节点638来组合。求和节点638的输出被供应给ReLU 640，以产生基于词嵌入S和搜索帧X的特征的注意力权重集合。注意力权重的维度可经由线性层642来修改。注意力权重可经由softmax层644进行归一化并被输出给乘法器节点648。执行矩阵乘法运算以将特征矩阵H与注意力权重相乘以产生特征向量h，其中结果所得的特征向量将内插的词表示为例如

DFG块602接收表示每个词嵌入的特征向量h_i，并根据句子来生成动态(卷积)过滤器f。动态卷积过滤器使得模型能够创建特定于所提供的话语约束的过滤器。DFG块602由此生成特定于约束中被注意(例如，被强调或更重要)的词的激活。在一些方面，DFG块602可包括线性层和偏置652以及产生以下卷积过滤器的双曲正切(tanh)激活函数654：

其中例如b_f是偏置项且W_f是注意力权重，并且/>是表示词嵌入的特征向量。

在计算动态过滤器f之后，使用深度互相关层610来将动态过滤器f与搜索帧x的视觉特征进行卷积。相较于正常互相关，深度互相关层610减少了参数的数目。深度互相关层610产生激活图，A＝X*f，其中*表示对搜索特征和动态过滤器进行卷积的深度互相关。在一些方面，激活图A可被供应给线性层612，该线性层612将激活图A平坦化为单个概率，并投影标量预测

图7是解说根据本公开的各方面的图5中所示的用话语约束进行跟踪的另一示例约束预测块516的示图。如图7中所示，约束预测块516类似于图6中所示的示例，但包括作为深共同注意力编码器-解码器706来操作的自注意力网络。话语约束的特征(例如，每个词嵌入)连同搜索图像的特征图/>一起被接收。尽管提供了特征的特定维度和其他方面，但此类维度仅仅是为了易于理解而提供的示例。如图7中的示例中所示，除了深共同注意力编码器-解码器706(可被称为共同注意力网络706)之外，约束预测块516还可包括全连接层(FC)702和卷积神经网络(CNN)704。话语约束的特征(例如，每个词嵌入)S和特征图搜索图像特征X被处理成使得维度相匹配。话语约束的特征(例如，词嵌入)S被供应给FC层702。在一些示例中，FC层702可以是线性层，诸如全连接的修正线性单元(ReLU)。FC层702包括按全部对全部方式连接的输入节点集合(未示出)以将话语约束的特征(例如，每个词嵌入)S扩展到特征维度d，该特征维度d对应于图像特征X的通道维度。

CNN 704接收图像特征X。在一些方面，CNN 704可与图6中所示的CNN 606类似地配置。CNN 704可以处理图像特征X以重塑图像特征数据，以产生例如经重塑的图像特征在一些方面，图像的宽度和高度维度可被级联。附加地，在一些方面，可进一步减少图像特征X的数目。例如，可以减少图像特征X的位置。通过这样做，可以减小约束预测块516的计算复杂性和大小。相应地，话语约束的特征(例如，每个词嵌入)S和图像特征X可被重塑和匹配。

经重塑图像特征X_r以及话语约束的特征(例如，每个词嵌入)S被供应给共同注意力网络706。共同注意力网络706对话语约束的特征(例如，每个词嵌入)S进行编码，并自注意到图像特征X。随后，自注意力网络706基于话语约束的特征(例如，每个词嵌入)S来对图像特征X进行相关或共同注意。每个自注意力(SA)块720a-720z收进词嵌入，并注意或“强调”这些嵌入的最重要的词。例如，SA块(例如，720a-720z)可注意诸如颜色或对象之类的特征词，同时“不注意”或不强调具有较少语义含义的物件。

每个块中的SA门控注意力(GA)对(例如，722a、724a)首先按类似的方式自注意搜索图像特征X，但现在是视觉上的。在每个SA块(例如，722a-722z)之后，GA块(例如，724a-724z)基于来自块L的SA块720z的输出的经编码词嵌入来注意图像特征X。相应地，深度共同注意力编码器-解码器706可注意也存在于词嵌入S中的视觉对象。各编码器-解码器块的输出具有相同的形状，并且是被注意(经编码)的词嵌入和被注意的视觉特征。

图像特征和表示话语约束的特征经由注意力减少块708a、708b被融合为一个表示并进行分类。注意力减少块708a、708b可根据经融合表示来减少高维度特征的数目，并且可减少重要信息的损失。在注意力减少708、708b之后，这些特征被相加在一起，并使用线性层712来被投影到单个标量(例如，约束预测)。一旦获得约束预测/>约束预测块516就可以用二进制交叉熵损失进行优化。

在一些方面，约束预测块516可进一步包括金字塔池化模块(PPM)(未示出)以进一步改进话语约束的定位。PPM可在图像中的每一个位置处添加以不同尺度s计算出的全局特征。全局特征提供了附加通道，这些通道可用作图像的先验。给定图像的特征图X，可应用自适应平均池化以将特征图减小到s×s的尺度，其中s∈{1,2,3,6}，此后这些特征可被供应给卷积层，并随后被级联到输出特征上。在一个示例中，PPM层可被包括在搜索图像特征X和CNN 704之间，以进一步改进搜索图像特征X的特征嵌入。

图8是解说根据本公开的各方面的用于经由人工神经网络用话语约束来跟踪视觉对象的计算机实现的方法800的流程图。如图8中所示，在框802，接收话语约束和视频。如参照图5所描述的，示例架构500可接收话语约束(也可被称为“句子约束”)和要搜索的视频作为输入。视频例如可以是视频流或图像序列，并且被称为搜索图像x_t。话语约束例如可以是要针对其搜索视频的自然语言句子或短语。例如，话语约束可以是“背书包的男孩”、“黄色汽车上的鸟”或“自行车上的女孩”。

在框804，基于话语约束来生成词嵌入。例如，如参照图5所描述的，话语约束可被供应给嵌入块514。嵌入块514处理话语约束以生成词嵌入。词嵌入例如可以是特征图S。

在框806，针对视频的一个或多个帧提取特征集合。如参照图5所描述的，跟踪组件502接收目标在时步t的搜索图像x_t(例如，视频的帧t)作为输入，使用真值参考图像z^t＝0来确定搜索图像x_t是否包括参考图像z。搜索图像x_t和参考图像z分别经由具有相同参数的卷积过滤器506a和506b的相继层进行处理。卷积过滤器506a生成与参考图像z相对应的特征图Z，并且卷积过滤器506b生成与搜索图像x_t相对应的特征图X。

在框808，将词嵌入与视频的一个或多个帧的特征集合进行互相关。例如，如参照图5所描述的，词嵌入连同与搜索图像x_t相对应的卷积过滤器506b的特征图输出一起被供应给约束预测块516。

在框810，基于互相关来生成预测。例如，如参照图5所描述的，约束预测块516可经由激活层518来生成约束预测约束预测/>指示搜索图像x_t是否与话语约束相匹配。

在以下经编号条款中提供了各实现示例：

1.一种计算机实现的方法，包括：

接收话语约束和视频；

基于该话语约束来生成词嵌入；

针对该视频的一个或多个帧提取特征集合；

将该词嵌入与该视频的该一个或多个帧的该特征集合进行互相关；以及

基于该互相关来生成预测。

2.如条款1的计算机实现的方法，其中该话语约束的一个或多个词被表示为向量，该词嵌入是基于该向量之间的语义相似性来确定的。

3.如条款1或2的计算机实现的方法，其中该预测提供关于该词嵌入是否与该视频的该一个或多个帧相匹配的指示。

4.如条款1-3中任一项的计算机实现的方法，其中来自该一个或多个帧的信息被整合到该词嵌入中。

5.如条款1-4中任一项的计算机实现的方法，其中该词嵌入基于该话语约束中在该视频的该一个或多个帧中可见的词而被注意。

6.如条款1-5中任一项的计算机实现的方法，其中该互相关包括深度互相关。

7.如条款1-6中任一项的计算机实现的方法，其中卷积过滤器集合提取该特征集合。

8.如条款1-8中任一项的计算机实现的方法，进一步包括生成动态过滤器以产生特定于该话语约束中被注意的词的激活。

9.如条款1的计算机实现的方法，其中该预测提供关于该话语约束和该视频的该一个或多个帧的该特征集合是否相匹配的指示。

10.一种装置，包括：

存储器；以及

耦合到该存储器的至少一个处理器，该至少一个处理器被配置成：

接收话语约束和视频；

基于该话语约束来生成词嵌入；

针对该视频的一个或多个帧提取特征集合；

基于该互相关来生成预测。

11.如条款10的装置，其中该至少一个处理器被进一步配置成将该话语约束的一个或多个词表示为向量，该词嵌入是基于该向量之间的语义相似性来确定的。

12.如条款10或11的装置，其中该预测提供关于该词嵌入是否与该视频的该一个或多个帧相匹配的指示。

13.如条款10-12中任一项的装置，其中该至少一个处理器被进一步配置成将来自该一个或多个帧的信息整合到该词嵌入中。

14.如条款10-13中任一项的装置，其中该词嵌入基于该话语约束中在该视频的该一个或多个帧中可见的词而被注意。

15.如条款10-14中任一项的装置，其中该至少一个处理器被进一步配置成对该词嵌入和该视频的该一个或多个帧的该特征集合执行深度互相关。

16.如条款10-15中任一项的装置，其中该至少一个处理器被进一步配置成经由卷积过滤器集合来提取该特征集合。

17.如条款10-16中任一项的装置，其中该至少一个处理器被进一步配置成生成动态过滤器以产生特定于该话语约束中被注意的词的激活。

18.如条款10-17中任一项的装置，其中该预测提供关于该话语约束和该视频的该一个或多个帧的该特征集合是否相匹配的指示。

19.一种设备，包括：

用于接收话语约束和视频的装置；

用于基于该话语约束来生成词嵌入的装置；

用于针对该视频的一个或多个帧提取特征集合的装置；

用于将该词嵌入与该视频的该一个或多个帧的该特征集合进行互相关的装置；以及

用于基于该互相关来生成预测的装置。

20.如条款19的设备，进一步包括用于将该话语约束的一个或多个词表示为向量的装置，该词嵌入是基于该向量之间的语义相似性来确定的。

21.如条款19或20的设备，其中该预测提供关于该词嵌入是否与该视频的该一个或多个帧相匹配的指示。

22.如条款19-21中任一项的设备，进一步包括用于将来自该一个或多个帧的信息整合到该词嵌入中的装置。

23.如条款19-22中任一项的设备，其中该词嵌入基于该话语约束中在该视频的该一个或多个帧中可见的词而被注意。

24.如条款19-23中任一项的设备，进一步包括用于对该词嵌入和该视频的该一个或多个帧的该特征集合执行深度互相关的装置。

25.一种其上编码有程序代码的非瞬态计算机可读介质，该程序代码由处理器执行并且包括：

用于接收话语约束和视频的程序代码；

用于基于该话语约束来生成词嵌入的程序代码；

用于针对该视频的一个或多个帧提取特征集合的程序代码；

用于将该词嵌入与该视频的该一个或多个帧的该特征集合进行互相关的程序代码；以及

用于基于该互相关来生成预测的程序代码。

26.如条款25的非瞬态计算机可读介质，进一步包括用于将该话语约束的一个或多个词表示为向量的程序代码，该词嵌入是基于该向量之间的语义相似性来确定的。

27.如条款25或26的非瞬态计算机可读介质，其中该预测提供关于该词嵌入是否与该视频的该一个或多个帧相匹配的指示。

28.如条款25-27中任一项的非瞬态计算机可读介质，进一步包括用于将来自该一个或多个帧的信息整合到该词嵌入中的程序代码。

29.如条款25-28中任一项的非瞬态计算机可读介质，其中该词嵌入基于该话语约束中在该视频的该一个或多个帧中可见的词而被注意。

30.如条款25-29中任一项的非瞬态计算机可读介质，进一步包括用于对该词嵌入和该视频的该一个或多个帧的该特征集合执行深度互相关的程序代码。

在一个方面，接收装置、生成装置、提取装置、互相关装置和/或预测装置可以是CPU 102、与CPU 102相关联的程序存储器、专用存储器块118、全连接层362、NPU 428、和/或被配置成执行所叙述的功能的路由连接处理单元216。在另一种配置中，前述装置可以是被配置成执行由前述装置所叙述的功能的任何模块或任何设备。

以上所描述的方法的各种操作可由能够执行相应功能的任何合适的装置来执行。这些装置可包括各种硬件和/或软件组件和/或模块，包括但不限于电路、专用集成电路(ASIC)、或处理器。一般而言，在附图中有解说的操作的场合，那些操作可具有带相似编号的相应配对装置加功能组件。

如所使用的，术语“确定”涵盖各种各样的动作。例如，“确定”可包括演算、计算、处理、推导、研究、查找(例如，在表、数据库或另一数据结构中查找)、查明及诸如此类。附加地，“确定”可包括接收(例如接收信息)、访问(例如访问存储器中的数据)、及类似动作。此外，“确定”可包括解析、选择、选取、确立及类似动作。

如所使用的，引述一列项目“中的至少一者”的短语指这些项目的任何组合，包括单个成员。作为示例，“a、b或c中的至少一者”旨在涵盖：a、b、c、a-b、a-c、b-c、以及a-b-c。

结合本公开所描述的各种解说性逻辑框、模块、以及电路可用设计成执行所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列信号(FPGA)或其他可编程逻辑器件(PLD)、分立的门或晶体管逻辑、分立的硬件组件或其任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，处理器可以是任何市售的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如，DSP与微处理器的组合、多个微处理器、与DSP核心协同的一个或多个微处理器、或任何其他此类配置。

结合本公开描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中实施。软件模块可驻留在本领域所知的任何形式的存储介质中。可使用的存储介质的一些示例包括随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动盘、CD-ROM，等等。软件模块可包括单条指令、或许多条指令，且可分布在若干不同的代码段上，分布在不同的程序间以及跨多个存储介质分布。存储介质可被耦合到处理器以使得该处理器能从/向该存储介质读写信息。在替换方案中，存储介质可被整合到处理器。

本文所公开的方法包括用于达成所描述的方法的一个或多个步骤或动作。这些方法步骤和/或动作可以彼此互换而不会脱离权利要求的范围。换言之，除非指定了步骤或动作的特定次序，否则具体步骤和/或动作的次序和/或使用可以改动而不会脱离权利要求的范围。

所描述的功能可在硬件、软件、固件或其任何组合中实现。如果以硬件实现，则示例硬件配置可包括设备中的处理系统。处理系统可以用总线架构来实现。取决于处理系统的具体应用和整体设计约束，总线可包括任何数目的互连总线和桥接器。总线可将包括处理器、机器可读介质、以及总线接口的各种电路链接在一起。总线接口可用于尤其将网络适配器等经由总线连接至处理系统。网络适配器可用于实现信号处理功能。对于某些方面，用户接口(例如，按键板、显示器、鼠标、操纵杆，等等)也可以被连接到总线。总线还可以链接各种其他电路，诸如定时源、外围设备、稳压器、功率管理电路以及类似电路，它们在本领域中是众所周知的，因此将不再进一步描述。

处理器可负责管理总线和一般处理，包括执行存储在机器可读介质上的软件。处理器可用一个或多个通用和/或专用处理器来实现。示例包括微处理器、微控制器、DSP处理器、以及其他能执行软件的电路系统。软件应当被宽泛地解释成意指指令、数据、或其任何组合，无论是被称作软件、固件、中间件、微代码、硬件描述语言、或其他。作为示例，机器可读介质可包括随机存取存储器(RAM)、闪存、只读存储器(ROM)、可编程只读存储器(PROM)、可擦式可编程只读存储器(EPROM)、电可擦式可编程只读存储器(EEPROM)、寄存器、磁盘、光盘、硬驱动器、或者任何其他合适的存储介质、或其任何组合。机器可读介质可被实施在计算机程序产品中。该计算机程序产品可以包括包装材料。

在硬件实现中，机器可读介质可以是处理系统中与处理器分开的一部分。然而，如本领域技术人员将容易领会的，机器可读介质或其任何部分可在处理系统外部。作为示例，机器可读介质可包括传输线、由数据调制的载波、和/或与设备分开的计算机产品，所有这些都可由处理器通过总线接口来访问。替换地或附加地，机器可读介质或其任何部分可被集成到处理器中，诸如高速缓存和/或通用寄存器文件可能就是这种情形。虽然所讨论的各种组件可被描述为具有特定位置，诸如本地组件，但它们也可按各种方式来配置，诸如某些组件被配置成分布式计算系统的一部分。

处理系统可以被配置为通用处理系统，该通用处理系统具有一个或多个提供处理器功能性的微处理器、以及提供机器可读介质中的至少一部分的外部存储器，它们都通过外部总线架构与其他支持电路系统链接在一起。替换地，该处理系统可以包括一个或多个神经元形态处理器以用于实现所描述的神经元模型和神经系统模型。作为另一替换方案，处理系统可以用带有集成在单块芯片中的处理器、总线接口、用户接口、支持电路系统、和至少一部分机器可读介质的专用集成电路(ASIC)来实现，或者用一个或多个现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、控制器、状态机、门控逻辑、分立硬件组件、或者任何其他合适的电路系统、或者能执行本公开通篇所描述的各种功能性的电路的任何组合来实现。取决于具体应用和加诸于整体系统上的总设计约束，本领域技术人员将认识到如何最佳地实现关于处理系统所描述的功能性。

机器可读介质可包括数个软件模块。这些软件模块包括当由处理器执行时使处理系统执行各种功能的指令。这些软件模块可包括传送模块和接收模块。每个软件模块可以驻留在单个存储设备中或者跨多个存储设备分布。作为示例，当触发事件发生时，可以从硬驱动器中将软件模块加载到RAM中。在软件模块执行期间，处理器可以将一些指令加载到高速缓存中以提高访问速度。可随后将一个或多个高速缓存行加载到通用寄存器文件中以供处理器执行。在以下述及软件模块的功能性时，将理解此类功能性是在处理器执行来自该软件模块的指令时由该处理器来实现的。此外，应领会，本公开的各方面产生对处理器、计算机、机器或实现此类方面的其它系统的机能的改进。

如果以软件实现，则各功能可作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，这些介质包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，此类计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能用于携带或存储指令或数据结构形式的期望程序代码且能被计算机访问的任何其他介质。另外，任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或无线技术(诸如红外(IR)、无线电、以及微波)从web网站、服务器、或其他远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL或无线技术(诸如红外、无线电、以及微波)就被包括在介质的定义之中。如本文所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘、和碟，其中盘(disk)常常磁性地再现数据，而碟(disc)用激光来光学地再现数据。因此，在一些方面，计算机可读介质可包括非瞬态计算机可读介质(例如，有形介质)。另外，对于其他方面，计算机可读介质可包括瞬态计算机可读介质(例如，信号)。以上的组合应当也被包括在计算机可读介质的范围内。

由此，某些方面可包括用于执行本文中给出的操作的计算机程序产品。例如，此类计算机程序产品可包括其上存储(和/或编码)有指令的计算机可读介质，这些指令能由一个或多个处理器执行以执行所描述的操作。对于某些方面，计算机程序产品可包括包装材料。

此外，应当领会，用于执行所描述的方法和技术的模块和/或其他恰适装置可由用户终端和/或基站在适用的场合下载和/或以其他方式获得。例如，此类设备能被耦合到服务器以促成用于执行所描述的方法的装置的转移。替换地，所描述的各种方法能经由存储装置(例如，RAM、ROM、诸如压缩碟(CD)或软盘等物理存储介质等)来提供，以使得一旦将该存储装置耦合到或提供给用户终端和/或基站，该设备就能获得各种方法。此外，可利用适于向设备提供所描述的方法和技术的任何其他合适的技术。

将理解，权利要求并不被限于以上所解说的精确配置和组件。可在以上所描述的方法和装置的布局、操作和细节上作出各种改动、更换和变形而不会脱离权利要求的范围。

Claims

1.一种计算机实现的方法，包括：

接收话语约束和视频；

基于所述话语约束来生成词嵌入；

针对所述视频的一个或多个帧提取特征集合；

将所述词嵌入与所述视频的所述一个或多个帧的所述特征集合进行互相关；以及

基于所述互相关来生成预测。

2.如权利要求1所述的计算机实现的方法，其中所述话语约束的一个或多个词被表示为向量，所述词嵌入是基于所述向量之间的语义相似性来确定的。

3.如权利要求1所述的计算机实现的方法，其中所述预测提供关于所述词嵌入是否与所述视频的所述一个或多个帧相匹配的指示。

4.如权利要求1所述的计算机实现的方法，其中来自所述一个或多个帧的信息被整合到所述词嵌入中。

5.如权利要求1所述的计算机实现的方法，其中所述词嵌入基于所述话语约束中在所述视频的所述一个或多个帧中可见的词而被注意。

6.如权利要求1所述的计算机实现的方法，其中所述互相关包括深度互相关。

7.如权利要求1所述的计算机实现的方法，其中卷积过滤器集合提取所述特征集合。

8.如权利要求1所述的计算机实现的方法，进一步包括生成动态过滤器以产生特定于所述话语约束中被注意的词的激活。

9.如权利要求1所述的计算机实现的方法，其中所述预测提供关于所述话语约束和所述视频的所述一个或多个帧的所述特征集合是否相匹配的指示。

10.一种装置，包括：

存储器；以及

耦合到所述存储器的至少一个处理器，所述至少一个处理器被配置成：

接收话语约束和视频；

基于所述话语约束来生成词嵌入；

针对所述视频的一个或多个帧提取特征集合；

基于所述互相关来生成预测。

11.如权利要求10所述的装置，其中所述至少一个处理器被进一步配置成将所述话语约束的一个或多个词表示为向量，所述词嵌入是基于所述向量之间的语义相似性来确定的。

12.如权利要求10所述的装置，其中所述预测提供关于所述词嵌入是否与所述视频的所述一个或多个帧相匹配的指示。

13.如权利要求10所述的装置，其中所述至少一个处理器被进一步配置成将来自所述一个或多个帧的信息整合到所述词嵌入中。

14.如权利要求10所述的装置，其中所述词嵌入基于所述话语约束中在所述视频的所述一个或多个帧中可见的词而被注意。

15.如权利要求10所述的装置，其中所述至少一个处理器被进一步配置成对所述词嵌入和所述视频的所述一个或多个帧的所述特征集合执行深度互相关。

16.如权利要求10所述的装置，其中所述至少一个处理器被进一步配置成经由卷积过滤器集合来提取所述特征集合。

17.如权利要求10所述的装置，其中所述至少一个处理器被进一步配置成生成动态过滤器以产生特定于所述话语约束中被注意的词的激活。

18.如权利要求10所述的装置，其中所述预测提供关于所述话语约束和所述视频的所述一个或多个帧的所述特征集合是否相匹配的指示。

19.一种设备，包括：

用于接收话语约束和视频的装置；

用于基于所述话语约束来生成词嵌入的装置；

用于针对所述视频的一个或多个帧提取特征集合的装置；

用于将所述词嵌入与所述视频的所述一个或多个帧的所述特征集合进行互相关的装置；以及

用于基于所述互相关来生成预测的装置。

20.如权利要求19所述的设备，进一步包括用于将所述话语约束的一个或多个词表示为向量的装置，所述词嵌入是基于所述向量之间的语义相似性来确定的。

21.如权利要求19所述的设备，其中所述预测提供关于所述词嵌入是否与所述视频的所述一个或多个帧相匹配的指示。

22.如权利要求19所述的设备，进一步包括用于将来自所述一个或多个帧的信息整合到所述词嵌入中的装置。

23.如权利要求19所述的设备，其中所述词嵌入基于所述话语约束中在所述视频的所述一个或多个帧中可见的词而被注意。

24.如权利要求19所述的设备，进一步包括用于对所述词嵌入和所述视频的所述一个或多个帧的所述特征集合执行深度互相关的装置。

25.一种其上编码有程序代码的非瞬态计算机可读介质，所述程序代码由处理器执行并且包括：

用于接收话语约束和视频的程序代码；

用于基于所述话语约束来生成词嵌入的程序代码；

用于针对所述视频的一个或多个帧提取特征集合的程序代码；

用于将所述词嵌入与所述视频的所述一个或多个帧的所述特征集合进行互相关的程序代码；以及

用于基于所述互相关来生成预测的程序代码。

26.如权利要求25所述的非瞬态计算机可读介质，进一步包括用于将所述话语约束的一个或多个词表示为向量的程序代码，所述词嵌入是基于所述向量之间的语义相似性来确定的。

27.如权利要求25所述的非瞬态计算机可读介质，其中所述预测提供关于所述词嵌入是否与所述视频的所述一个或多个帧相匹配的指示。

28.如权利要求25所述的非瞬态计算机可读介质，进一步包括用于将来自所述一个或多个帧的信息整合到所述词嵌入中的程序代码。

29.如权利要求25所述的非瞬态计算机可读介质，其中所述词嵌入基于所述话语约束中在所述视频的所述一个或多个帧中可见的词而被注意。

30.如权利要求25所述的非瞬态计算机可读介质，进一步包括用于对所述词嵌入和所述视频的所述一个或多个帧的所述特征集合执行深度互相关的程序代码。