CN115066711A

CN115066711A - 用于识别长程活动的置换不变卷积(pic)

Info

Publication number: CN115066711A
Application number: CN202080078002.6A
Authority: CN
Inventors: N·M·E·侯赛因; E·加维斯; A·W·M·斯穆尔德
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2019-11-15
Filing date: 2020-11-13
Publication date: 2022-09-16
Also published as: WO2021097359A1; EP4058940A1; US20240135708A1

Abstract

一种用于识别视频中的长程活动的方法包括对输入视频流进行分段以生成多个帧集。对于帧集中的每一者，具有包括预定义动作集中的一个或多个动作的最高可能性的帧被标识，而不管其在帧集中的顺序如何。输入流的全局表示基于所标识的帧的池化表示来生成。视频流中的长程活动基于全局表示来进行分类。

Description

用于识别长程活动的置换不变卷积(PIC)

相关申请的交叉引用

本申请要求于2019年11月15日提交的题为“PERMUTATION INVARIANTCONVOLUTION(PIC)FOR RECOGNIZING LONG-RANGE ACTIVITIES(用于识别长程活动的置换不变卷积(PIC))”的希腊专利申请No.20190100517的权益，其公开内容通过援引全部明确纳入于此。

公开领域

本公开的各方面一般涉及时间建模，并且更具体地涉及对视频中的长程活动的时间结构进行建模。

背景

可包括一群互连的人工神经元(例如，神经元模型)的人工神经网络可以是指一种计算设备或一种将由计算设备执行的方法。人工神经网络可被用于各种应用和/或设备，诸如网际协议(IP)相机、物联网(IoT)设备、自主交通工具、和/或服务机器人。

常规的神经网络使用各种操作(诸如卷积、自注意力或向量聚集)来对短程动作进行分类。然而，这些操作未放大到长程活动的要求。期望改进神经网络以识别长程活动。

概述

在本公开的一方面，提供了一种用于识别长程活动的方法。该方法包括对输入流进行分段以生成多个帧集。该方法还包括针对来自该多个帧集的每个帧集标识具有包括所选动作的最高可能性的帧。附加地，该方法包括从所标识的帧的池化表示中生成该输入流的全局表示。此外，该方法包括基于该全局表示来对长程活动进行分类。

在本公开的另一方面，提供了一种用于识别长程活动的装置。该装置包括存储器以及耦合至该存储器的一个或多个处理器。(诸)处理器被配置成对输入流进行分段以生成多个帧集。(诸)处理器还被配置成针对来自该多个帧集的每个帧集标识具有包括预定义动作集中的一个或多个动作的最高可能性的帧。此外，(诸)处理器被配置成基于所标识的帧的池化表示来生成该输入流的全局表示。(诸)处理器被进一步配置成基于该全局表示来对长程活动进行分类。

在本公开的另一方面，提供了一种用于识别长程活动的设备。该设备包括用于对输入流进行分段以生成多个帧集的装置。该设备还包括用于针对来自该多个帧集的每个帧集标识具有包括预定义动作集中的一个或多个动作的最高可能性的帧的装置。附加地，该设备包括用于从所标识的帧的池化表示中生成该输入流的全局表示的装置。此外，该设备包括用于基于该全局表示来对长程活动进行分类的装置。

在本公开的进一步方面，提供了一种非瞬态计算机可读介质。该计算机可读介质上编码有用于识别长程活动的程序代码。该程序代码由处理器执行并且包括用于对输入流进行分段以生成多个帧集的代码。该程序代码还包括用于针对来自该多个帧集的每个帧集标识具有包括预定义动作集中的一个或多个动作的最高可能性的帧的代码。此外，该程序代码包括用于从所标识的帧的池化表示中生成该输入流的全局表示的代码。此外，该程序代码包括用于基于该全局表示来对长程活动进行分类的代码。

本公开的附加特征和优点将在下文描述。本领域技术人员应当领会，本公开可容易地被用作修改或设计用于实施与本公开相同的目的的其他结构的基础。本领域技术人员还应认识到，这样的等效构造并不脱离所附权利要求中所阐述的本公开的教导。被认为是本公开的特性的新颖特征在其组织和操作方法两方面连同进一步的目的和优点在结合附图来考虑以下描述时将被更好地理解。然而，要清楚理解的是，提供每一幅附图均仅用于解说和描述目的，且无意作为对本公开的限定的定义。

附图简述

在结合附图理解下面阐述的详细描述时，本公开的特征、本质和优点将变得更加明显，在附图中，相同附图标记始终作相应标识。

图1解说了根据本公开的某些方面的使用片上系统(SOC)(包括通用处理器)来设计神经网络的示例实现。

图2A、2B和2C是解说根据本公开的各方面的神经网络的示图。

图2D是解说根据本公开的各方面的示例性深度卷积网络(DCN)的示图。

图3是解说根据本公开的各方面的示例性深度卷积网络(DCN)的框图。

图4解说了根据本公开的各方面的用于长程活动的多个示例时间结构。

图5解说了根据本公开的各方面的置换不变卷积(PIC)操作的示例。

图6解说了根据本公开的各方面的置换不变卷积(PIC)层的示例。

图7解说了根据本公开的各方面的识别长程活动的示例。

图8解说了根据本公开的各方面的方法的流程图。

详细描述

以下结合附图阐述的详细描述旨在作为各种配置的描述，而无意表示可实践所描述的概念的仅有配置。本详细描述包括具体细节以便提供对各种概念的透彻理解。然而，对于本领域技术人员将显而易见的是，没有这些具体细节也可实践这些概念。在一些实例中，以框图形式示出众所周知的结构和组件以避免湮没此类概念。

基于本教导，本领域技术人员应领会，本公开的范围旨在覆盖本公开的任何方面，不论其是与本公开的任何其他方面相独立地还是组合地实现的。例如，可以使用所阐述的任何数目的方面来实现装置或实践方法。另外，本公开的范围旨在覆盖使用作为所阐述的本公开的各个方面的补充或者与之不同的其他结构、功能性、或者结构及功能性来实践的此类装置或方法。应当理解，所披露的本公开的任何方面可由权利要求的一个或多个元素来实施。

措辞“示例性”在本文中用于意指“用作示例、实例、或解说”。本文中描述为“示例性”的任何方面不必被解释为优于或胜过其他方面。

尽管描述了特定方面，但这些方面的众多变体和置换落在本公开的范围之内。虽然提到了优选方面的一些益处和优点，但本公开的范围并非旨在被限定于特定益处、用途或目标。相反，本公开的各方面旨在能宽泛地应用于不同的技术、系统配置、网络和协议，其中一些作为示例在附图以及以下对优选方面的描述中解说。详细描述和附图仅仅解说本公开而非限定本公开，本公开的范围由所附权利要求及其等效技术方案来定义。

在大多数情形中，常规动作识别系统使用卷积、自注意力或向量聚集来对输入流(例如，视频)中所描绘的动作进行分类。这些常规动作识别系统可以准确地标识来自具有小于阈值的时间跨度的输入流的动作。这些动作可被称为短程动作。例如，常规动作识别系统可以准确地标识短程动作(诸如滑雪、拳击和击剑)。

在一些常规动作识别系统中，时间建模采用时间卷积。时间建模依赖于经学习的内核W＝{w₁|i∈[1,…,T]},

其中T、C分别是内核大小和维度。在第i个时间步长处，局部窗口中的输入特征X_w＝{x₁|i∈[1,…,T]}与内核W进行卷积

输出特征为

用于此类常规动作识别系统的时间卷积被编制为：

利用这种卷积操作，内核W可以学习检测序列Xw的确切时间顺序。然而，这种卷积操作对Xw的精确序列顺序很敏感。因此，常规动作识别系统不允许可在长程活动中发生单元动作序列的许多时间配置。换言之，常规动作识别系统的准确性在输入流的时间跨度大于阈值时降低。这些动作可被称为长程活动。长程活动可包括例如做饭或煮咖啡。长程活动可以持续三分钟、五分钟、十分钟甚至更长。在一些情形中，长程活动持续不到三分钟。附加地，在一些方面，长程活动可被表征为组成多样且时间顺序混乱(意味着难以预测)。

本公开的各方面涉及对视频中的长程活动的时间结构进行建模。在一种配置中，时间结构由神经网络层来建模。为简单起见，该层将被称为置换不变卷积(PIC)层。

与常规的向量聚集系统相比，本公开的各方面使用级联层来学习长程时间抽象。与常规的卷积系统相比，本公开的各方面提供了对特征的时间置换不变的感受野，以使得弱时间结构可被建模。最后，与常规的自注意力系统相比，本公开的各方面使用共享权重来改进跨长视频以及噪声视频的判别性视觉证据的检测。因此，与常规的动作识别系统相比，通过将(诸)PIC层纳入神经网络中来改进长程活动识别的准确性。

图1解说了根据本公开的某些方面的片上系统(SOC)100的示例实现，其可包括被配置成用于长程建模的中央处理单元(CPU)102或多核CPU。变量(例如，神经信号和突触权重)、与计算设备(例如，带有权重的神经网络)相关联的系统参数、延迟、频率槽信息、以及任务信息可被存储在与神经处理单元(NPU)108相关联的存储器块、与CPU 102相关联的存储器块、与图形处理单元(GPU)104相关联的存储器块、与数字信号处理器(DSP)106相关联的存储器块、存储器块118中，或可跨多个块分布。在CPU 102处执行的指令可从与CPU 102相关联的程序存储器加载或可从存储器块118加载。

SOC 100还可包括为具体功能定制的附加处理块，诸如GPU 104、DSP 106、连通性块110(其可包括第五代(5G)连通性、第四代长期演进(4G LTE)连通性、Wi-Fi连通性、USB连通性、蓝牙连通性等)以及例如可检测和识别姿势的多媒体处理器112。在一种实现中，NPU实现在CPU、DSP、和/或GPU中。SOC 100还可包括传感器处理器114、图像信号处理器(ISP)116、和/或导航模块120(其可包括全球定位系统)。

SOC 100可基于ARM指令集。在本公开的一方面，被加载到通用处理器102中的指令可包括用于对输入流进行分段以生成多个帧集的代码。通用处理器102还可包括用于针对来自多个帧集的每个帧集标识具有包括所选动作的最高可能性的帧的代码。通用处理器102可进一步包括用于从所标识的帧的池化表示中生成该输入流的全局表示的代码。通用处理器102还可包括用于基于该全局表示来对长程活动进行分类的代码。

深度学习架构可通过学习在每一层中以逐次更高的抽象程度来表示输入、藉此构建输入数据的有用特征表示来执行对象识别任务。以此方式，深度学习解决了传统机器学习的主要瓶颈。在深度学习出现之前，用于对象识别问题的机器学习办法可能严重依赖人类工程设计的特征，或许与浅分类器相结合。浅分类器可以是两类线性分类器，例如，其中可将特征向量分量的加权和与阈值作比较以预测输入属于哪一类。人类工程设计的特征可以是由拥有领域专业知识的工程师针对具体问题领域定制的模版或内核。相反，深度学习架构可学习以表示与人类工程师可能会设计的相似的特征，但它是通过训练来学习的。此外，深度网络可以学习以表示和识别人类可能还没有考虑过的新类型的特征。

深度学习架构可以学习特征阶层。例如，如果向第一层呈递视觉数据，则第一层可学习以识别输入流中的相对简单的特征(诸如边)。在另一示例中，如果向第一层呈递听觉数据，则第一层可学习以识别特定频率中的频谱功率。取第一层的输出作为输入的第二层可以学习以识别特征组合，诸如对于视觉数据识别简单形状或对于听觉数据识别声音组合。例如，更高层可学习以表示视觉数据中的复杂形状或听觉数据中的词语。再高层可学习以识别常见视觉对象或口语短语。

深度学习架构在被应用于具有自然阶层结构的问题时可能表现特别好。例如，机动交通工具的分类可受益于首先学习以识别轮子、挡风玻璃、以及其他特征。这些特征可在更高层以不同方式被组合以识别轿车、卡车和飞机。

神经网络可被设计成具有各种连通性模式。在前馈网络中，信息从较低层被传递到较高层，其中给定层中的每个神经元向更高层中的神经元进行传达。如上所述，可在前馈网络的相继层中构建阶层式表示。神经网络还可具有回流或反馈(也被称为自顶向下(top-down))连接。在回流连接中，来自给定层中的神经元的输出可被传达给相同层中的另一神经元。回流架构可有助于识别跨越不止一个按顺序递送给该神经网络的输入数据组块的模式。从给定层中的神经元到较低层中的神经元的连接被称为反馈(或自顶向下)连接。当高层级概念的识别可辅助辨别输入的特定低层级特征时，具有许多反馈连接的网络可能是有助益的。

神经网络的各层之间的连接可以是全连通的或局部连通的。图2A解说了全连通神经网络202的示例。在全连通神经网络202中，第一层中的神经元可将它的输出传达给第二层中的每个神经元，从而第二层中的每个神经元将从第一层中的每个神经元接收输入。图2B解说了局部连通神经网络204的示例。在局部连通神经网络204中，第一层中的神经元可连接到第二层中有限数目的神经元。更一般化地，局部连通神经网络204的局部连通层可被配置成使得一层中的每个神经元将具有相同或相似的连通性模式，但其连接强度可具有不同的值(例如，210、212、214和216)。局部连通的连通性模式可能在更高层中产生空间上相异的感受野，这是由于给定区域中的更高层神经元可接收到通过训练被调谐为到网络的总输入的受限部分的性质的输入。

局部连通神经网络的一个示例是卷积神经网络。图2C解说了卷积神经网络206的示例。卷积神经网络206可被配置成使得与针对第二层中每个神经元的输入相关联的连接强度被共享(例如，208)。卷积神经网络可能非常适合于其中输入的空间位置有意义的问题。

一种类型的卷积神经网络是深度卷积网络(DCN)。图2D解说了被设计成从自图像捕捉设备230(诸如车载相机)输入的图像226识别视觉特征的DCN200的详细示例。可对当前示例的DCN 200进行训练以标识交通标志以及在交通标志上提供的数字。当然，DCN 200可被训练用于其他任务，诸如标识车道标记或标识交通信号灯。

可以用受监督式学习来训练DCN 200。在训练期间，可向DCN 200呈递图像(诸如限速标志的图像226)，并且随后可计算“前向传递(forward pass)”以产生输出222。DCN 200可包括特征提取区段和分类区段。在接收到图像226之际，卷积层232可向图像226应用卷积核(未示出)，以生成第一组特征图218。作为示例，卷积层232的卷积核可以是生成28x28特征图的5x5内核。在本示例中，由于在第一组特征图218中生成四个不同的特征图，因此在卷积层232处四个不同的卷积核被应用于图像226。卷积核还可被称为过滤器或卷积过滤器。

第一组特征图218可由最大池化层(未示出)进行子采样以生成第二组特征图220。最大池化层减小了第一组特征图218的大小。即，第二组特征图220的大小(诸如14x14)小于第一组特征图218的大小(诸如28x28)。减小的大小向后续层提供类似的信息，同时降低存储器消耗。第二组特征图220可经由一个或多个后续卷积层(未示出)被进一步卷积，以生成后续的一组或多组特征图(未示出)。

在图2D的示例中，第二组特征图220被卷积以生成第一特征向量224。此外，第一特征向量224被进一步卷积以生成第二特征向量228。第二特征向量228的每个特征可包括与图像226的可能特征(诸如，“标志”、“60”和“100”)相对应的数字。softmax(软最大化)函数(未示出)可将第二特征向量228中的数字转换为概率。如此，DCN 200的输出222是图像226包括一个或多个特征的概率。

在本示例中，输出222中关于“标志”和“60”的概率高于输出222的其他特征(诸如“30”、“40”、“50”、“70”、“80”、“90”和“100”)的概率。在训练之前，由DCN 200产生的输出222很可能是不正确的。由此，可计算输出222与目标输出之间的误差。目标输出是图像226的真值(例如，“标志”和“60”)。DCN 200的权重可随后被调整以使得DCN 200的输出222与目标输出更紧密地对齐。

为了调整权重，学习算法可为权重计算梯度向量。该梯度可指示在权重被调整情况下误差将增加或减少的量。在顶层，该梯度可直接对应于连接倒数第二层中的活化神经元与输出层中的神经元的权重的值。在较低层中，该梯度可取决于权重的值以及所计算出的较高层的误差梯度。权重可随后被调整以减小误差。这种调整权重的方式可被称为“反向传播”，因为其涉及在神经网络中的“反向传递(backward pass)”。

在实践中，权重的误差梯度可能是在少量示例上计算的，从而计算出的梯度近似于真实误差梯度。这种近似方法可被称为随机梯度下降法。随机梯度下降法可被重复，直到整个系统可达成的误差率已停止下降或直到误差率已达到目标水平。在学习之后，DCN可被呈递新图像(例如，图像226的限速标志)并且通过网络前向传递可产生输出222，其可被认为是该DCN的推断或预测。

深度置信网络(DBN)是包括多层隐藏节点的概率性模型。DBN可被用于提取训练数据集的阶层式表示。DBN可通过堆叠多层受限波尔兹曼机(RBM)来获得。RBM是一类可在输入集上学习概率分布的人工神经网络。由于RBM可在没有关于每个输入应该被分类到哪个类的信息的情况下学习概率分布，因此RBM经常被用在无监督式学习中。使用混合无监督式和受监督式范式，DBN的底部RBM可按无监督方式被训练并且可以用作特征提取器，而顶部RBM可按受监督方式(在来自先前层的输入和目标类的联合分布上)被训练并且可用作分类器。

深度卷积网络(DCN)是卷积网络的网络，其配置有附加的池化和归一化层。DCN已在许多任务上达成现有最先进的性能。DCN可使用受监督式学习来训练，其中输入和输出目标两者对于许多典范是已知的并被用于通过使用梯度下降法来修改网络的权重。

DCN可以是前馈网络。另外，如上所述，从DCN的第一层中的神经元到下一更高层中的神经元群的连接跨第一层中的神经元被共享。DCN的前馈和共享连接可被用于进行快速处理。DCN的计算负担可比例如类似大小的包括回流或反馈连接的神经网络的计算负担小得多。

卷积网络的每一层的处理可被认为是空间不变模版或基础投影。如果输入首先被分解成多个通道，诸如彩色图像的红色、绿色和蓝色通道，那么在该输入上训练的卷积网络可被认为是三维的，其具有沿着该图像的轴的两个空间维度以及捕捉颜色信息的第三维度。卷积连接的输出可被认为在后续层中形成特征图，该特征图(例如，220)中的每个元素从先前层(例如，特征图218)中一定范围的神经元以及从该多个通道中的每个通道接收输入。特征图中的值可以用非线性(诸如矫正，max(0,x))进一步处理。来自毗邻神经元的值可被进一步池化(这对应于降采样)并可提供附加的局部不变性以及维度缩减。还可通过特征图中神经元之间的侧向抑制来应用归一化，其对应于白化。

深度学习架构的性能可随着有更多被标记的数据点变为可用或随着计算能力提高而提高。现代深度神经网络用比仅仅十五年前可供典型研究者使用的计算资源多数千倍的计算资源来例行地训练。新的架构和训练范式可进一步推升深度学习的性能。经矫正的线性单元可减少被称为梯度消失的训练问题。新的训练技术可减少过度拟合(over-fitting)并因此使更大的模型能够达成更好的普遍化。封装技术可抽象出给定的感受野中的数据并进一步提升总体性能。

图3是解说根据本公开的各方面的深度卷积网络350的框图。深度卷积网络350可包括多个基于连通性和权重共享的不同类型的层。如图3中示出的，深度卷积网络350包括卷积块354A、354B。卷积块354A、354B中的每一者可配置有卷积层(CONV)356、归一化层(LNorm)358、和最大池化层(MAX POOL)360。

卷积层356可包括一个或多个卷积过滤器，其可被应用于输入数据以生成特征图。尽管仅示出了两个卷积块354A、354B，但本公开不限于此，而是代之以根据设计偏好可将任何数目的卷积块354A、354B包括在深度卷积网络350中。归一化层358可对卷积过滤器的输出进行归一化。例如，归一化层358可提供白化或侧向抑制。最大池化层360可提供在空间上的降采样聚集以实现局部不变性以及维度缩减。

例如，深度卷积网络的并行过滤器组可被加载到SOC 100的CPU 102或GPU 104上以达成高性能和低功耗。在替换实施例中，并行过滤器组可被加载到SOC 100的DSP 106或ISP 116上。另外，深度卷积网络350可访问其他可存在于SOC 100上的处理块，诸如分别专用于传感器和导航的传感器处理器114和导航模块120。

深度卷积网络350还可包括一个或多个全连通层362(FC1和FC2)。深度卷积网络350可进一步包括逻辑回归(LR)层364。深度卷积网络350的每一层356、358、360、362、364之间是要被更新的权重(未示出)。每一层(例如，356、358、360、362、364)的输出可以用作深度卷积网络350中一后续层(例如，356、358、360、362、364)的输入以从第一卷积块354A处供应的输入数据352(例如，图像、音频、视频、传感器数据和/或其他输入数据)学习阶层式特征表示。深度卷积网络350的输出是针对输入数据352的分类得分366。分类得分366可以是概率集，其中每个概率是输入数据包括来自特征集的特征的概率。

长程人类活动可具有各种特性，诸如长时间历时、复杂组成和/或任意时间顺序。咖啡制备是长程人类活动的示例。在一些情形中，从冲泡到最后饮用步骤，咖啡制备可能花费十分钟。与大多数长程活动一样，咖啡制备由多个简短的构建块(例如，动作)组成，诸如“取杯”和“倒牛奶”。构建块的时间顺序可基于执行活动的个人而有所不同。

图4解说了根据本公开的各方面的用于倒咖啡的长程活动的多个示例时间结构400。如图4中所示，咖啡制备可包括多个动作。为清楚起见，图4的各动作已经与数字标识符相关联。动作包括取杯(1)、倒咖啡(2)、倒糖(3)、勺糖(4)、倒牛奶(5)、和搅拌咖啡(6)。以上提及的动作仅作为示例来提供，更多或更少的动作可以与倒咖啡的任务相关联。

视频示例的每个时间结构(v1、v2、……、vn)可以从不同的输入流中获得。由于个人喜好，咖啡制备可具有许多变型。因此，每个时间结构中的动作顺序可能不同。例如，如图4中所示，在第一时间结构v1中，“勺糖”动作在“倒糖”动作之后。相反，在第二时间结构v2中，“倒牛奶”动作在“倒糖”动作之后。

如图4中所示，长程活动表现出具有较弱时间顺序的复杂时间结构。时间结构400可以被描述为具有宏观级别和微观级别的部分有序集合。宏观级别和微观级别的信息可被用于对长程活动的时间结构进行建模。在宏观级别上，长程活动被细分为动作(例如，单元动作)的集合(集合也可被称为分段)。例如，咖啡制备可包括三个动作集(v＝{s1,s2,s3})，其中v是时间结构，si是动作集。相邻的动作往往落入小集合中，而不管顺序如何。

作为示例，对于第一时间结构v1，集合一s1可包括“取杯”和“倒咖啡”。集合一s1的动作通常在活动开始处被执行。集合二s2可包括“倒糖”、“勺糖”和“倒牛奶”。集合二s2的动作通常在活动中间处被执行。集合三s3可包括“搅拌咖啡”。集合三s3的动作通常在活动结束处被执行。

在第二时间结构v2中，集合一s1可包括“倒咖啡”和“取杯”。尽管针对第二时间结构v2的集合一s1的顺序不同于针对第一时间结构v1的集合一s1的顺序，但这两个集合都包括在活动开始处发生的相同动作。即，在微观级别上，每个集合或分段可包括相同的动作组合，而不管特定活动的视频示例如何。尽管每个集合中的动作可能没有普遍的顺序，但动作往往在相同集合中共同产生，而不管视频如何。

在宏观级别上，动作集的序列往往具有与每个动作集中的动作相比更大的时间结构(例如，s1→s2→s3)。即，跨相同活动的多个视频，集合往往遵循相同的顺序s1-s2-s3。

如所讨论的，常规系统使用不同的时间建模解决方案，诸如卷积、自注意力和向量聚集。这些解决方案可以准确地标识短程视频的活动。对于长程视频，一些所建议的解决方案包括向量聚集、长期特征和长程卷积。出于各种原因，这些解决方案的准确性可能受到限制。例如，常规的解决方案不学习长程时间抽象。作为另一示例，常规的解决方案对于时间顺序不是不变的。最后，一些常规解决方案不共享权重，并且作为结果，这些解决方案无法检测判别性概念。

在一种配置中，时间建模层(例如，PIC)被用于识别长程活动。时间建模层提高了长程活动分类的准确性。为简单起见，时间建模层可被称为PIC。与向量聚集和自注意力相比，PIC考虑了局部连通性，诸如长时间抽象通过级联层来学习。附加地，与常规的卷积相比，PIC对于局部连通性的窗口内的时间置换是不变的。

本公开的各方面不限于对视频进行建模(例如，红-绿-蓝(RGB)模态)。可以使用其他模态，诸如流、动态和声音。

如所讨论的，长程活动的结构可被定义为具有两个抽象级别(例如，宏观级别和微观级别)的部分有序集合。在宏观级别上，长程活动的整个视频v包括可随时间结构化和有序化的动作集(v＝{s1,s2,…,sN})。在微观级别上，每个集合包括没有特定顺序的相关动作。集合中的每个动作可被称为单一动作(one-action)。

部分有序集合的两级结构可以使用具有层级联的卷积方法来学习。底层学习每个集合内的各动作之间的相关性。顶层学习各集合之间的交互。卷积操作对单一动作的时间顺序是不变的。为此，PIC可以代替卷积层(例如，图3的卷积层356)。

为简单起见，本公开聚焦于时间建模。主干神经网络可以聚焦于空间建模。在常规系统中，针对卷积层学习内核。习得的内核与特征窗口进行卷积以生成输入的特征。然而，习得的内核仍依赖于特征窗口的时间序列。

相反，PIC是置换不变卷积。图5解说了根据本公开的各方面的PIC层500的功能的示例。如图5中所示，PIC层500接收特征窗口Xw作为输入。特征窗口Xw是来自视频502中的总帧数中的T个帧(x1、x2、……、xT)的窗口，其中T大于或等于三。每个帧(例如，x1)可以描绘一个或多个动作。特征窗口Xw也可被称为局部窗口。为了便于解释，图5涉及倒咖啡活动。图5的动作和数字标识符对应于图4的动作和数字标识符。

如图5中所示，第一帧x1具有描绘以下动作的可能性：取杯(1)和倒咖啡(2)。PIC层500使用一对经链接的内核(被称为概念键K(示出为键(K))和值

)，其中M是内核数，C是内核维度。概念键K检测视频502中的隐性视觉概念。相似性矩阵

是通过使用点积来测量概念键K与特征窗口Xw的每一帧的特征的相似性而生成的。即，相似性矩阵s编码当前特征窗口Xw中的隐性概念的可能性。在一种配置中，在层级联的每一层处，K中的每个概念键检测动作集中的一个动作。

如图5中所示，相似性矩阵s(示出为相似性(s))将第一帧x1和最后一帧xT编码为具有描绘取杯(1)活动的可能性。在图5中，相似性矩阵s的第一元素504具有粗体活动标识符(1)，以指示第一元素504具有与第二元素506相比更高的描述取杯(1)活动的可能性。相似性矩阵s中元素的活动标识符的加粗文本指示与元素的活动标识符的非加粗文本相比更大的可能性。可能性可基于利用概念键K执行的相似性测量来确定。

相似性矩阵s中的相似性被最大池化以生成最大池化相似性向量

最大池化相似性向量s’概述了具有在特征窗口Xw中发生M个概念的最大可能性的帧。即，最大池化相似性向量s’被填充有具有描绘动作的最高(例如，最大)可能性的帧。例如，在图5中，第一元素504填充相似性向量s’的第一元素，因为第一元素504具有与第二元素506和第三元素508相比描绘动作(1)取杯的更大可能性。

在估计池化相似性向量s’之后，值内核V被应用于表示检测到的特征。在一些方面，值内核V被应用于仅表示检测到的特征。概念键内核K和值内核V将概念检测(经由概念键内核K)与概念表示(经由值内核V)解耦。将概念键内核K与值内核V解耦有益地提供更多的用于检测的概念键

以及更少的用于表示的值

其中M′＜＜M。

密集层f_θ(·)对相似性向量s’的相似性之间的相关性进行建模。相关性从较高维度

嵌入到较低维度

激活函数σ(例如，sigmoid或校正线性单元(ReLU))可被应用于密集层f_θ(·)以生成激活的相似性

(也可被称为注意力向量α)。最后，激活的相似性α和值内核V的点积被计算以提供表示

T表示向量/矩阵的转置。

因此，与常规动作识别系统的时间卷积(参见等式1)相比，置换不变卷积(PIC)可被编制为：

s′＝max_row(s) (3)

α＝σ[f_θ(s′)] (4)

其中⊙表示哈达玛(Hadamard)积，且

表示张量积。

PIC层500可以作为层添加到主干二维或三维卷积神经网络(CNN)(例如，图3的深度卷积网络350)。在一种配置中，PIC层500使用残差瓶颈来减少计算。例如，特征窗口

的维度C可以减小一减小值。作为示例，减小值可以是四，以使得减小的维度C’＝C/4。可以在卷积之前由第一密集层g_φ(·)减小维度。为了启用残差连接，输入维度C可以由第二密集层h_ψ(·)恢复。

空间维度可以由主干CNN建模。由PIC层500学习的内核K、V是共享参数(例如，权重)，并且不从特征窗口X_w推断或依赖于特征窗口X_w。共享内核可以提高神经网络跨整个长程活动检测判别性视觉概念的能力，而无需以特征窗口X_w为条件。这种设计可以提供对特征窗口X_w中的噪声证据的稳定性。

此外，PIC层500遵循时间局部性。换言之，与自注意力中使用的全局窗口相比，PIC层500对局部窗口X_w的特征进行卷积。因为PIC层500遵循时间局部性，所以PIC层500可以学习具有级联层的多个抽象级别。

图6解说了根据本公开的各方面的置换不变卷积(PIC)层600的另一示例。如图6中所示，具有维度T x C的特征窗口X_w在第一密集层g_φ(·)处被接收。在PIC层600处接收具有减小的维度C’的特征窗口X_w。PIC层600还接收具有维度M x C’的概念键内核K和值内核V。PIC层600向第二密集层h_ψ(·)输出维度1x C’的表示y。第二密集层h_ψ(·)恢复输入维度C。

图7解说了根据本公开的各方面的标识视频700中的长程活动的示例。如图7中所示，做煎饼的视频700被输入到神经网络。视频700被分段成大小为N的特征窗口702。即，每个特征窗口702包括N个帧(x1至xN)。在图7中，N为5。当然，N可以大于或小于5。在一种配置中，N是奇数。

每个特征窗口702由第一置换不变卷积(PIC)层704处理。在图7的示例中，第一PIC层704从特征集中标识一个特征。例如，第一PIC层704可被指定以标识具有描绘倾倒动作的最大可能性的帧。

如所讨论的，从相似性矩阵中，最大池化函数从特征窗口(例如，702)中标识具有描绘特定动作的最高可能性的帧。在图7中，实线706a对应于来自每个特征窗口702的具有描绘倾倒动作的最高可能性的帧。虚线706b对应于来自每个特征窗口702的具有描绘倾倒动作的较低可能性的帧。

最大池化函数从被标识为具有描绘倾倒动作的最高可能性的帧集生成帧集708。为简单起见，图7解说了具有描绘倾倒动作的最高可能性的帧(例如，706a)。本公开的各方面不限于标识一个概念。可以从视频700中标识多个概念。例如，可以利用局部池化方法来池化帧的特征。在局部池化中，毗邻特征被最大池化。例如，每两个毗邻帧被最大池化。在该示例中，不管激活值如何，第二层都有八个特征。

第二PIC层710被指定以标识细粒度概念。例如，倾倒活动与“煮咖啡”、“泡茶”和“做煎饼”之类的活动无关。如此，第二PIC层710标识与倾倒动作相对应的活动。

帧集708被分段成大小为N的特征窗口712。第二PIC层710标识具有描绘来自动作集中的一动作的最高可能性的帧。具有最高可能性的帧在全局池化函数中被标识和池化以生成最终输出714，其可以是在视频流中观察到的活动的全局表示。例如，在图7中，第二PIC层710可以标识具有描绘烹饪活动的最高可能性的帧。在图7中，实线716对应于来自每个特征窗口712的具有描绘倾倒动作的最高可能性的帧。最终输出714随后可被分类为做煎饼动作。例如，在一种配置中，两个隐藏层多层感知器可以提供分类。

如所讨论的，根据神经网络的各方面，模型可以学习视频(例如，700)中原子动作的无序时间表示。如此，如果视频(例如，700)的输入分段被重新排序(例如，随机打乱)，则模型的准确性可能不会受到损害。该模型可以对时间跨度相对较长(例如，大于或等于几分钟)的动作视频进行分类。最后，模型对水平翻转是不变的。

图8解说了根据本公开的各方面的方法800的流程图800。如图8中所示，在框802，神经网络对输入流进行分段以生成多个帧集。输入流可以是长程活动的视频。在框804，神经网络针对来自多个帧集的每个帧集标识具有包括预定义动作集中的一个或多个动作的最高可能性的帧。

可以通过从帧集的特征和第一内核的点积生成相似性矩阵来标识该帧。相似性矩阵中的相似性可以被最大池化以标识具有最高可能性的帧。在框806，神经网络从所标识的帧的池化表示中生成该输入流的全局表示。所标识的帧的表示可以通过以下操作来生成：从相似性矩阵生成注意力向量；以及基于注意力向量和第二内核的点积来生成所标识的帧的表示。在一种配置中，第一内核和第二内核是链接的。

全局表示可以从所标识的帧的表示的点积生成。在框808，神经网络根据全局表示来对长程活动进行分类。神经网络的置换不变卷积层可以标识帧的分段中具有最高可能性的帧并且生成表示。神经网络可包括多个级联的置换不变卷积层。

在一些方面，方法800可由SOC 100(图1)来执行。即，作为示例而非限定，方法800的每个元素可由SOC 100或一个或多个处理器(例如，CPU 102)和/或其他所包括的组件来执行。

在以下经编号条款中描述了各实现示例：

1.一种方法，包括：

对输入流进行分段以生成多个帧集；

针对来自该多个帧集的每个帧集标识具有包括预定义动作集中的一个或多个动作的最高可能性的帧；

从所标识的帧的池化表示中生成该输入流的全局表示；以及

基于该全局表示来对长程活动进行分类。

2.如条款1的方法，其中标识帧包括从帧集的特征和第一内核的点积生成相似性矩阵。

3.如条款2的方法，进一步包括：对该相似性矩阵中的相似性进行最大池化以标识具有最高可能性的帧。

4.如条款3的方法，进一步包括：

从该相似性矩阵生成注意力向量；以及

基于该注意力向量和第二内核的点积来生成所标识的帧的全局表示。

5.如条款4的方法，其中第一内核和第二内核是链接的。

6.如条款1的方法，其中该全局表示基于所标识的帧的池化表示的点积。

7.如条款1的方法，其中标识和生成在神经网络的置换不变卷积层处被执行。

8.如条款1-7中的任一者的方法，其中该神经网络包括多个级联的置换不变卷积层。

9.一种装置，包括：

存储器；以及

耦合至该存储器的至少一个处理器，该至少一个处理器被配置成：

对输入流进行分段以生成多个帧集；

从所标识的帧的池化表示中生成该输入流的全局表示；以及

基于该全局表示来对长程活动进行分类。

10.如条款9的装置，其中该至少一个处理器被配置成通过从帧集的特征和第一内核的点积生成相似性矩阵来标识该帧。

11.如条款10的装置，其中该至少一个处理器被进一步配置成对该相似性矩阵中的相似性进行最大池化以标识具有最高可能性的帧。

12.如条款11的装置，其中该至少一个处理器被进一步配置成通过以下操作来生成全局表示：

从该相似性矩阵生成注意力向量；以及

13.如条款12的装置，其中第一内核和第二内核是链接的。

14.如条款9的装置，其中该至少一个处理器被进一步配置成基于所标识的帧的池化表示的点积来生成该全局表示。

15.如条款9的装置，其中该至少一个处理器被进一步配置成在神经网络的置换不变卷积层处进行标识和生成。

16.如条款9-15中的任一者的装置，其中该神经网络包括多个级联的置换不变卷积层。

17.一种设备，包括：

用于对输入流进行分段以生成多个帧集的装置；

用于针对来自该多个帧集的每个帧集标识具有包括预定义动作集中的一个或多个动作的最高可能性的帧的装置；

用于从所标识的帧的池化表示中生成该输入流的全局表示的装置；以及

用于基于该全局表示来对长程活动进行分类的装置。

18.如条款17的设备，进一步包括用于从帧集的特征和第一内核的点积生成相似性矩阵的装置。

19.如条款18的设备，进一步包括用于对该相似性矩阵中的相似性进行最大池化以标识具有最高可能性的帧的装置。

20.如条款19的设备，进一步包括：

用于从该相似性矩阵生成注意力向量的装置；以及

用于基于该注意力向量和第二内核的点积来生成所标识的帧的全局表示的装置。

21.如条款20的设备，其中第一内核和第二内核是链接的。

22.如条款17-21中的任一者的设备，其中该全局表示基于所标识的帧的池化表示的点积。

23.一种其上记录有程序代码的非瞬态计算机可读介质，该程序代码由处理器执行并且包括：

用于对输入流进行分段以生成多个帧集的程序代码；

用于针对来自该多个帧集的每个帧集标识具有包括预定义动作集中的一个或多个动作的最高可能性的帧的程序代码；

用于从所标识的帧的池化表示中生成该输入流的全局表示的程序代码；以及

用于基于该全局表示来对长程活动进行分类的程序代码。

24.如条款23的非瞬态计算机可读介质，进一步包括用于通过从帧集的特征和第一内核的点积生成相似性矩阵来标识帧的程序代码。

25.如条款24的非瞬态计算机可读介质，进一步包括：用于对该相似性矩阵中的相似性进行最大池化以标识具有最高可能性的帧的程序代码。

26.如条款25的非瞬态计算机可读介质，进一步包括用于以下操作的程序代码：

用于从该相似性矩阵生成注意力向量的程序代码；以及

用于基于该注意力向量和第二内核的点积来生成所标识的帧的全局表示的程序代码。

27.如条款26的非瞬态计算机可读介质，其中第一内核和第二内核是链接的。

28.如条款23的非瞬态计算机可读介质，进一步包括用于基于所标识的帧的池化表示的点积来生成该全局表示的程序代码。

29.如条款23的非瞬态计算机可读介质，进一步包括用于在神经网络的置换不变卷积层处进行标识和生成的程序代码。

30.如条款23-29中的任一者的非瞬态计算机可读介质，其中该神经网络包括多个级联的置换不变卷积层。

以上所描述的方法的各种操作可由能够执行相应功能的任何合适的装置来执行。这些装置可包括各种硬件和/或软件组件和/或模块，包括但不限于电路、专用集成电路(ASIC)、或处理器。一般而言，在附图中有解说的操作的场合，那些操作可具有带相似编号的相应配对装置加功能组件。

如所使用的，术语“确定”涵盖各种各样的动作。例如，“确定”可包括演算、计算、处理、推导、研究、查找(例如，在表、数据库或另一数据结构中查找)、查明及诸如此类。另外，“确定”可包括接收(例如接收信息)、访问(例如访问存储器中的数据)、及类似动作。此外，“确定”可包括解析、选择、选取、确立及类似动作。

如所使用的，引述一列项目“中的至少一者”的短语指这些项目的任何组合，包括单个成员。作为示例，“a、b或c中的至少一者”旨在涵盖：a、b、c、a-b、a-c、b-c、以及a-b-c。

结合本公开所描述的各种解说性逻辑框、模块、以及电路可用设计成执行所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列信号(FPGA)或其他可编程逻辑器件(PLD)、分立的门或晶体管逻辑、分立的硬件组件或其任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，处理器可以是任何市售的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如，DSP与微处理器的组合、多个微处理器、与DSP核心协同的一个或多个微处理器、或任何其他此类配置。

结合本公开描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中实施。软件模块可驻留在本领域所知的任何形式的存储介质中。可使用的存储介质的一些示例包括随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动盘、CD-ROM，等等。软件模块可包括单条指令、或许多条指令，且可分布在若干不同的代码段上，分布在不同的程序间以及跨多个存储介质分布。存储介质可被耦合到处理器以使得该处理器能从/向该存储介质读写信息。在替换方案中，存储介质可被整合到处理器。

所公开的方法包括用于达成所描述的方法的一个或多个步骤或动作。这些方法步骤和/或动作可以彼此互换而不会脱离权利要求的范围。换言之，除非指定了步骤或动作的特定次序，否则具体步骤和/或动作的次序和/或使用可以改动而不会脱离权利要求的范围。

所描述的功能可在硬件、软件、固件或其任何组合中实现。如果以硬件实现，则示例硬件配置可包括设备中的处理系统。处理系统可以用总线架构来实现。取决于处理系统的具体应用和整体设计约束，总线可包括任何数目的互连总线和桥接器。总线可将包括处理器、机器可读介质、以及总线接口的各种电路链接在一起。总线接口可用于尤其将网络适配器等经由总线连接至处理系统。网络适配器可用于实现信号处理功能。对于某些方面，用户接口(例如，按键板、显示器、鼠标、操纵杆，等等)也可以被连接到总线。总线还可以链接各种其他电路，诸如定时源、外围设备、稳压器、功率管理电路以及类似电路，它们在本领域中是众所周知的，因此将不再进一步描述。

处理器可负责管理总线和一般处理，包括执行存储在机器可读介质上的软件。处理器可用一个或多个通用和/或专用处理器来实现。示例包括微处理器、微控制器、DSP处理器、以及其他能执行软件的电路系统。软件应当被宽泛地解释成意指指令、数据、或其任何组合，无论是被称作软件、固件、中间件、微代码、硬件描述语言、或其他。作为示例，机器可读介质可包括随机存取存储器(RAM)、闪存、只读存储器(ROM)、可编程只读存储器(PROM)、可擦式可编程只读存储器(EPROM)、电可擦式可编程只读存储器(EEPROM)、寄存器、磁盘、光盘、硬驱动器、或者任何其他合适的存储介质、或其任何组合。机器可读介质可被实施在计算机程序产品中。该计算机程序产品可以包括包装材料。

在硬件实现中，机器可读介质可以是处理系统中与处理器分开的一部分。然而，如本领域技术人员将容易领会的，机器可读介质或其任何部分可在处理系统外部。作为示例，机器可读介质可包括传输线、由数据调制的载波、和/或与设备分开的计算机产品，所有这些都可由处理器通过总线接口来访问。替换地或附加地，机器可读介质或其任何部分可被集成到处理器中，诸如高速缓存和/或通用寄存器文件可能就是这种情形。虽然所讨论的各种组件可被描述为具有特定位置，诸如局部组件，但它们也可按各种方式来配置，诸如某些组件被配置成分布式计算系统的一部分。

处理系统可以被配置为通用处理系统，该通用处理系统具有一个或多个提供处理器功能性的微处理器、以及提供机器可读介质中的至少一部分的外部存储器，它们都通过外部总线架构与其他支持电路系统链接在一起。替换地，该处理系统可以包括一个或多个神经元形态处理器以用于实现所描述的神经元模型和神经系统模型。作为另一替换方案，处理系统可以用带有集成在单块芯片中的处理器、总线接口、用户接口、支持电路系统、和至少一部分机器可读介质的专用集成电路(ASIC)来实现，或者用一个或多个现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、控制器、状态机、门控逻辑、分立硬件组件、或者任何其他合适的电路系统、或者能执行本公开通篇所描述的各种功能性的电路的任何组合来实现。取决于具体应用和加诸于整体系统上的总设计约束，本领域技术人员将认识到如何最佳地实现关于处理系统所描述的功能性。

机器可读介质可包括数个软件模块。这些软件模块包括当由处理器执行时使处理系统执行各种功能的指令。这些软件模块可包括传送模块和接收模块。每个软件模块可以驻留在单个存储设备中或者跨多个存储设备分布。作为示例，当触发事件发生时，可以从硬驱动器中将软件模块加载到RAM中。在软件模块执行期间，处理器可以将一些指令加载到高速缓存中以提高访问速度。可随后将一个或多个高速缓存行加载到通用寄存器文件中以供处理器执行。在以下述及软件模块的功能性时，将理解此类功能性是在处理器执行来自该软件模块的指令时由该处理器来实现的。此外，应领会，本公开的各方面产生对处理器、计算机、机器或实现此类方面的其它系统的机能的改进。

如果以软件实现，则各功能可作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，这些介质包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，此类计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能用于携带或存储指令或数据结构形式的期望程序代码且能被计算机访问的任何其他介质。另外，任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或无线技术(诸如红外(IR)、无线电、以及微波)从web网站、服务器、或其他远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL或无线技术(诸如红外、无线电、以及微波)就被包括在介质的定义之中。如所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘、和蓝光

碟，其中盘(disk)常常磁性地再现数据，而碟(disc)用激光来光学地再现数据。因此，在一些方面，计算机可读介质可包括非瞬态计算机可读介质(例如，有形介质)。另外，对于其他方面，计算机可读介质可包括瞬态计算机可读介质(例如，信号)。以上的组合应当也被包括在计算机可读介质的范围内。

由此，某些方面可包括用于执行给出的操作的计算机程序产品。例如，此类计算机程序产品可包括其上存储(和/或编码)有指令的计算机可读介质，这些指令能由一个或多个处理器执行以执行所描述的操作。对于某些方面，计算机程序产品可包括包装材料。

此外，应当领会，用于执行所描述的方法和技术的模块和/或其他恰适装置可由用户终端和/或基站在适用的场合下载和/或以其他方式获得。例如，此类设备能被耦合到服务器以促成用于执行所描述的方法的装置的转移。替换地，所描述的各种方法能经由存储装置(例如，RAM、ROM、诸如压缩碟(CD)或软盘等物理存储介质等)来提供，以使得一旦将该存储装置耦合到或提供给用户终端和/或基站，该设备就能获得各种方法。此外，可利用适于向设备提供所描述的方法和技术的任何其他合适的技术。

将理解，权利要求并不被限于以上所解说的精确配置和组件。可在以上所描述的方法和装置的布局、操作和细节上作出各种改动、更换和变形而不会脱离权利要求的范围。

Claims

1.一种方法，包括：

对输入流进行分段以生成多个帧集；

针对来自所述多个帧集的每个帧集标识具有包括预定义动作集中的一个或多个动作的最高可能性的帧；

从所标识的帧的池化表示中生成所述输入流的全局表示；以及

基于所述全局表示来对长程活动进行分类。

2.如权利要求1所述的方法，其中标识所述帧包括从所述帧集的特征和第一内核的点积生成相似性矩阵。

3.如权利要求2所述的方法，进一步包括：对所述相似性矩阵中的相似性进行最大池化以标识具有最高可能性的所述帧。

4.如权利要求3所述的方法，进一步包括：

从所述相似性矩阵生成注意力向量；以及

基于所述注意力向量和第二内核的点积来生成所标识的帧的所述全局表示。

5.如权利要求4所述的方法，其中所述第一内核和所述第二内核是链接的。

6.如权利要求1所述的方法，其中所述全局表示基于所标识的帧的池化表示的点积。

7.如权利要求1所述的方法，其中所述标识和生成在神经网络的置换不变卷积层处被执行。

8.如权利要求7所述的方法，其中所述神经网络包括多个级联的置换不变卷积层。

9.一种装置，包括：

存储器；以及

耦合至所述存储器的至少一个处理器，所述至少一个处理器被配置成：

对输入流进行分段以生成多个帧集；

基于所述全局表示来对长程活动进行分类。

10.如权利要求9所述的装置，其中所述至少一个处理器被配置成通过从所述帧集的特征和第一内核的点积生成相似性矩阵来标识所述帧。

11.如权利要求10所述的装置，其中所述至少一个处理器被进一步配置成对所述相似性矩阵中的相似性进行最大池化以标识具有最高可能性的所述帧。

12.如权利要求11所述的装置，其中所述至少一个处理器被进一步被配置成通过以下操作来生成所述全局表示：

从所述相似性矩阵生成注意力向量；以及

13.如权利要求12所述的装置，其中所述第一内核和所述第二内核是链接的。

14.如权利要求9所述的装置，其中所述至少一个处理器被进一步配置成基于所标识的帧的池化表示的点积来生成所述全局表示。

15.如权利要求9所述的装置，其中所述至少一个处理器被进一步配置成在神经网络的置换不变卷积层处进行标识和生成。

16.如权利要求15所述的装置，其中所述神经网络包括多个级联的置换不变卷积层。

17.一种设备，包括：

用于对输入流进行分段以生成多个帧集的装置；

用于针对来自所述多个帧集的每个帧集标识具有包括预定义动作集中的一个或多个动作的最高可能性的帧的装置；

用于从所标识的帧的池化表示中生成所述输入流的全局表示的装置；以及

用于基于所述全局表示来对长程活动进行分类的装置。

18.如权利要求17所述的设备，进一步包括用于从所述帧集的特征和第一内核的点积生成相似性矩阵的装置。

19.如权利要求18所述的设备，进一步包括用于对所述相似性矩阵中的相似性进行最大池化以标识具有最高可能性的所述帧的装置。

20.如权利要求19所述的设备，进一步包括：

用于从所述相似性矩阵生成注意力向量的装置；以及

用于基于所述注意力向量和第二内核的点积来生成所标识的帧的所述全局表示的装置。

21.如权利要求20所述的设备，其中所述第一内核和所述第二内核是链接的。

22.如权利要求17所述的设备，其中所述全局表示基于所标识的帧的池化表示的点积。

23.一种其上记录有程序代码的非瞬态计算机可读介质，所述程序代码由处理器执行并且包括：

用于对输入流进行分段以生成多个帧集的程序代码；

用于针对来自所述多个帧集的每个帧集标识具有包括预定义动作集中的一个或多个动作的最高可能性的帧的程序代码；

用于从所标识的帧的池化表示中生成所述输入流的全局表示的程序代码；以及

用于基于所述全局表示来对长程活动进行分类的程序代码。

24.如权利要求23所述的非瞬态计算机可读介质，进一步包括用于通过从所述帧集的特征和第一内核的点积生成相似性矩阵来标识所述帧的程序代码。

25.如权利要求24所述的非瞬态计算机可读介质，进一步包括用于对所述相似性矩阵中的相似性进行最大池化以标识具有最高可能性的所述帧的程序代码。

26.如权利要求25所述的非瞬态计算机可读介质，进一步包括用于以下操作的程序代码：

用于从所述相似性矩阵生成注意力向量的程序代码；以及

用于基于所述注意力向量和第二内核的点积来生成所标识的帧的所述全局表示的程序代码。

27.如权利要求26所述的非瞬态计算机可读介质，其中所述第一内核和所述第二内核是链接的。

28.如权利要求23所述的非瞬态计算机可读介质，进一步包括用于基于所标识的帧的池化表示的点积来生成所述全局表示的程序代码。

29.如权利要求23所述的非瞬态计算机可读介质，进一步包括用于在神经网络的置换不变卷积层处进行标识和生成的程序代码。

30.如权利要求29所述的非瞬态计算机可读介质，其中所述神经网络包括多个级联的置换不变卷积层。