CN117256019A

CN117256019A - 用于视频动作识别的多分辨率注意力网络

Info

Publication number: CN117256019A
Application number: CN202180077116.3A
Authority: CN
Inventors: S·R·卡瓦略; T·福尔克曼; R·R·巴特勒
Original assignee: Our Group Co ltd
Current assignee: Our Group Co ltd
Priority date: 2020-11-16
Filing date: 2021-11-16
Publication date: 2023-12-19
Also published as: WO2022104281A1; CA3197841A1; AU2021379758A9; GB2617710A8; KR20230104737A; GB202308248D0; KR20230104738A; EP4244762A1; GB2617710A; JP2023549579A; WO2022104202A1; AU2021379758A1; US11270124B1; AU2021377335A1; JP2023549582A; GB202308247D0; US11842541B1; MX2023005637A; EP4244763A1; GB2616167A

Abstract

本发明通过以下步骤来对视频剪辑中出现的动作进行分类：接收用于分析的视频剪辑；将卷积神经网络机制(CNN)应用于剪辑中的帧以生成剪辑中的每个帧的4D嵌入张量；将多分辨率卷积神经网络机制(CNN)应用于剪辑中的帧中的每个帧以生成分辨率降低的块的序列；计算估计块中的运动量的运动学注意力权重；将注意力权重应用于剪辑中的每个帧的嵌入张量以生成加权的嵌入张量或上下文，该加权的嵌入张量或上下文在该分辨率下表示剪辑中的所有帧；跨所有分辨率组合上下文以生成多分辨率上下文；执行3D池化以获得1D特征向量；以及基于该特征向量对视频剪辑的主要动作进行分类。

Description

用于视频动作识别的多分辨率注意力网络

技术领域

各实施例总体上涉及用于使用多分辨率注意力网络对视频中的动作进行分类的方法和系统。

背景技术

最近，用于从视频剪辑进行的基于视频的人类动作识别(VHAR)的深度端到端学习收到了更多的关注。已经发现了在包括安全性、游戏和娱乐的多样领域中的应用。然而，从视频中导出的人类动作识别具有严峻的挑战。例如，构建视频动作识别体系结构涉及捕获跨帧的扩展时空上下文，要求大量计算资源，这可能会限制动作识别的工业应用的速度和可用性。使得稳健的空间对象检测模型或姿态模型来学习场景中的对象之间的交互潜在地创建高度特定于领域的数据，处理这些数据可能是耗时的且昂贵的，因为它要求人类工作者手动标识图像中的对象。

注意力模型是有吸引力的，因为它们可以移除对显式循环(recurrent)模型的需要，这些模型在计算上是昂贵的。此外，通过将由网络在HAR任务期间在空间上和在时间上使用的图像区域可视化，注意力机制可以成为可解释的深度学习模型的基础。用于HAR的当前的注意力体系结构依赖于循环模型或光流特征，这可能要求大量的计算资源来进行模型训练(例如，有时要求最多64个GPU)，这是一般由小公司和大学面对的问题。其他注意力模型使用手工制作解决方案，这意味着参数中的一些参数是由专家预定义的(骨架部分、人类姿势或边界框)。手工制作的参数很麻烦，它要求人类劳动和领域专业知识，这可能降低解决方案对新数据集的可扩展性，这是一般在工业应用中面对的问题。空间注意力机制旨在自动地定位场景中的对象，而无需人类干预或专业知识。然而，现有技术的注意力机制未考虑不同帧之间的时间关系，这可能对学习长期时间关系具有挑战性。

由此，本发明正是基于这些考虑和其他考虑而做出的。

发明内容

本发明提供了一种新的深度端到端学习体系结构，以用于对视频剪辑中发生的人类动作进行分类或识别(VHAR)。它引入了在本文中被称为多分辨率注意力网络(MRANET)的体系结构，该体系结构将由2D卷积神经网络(2D-CNN)提供的机制(包括流网络、关键帧学习和多分辨率分析)组合在统一的框架中。

为了实现高计算性能，MRANET使用二维(2D)卷积神经网络(2D-CNN)来构建场景的多分辨率(MR)分解。与现有技术的方法相比，这种方法不要求边界框或姿势建模来识别视频内的对象和动作。若干分辨率下的视频帧或图像的细节通常表征MR空间中具有不同大小(频率)和定向的不同物理结构。

MRANET的核心在于计算注意力权重的向量的注意力机制，这些注意力权重是递归地计算的，即时间t处的帧的权重是时间t-1处的前一帧的函数。在某些实施例中，针对动作在其中发生的帧的序列使用一阶(速度)和二阶(加速度)有限差分导数来计算循环注意力权重。

在一个实施例中，MRANET通过以下步骤来对视频剪辑中出现的动作进行分类：接收用于分析的视频剪辑；将卷积神经网络机制(CNN)应用于剪辑中的帧以生成剪辑中的每个帧的4D嵌入张量；将多分辨率卷积神经网络机制(CNN)应用于剪辑中的帧中的每个帧以生成分辨率降低的块的序列；计算估计块中的运动量的运动学注意力权重；将注意力权重应用于剪辑中的每个帧的嵌入张量以生成加权的嵌入张量或上下文，该加权的嵌入张量或上下文在该分辨率下表示剪辑中的所有帧；跨所有分辨率组合上下文以生成多分辨率上下文；执行3D池化以获得1D特征向量；以及基于该特征向量对视频剪辑的主要动作进行分类

附图说明

参考以下附图描述本发明的非限制性和非穷尽性实施例。在附图中，除非另外指定，否则相同的附图标记贯穿各个附图指代相同的部分。

为了更好地理解本发明，将参考以下优选实施例的具体实施方式，其将与所附附图相关联被阅读，其中：

图1是分析视频剪辑中出现的动作并对其进行分类的多分辨率注意力网络(MRANET)的一般化框图。

图2提供四个连续较低分辨率版本的图像和特征表示的示例

图2图示出使用MRANET对视频剪辑中的动作进行分类的方法的实施例。

图3图示出由MRANET执行的整个体系结构和处理步骤。

图4图示出由MRANET生成的被称为块的多分辨率表示。

图5描述了由多分辨率注意力机制执行以生成最终上下文、或用于每个降低分辨率表示的注意力权重的处理。

附图仅出于说明目的来描绘本公开的实施例。本领域技术人员将从以下讨论容易地认识到，可以在不脱离本文中描述的本发明的原理的情况下采用本文中所图示的结构和方法的替代实施例。

具体实施方式

现在将在下文中参考所附附图更全面地描述本发明，所附附图形成本发明的一部分，并且通过图示的方式示出了具体的示例性实施例，本发明可以通过执行具体的示例性实施例来实施。然而，本发明可以以许多不同的形式具体化，并且不应被解释为限于本文中所阐述的实施例；相反，这些实施例被提供使得本公开将是彻底和完整的，并且将本发明的范围充分传达给本领域技术人员。除其他事项外，本发明可以被具体化为方法、过程、系统、业务方法或设备。因此，本发明可以采取完全硬件实施例、完全软件实施例或组合软件和硬件方面的实施例的形式。因此，以下详细描述不应被视为具有限制意义。

如本文中所使用，以下术语具有下文给出的含义：

视频剪辑或剪辑或视频——指的是包括多个帧的视频段。如本文中所使用，视频包括主要动作。

主体——指的是执行在视频剪辑中捕获的动作的人。

人类动作或动作——指的是视频剪辑内由人进行的移动。尽管本发明聚焦于人类动作，但本发明不限于此，并且还可以被应用于动物和诸如汽车、球等的无生命物体。

姿势或人类姿势——指的是视频帧内的主体的身体。姿势可包括整个身体或部分身体，例如，仅包括头部。

VHAR——指的是视频人类动作识别，这是计算机视觉中的基本任务，它旨在基于视频中执行的动作识别人类动作或对人类动作分类。

机器学习模型——指的是采用结构化和/或非结构化数据输入并生成预测或结果的算法或算法的集合。预测通常是值或值的集合。机器学习模型本身可以包括进行交互以产生结果的一个或多个组件模型。如本文中所使用，机器学习模型指的是神经网络，包括卷积神经网络或另一类型的机器学习机制，其接收视频剪辑作为输入数据，并相对于已知验证数据集生成估计或预测。通常，模型通过模型的连续执行来训练。通常，模型在训练阶段期间被连续执行，并且在成功地被训练之后，在操作上被用于评估新的数据以及作出预测。必须强调的是，训练阶段可以被执行数千次，以获得能够预测成功度量的可接受模型。进一步地，该模型可以发现数千个或甚至数以万计的特征。并且这些特征中的许多特征可能与作为输入数据提供的特征大不相同。由此，模型不是预先已知的，并且计算不能单独地通过脑力劳动来作出。

预测——本文中指的是视频剪辑中的动作属于特定的动作类或动作的特定类别的统计估计或估计的概率。预测也可以指代在包括许多单独的类的分类系统内分配给每个类或类别的估计或概率。例如，来自DeepMind的Kinetics 400数据集是常用的训练的数据集，它提供了最多650000个视频剪辑，其中的每个剪辑被分类为具有400个不同的人类动作或动作类的集合，该集合被称为动作分类或动作分类集合。

一般化操作

本发明的某些方面的操作在下文中参考图1-图3进行描述。

图1是分析视频剪辑中的动作并对其进行分类的多分辨率注意力网络(MRANET)的一般化框图。MRANET服务器120计算机操作或执行MRANET机器学习体系结构125(也被称为MRANET 125)。MRANET服务器120访问数据源130，该数据源提供视频剪辑(在本文中被称为x^c)以用于分析。视频剪辑可以在模型的训练期间被使用，或者可以被操作地用于分析和分类。例如，由GOOGLE公司运营的网站YOUTUBE.COM可以是数据源130中的一个。其他数据源130可以包括电视频道、电影和视频档案。通常，MRANET服务器120跨网络140从数据源130访问视频剪辑。

用户与TBoTNet服务器120进行交互，以标识并提供训练视频剪辑以训练MRANET体系结构125。通常，用户与在用户计算机110上执行的用户应用115进行交互。用户应用115可以是原生应用、在诸如来自MOZILLA的FIREFOX或来自GOOGLE公司的CHROME的网络浏览器内运行的网络应用、或者在诸如智能电话的移动设备中执行的应用。

用户计算机110可以是膝上型计算机、桌面型个人计算机、移动设备(诸如智能电话)或运行可以通过网络140进行交互以访问MRANET服务器120的程序的任何其他计算机。总体上，用户计算机110可以是智能电话、个人计算机、膝上型计算机、平板计算机、或具有处理器和用于存储程序指令和数据的非暂态存储器、显示器和诸如键盘和鼠标之类的交互装置的其他计算机系统。

MRANET 125通常存储数据并且执行下文参考图2和图3A-图3B描述的MRANET方法。MRANET服务器120可以由单个服务器计算机、由协同工作的多个服务器计算机或由网络服务、或由云服务提供商提供的“云”服务来实现。可以作为MRANET服务器120操作的设备包括但不限于个人计算机、桌面型计算机、多处理器系统、基于微处理器的消费性电子产品或可编程消费性电子产品、网络PC、服务器、网络设备等。

网络140使得用户计算机110和MRANET服务器120能够交换数据和消息。除了局域网(LAN)、广域网(WAN)、直接连接、其组合等之外，网络140还可以包括因特网。

多分辨率注意力网络

监督式机器学习模型为分类集中的每个类提供分数或概率估计。分数或概率指示视频剪辑包括由类成员表示的动作的可能性。如果单个预测被要求，则具有最高分数的类可以被选择。该类被认为表示在视频剪辑中最有可能出现的、由主体执行的动作。视频剪辑的验证数据集(在其中每个剪辑的主类是已知的)被用于通过使用来自数据集的不同的剪辑连续地操作模型以及使用每个连续的模型运行来调节模型来训练模型，以使误差最小化。

MRANET是用于基于视频的人类动作识别(VHAR)的深度端到端多分辨率注意力网络体系结构。图3图示出整个体系结构和由MRANET 100执行的处理步骤。MRANET 100对视频剪辑执行逐帧分析，以在第一学习步骤处概括空间动作表示。在某些实施例中，卷积神经网络(CNN)模型或机制被用作嵌入模型，其处理视频帧以提取特征。在某些实施例中，ResNet或残差网络(CNN实现方式)被使用。ResNet已证明对于图像识别和分类是有效的。然而，各种商业上可用的CNN模型、主干体系结构或提取随后可用于图像分类的图像特征的其他处理系统可以被使用。在某些实施例中，在ImageNet数据集上预训练的ResNet模型被用作嵌入模型(EM)。剪辑中的T个帧中的每个帧被提交给CNN 302以用于特征提取。通常，CNN 302是商业上可用的CNN模型，诸如ResNet 18。CNN 302顺序地或并行地处理视频剪辑中的t个帧中的每个帧，并且生成嵌入张量e_t作为针对每个帧的输出。

作为示例，在平均池化之前，由ResNet CNN生成的最后一个卷积层可以被用作输出嵌入张量e_t，并且随后用于进一步处理。形式上，EM采用特征量或4D嵌入张量(E)来表示视频剪辑的动作动态，其中E在下面的等式1中被定义：

E＝[e₁，...，e_t，...，e_T] 等式1

其中E具有形状E∈R^Txg·F·NxM，其中T是剪辑中的帧数，F是嵌入张量中的通道数或特征数，并且NxM是经裁剪的图像维度(即，空间大小)，并且g是增加ResNet模型的通道的总数的缩放因子。总体上，图像维度被表示为NxM，即宽度为N并且高度为M的图像。由此，[e₁,…,e_t,…e_T]中的每一个都是3D张量，其中维度是空间位置(被指定为(NxM)帧中的宽度和高度值)，以及特征值的集合(针对F通道中的每一个通道有一个值)。

动作表示的第二步骤使用参考图4进一步详细描述的多分辨率模型(MRM)体系结构来生成场景的精细到粗略表示。若干分辨率下的图像的细节表征MR空间中处于不同大小或频率和定向的不同物理结构。例如，粗略分辨率(本示例中为W³)下，低频与大的对象结构相对应并且提供图像“上下文”。替代地，更细粒度模型的分辨率层(W⁰,W¹,W²)从小的对象结构(细节)学习。MRM的优点在于它既不需要边界框也不需要人类姿势模型来检测场景中的对象。

图2提供图像以及其在四个分辨率连续降低的版本下的对应的特征表示的示例。表示A图示出初始输入图像。表示B示出了最高分辨率(即，最高分辨率)下的、图像的特征表示W⁰。表示C示出了半分辨率图像下的特征表示W¹。表示D示出了初始图像的四分之一分辨率下的特征表示W²。并且，表示E示出了八分之一初始图像表示下的特征表示W³。可以领会的是，这些表示本质上是CNN模型的中间层，并且B-E中所图示的提取的特征通常不与真实世界特征相对应。

时空注意力机制(在本文中被称为多分辨率注意力(MRA))使用运动学模型计算运动学注意力权重的向量。运动学注意力权重向注意力机制添加了时间循环计算，允许进行长时间序列建模。这意味着针对在时间t记录的图像计算的权重是基于在时间t-1记录的权重和/或图像来计算的。MRA在多分辨率上下文中概括每个人类动作。最后，动作识别步骤对上下文进行堆叠，并将它们置于分类器中以作出最终预测。请注意，整体的模型是可微分的，因此使用标准反向传播进行端到端的训练是可能的。一个新颖的地方在于在注意力权重的多分辨率空间中循环性(recurrence)的使用。

动作参数化

动作参数化对视频剪辑内由主体执行的动作进行建模或标识。返回图3，该模型假设对原始输入视频剪辑进行预处理以生成T个视频帧的序列，该序列被称为剪辑中的每个剪辑被提供至CNN 302并被提供至多分辨率模块(MRM)304。

形式上，视频剪辑可以通过4D张量x^c来描述，如下所示：

其中χ^c∈·R^T×3×W×H是概括场景中的运动动力学的视频剪辑，T是剪辑中的帧数，即2D图像的数量，W指的是以像素为单位的帧宽度或另一维度，并且H是帧高度，并且值3指的是三值颜色空间，诸如其中对于每个像素都存在红色、绿色和蓝色值的RGB。附加地，x^c _t∈R³ ^×W×H是视频剪辑中的第t帧。假设每个帧都包括主要动作c，其中c指的是帧的类，即帧会如何被分类器分类或它在训练集中如何被标记，并且C是类的数量。等式2的右侧表示平均帧()。为了简化注释，省略了批大小。MRA 300的结果是估计或预测的动作类分数，被称为也被称为logit(动作分类)。

用于空间分析的多分辨率模型

再次参考图3，多分辨率模型(MRM)304实现ResNet模型以构建x^c的每个帧的精细到粗略MR表示{W^j}，{j＝0,1,2,...,S-1}，其中S表示MR空间的分辨率降低的表示的数量或维数。本质上，等式3递归地计算每个剪辑的逐帧MR分解。所以，W^j可以被写成：

这是MR空间中的剪辑表示，其中

因此，每个W^j是表示图像的3D张量，而W是表示T个图像的剪辑的4D张量。

图4图示出由MRM 304生成的被称为块的多分辨率表示。这被图示为四个分开的模型，每个模型通常被实现为CNN模型。以来自剪辑x^c的视频帧开始，第一模型402创建全分辨率表示块W⁰。第二模型404基于W⁰生成半分辨率块W¹。第三模型406基于W¹、W⁰生成四分之一分辨率块W²。第四模型408基于W²、W¹、W⁰生成八分之一分辨率块W³。尽管图3中的MRM 304处理的描绘生成四个连续的分辨率降低的块，但本发明不限于此，并且MRM模型可以适于生成任何数量的降低的分辨率。进一步地，连续的降低不限于成为先前分辨率的一半。例如，表示可以是先前表示的分辨率的1/3或1/8。

下文中的表1示出了已被评估的若干种MRM体系结构。表1中定义的块[W0、W1、W2、W3]可以使用预激活ResNet18模型来生成。尽管如此，还是存在差异，Conv1层使用k＝(3x3)而不是(7x 7)，这是由ResNet模型使用的标准核。

除了使用ResNet CNN来计算分辨率降低的块之外，包括平均、插值和子采样的其他技术也可以被使用。

输出帧大小(NxM)在每个连续分辨率W^j处被降低1/2。由此，在表1的示例中，当V⁰＝112×112(输入数据x^c的帧大小)时，W⁰帧大小是56×56，W¹是28×28，以此类推。

模型的体系结构受到预激活ResNet18的启发。尽管如此，还是存在一个差异，初始Conv层(预处理输入)使用核k＝(3x 3)而不是k＝(7x 7)。除了通道和块的数量之外，体系结构的其余部分与ResNet18模型类似。通道和块的数量可以与最初的ResNet18实现方式不同，以瞄准性能(鉴于较少的乘法和加法操作的快速计算)或准确性。例如，可以使用具有较少通道的ResNet18体系结构来构建浅层模型，由此减少乘法和加法操作的数量。

尽管前面的讨论围绕用于创建MR块[W₀,W₁,W₂,W₃]的CNN网络体系结构为中心，但与用于创建W0的CNN网络体系结构相同的CNN网络体系结构可以被用于生成嵌入输出[e1,…eT]，即，类似或相同的预激活和卷积步骤可以被使用。

时间建模

在MR处理之后，4D张量W受注意力模型处理。作为学习的第一步骤，注意力模型计算注意力权重的向量。这些注意力权重也可以被称为运动学注意力权重，因为它们反映了跨剪辑中的帧的运动。第一，机制使用点积类似性从R^3D＝>R执行高维数缩减，随后进行2D池化操作。第二，该机制执行归一化(例如，使用softmax函数)以迫使权重处于范围[0，1]中。最后，注意力模型在归一化权重与模型的嵌入E之间执行线性或加权组合，以计算上下文来作出最终预测。

运动学注意力权重

各种替代方法可以被用于计算可被应用于嵌入模型输出E的帧的注意力权重。下文呈现用于计算注意力权重的四个替代公式：(1)前向速度，(2)后向速度，(3)后向加速度，以及(4)绝对位置。

在给定运动剪辑的情况下，可以使用循环计算、通过使时间t+1处的姿势对前一时间帧t中的姿势敏感来对人类姿势的时间依赖性进行建模。为了实现这一点，使用速度或加速度的估计，有限差分导数可以被用于计算运动学注意力权重。附加的模型计算位置注意力权重，其中不要求速度或加速度。运动学注意力权重允许模型学习在跟踪前一帧中的姿势的同时查看时间t处的姿势。

从数学上讲，时间t处的运动学注意力权重可以从其一阶有限导数和二阶有限导数来估计，一阶有限导数也可被称为前向和后向速度，二阶有限导数可被称为后向加速度，如下所示：

在绝对值中，t是视频剪辑内的帧的索引。假设视频剪辑在时间维度上具有固定的网格间距，即Δt＝1，即(Δt＝t+1-t＝1)，由此时间t-1、t和t+1指的是来自剪辑的三个帧的时间序列。类似地，二阶导数用它的前向和中心版本表达。二阶导数的后向表示被使用，因为它非常适合于在线计算。实际上，为了预测时间t处的动作，它只使用过去的信息。等式4、5和6各自按相对位置跟踪视频帧序列内的姿势或动作，因为时间t处的姿势是相对于先前时间步骤处的姿势来计算的。

另一方面，下面的等式7基于绝对位置跟踪姿势，如下所示：

一阶近似的一个潜在副作用在于增加了混叠(高频)，这种混叠可以被步长卷积操作放大，导致降级的准确性。用于对任何输入信号进行抗混叠的公知的解决方案是在对输信号进行下采样之前进行低通滤波。此操作可以对梯度操作符或对步长卷积操作执行。在一个实施例中，使用中心差分导数的一阶近似对梯度操作符执行低通滤波。对于均匀网格并使用泰勒级数，可以通过对前向-后向导数(等式4和等式5)求和来解析地计算中心导数，如下面的等式8给出：

尽管等式4、5和8使用两个时间点处的信息，但等式8提供了二次收敛。在实践中，相比于前向或后向差，等式8给出了准确性更好的结果。还可以观察到，等式7具有非时间依赖性特性(即，它不提供关于序列顺序的信息)；由此，当使用等式7时，注意力机制可能难以对长范围序列进行建模。因此，参考帧可以被添加以在帧之间施加相对排序。不是使用特定的帧，而是使用下面的等式9来集中注意力权重：

其中是围绕平均帧/>的对齐模型。此外，速度和加速度也使用下面的等式10、11和12进行对齐：

其中请注意，针对空间分辨率的特征的权衡遵循来自ResNet CNN模型的范数。

尽管等式4-7中呈现的分散注意力权重模型在许多情况下可能产生可接受的结果，但等式9-12中呈现的等式的重新对齐版本已被示出以产生更好的准确性。作为重新对齐的结果，对于距平均值的较短的运动位移，注意力权重将是较小的，而对于距平均值的较长的位移，注意力权重将是较大的。换句话说，模型自动地学习使用逐帧策略来关注剪辑中的信息性最高的部分，并且为每一帧分配反映与帧相对应的移动的可变性或量的权重。

由此，再次参考图3，等式9-12中的任一个都可以被选择以用于生成MR分解(其中j＝0,…,S-1)，这些是来自MRM 304的张量输出，也被称为运动学张量。替代地，不是选择由等式9-12表示的公式中的一个公式，而是可以将它们组合以生成张量输出W^j。例如，等式中的每个等式的结果可以被相加、平均或堆叠，并且被传递通过线性CNN层。

图5描述了由MRA 310、312、314和316执行以生成最终上下文ctx或每个分辨率的注意力权重的处理。

在步骤504处，由MRM 304生成的运动学张量被堆叠以创建块。类似地，在步骤502处，CNN 302的嵌入输出被堆叠以供稍后使用，如以下关于步骤510所描述。

接下来，在步骤506处，3D池化被使用，以使用下面的等式13来降低运动学张量的维数：

是针对在时间t处且分辨率为j的帧的注意力权重。/>或/>是相对或绝对的逐帧运动学张量，这取决于使用的是注意力权重公式中的哪个注意力权重公式。3D池化或平均消除或折叠了2D空间维度(NxM)以及特征维度(F)。

在步骤508处，注意力权重被归一化以创建归一化的注意力向量/>为了完成这一点，softmax和向量范数被应用以计算最终的运动学注意力权重，如：

其中是软运动学注意向量，并且是通过对每个分辨率j的构造得到的。|·|表示绝对值，并且||·||表示向量范数操作。/>是单一运动学注意力权重向量，这意味着当注意力机制计算动作上下文时，没有能量或缩放被添加到模型输出。请注意，正权重对具有类似的位移的左右动作实施平移不变性。总体上，软运动学注意力向量/>(或简称为注意力向量)为每个帧t提供注意力权重，它指定特定分辨率j下的具有T个帧的剪辑内的帧的相对贡献或重要性。

其他降维方法存在并且可以被用于计算等式14中所示的权重。例如，点积类似性(w^_t ^j)＞w^_t ^j可用于移除过滤器的维数，并且用于在(N×M)个空间位置上应用二阶统计(平均池化)。另一种解决方案是通过使用全连接层应用一系列线性变换来降低张量的维数(w^^j)，并使用softmax函数对权重进行归一化，它类似于点积解决方案。

软注意力和残差注意力

可以通过计算注意力向量与EM(即由CNN 302生成的嵌入张量E＝[e₁,…,e_t,…,e_T])之间的线性组合，来调整由语言模型用来对帧依赖性进行建模的经典确定性注意力机制，如下面的等式15所给出的：

被称为分辨率j下的软注意力。如先前所讨论的，g是缩放因子，使得如果嵌入模型(EM)是ResNet18或ResNet34，则g＝1，否则g＝4。软注意力在分辨率j下概括视频剪辑动作的上下文。也就是说，等式15将嵌入从T个帧减少到单个帧，其中各个帧通过注意力权重进行加权。由此，等式15针对每个分辨率j生成具有FxNxM的维度的单个加权的3D张量，其中注意力权重已被应用。本发明不限于使用线性组合作为将注意力权重应用于嵌入张量的方法；其他数学公式可以被使用。

尽管上面在等式14中计算的注意力权重向量是单一的，但权重并不总是总和为1。对于距平均值的小运动位移，出现潜在的缺点，其中/>它引起梯度消失。因此，等式15的软注意力机制可能在学习期间引入梯度不稳定性。这个问题使用残差学习技术来解决。

通过在等式15中添加嵌入特征来构建残差注意力机制。类似于等式15中的软注意力，等式16中的残差注意力首先使用3D池化通过使用等式13来减少运动学张量的维度，并且随后使用等式14来对注意力权重进行归一化。从数学上讲，这由给出，这相当于/>现在，如果/>那么/>将近似嵌入e。换句话说，如果运动学注意力向量执行相同映射/>则MRA模型性能不比没有注意力的模型差，这相当于仅使用嵌入模型(图3)。

最终的注意力(被称为缩放残差注意力(SRA))按1/T缩放，使得上下文对于剪辑是不变的。SRA由以下给出：

其中每个et是3D张量，e_t∈R^g·F·NxM

等式15和16各自针对每个分辨率j计算维度为FxNxM的单个3D张量。它们是被称为上下文ctx^j的替代表述。再次参考图3，ctx^j是MRA 310、312、314、316的输出。

多分辨率注意力

返回图3，在步骤320处，上下文(ctx⁰,ctx¹,…,ctx^S)相对于分辨率被堆叠。由此，由于存在S个分辨率，每个分辨率都是维度为FNM的张量，因此堆叠的上下文产生维度为SFNM的块。

接下来，在步骤322处，多分辨率注意力被计算，其利用精细到粗略上下文ctx^j。最终多分辨率注意力(MRA)被计算如下：

其中ctx^j或者可以是由等式16计算的或者可以是由等式15计算的/>请注意，mr_att是具有维度R^g·F·NxM的3D张量。

MRA类似于多头注意力，但存在两个主要差异。第一，不是级联分辨率，而是多分辨率被堆叠并且被平均，以具有平滑的特征。第二，多分辨率表示将场景看作不同的物理结构。这种精细到粗略的表示允许注意力模型自动地学习首先聚焦于最高分辨率表示下图像细节(小对象)，并且随后在每个渐进地更粗略(较低分辨率)的表示下聚焦于跨各种尺度保持的较大结构。

相比于现有技术的注意力权重建模，实现MR A 310、312、314和316的方法500基于各种分辨率下的、剪辑中的图像的特征表示来生成注意力权重。由此，在生成最终上下文时，考虑某些分辨率下可能显而易见的特征而不考虑其他特征。

随后，在步骤324处，3D池化操作被执行，该操作对时间和空间维度取平均，即，它对NxMxT进行降低。该步骤可以使用等式13来执行。通过折叠时间(T)和空间(NxM)维度，得到单个1xF特征向量，其中元素是针对F个特征中的每个特征的归一化的加权的值或分数。

在某些实施例中，对1XF特征向量执行丢弃(dropout)326操作。例如，如果存在相对于特征的数量相对少量的训练数据，使得模型过拟合成为考虑因素，则丢弃326可以被执行。例如，丢弃326可以在每次在训练期间运行模型时被应用。一般情况下，在其中不存在充足的数据以生成估计的情况下，丢弃326消除特征。在Srivastava等人的“Dropout:ASimpleWay to Prevent Neural Networks From Overfitting(丢弃：一种防止神经网络过拟合的简单方式)”，《机器学习研究杂志》第15期(2014)中描述了一种用于执行丢弃的方法。

最后的步骤被称为分类328，即，基于特征向量从类的集合中选择单个类作为输入视频(x^c)的主要动作。由于分类集中的类的数量可能不等于特征的数量，因此线性变换在该步骤处被执行，该线性变换具有针对分类集中的每个类的分数的分类向量。由于该步骤是使用线性变换来执行的，因此也可以被称为线性化。通常，具有最高值或分数的类(被称为)是估计或选择的类。

动作识别——模型训练

在多分辨率注意力完成计算后，MRA网络学习从动作的上下文中识别人类动作。由于logit是从模型的前向传递计算的原始非归一化模型预测的向量，如其中θ表示神经网络参数(即，权重)，并且x∈X，因此模型通过最小化负交叉熵对数损失来训练。应用诸如具有动量的随机梯度下降(SGD)(被称为SGDM，如下文的等式18给出)之类的方法，以迭代地学习模型的权重。也可以应用其他方法(包括诸如Adam和RMSProp之类的自适应方法)。

此处，β∈[0,1]是动量，λ是学习率，并且v₀被初始化为0。SGD的一个缺点在于在所有方向上的均匀的梯度缩放，这给调整学习率带来了困难。下面呈现了一种新颖的解决方案，该新颖的解决方案在本文中被称为线性学习率(LLR)更新。

LLR初始化学习率(例如，λ＝10^-2)，并在多个时期之后将其降低为1/10。在另一实施例中，常见地被称为超级收敛使用循环学习率(CLR)更新，这加快了训练并使模型正则化。

上述说明书、示例和数据提供了本发明的组合的制造和使用的完整描述。由于可以在不脱离本发明的精神和范围的情况下作出本发明的许多实施例，因此本发明驻留在下文所附的权利要求中。

表1。替代MRM体系结构。

/>

Claims

1.一种用于对视频剪辑中出现的动作进行分类的计算机实现的方法，包括：

接收用于分析的视频剪辑，所述视频剪辑包括视频帧的时间序列；

将卷积神经网络机制(CNN)应用于剪辑中的帧，以生成所述剪辑中的每个帧的4D嵌入张量，四个维度是时间、特征、图像宽度和图像高度，所述时间由所述剪辑中的视频帧的顺序来表示；

将多分辨率卷积神经网络机制(CNN)应用于所述剪辑中的所述帧中的每个帧，以生成分辨率降低的运动学张量的序列，其中，每个运动学张量表示降低的分辨率中的一个降低的分辨率下的帧；

对于每个分辨率降低的运动学张量，计算在降低的分辨率下估计对应的视频剪辑中的运动量的运动学注意力权重；

对于每个分辨率，将所述注意力权重应用于所述剪辑中的每个帧的所述嵌入张量以生成加权的嵌入张量，所述加权的嵌入张量被称为上下文、在所述分辨率下表示所述剪辑中的所有帧；

跨所有分辨率组合所述上下文以生成多分辨率上下文；

执行所述多分辨率注意力的3D池化以获得1D特征向量，其中所述特征向量中的每个值指示对应的特征的相对重要性；以及

基于所述特征向量对所述视频剪辑的主要动作进行分类。

2.如权利要求1所述的方法，其中，基于所述特征向量对所述视频剪辑进行分类包括计算动作分类集中的每个动作类的概率，其中，动作类概率指定对应的动作在所述视频剪辑中发生的可能性。

3.如权利要求2所述的方法，其中，计算每个动作类的概率包括在所述1D特征向量与表示所述动作分类集的1D动作类向量之间执行线性变换，从而产生所述动作分类集中的每个类的概率。

4.如权利要求1所述的方法，进一步包括将丢弃机制应用于所述特征向量，所述丢弃机制消除一个或多个特征。

5.如权利要求1所述的方法，其中，每个连续的分辨率降低的嵌入张量的分辨率是前一分辨率降低的嵌入张量的分辨率的一半。

6.如权利要求1所述的方法，其中，将多分辨率注意力机制应用于所述分辨率降低的运动学张量包括：

在每个分辨率下针对每个帧计算张量，所述张量表示在对应的视频帧中在每个空间位置处的运动；以及

执行折叠宽度、高度和特征维度的3D池化操作，从而在每个分辨率下针对每个帧产生标量注意力权重。

7.如权利要求1所述的方法，其中，执行所述多分辨率注意力的3D池化包括在宽度、高度和特征维度上对所述运动学张量取平均。

8.如权利要求1所述的方法，其中，生成分辨率降低的运动学张量的序列包括：

执行卷积神经网络操作以生成新的卷积层；

使用从由双线性插值、取平均、加权、子采样或应用2D池化函数构成的组选择的技术来降低所述新的卷积层的分辨率。

9.如权利要求1所述的方法，其中，计算估计所述视频中的所述运动量的运动学注意力权重包括：

使用从由一阶有限导数、二阶有限导数和基于时间t的绝对位置构成的组选择的方法，生成时间t处的视频帧的张量表示；以及

将所述张量表示集中在平均帧值周围。

10.如权利要求1所述的方法，其中，跨所有分辨率组合所述上下文包括：

堆叠针对每个分辨率的所述上下文；以及

计算针对每个2D空间位置具有特征值的单个3D张量。

11.一种服务器计算机，包括：

处理器；

通信接口，与所述处理器通信；

数据存储装置，用于存储视频剪辑；以及

存储器，与所述处理器通信，用于存储指令，所述指令在由所述处理器执行时使得所述服务器：

将卷积神经网络机制(CNN)应用于剪辑中的帧，以生成所述剪辑中的每个帧的4D嵌入张量，四个维度是时间、特征、图像宽度和图像高度，其中所述时间由所述剪辑中的视频帧的顺序来表示；

跨所有分辨率组合所述上下文以生成多分辨率上下文；

基于所述特征向量对所述视频剪辑的主要动作进行分类。

12.如权利要求11所述的服务器计算机，其中，基于所述特征向量对所述视频剪辑进行分类包括计算动作分类集中的每个动作类的概率，其中，动作类概率指定对应的动作在所述视频剪辑中发生的可能性。

13.如权利要求12所述的服务器计算机，其中，计算每个动作类的概率包括在所述1D特征向量与表示所述动作分类集的1D动作类向量之间执行线性变换，从而产生所述动作分类集中的每个类的概率。

14.如权利要求11所述的服务器计算机，其中，所述存储器进一步使所述服务器：

将丢弃机制应用于所述特征向量，所述丢弃机制消除一个或多个特征。

15.如权利要求11所述的服务器计算机，其中，每个连续的分辨率降低的嵌入张量的分辨率是前一分辨率降低的嵌入张量的分辨率的一半。

16.如权利要求11所述的服务器计算机，其中，将多分辨率注意力机制应用于所述分辨率降低的运动学张量包括：

17.如权利要求11所述的服务器计算机，其中，执行所述多分辨率注意力的3D池化包括在宽度、高度和特征维度上对所述运动学张量取平均。

18.如权利要求11所述的服务器计算机，其中，生成分辨率降低的运动学张量的序列包括：

执行卷积神经网络操作以生成新的卷积层；

19.如权利要求11所述的服务器计算机，其中，计算估计所述视频中的所述运动量的运动学注意力权重包括：

将所述张量表示集中在平均帧值周围。

20.如权利要求11所述的服务器计算机，其中，跨所有分辨率组合所述上下文包括：

堆叠针对每个分辨率的所述上下文；并且

计算针对每个2D空间位置具有特征值的单个3D张量。