CN108062505A

CN108062505A - 基于神经网络的动作检测

Info

Publication number: CN108062505A
Application number: CN201610987537.0A
Authority: CN
Inventors: 兰翠玲; 曾文军; 宋思捷; 兴军亮
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-11-09
Filing date: 2016-11-09
Publication date: 2018-05-22
Anticipated expiration: 2036-11-09
Also published as: WO2018089221A1; US20200074227A1; EP3539050A1; US11003949B2; CN108062505B

Abstract

本公开的各种实现涉及基于神经网络的动作检测。提出了一种使用神经网络的动作检测方案。该动作检测方案可以基于不同帧各自的重要性来设计和优化神经网络模型，使得较高的权重倾向于被分配给对动作识别而言重要性较高或判别性较高的帧，较低的权重倾向于被分配给对动作识别而言重要性较低或判别性较低的帧。

Description

基于神经网络的动作检测

背景技术

检测诸如人类、机器人、动物或者其他移动对象等各种实体的动作或者活动，在很多领域具有重要的应用价值。这样的领域包括但不限于监控、卫生保健、人机交互、智能机器人导航、计算机游戏，等等。动作检测通常依赖于被称为“动作分类器”的训练模型。这样的模型可以利用与一个或多个移动的动作有关的视频来训练。一旦被训练，该模型可以被用于处理输入视频以便确定是否发生特定的动作。尽管付出了很大努力，但是基于模型的实体动作检测仍然是一项富有挑战的任务。期望进一步提升动作识别的性能以将其投入各种应用中。具体地，在快速有效识别关键特征，提升动作识别的精度以及减少模型训练的复杂度等方面存在改进的空间和需求。

发明内容

根据本公开的实现，提出了一种使用神经网络的动作检测方案。该动作检测方案基于视频或视频片段中的不同的帧对分类结果的判别性具有不同的影响。由此，可以考虑视频或视频片段的不同帧的不同的重要性(也称“注意力”)，使得神经网络模型倾向于分配较高的权重给对动作识别而言重要性较高或判别性较高的帧，分配较低的权重给对动作识别而言重要性较低或判别性较低的帧。相似地，一个视频帧中，不同区域(例如，在骨架表示中也可以称为“关节点”)有不同的重要性，使得神经网络模型倾向于分配较高的权重给对动作识别而言重要性较高或判别性较高的区域，分配较低的权重给对动作识别而言重要性较低或判别性较低的区域。

提供发明内容部分是为了简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

图1示出了根据本公开的一个实现的示例场景；

图2示出了能够在其中实施本公开的实现的环境的框图；

图3a示出了根据本公开的一个实现的示例递归神经网络(RNN)神经元的结构的框图；

图3b示出了根据本公开的一个实现的示例长短时记忆(LSTM)神经元的结构的框图；

图4示出了根据本公开的一个实现的学习网络的结构的框图；

图5示出了根据本公开的一个实现的模型的示意图；

图6示出了根据本公开的一个实现的动作检测的方法的流程图；

图7示出了根据本公开的另一实现的动作检测的方法的流程图；

图8示出了根据本公开的一个实现的时间注意力权重的曲线图；

图9示出了图8的实现的差分时间注意力权重的曲线图；

图10示出了根据本公开的多个实现的性能比较图；以及

图11示出了其中可以实施本公开的一个或多个实现的示例计算系统/服务器的框图。

具体实施方式

现在将参照若干示例实现来论述本公开。应当理解，论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开，而不是暗示对本主题的范围的任何限制。

如本文中所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“或者”要被解读为“和/或”，除非上下文明确另外指示。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。除非另外地明确指出，术语的定义贯穿说明书是一致的。

概述

通常而言，基于包括多个帧的视频或视频片段进行动作识别综合考虑各个帧的贡献。例如，对这些帧同等地对待和处理。根据本公开的一个实现，可以将不同帧对分类决策的影响考虑在内以设计和优化神经网络模型，使得将不同的重要性给予不同的帧。例如，较高的权重被分配给对动作识别而言重要性较高或判别性较高的帧，较低的权重被分配给对动作识别而言重要性较低或判别性较低的帧。以这种方式，可以进一步提升模型精度，更加有利于动作识别。

图1示出了根据本公开的一个实现的示例场景，其包括从(a)-(f)按照时间顺序排列的六个帧。在每一帧中包括对象10和20，分别是被踢者和踢者。可以看出，图1所表示的脚踢动作可以分为多个阶段，例如，准备阶段(a)-(b)、踢腿阶段(c)-(d)和收腿阶段(e)-(f)，其中踢腿阶段对动作识别而言最具判别性。因而，可以针对踢腿阶段分配较高的注意力，从而有利于动作的识别和精度的提升。

在一些实现中，还可以考虑空间注意力。例如，在图1所示的示例场景中，踢者的脚部动作对这一动作的识别最具判别性。因此，在动作识别期间可以分配较高权重给踢者的脚部。

下面将结合附图具体地描述本公开的各种示例性实现方式。

示例环境

图2示出了能够在其中实施本公开的实现的环境100的框图。应当理解，仅出于示例性的目的描述环境100的结构和功能而不是暗示对于本公开的范围的任何限制。本公开可以被体现在不同的结构和/或功能中。

环境100包括模型构建系统110和模型执行系统120。模型构建系统110被配置为根据训练数据集112构建用于动作检测的模型。数据集112可以包括一个或多个带标签的视频。这些视频或者视频片段可以被用标签标为与其中的一个或多个实体的预定义动作相关联。例如，视频或视频片段可以被分类为与包括喝、吃、洗手、打开电器、扫掠、漱口、扔垃圾、擦拭等等的预定义动作相关联。实体可以例如是人类、机器人、动物或者其他移动对象。视频中的实体的任何其他动作也可以被识别和贴标签。对视频或帧贴标签可以自动地和/或手动地执行。视频或帧的动作标签也可以被提供在数据集112中。

被包括在模型构建系统110中的表示提取器114可以被配置为提取数据集112中的视频中的相应帧的表示信息。一般而言，视频的帧不可以直接地用于训练用于动作检测的模型。取而代之，表征帧中的一个或多个实体的更少量信息可以被提取以用于训练该模型，这将有助于提高训练过程的准确度和有效性。一个帧的表示信息可以表示该帧中的实体。在一些情况中，如果一个帧中包括多于一个实体，可以确定感兴趣的实体的表示信息。备选地，可以使用帧中所有实体的表示信息。

在一些实现中，表示信息可以是帧中的一个或多个实体的骨架表示(skeletonrepresentation)。骨架表示可以包括帧中的一个或多个实体的至少一个关节的信息，包括(多个)关节的二维(“2D”)或三维(“3D”)位置信息。可以通过标识帧的二维图像的一个或多个实体的(多个)骨架结构或者通过利用深度相机(depth camera)拍摄视频来获得关节信息。备选地或附加地，可以使用其他表示信息，诸如强度图中的梯度方向直方图(Histogramof Oriented Gradient，HOG)或者通过尺度不变量特征变换(Scale-Invariant FeatureTransform，SIFT)的算法提取的信息。

在一些实现中，判别性特征的提取基于RGB视频，其通常为二维信息，因而丧失了一些三维空间信息，例如，丧失了获得人体位置和尺度不变性的灵活性。骨架表示表示关键关节的3D坐标位置，因而对于位置和视角的变化具有鲁棒性。图1示出了骨架表示的一个示例，从图1的骨架表示可以清楚看出该动作为脚踢动作。此外，还可以看出，脚踢动作可以分为多个阶段，例如，准备阶段、踢腿阶段和收腿阶段，其中踢腿阶段对动作识别而言最具判别性。此外，从空间上讲，踢者的脚部动作对这一动作的识别最具判别性。因此，在动作识别期间可以考虑将这些因素考虑在内。

现在返回图2，被包括在模型构建系统110中的学习单元116被配置为基于训练数据集112中的帧的表示信息和预定义动作标签来训练用于动作检测的模型。可以首先构建该模型的结构。训练过程的目标在于确定该模型的结构的参数。该模型可以被表示为帧的表示信息和对应的动作标签的一个或多个函数。

在一些实现中，来自模型构建系统110的经训练的模型可以被提供至模型执行系统120用于从一个或多个新的帧中标识出动作。具体地，表示提取器124接收输入帧122并且提取该帧的表示信息。表示信息可以被提供至执行单元126以作为经训练的模型的输入。该模型的输出可以指示该帧是否与任何预定义动作标签相关联。一般而言，与这些预定义动作标签有关的多个帧已经被用于在模型构建系统110中模型。

尽管表示提取器114被示出为被包括在图2的系统110中，在一些实现中，表示提取器114可以与系统110分离。训练帧可以由远端表示提取器处理。输入到模型构建系统110、例如到训练模块116的数据集112然后看而已包括所提取的帧的表示信息和对应的预定义数据标签。在一些实现中，表示提取器124也可以分离于模型执行系统120。

根据本公开的实现，将用于动作检测的模型构建为包括主网络和时间注意力子网络和/或空间注意力子网络的学习网络。学习网络包括神经网络单元，例如，递归神经网络(recurrent neural network,RNN)单元。具有RNN单元的学习网络可以被称为递归神经网络并且被包括在该网络中的单元可以被称为神经元(neuron)。在下文中，术语“学习网络”、“学习模型”、“神经网络”和“递归神经网络”可替换地使用。术语“单元”和“神经元”可替换地使用。RNN神经元可以被设计为从帧(或者帧的表示信息)中学习特征。分类神经元可以被用于基于特征来将帧划分到预定义分组中。如本文中所使用的，术语“特征”指的是由RNN神经元学习到的帧的(时间)动态的信息。利用RNN神经元，学习网络是强大的以便于基于有限知识输出期望的检测结果。

在一些实现中，学习网络及其子网络可以是多层神经网络。RNN神经元可以被布置为一个或多个RNN层，每个层包括一个或多个RNN神经元。RNN层可以构成特征学习子网络。第一个RNN层接收输入帧的表示信息并且向下一层输出学习到的特征。其他RNN层继续处理特征并且将经更新的特征提供至后续层。为了学习网络的深度学习和更高准确度，可以将全连(fully-connected，FC)层布置在每两个RNN层之前。全连层可以包括一个或多个用于特征融合并且基于非线性函数来更新来自RNN层的特征。

图3a示出了示例RNN神经元150，其包括非线性元160，也称为非线性激活函数。RNN神经元具有自连接的递归连接，其建模时间上的演变，考虑了当前输入和它的先前输出两者。为了更好地理解神经网络，RNN神经元150的示例处理可以被表示为：

h_t＝θ(W_xhx_t+W_hhh_t-1+b_h) (1)

其中h_t表示RNN层在时间点t处的输出响应，x_t表示RNN层在时间点t处的输入，W_xh表示从输入x_t到输出h_t的映射矩阵，W_hh表示RNN层内部的映射矩阵、从在先前的时间点t-1处的输出h_t-1到当前的输出响应h_t，b_h表示偏置向量，并且θ(·)表示非线性函数，其在图3a中由非线性元160表示。非线性函数可以是tangent函数、sine函数、sigmoid函数或者可以向输入应用非线性的任何其他函数。将注意到，RNN神经元中的递归计算可以以其他形式表示。

在一些实现中，RNN单元可以受到消失梯度效应的影响。为了克服这个限制，取代普通RNN神经元，可以使用长短时记忆(LSTM)神经元。图3b示出了示例LSTM神经元200的结构。如所示出的，LSTM神经元200包括输入门210、输出门220、记忆元230、遗忘门240和两个非线性元250和260。输入门210和遗忘门240控制流入和流出记忆元230的信息。输出门220控制来自记忆元230的多少信息被传递到LSTM神经元200的输出h_t。记忆元230具有权重为1的自连接递归边沿，确保梯度可以跨越多个时间步长而不会消失或爆炸。因此，这个结构允许LSTM神经元200记忆和访问许多时间步长之前的信息，克服了在训练神经网络时由梯度消失效应导致的困难。

尽管本文中主要结合RNN神经元或LSTM神经元来描述本公开的原理，但是将会理解也可以使用现有的或将来开发的其他类型的神经元来实现本公开的原理。

模型架构

图4图示了学习网络300的总体架构。如所示的，学习网络300包括主网络320。如图4所示，主网络320接收输入x_t，其可以是从如图2所示的表示提取器114或124所输出的时间点t的帧的表示信息。在骨架表示的情况下，输入x_t可以是时间点t的K个关节的全集x_t＝(x_t,1,…,x_t,K)^T，其中k为1到K的整数。换言之，在骨架表示的情况下，输入x_t可以是K个关节的三维空间坐标的集合。

如所示出的，主网络320包括LSTM层302、304和306以及全连接(FC)层308。LSTM层306的输出h_t被馈送到FC层308，从而获得主网络320的输出z_t。主网络320的一个示例实现例如可以在论文“Co-occurrence Feature Learning for Skeleton based ActionRecognition using Regularized Deep LSTM Networks”(https://arxiv.org/abs/1603.07772)和美国专利申请No.15/169,593中找到，其通过引用将其整体合并于此。

将会理解，尽管在主网络320中示出了三个LSTM层和一个FC层，但是主网络320可以包括另外的LSTM层或FC层，或者这些LSTM层或FC层中的一些层可以被省略。在一些实现中，主网络320可以仅包括一个LSTM层，其包括多个LSTM神经元。在一些实现中，一个或多个LSTM层可以被包括多个RNN神经元的普通RNN层代替。在一些其他实现中，主网络320可以包括其他未示出的神经网络层，或者也可以以与图4所示的顺序不同的方式布置。

在一些实现中，学习网络300还可以设置空间注意力子网络340。空间注意力子网络可以获得每个帧的各个部分或者关注点的重要性，也称为权重或注意力。在一些实现中，可以将每个帧划分为多个部分，通过空间注意力子网络340获得每个部分的权重。在一些实现中，可以确定每个帧的若干关注点，进而通过空间注意力子网络340确定分配给相应关注点的注意力。与帧的静态划分不同，关注点可以随着时间动态变化，而不局限于帧的某个静态部分。例如，在骨架表示的实现中，可以通过空间注意力子网络340针对人体的骨架表示的关节确定相应的权重。下面将结合骨架表示来描述空间注意力子网络340的基本原理，然而将理解该原理将很容易应用于基于关注点的其他实现或者基于区域划分的实现。

在空间注意力子网络340中，用于指示K个关节的重要性的评分s_t可以通过以下等式(2)获得

其中U_s、W_xs、W_hs表示可学习的参数矩阵，b_s、b_us表示偏置向量，评分向量s_t＝(s_t,1,…,s_t,K)^T，是来自LSTM层320的隐藏变量，以及函数tanh(·)表示双曲正切函数。

对于第k个关节，激活选择门的激活值可以被计算为：

其是归一化的评分。这些门控制每个关节向主网络320馈送的信息量。在关节之中，激活值越大，该关节对于确定动作类型的重要性越高。激活值也可以称为注意力权重。在常规方案中，所有的关节x_t分配相同的权重。作为对比，如图4所示，主网络的输入通过激活值而被调制为x′_t＝(x′_t,1,…,x′_t,K)^T，其中x′_t,k＝α_t,k·x_t,k。

以上结合等式(2)和(3)描述了空间注意力子网络340的原理。为了更加清楚起见，现在进一步结合如图4所示的空间注意力子网络340的示例性结构对其进行描述。如图4所示，空间注意力子网络340接收当前时间点t和前一时间点t-1的帧的表示信息x_t和x_t-1。前一时间点t-1的帧的表示信息x_t-1被馈送到LSTM层320以确定隐藏变量隐藏变量包含过去的帧的信息，这是由于LSTM能够利用长时间范围的记忆效应。表示信息x_t和隐藏变量被馈送到FC层322，其向tanh单元324馈送可以由所表示的输出。继而，tanh单元324和线性全连层来确定评分s_t，从而可以确定哪些关节对于动作识别更加具有判别性。就这点而言，tanh单元324也可以被称为选择门。将理解，尽管这里使用双曲正切函数作为非线性激活函数，然而也可以使用其他任何适当的非线性函数。

由于双曲正切函数的值域为(-1，1)，因而可以将评分s_t进行归一化以便于后续处理。此外，将评分s_t归一化有助于控制“注意力”的动态范围。因此，空间注意力子网络340还可以包括归一化单元328，其可以根据等式(3)而对评分s_t进行归一化，以获得最终的空间注意力α_t。

在由空间注意力子网络340确定空间注意力α_t之后，可以通过空间注意力α_t对时间点t的输入x_t进行加权而获得修正后的输入x′_t，其继而被馈送至主网络320。在图4所示的实现中，空间注意力被馈送到主网络320的输入并且与当前帧的输入相结合。备选地，空间注意力也可以在主网络320的输出或者其他位置处馈送到主网络320。

视频可以视为包括多个帧的序列，但是由不同帧所提供的有价值的信息的量并不相等。只有一些帧(例如，关键帧)包含最具判别性的信息，而其他帧可能仅提供情境信息。例如，对于动作“握手”，子阶段“靠近”应当比“手相握在一起”的子阶段具有更低的重要性或判别性。基于这样的认识，可以设计时间注意力模块使得对不同的帧自动地赋予不同的注意力。

如图4所示，时间注意力子网络360包括LSTM层342、FC层和修正线性单元(ReLU)346。时间注意力子网络360起到软的帧选择的作用。作为帧选择门的激活可以被计算为：

其取决于当前输入x_t和来自LSTM层342的时间点t-1时的隐藏变量在这里使用ReLU 346是因为其良好的收敛性能，但是也可以使用其他非线性单元。ReLU 346用作控制每个帧对最终分类决策的信息量的门。

以上结合等式(4)描述了时间注意力子网络360的原理。为了更加清楚起见，现在进一步结合如图4所示的时间注意力子网络360的示例性结构对其进行描述。如图4所示，时间注意力子网络360接收当前时间点t和前一时间点t-1的帧的表示信息x_t和x_t-1。前一时间点t-1的帧的表示信息x_t-1被馈送到LSTM层342以确定隐藏变量隐藏变量包含过去的帧的信息，这是由于LSTM能够利用长时间范围的记忆效应。表示信息x_t和隐藏变量被馈送到FC层344，其向ReLU 346馈送可以由所表示的输出。继而，ReLU 346确定时间点t的帧的重要性或注意力，从而可以确定哪些帧对于动作识别更加具有判别性。就这点而言，ReLU 346也可以被称为选择门。将理解，尽管这里使用线性修改单元作为非线性激活函数，然而也可以使用其他任何适当的非线性函数。

在由时间注意力子网络360确定时间注意力β_t之后，可以通过时间注意力β_t对主网络320的输出z_t进行加权而获得修正后的输出z′_t。在图4所示的实现中，时间注意力被馈送到主网络320的输出并且与主网络的输出相结合。备选地，时间注意力也可以在主网络320的输入或者其他位置处馈送到主网络320。

应当理解，尽管图4所示的示例实现包括空间注意力子网络340和空间注意力子网络360两者，但是在其他实现中也可以仅使用空间注意力子网络340和时间注意力子网络360中的一个。此外，尽管在空间注意力子网络340和时间注意力子网络360中都仅示出了一个LSTM层，但是在其他实现中也可以使用多个LSTM层。

以上结合图4描述了针对一个时间点的学习网络300，然而，对于动作识别而言通常需要分析多个视频帧以确定动作类型。以下将结合图5描述基于多个时间点的多个帧的神经网络模型500。

模型500针对每个帧可以包括一个分支，每个分支例如可以被实现为图4所示的学习网络300。为了简单起见，这里没有示出每个分支的注意力子网络，而是仅示出了注意力子网络所提供的输出。例如，图5示出了针对三个时间点t-1、t和t+1的视频帧的三个分支。框508、512和516分别示意性示出了针对三个时间点t-1、t和t+1的空间注意力和骨架表示输入。例如，在时间点t的支路，框512包括以图表形式示出的对于各个关节的空间注意力，以及以骨架形式示出的视频帧的骨架表示。主网络506、510和514分别从相应的框508、512和516获得相应的输入x′_t-1、x′_t和x′_t+1，其通过将各自的空间注意力α_t-1、α_t和α_t+1与帧的表示信息x_t-1、x_t和x_t+1加权求和而获得。在通过主网络506、510和514之后，获得输出z_t-1、z_t和z_t+1。如图5所示，每个主网络506、510和514的输出z_t-1、z_t和z_t+1分别与相应的时间注意力β_t-1、β_t和β_t+1相乘而获得修正的输出z′_t-1、z′_t和z′_t+1。上面已经结合图4对上述过程进行了详细描述，因而在此不再赘述。

应当理解，尽管在这里对每个RNN层(例如，LSTM层)仅描述了其作为帧(或表示信息)的输入，但是如图3b所示，其还包含由上一时间点的相应RNN层的输出所提供的输入。例如，图4的主网络320中的RNN层的输出h_t还被提供给下一时间点t+1的RNN单元。类似地，空间子网络340中的LSTM层320的输出也提供给下一时间点t的相应空间子网络；时间子网络360中的LSTM层342的输出也提供给下一时间点t的相应时间子网络。

还应当理解，尽管在图5中示出了多个主网络506、510和514，但是在一些实现中，学习网络可以如图4所示仅包括一个主网络320。这一个主网络可以针对不同的帧或者不同的时间点的视频输入依次进行处理。换言之，前一帧的输出作为下一帧的输入，但是共享相同的网络结构和网络参数。类似地，时间注意力子网络的数目也可以仅为一个，空间注意力子网络的数目也可以仅为一个。

动作识别是一种序列层级的分类问题，因此，可以基于每个主网络的修正的输出z′_t-1、z′_t和z′_t+1(即每个时间点t的主网络的输出z_t与相应的时间注意力β_t-1、β_t和β_t+1的乘积)确定C个类别的评分。在一些实现中，通过对修正的输出z′_t-1、z′_t和z′_t+1求和来确定C个类别的评分o：

其中o＝(o₁,o₂,…,o_C)^T，T表示序列的长度或者帧的数目。

然后，将评分o馈送至软最大化(Softmax)单元504，此处确定各个类别的概率。例如，给定序列X，预测为第i类的概率是

目标函数502接收来自Softmax单元504的各个类别的概率以及来自时间注意力子网络的各个帧的时间注意力和来自空间注意力子网络的各个帧的空间注意力，以及网络的参数。在训练学习网络500的过程中，可以基于与各个视频对应的预定义动作标签通过最小化目标函数502来确定学习网络500的参数。

目标函数502可以被表示为：

其中y＝(y₁,…,y_C)^T表示实况(ground truth)标签。如果该序列属于第i类，则y_i＝1并且对于j≠i，则y_j＝0。表示该序列被预测为第i类的概率，其中例如如等式(6)所示。此外，||·||₂和||·||₁分别表示l₂范数和l₁范数。标量λ₁、λ₂和λ₃可以用来平衡三个约化项的贡献。

由等式(7)所表示的目标函数502的第一项为交叉熵损失。交叉熵损失函数是神经网络中常用的损失函数。将理解，也可以使用其他适当的损失函数。

由等式(7)所表示的目标函数502的第二项为针对空间注意力子网络的约化项，其被设计用于鼓励空间注意力模型关注于序列中的更多的空间节点，即均匀地分配注意力。这是因为本发明人发现随着时间的演化空间注意力模型倾向于忽略很多关节，即使这些关节对于确定动作类型也是有价值的。换言之，空间注意力模型容易陷到局部最优解。因此，这一约化项被引入以避免这一问题。

由等式(7)所表示的目标函数502的第三项为针对时间注意力子网络的约化项，其设计用于使学习到的时间注意力在l₂范数下受控，而不是让其无限制地增大。这避免了后向传播中的梯度问题。

由等式(7)所表示的目标函数502的第四项具有l₁范数，用于防止整个模型的过拟合。W_uv表示模型中的连接矩阵，在此为了简化符号将所有参数合并为一个矩阵。

模型训练

图6示出了根据本公开的实现的动作检测的方法600的流程图。方法600例如可以由图2所示的学习单元116来执行。在步骤620中，获取视频的多个帧的表示信息和针对该视频的预定义动作标签，其中表示信息表示视频的多个输入帧中的实体。在一些实现中，表示信息可以包括与实体相关联的骨架表示。

包括带标签的视频或视频片段的帧的数据集可以被用于训练模型500。每个视频或者每个视频片段可以被贴有对应的动作标签。训练的目标在于确定被包括在模型500中的参数，例如，映射矩阵(和偏置矩阵)，这通常通过最小化目标函数来进行。

在步骤640中，基于多个帧的表示信息和预定义动作标签，更新学习网络。在一些实现中，学习网络可以是图4的学习网络300或者图5所示的模型500中的学习网络或者其一部分。在一些实现中，被包括在学习网络中的参数可以被初始化为例如某些随机值或者固定值。学习网络可以包括神经网络层或神经网络单元，例如，RNN层或RNN单元。在一些实现中，RNN单元可以是LSTM单元。

在一些实现中，可以基于帧的表示信息和对应的预定义动作标签来确定或更新学习网络的参数。在一些实现中，诸如交替最小二乘法(alternating least square，ALS)、随机梯度下降法(SGD)或者有限记忆BFGS(Broyden,Fletcher,Goldfarb和Shanno)可以被用于训练学习网络。附加地，可以使用通过时间后向传播(Back Propagation Through Time，BPTT)方法来在迭代过程更新参数。

如上所述，学习网络可以是如图4所示的学习网络300或如图5所示的模型500中的学习网络，或者也可以是模型500中的学习网络的一部分。在一些实现中，学习网络可以包括第一子网络，第一子网络可以基于表示信息确定相应的帧的重要性。例如，第一子网络可以是如图4或图5所示的时间注意力子网络。学习网络可以确定多个输入帧与预定义动作标签相关联的概率。在一些实现中，学习网络包括主网络，主网络的输出与第一子网络所确定的重要性相结合，例如，主网络的输出可以通过等式(5)与第一子网络所确定的重要性相结合。

在一些实现中，学习网络还可以包括第二子网络，第二子网络可以基于表示信息确定相应帧中的多个预定部分或预定关注点的重要性。在一些实现中，主网络还可以接收第二子网络所确定的重要性作为输入。例如，第二子网络可以是如图4或图5所示的空间注意力子网络。

在一些实现中，第一子网络接收多个帧中的第一帧的表示信息和在第一帧之前的第二帧的表示信息，并且基于非线性函数确定第一帧的重要性。在一些实现中，第一子网络包括神经网络单元，其接收第二帧作为输入，并且将输出提供给非线性函数。在一些实现中，神经网络单元可以是RNN单元，例如LSTM单元。

在一些实现中，第二子网络接收多个帧中的第一帧的表示信息和在第一帧之前的第二帧的表示信息，并且基于非线性函数确定该帧中的多个预定部分或多个预定关注点的重要性。在一些实现中，第二子网络包括神经网络单元，其接收第二帧作为输入，并且将输出提供给非线性函数。在一些实现中，神经网络单元可以是RNN单元，例如LSTM单元。在一些实现中，第二子网络还可以包括归一化单元，被配置为将非线性函数的输出归一化以确定第一帧的重要性。

在一些实现中，更新学习网络包括基于由学习网络输出的动作标签的概率和由第一子网络确定的重要性，更新学习网络使得目标量最小化，该目标量限制由第一子网络确定的重要性的值的增加。在一些实现中，目标量可以是如等式(7)所表示的目标函数或其一部分。如上所述，如等式(7)所表示的目标函数的第三项(即，第二约化项)用于使学习到的时间注意力在l₂范数下受控，防止其无限制的增加。

在一些实现中，更新学习网络包括基于由学习网络输出的动作标签的概率和由第二子网络确定的重要性，更新学习网络使得目标量最小化，目标量促使由第二子网络确定的重要性平均分布于多个输入帧中的多个部分或多个关注点。在一些实现中，目标量可以是如等式(7)所表示的目标函数或其一部分。如上所述，如等式(7)所表示的目标函数的第二项(即，第一约化项)用于使学习到的空间注意力趋向于均匀分布，防止随着时间的演化学习网络忽略很多部分或关注点。

根据本公开的一个或多个实现，学习网络除主网络之外还可以包括第一子网络(例如，时间注意力子网络)和/或第二子网络(例如，空间注意力子网络)。以这种方式，学习网络的结构比较复杂，从而难以进行常规的优化或训练。因而，在此提出了一种用于更新这种学习网络的方法。简而言之，这种方法包括针对第一类型子网络(例如，时间注意力模型)的预训练阶段、针对第二类型子网络(例如，空间注意力模型)的预训练阶段、针对主网络的训练阶段以及联合训练阶段。将理解，针对不同的学习网络，可以省略这些阶段中的一个或多个，也可以调整这些阶段的顺序。为了简单起见，下面以针对时间注意力模型的预训练、针对空间注意力模型的预训练、针对主网络的训练以及联合训练的顺序进行描述。

在一些实现中，针对时间注意力模型的预训练阶段可以包括：在固定空间注意力子网络的参数的情况下，更新时间注意力子网络和主网络的参数。在一些实现中，更新时间注意力子网络和主网络的参数包括在固定空间注意力子网络的参数的情况下，更新时间注意力子网络和简化的主网络的参数。然后，在固定经更新的时间注意力子网络的参数的情况下，更新主网络的参数。继而，联合更新时间注意力子网络和主网络的参数。

例如，可以将空间注意力子网络的权重固定为1，联合训练时间注意力子网络和只具有一个LSTM层的简化主网络以获得时间注意力子网络的参数。然后，可以固定学习到的时间注意力子网络，训练未简化的主网络。这一步骤可以例如迭代N₁＝1000次。然后，可以联合训练时间注意力子网络和主网络。这一步骤可以例如迭代N₂＝500次。

在一些实现中，针对空间注意力模型的预训练阶段可以包括：在固定时间注意力子网络的参数的情况下，更新空间注意力子网络和主网络的参数。在一些实现中，更新空间注意力子网络和主网络的参数可以包括在固定时间注意力子网络的参数的情况下，更新空间注意力子网络和简化的主网络的参数。然后，在固定经更新的空间注意力子网络的参数的情况下，更新主网络的参数。继而，联合更新空间注意力子网络和主网络的参数。

例如，可以将时间注意力子网络的权重固定为1，联合训练空间注意力子网络和只具有一个LSTM层的简化主网络以获得空间注意力子网络的参数。然后，可以固定学习到的空间注意力子网络，训练未简化的主网络。这一步骤可以例如迭代N₁＝1000次。然后，可以联合训练空间注意力子网络和主网络。这一步骤可以例如迭代N₂＝500次。

在一些实现中，针对主网络的训练阶段包括在固定第一子网络和第二子网络的参数的情况下，更新主网络的参数。这一步骤例如可以迭代N₁＝1000次。在一些实现中，联合训练阶段包括联合更新学习网络的参数。这一步骤可以例如迭代N₂＝500次。

基于模型的识别过程

图7示出了根据本公开的实现的动作检测的方法700的流程图。方法700可以由图2所示的执行单元126来执行。在步骤720中，获取视频的多个帧的表示信息，表示信息表示多个输入帧中的实体。在一些实现中，表示信息可以包括与实体相关联的骨架表示。

在步骤740中，使得学习网络基于表示信息确定视频与预定义动作标签相关联的概率。学习网络可以是如图4所示的学习网络300，或如图5所示的模型500中的学习网络，或者也可以是模型500中的学习网络的一部分。在一些实现中，学习网络可以包括第一子网络，第一子网络可以基于表示信息确定相应的帧的重要性。例如，第一子网络可以是如图4或图5所示的时间注意力子网络。在一些实现中，学习网络还可以包括第二子网络，第二子网络可以基于表示信息确定相应帧中的多个预定部分或预定关注点的重要性。在一些实现中，学习网络还包括主网络，主网络可以接收第二子网络所确定的重要性作为输入。例如，第二子网络可以是如图4或图5所示的空间注意力子网络。主网络和子网络均可以包括神经网络单元，特别是RNN单元。在一些实现中，RNN单元可以是LSTM单元。

在一些实现中，主网络的输出与第一子网络所确定的重要性相结合以确定多个输入帧与预定义动作标签相关联的概率。例如，主网络的输出可以通过等式(5)与第一子网络所确定的重要性相结合。

在一些实现中，第一子网络接收针对多个帧中的第一帧的表示信息和在第一帧之前的第二帧的表示信息，并且基于非线性函数确定第一帧的重要性。在一些实现中，第一子网络包括神经网络单元，其接收第二帧作为输入，并且将输出提供给非线性函数。在一些实现中，神经网络单元可以是RNN单元，例如LSTM单元。

在一些实现中，第二子网络接收针对该第二子网络的帧的表示信息并且经由RNN单元接收先前帧的表示信息，并且基于非线性函数确定该帧中的多个预定部分或多个预定关注点的重要性。在一些实现中，第二子网络包括神经网络单元，其接收第二帧作为输入，并且将输出提供给非线性函数。在一些实现中，神经网络单元可以是RNN单元，例如LSTM单元。在一些实现中，第二子网络还可以包括归一化单元，被配置为将非线性函数的输出归一化以确定第一帧的重要性。

测试与性能

以下结合图1、图8-图10来描述根据本公开的一个或多个实现的性能。测试数据集使用SBU体感交互数据集(Kinect Interaction Dataset，SBU)。SBU数据集是具有两个对象的交互数据集。每个人具有15个关节，因而输入向量的维度是15×3×2＝90。此外，针对每个主网络使用了三个LSTM层，并且对于每个注意力网络使用了一个LSTM层，每个LSTM层包括100个LSTM神经元。此外，还使用了等式(7)的目标函数，其中λ₁、λ₂和λ₃分别被设置为0.001、0.0001和0.0005。

图1示出了六个视频帧，其中示出了两个对象的骨架表示。在每个关节处通过圆形的大小指示了空间注意力权重。可以看出，被踢者的各个关节的空间注意力权重均不太高，而踢者在左脚具有最大的空间注意力。这说明这一模型清晰地确定了最重要或最具判别性的关节。

图8和图9分别示出了各个帧的时间注意力和差分时间注意力。如所示出的，第4帧具有最高的差分时间注意力。换言之，第4帧对于动作识别最重要或者最具判别性。从图1可以看出，第4帧，即图(d)是踢者的左脚抬得最高时的图像，因而对于“脚踢”而言最具判别性。

图10示出了根据本公开的一个或多个实现的性能对比。横轴表示不同的模型，而纵轴表示精度。在图10中，LSTM表示没有注意力设计的主LSTM网络；SA-LSTM(w/o reg)表示包含主LSTM网络和空间注意力子网络，但没有约化，即只包括等式(7)中的第一和第四项；SA-LSTM表示包含主LSTM网络和空间注意力子网络；TA-LSTM(w/o reg)表示包含主LSTM网络和时间注意力子网络，但没有约化，即只包括等式(7)中的第一和第四项；TA-LSTM表示包含主LSTM网络和时间注意力子网络；STA-LSTM表示包含主LSTM网络和空间时间注意力子网络。

可以看出，与LSTM方案相比，引入空间注意力子网络和时间注意力子网络均能提升精度，同时引入空间和时间注意力子网络对精度具有显著的提升。此外，在目标函数中引入两个相应的约化项也能够对相应的模型的精度带来提升。

示例设备

图11示出了其中可以实施本公开的一个或多个实现的示例计算系统/服务器1100的框图。模型估计系统110、模型执行系统120或者两者可以由计算系统/服务器1100实现。图11示出的计算系统/服务器1100仅是示例，其不应当构成对本文所描述的实现的使用的功能和范围的限制。

如图11所示，计算系统/服务器1100是通用计算设备的形式。计算系统/服务器1100的组件可以包括但不限于一个或多个处理器或处理单元1100，存储器1120，一个或多个输入设备1130，一个或多个输出设备1140，存储装置1150，和一个或多个通信单元1160。处理单元1100可以是实际或虚拟处理器并且能够根据存储器1120中存储的持续来执行各种处理。在多处理系统中，多处理单元执行计算机可执行指令，以增加处理能力。

计算系统/服务器1100通常包括多个计算机介质。这样的介质可以是计算系统/服务器1100可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器1120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储装置1150可以是可拆卸或不可拆卸，并且可以包括机器可读介质，诸如闪存驱动、磁盘或者任何其他介质，其可以能够用于存储信息并且可以在计算系统/服务器1100内被访问。

计算系统/服务器1100可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性计算机系统存储介质。尽管未在图11中示出，可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线18。存储器1120可以包括至少一个程序产品，具有(例如至少一个)程序模块集合，这些程序模块被配置为执行本文所描述的各种实现的功能。

具有(例如至少一个)程序模块1124的集合的程序/实用程序工具1122可以被存储在例如存储器1120中。这样的程序模块1124可以包括但不限于操作系统、一个或多个应用程序、其他程序模块和操作数据。这些示例中的每个示例或特定组合可以包括联网环境的实现。程序模块1124通常执行本公开的实现的功能和/或方法，例如方法600和/或方法700。

输入单元1130可以是一个或多个各种输入设备。例如，输入单元1139可以包括用户设备、诸如鼠标、键盘、追踪球等。通信单元1160实现在通信介质上向另外的计算实体进行通信。附加地，计算系统/服务器1100的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接来通信。因此，计算系统/服务器1100可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。例如但不限于，通信介质包括有线或无线联网技术。

计算系统/服务器1100还可以根据需要与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等等，与一个或多个使得用户与计算系统/服务器1100交互的设备进行通信，或者与使得计算系统/服务器1100与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

本文中所描述的功能可以至少部分地由一个或多个硬件逻辑组件来执行。例如但不限于，可以使用的硬件逻辑组件的示意性类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。

可以至少部分地由一个或多个硬件逻辑部件来执行本文所描述的功能。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开内容的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现谢姐，但是这些不应当被解释为对本公开的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

示例实现

以下列出了本文描述的主题的一些示例实现。

在一些实现中，提供了一种设备。该设备包括：处理单元；存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时使所述设备执行以下动作：获取视频的多个帧的表示信息和针对所述视频的预定义动作标签，所述表示信息表示所述多个帧中的实体并且所述预定义动作标签与所述实体的动作相关联；以及基于所述多个帧的所述表示信息和所述预定义动作标签来更新学习网络，所述学习网络包括第一子网络，更新所述学习网络包括使所述第一子网络基于所述表示信息确定所述多个帧的重要性；以及使所述学习网络基于所述表示信息和所述多个帧的重要性确定所述视频与预定义动作标签相关联的概率。

在一些实现中，所述动作还包括：使所述第一子网络接收针对所述多个帧中的第一帧和在所述第一帧之前的第二帧的所述表示信息，并且基于非线性函数确定所述第一帧的重要性。

在一些实现中，所述学习网络还包括第二子网络，并且所述动作还包括：使所述第二子网络基于所述表示信息确定所述多个帧中的多个预定部分或多个预定关注点的重要性。

在一些实现中，所述动作还包括：使所述第二子网络接收针对所述多个帧中的第一帧的所述表示信息和在所述第一帧之前的第二帧的所述表示信息，并且基于非线性函数确定所述第一帧中的所述多个预定部分或所述多个预定关注点的重要性。

在一些实现中，更新所述学习网络包括：基于由所述学习网络输出的动作标签的概率和由所述第一子网络确定的重要性，更新所述学习网络使得目标量最小化，所述目标量限制由所述第一子网络所确定的重要性的值的增加。

在一些实现中，更新所述学习网络包括：基于由所述学习网络输出的动作标签的概率和由所述第二子网络确定的重要性，更新所述学习网络使得目标量最小化，所述目标量促使由所述第二子网络所确定的重要性平均分布于所述多个帧中的所述多个部分或所述多个关注点。

在一些实现中，所述学习网络包括主网络，所述主网络的输入与所述第二子网络的输出耦合，所述主网络的输出与所述第一子网络的输出耦合，并且更新所述学习网络包括：在固定所述第一子网络和所述第二子网络中的第一类型子网络的参数的情况下，更新所述第一子网络和所述第二子网络中的第二类型子网络的参数和所述主网络的参数；在固定所述第一子网络和所述第二子网络中的所述第二类型子网络的参数的情况下，更新所述第一子网络和所述第二子网络中的所述第一类型子网络的参数和所述主网络的参数；在固定所述第一子网络和所述第二子网络的参数的情况下，更新所述主网络的参数；以及联合更新所述学习网络的参数。

在一些实现中，更新所述第一子网络和所述第二子网络中的第二类型子网络的参数和所述主网络的参数包括：在固定所述第一子网络和所述第二子网络中的第一类型子网络的参数的情况下，更新所述第二类型子网络的参数和简化的所述主网络的参数；在固定经更新的所述第二类型子网络的参数的情况下，更新所述主网络的参数；以及联合更新所述第二类型子网络和所述主网络的参数。

在一些实现中，更新所述第一子网络和所述第二子网络中的所述第一类型子网络的参数和所述主网络的参数包括：在固定所述第一子网络和所述第二子网络中的所述第二类型子网络的参数的情况下，更新所述第一类型子网络的参数和简化的所述主网络的参数；在固定经更新的所述第一类型子网络的参数的情况下，更新所述主网络的参数；以及联合更新所述第一类型子网络和所述主网络的参数。

在一些实现中，所述学习网络包括：RNN单元，特别是LSTM单元。

在一些实现中，所述表示信息包括与所述实体相关联的骨架表示。所述动作包括使所述第二子网络基于所述多个帧的与所述实体相关联的骨架表示确定所述多个帧中的多个预定关节点的重要性。

在一些实现中，提供了一种设备。该设备包括：处理单元；存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时使所述设备执行以下动作：获取视频的多个帧的所述表示信息，所述表示信息表示所述多个帧中的实体；以及使学习网络基于所述表示信息确定所述视频与预定义动作标签相关联的概率，所述学习网络包括第一子网络并且所述预定义动作标签与所述实体的动作相关联，确定所述视频与预定义动作标签相关联的概率包括使所述第一子网络基于所述表示信息确定所述多个帧的重要性。

在一些实现中，所述学习网络还包括第二子网络，并且所述动作还包括：使所述第二子网络基于所述表示信息确定所述多个帧中的多个部分或多个关注点的重要性。

在一些实现中，所述动作还包括：使所述第一子网络接收针对所述多个帧中的第一帧的所述表示信息和在所述第一帧之前的第二帧的所述表示信息，并且基于非线性函数确定所述第一帧的重要性。

在一些实现中，所述动作还包括：使所述第二子网络接收针对所述多个帧中的第一帧的所述表示信息和在所述第一帧之前的第二针的所述表示信息，并且基于非线性函数确定所述帧中的所述多个预定部分或所述多个预定关注点的重要性。

在一些实现中，所述学习网络包括RNN单元，特别是长短时记忆(LSTM)单元。

在一些实现中，提供了一种方法。该方法包括：获取视频的多个帧的表示信息和针对所述视频的预定义动作标签，所述表示信息表示所述多个帧中的实体并且所述预定义动作标签与所述实体的动作相关联；以及基于所述多个帧的所述表示信息和所述预定义动作标签来更新学习网络，所述学习网络包括第一子网络，更新所述学习网络包括：使所述第一子网络基于所述表示信息确定所述多个帧的重要性；以及使所述学习网络基于所述表示信息和所述多个帧的重要性确定所述视频与预定义动作标签相关联的概率。

在一些实现中，所述方法还包括：使所述第一子网络接收针对所述多个帧中的第一帧和在所述第一帧之前的第二帧的所述表示信息，并且基于非线性函数确定所述第一帧的重要性

在一些实现中，所述学习网络还包括第二子网络，并且所述方法还包括：使所述第二子网络基于所述表示信息确定所述多个帧中的多个预定部分或多个预定关注点的重要性。

在一些实现中，所述方法还包括：使所述第二子网络接收针对所述多个帧中的第一帧和在所述第一帧之前的第二帧的所述表示信息，并且基于非线性函数确定所述第一帧中的所述多个预定部分或所述多个预定关注点的重要性。

在一些实现中，更新所述第一子网络和所述第二子网络中的第二类型子网络的参数和所述主网络的参数包括：在固定所述第一子网络和所述第二子网络中的第一类型子网络的参数的情况下，更新所述第二类型子网络的参数和简化的所述主网络的参数；在固定经更新的所述第二类型子网络的参数的情况下，更新所述主网络的参数；以及联合更新所述第二类型子网络的参数和所述主网络的参数。

在一些实现中，更新所述第一子网络和所述第二子网络中的所述第一类型子网络的参数和所述主网络的参数包括：在固定所述第一子网络和所述第二子网络中的所述第二类型子网络的参数的情况下，更新所述第一类型子网络的参数和简化的所述主网络的参数；在固定经更新的所述第一类型子网络的参数的情况下，更新所述主网络的参数；以及联合更新所述第一类型子网络的参数和所述主网络的参数。

在一些实现中，所述学习网络包括RNN单元，特别是LSTM单元。

在一些实现中，提供了一种方法。该方法包括：获取视频的多个帧的所述表示信息，所述表示信息表示所述多个帧中的实体；以及使学习网络基于所述表示信息确定所述视频与预定义动作标签相关联的概率，所述学习网络包括第一子网络并且所述预定义动作标签与所述实体的动作相关联，确定所述视频与预定义动作标签相关联的概率包括使所述第一子网络基于所述表示信息确定所述多个帧的重要性。

在一些实现中，所述学习网络还包括第二子网络，并且所述方法还包括：使所述第二子网络基于所述表示信息确定所述多个帧中的多个部分或多个关注点的重要性。

在一些实现中，所述方法还包括：使所述第一子网络接收针对所述多个帧中的第一帧和在所述第一帧之前的第二帧的所述表示信息，并且基于非线性函数确定所述第一帧的重要性。。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种设备，包括：

处理单元；

存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时使所述设备执行以下动作：

获取视频的多个帧的表示信息和针对所述视频的预定义动作标签，所述表示信息表示所述多个帧中的实体并且所述预定义动作标签与所述实体的动作相关联；以及

基于所述多个帧的所述表示信息和所述预定义动作标签来更新学习网络，所述学习网络包括第一子网络，

更新所述学习网络包括：

使所述第一子网络基于所述表示信息确定所述多个帧的重要性；以及

使所述学习网络基于所述表示信息和所述多个帧的重要性确定所述视频与预定义动作标签相关联的概率。

2.根据权利要求1所述的设备，其中所述动作还包括：

使所述第一子网络接收针对所述多个帧中的第一帧和在所述第一帧之前的第二帧的所述表示信息，并且基于非线性函数确定所述第一帧的重要性。

3.根据权利要求1所述的设备，其中所述学习网络还包括第二子网络，并且所述动作还包括：

使所述第二子网络基于所述表示信息确定所述多个帧中的多个预定部分或多个预定关注点的重要性。

4.根据权利要求3所述的设备，其中所述动作还包括：

使所述第二子网络接收针对所述多个帧中的第一帧和在所述第一帧之前的第二帧的所述表示信息，并且基于非线性函数确定所述第一帧中的所述多个预定部分或所述多个预定关注点的重要性。

5.根据权利要求1所述的设备，其中更新所述学习网络包括：

基于由所述学习网络输出的动作标签的概率和由所述第一子网络确定的重要性，更新所述学习网络使得目标量最小化，所述目标量限制由所述第一子网络所确定的重要性的值的增加。

6.根据权利要求3所述的设备，其中更新所述学习网络包括：

基于由所述学习网络输出的动作标签的概率和由所述第二子网络确定的重要性，更新所述学习网络使得目标量最小化，所述目标量促使由所述第二子网络所确定的重要性平均分布于所述多个帧中的所述多个部分或所述多个关注点。

7.根据权利要求3所述的设备，其中所述学习网络包括主网络，所述主网络的输入与所述第二子网络的输出耦合，所述主网络的输出与所述第一子网络的输出耦合，并且更新所述学习网络包括：

在固定所述第一子网络和所述第二子网络中的第一类型子网络的参数的情况下，更新所述第一子网络和所述第二子网络中的第二类型子网络的参数和所述主网络的参数，所述第一类型不同于所述第二类型；

在固定所述第一子网络和所述第二子网络中的所述第二类型子网络的参数的情况下，更新所述第一子网络和所述第二子网络中的所述第一类型子网络的参数和所述主网络的参数；

在固定所述第一子网络和所述第二子网络的参数的情况下，更新所述主网络的参数；以及

联合更新所述学习网络的参数。

8.根据权利要求7所述的设备，其中更新所述第一子网络和所述第二子网络中的第二类型子网络的参数和所述主网络的参数包括：

在固定所述第一子网络和所述第二子网络中的第一类型子网络的参数的情况下，更新所述第二类型子网络的参数和简化的所述主网络的参数；

在固定经更新的所述第二类型子网络的参数的情况下，更新所述主网络的参数；以及

联合更新所述第二类型子网络和所述主网络的参数。

9.根据权利要求1所述的设备，其中所述学习网络包括长短时记忆(LSTM)单元。

10.根据权利要求3所述的设备，其中所述动作包括：

使所述第二子网络基于所述多个帧的与所述实体相关联的骨架表示确定所述多个帧中的多个预定关节点的重要性。

11.一种设备，包括：

处理单元；

获取视频的多个帧的所述表示信息，所述表示信息表示所述多个帧中的实体；以及

使学习网络基于所述表示信息确定所述视频与预定义动作标签相关联的概率，所述预定义动作标签与所述实体的动作相关联并且所述学习网络包括第一子网络，

确定所述视频与预定义动作标签相关联的概率包括使所述第一子网络基于所述表示信息确定所述多个帧的重要性。

12.根据权利要求11所述的设备，其中所述学习网络还包括第二子网络，并且所述动作还包括：

使所述第二子网络基于所述表示信息确定所述多个帧中的多个部分或多个关注点的重要性。

13.根据权利要求11所述的设备，其中所述动作还包括：

14.根据权利要求12所述的设备，其中所述动作还包括：

15.根据权利要求11所述的设备，其中所述学习网络包括长短时记忆(LSTM)单元。

16.根据权利要求12所述的设备，其中所述动作包括：

17.一种方法，包括：

更新所述学习网络包括：

18.根据权利要求17所述的方法，其中所述学习网络还包括第二子网络，并且所述方法还包括：

19.一种方法，包括：

20.根据权利要求19所述的方法，其中所述学习网络还包括第二子网络，并且所述方法还包括：