CN107273782A

CN107273782A - 使用递归神经网络的在线动作检测

Info

Publication number: CN107273782A
Application number: CN201610218351.9A
Authority: CN
Inventors: 兰翠玲; 曾文军; 厉扬豪; 兴军亮
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-04-08
Filing date: 2016-04-08
Publication date: 2017-10-20
Anticipated expiration: 2036-04-08
Also published as: CN107273782B; US20190080176A1; US10789482B2; WO2017176511A1

Abstract

在本文所描述的主题的实现中，提出了一种使用递归神经网络(RNN)的动作检测方案。获取视频的输入帧的表示信息和针对该帧的预定义动作标签以便训练包括RNN单元和分类单元的学习网络。表示信息表示该帧中的观察实体。具体地，基于该帧的表示信息和预定义动作标签，确定RNN单元的参数。使得RNN单元利用第一参数、基于表示信息和视频的先前帧的特征，提取针对该帧的特征。基于该帧的特征和预定义动作标签，确定分类单元的参数。分类单元利用所确定的参数生成该帧与预定义动作标签相关联的概率。根据概率，更新RNN单元的第一参数。

Description

使用递归神经网络的在线动作检测

背景技术

各种实体(例如人类、机器人、动物或者其他移动对象)的动作或者活动的检测具有许多有用的应用，包括监控、卫生保健、人机交互、智能机器人导航、计算机游戏等等。典型地，用与一个或多个移动的动作有关的视频来训练动作分类器(模型)。一旦被训练，该模型可以被用于处理进入的音频以便确定是否发生特定的动作。尽管努力了许多年，实体的动作的有效检测仍然是一项富有挑战的任务。

发明内容

根据本文所描述的主题的实现，提出了一种使用递归神经网络(recurrent neural network，RNN)的动作检测方案。获取视频的输入帧的表示信息和针对该帧的预定义动作标签以便训练包括RNN单元和分类单元的学习网络。表示信息表示该帧中的观察实体。具体地，基于该帧的表示信息和预定义动作标签，确定RNN单元的参数。使得RNN单元利用第一参数、基于表示信息和视频的先前帧的特征，提取针对该帧的特征。基于该帧的特征和预定义动作标签，确定分类单元的参数。分类单元利用所确定的参数生成该帧与预定义动作标签相关联的概率。根据概率，更新RNN单元的第一参数。

提供发明内容部分是为了简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

图1示出了能够在其中实施本文所描述主题的实现的环境的框图；

图2示出了根据本文所描述主题的一个实现的典型LSTM神经元的结构的框图；

图3示出了根据本文所描述主题的一个实现的学习网络的结构的框图；

图4示出了根据本文所描述主题的一个实现的用于检测和预测动作的示意图；

图5示出了根据本文所描述主题的另一个实现的学习网络的结构的框图；

图6示出了根据本文所描述主题的一个实现的针对动作的开始点和结束点的预测的两个示例类高斯置信度曲线的示意图；

图7示出了根据本文所描述主题的一个实现的特征处理的示例过程的示意图；

图8示出了根据本文所描述主题的又一个实现的学习网络的结构的框图；

图9示出了根据本文所描述主题的一个实现的动作检测的方法的流程图；

图10示出了根据本文所描述主题的另一个实现的动作检测的方法的流程图；

图11示出了其中可以实施本文所描述主题的一个或多个实现的示例计算系统/服务器的框图。

具体实施方式

现在将参照若干示例实现来论述本文所描述的主题。应当理解，论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本文所描述的主题，而不是暗示对本主题的范围的任何限制。

如本文中所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“或者”要被解读为“和/或”，除非上下文明确另外指示。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。除非另外地明确指出，术语的定义贯穿说明书是一致的。

图1示出了能够在其中实施本文所描述主题的实现的环境100的框图。要理解的是，仅出于示例性的目的描述环境100的结构和功能而不是暗示对于本文所描述主题的范围的任何限制。本文所描述主题可以被体现在不同的结构和/或功能中。

环境100包括模型构建系统110和模型执行系统120。模型构建系统110被配置为根据训练数据集112构建用于动作检测的模型。数据集112可以包括一个或多个带标签的视频。这些视频中的一个或多个帧可以被用标签标为与帧中的一个或多个观察实体的预定义动作相关联。例如，帧可以被分类为与包括喝、吃、洗手、打开电器、扫掠、漱口、扔垃圾、擦拭等等的预定义动作相关联。观察实体可以例如是人类、机器人、动物或者其他移动对象。帧中的实体的任何其他动作也可以被识别和贴标签。对帧贴标签可以自动地和/或手动地执行。帧的动作标签也可以被提供在数据集112中。

被包括在模型构建系统110中的表示提取器114可以被配置为提取数据集112中的视频中的相应帧的表示信息。一般而言，视频的帧不可以直接地用于训练用于动作检测的模型。取而代之，表征帧中的一个或多个实体的更少量信息可以被提取以用于训练该模型，这将有助于提高训练过程的准确度和有效性。一个帧的表示信息可以表示该帧中的观察实体。在一些情况中，如果一个帧中包括多于一个实体，可以确定感兴趣的实体的表示信息。备选地，可以使用帧中所有实体的表示信息。

在一些实现中，表示信息可以是帧中的一个或多个观察实体的骨架表示(skeleton representation)。骨架表示可以包括帧中的一个或多个观察实体的至少一个关节的信息，包括(多个)关节的二维(“2D”)或三维(“3D”)位置信息。可以通过标识帧的二维图像的一个或多个实体的(多个)骨架结构或者通过利用深度相机(depth camera)拍摄视频来获得关节信息。备选地或附加地，可以使用其他表示信息，诸如强度图中的梯度方向直方图(Histogram ofOriented Gradient，HOG)或者通过尺度不变量特征变换(Scale-Invariant Feature Transform，SIFT)的算法提取的信息。

被包括在模型构建系统110中的学习单元116被配置为基于训练数据集112中的帧的表示信息和预定义动作标签来训练用于动作检测的模型。可以首先构建该模型的结构。训练过程的目标在于确定该模型的结构的参数。该模型可以被表示为帧的表示信息和对应的动作标签的一个或多个函数。

在一些实现中，来自模型构建系统110的经训练的模型可以被提供至模型执行系统120用于从一个或多个新的帧中标识出动作。具体地，表示提取器124接收输入帧122并且提取该帧的表示信息。表示信息可以被提供至执行单元126以作为经训练的模型的输入。该模型的输出可以指示该帧是否与任何预定义动作标签相关联。一般而言，与这些预定义动作标签有关的多个帧已经被用于在模型构建系统110中模型。

尽管表示提取器114被示出为被包括在图1的系统110中，在一些实现中，表示提取器114可以与系统110分离。训练帧可以由远端表示提取器处理。输入到模型构建系统110、例如到训练模块116的数据集112然后看而已包括所提取的帧的表示信息和对应的预定义数据标签。在一些实现中，表示提取器124也可以分离于模型执行系统120。

以上已经参照图1描述了环境100的一般概念。在常规建模方法中，基于覆盖预定义动作的整个时段的多个帧的信息来训练动作检测模型。大多数方法采样滑动窗来将视频划分成重叠的分段并且以分段为单位来训练该模型。一个分段或者该分段中的帧可以被贴标签标为与特定动作相关联。这样的滑动窗设计具有低计算效率，并且也不容易确定滑动窗的尺寸，因此所得到的模型不适于具有不确定长度的动作的流传输视频。此外，利用这些方法训练的模型仅能够在动作完全被观察之后、通过使用在该动作的持续时间中采集到的帧来识别出该动作。这种模型可以被认为是一种离线动作检测模型。

例如，给定具有N个帧的尺寸的滑动窗，可以从视频中分割出包括N个帧的视频段V＝{v₀,…,v_t,…,v_N-1}，其中v_t表示在时间点t(0≤t≤N-1)处的帧。假设存在(M+1)个预定义动作。该帧v_t的针对所有这些预定义动作的动作标签可以被表示为y_t∈R^1×(M+1)。动作标签y_t可以被写为包括与(M+1)个预定义动作相关联的(M+1)动作标签的标签向量y_t＝{y_t,0,...,y_t,k,...,y_t,M}。标签向量中的元素的值可以被归一化为从0到1的范围，其中y_t,k＝1意味着在帧v_t中动作k的存在，并且y_t,k＝0意味着该动作不存在。这些预定义动作标签之一可以对应于空分类，表示当前帧不包括任何预定义动作的情况。

在常规的动作检测模型中，从帧v_t中检测动作的问题是要最大化已知的视频段V＝{v₀,…,v_t,…,v_N-1}的最大后验概率，其可以被表示为：

其中表示检测到的针对帧v_t的标签向量。

从公式(1)可以看出，对于视频段V中的任何帧，仅在视频段V中的所有N个帧被观察到之后才能够预测标签向量然而，在许多应用中，期望减少观察延迟并且尽可能早地检测正在进行或者即将发生的动作。例如，在视频监控应用中，及时地对一些犯罪或暴力事件进行告警是重要的。

在一些其他情况中，期望在动作的开始和/或结束之前预测该动作的开始和/或结束，这对于基于滑动窗的模型也是不可能的任务。例如，将有用的是在犯罪或暴力事件开始之前通过正确地预测它们来进行告警。对于智能机器人，将期望它们能够预测正在进行的动作的结束并且然后为它们服务的人准备好某些东西，例如当一个人结束洗手时为他/她递送毛巾。

根据本文所描述的主题的实现，提出了在线动作检测方案，以提供逐帧的动作识别。相较于离线动作检测，在线动作检测针对每个进入的帧均输出检测结果。也就是说，在线动作检测模型要被训练为具有利用当前帧和可能(多个)先前帧的知识来检测动作的能力。在线动作检测的问题可以被表示为利用当前帧v_t和当前已知的(多个)帧来最大化后验概率，其可以被表示为以下：

从公式(2)可以看出，从当前帧v_t和该帧之前的帧来检测标签向量

根据本文所描述的主题的实现，将用于动作检测的模型构建为包括递归神经网络(recurrent neural network,RNN)单元和分类单元的学习网络。具有RNN单元的学习网络可以被称为递归神经网络并且被包括在该网络中的单元可以被称为神经元(neuron)。在下文中，术语“学习网络”、“学习模型”、“神经网络”和“递归神经网络”可替换地使用。术语“单元”和“神经元”可替换地使用。RNN神经元可以被设计为从帧(或者帧的表示信息)中学习特征。分类神经元可以被用于基于特征来将帧划分到预定义分组中。如本文中所使用的，术语“特征”指的是由RNN神经元学习到的帧的(时间)动态的信息。利用RNN神经元，学习网络是强大的以便于基于有限知识输出期望的检测结果。

在一些实现中，学习网络可以是多层神经网络。RNN神经元可以被布置为一个或多个RNN层，每个层包括一个或多个RNN神经元。RNN层可以构成特征学习子网络。第一个RNN层接收输入帧的表示信息并且向下一层输出学习到的特征。其他RNN层继续处理特征并且将经更新的特征提供至后续层。为了学习网络的深度学习和更高准确度，可以将非线性全连(fully-connected，FC)层布置在每两个RNN层之前。全连层可以包括一个或多个用于特征融合并且基于非线性函数来更新来自RNN层的特征。

RNN神经元具有自连接的递归连接，其建模时间上的演变，考虑了当前输入和它的先前输出两者。为了更好地理解神经网络，具有多个RNN神经元的RNN层中的典型处理可以被表示为：

h_t＝θ(W_xhx_t+W_hhh_t-1+b_h) (3-1)

其中h_t表示RNN层在时间点t处的输出响应，x_t表示RNN层在时间点t处的输入，W_xh表示从输入x_t到输出h_t的映射矩阵，W_hh表示RNN层内部的映射矩阵、从在先前的时间点t-1处的输出h_t-1到当前的输出响应h_t，b_h表示偏置向量，并且θ(·)表示非线性函数。非线性函数可以是tangent函数、sine函数、sigmoid函数或者可以向输入应用非线性的任何其他函数。将注意到，RNN神经元中的递归计算可以以其他形式表示。

在一些实现中，RNN单元可以受到消失梯度效应的影响。为了克服这个限制，取代普通RNN神经元，可以使用长短时记忆(LSTM)神经元。图2示出了典型LSTM神经元200的结构。如所示出的，LSTM神经元200包括输入门210、输出门220、记忆元230、遗忘门240和两个非线性元250和260。输入门210和遗忘门240控制流入和流出记忆元230的信息。输出门220控制来自记忆元230的多少信息被传递到LSTM神经元200的输出h_t。记忆元230具有权重为1的自连接递归边沿，确保梯度可以跨越多个时间步长(time step)而不会消失或爆炸。因此，这个结构允许LSTM神经元200记忆和访问许多时间步长之前的信息，克服了在训练神经网络时由消失梯度效应导致的困难。

对于具有多个LSTM神经元200的RNN层，在时间点t处LSTM神经元200中的单元的激活的递归计算可以被表示为如下：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i), (3-2)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f), (4)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o), (6)

其中表示逐元素乘积，σ(α)表示被定义为σ(α)＝1/(1+e^-α)的sigmoid函数，x_t表示RNN层在时间点t处的输入，W_αβ表示α与β之间的映射矩阵(例如，W_xi表示从输入x_t到输入门i_t的映射矩阵)，h_t表示RNN层在时间点t处的输出响应，并且b_β表示β的偏置向量，具有β∈{i,f,c,o}。将注意到，LSTM神经元中的递归计算可以以其他形式表示。

从公式(3-1)和(3-2)至(7)可以看出，在时间点t处RNN层的输出响应h_t是基于输入x_t和这个RNN层在先前的时间点t-1处的输出响应h_t-1。输出响应h_t和h_t-1包括由该层在时间t或t-1处提取的输入帧的特征。取决于RNN层在神经网络中的位置，RNN层的输入x_t可以是输入帧的表示信息或者由先前层确定的特征。

在一些实现中，FC层中的处理可以被表示为如下

h_t＝θ(W_xhx_t+b_h) (8)

其中h_t表示该FC层在时间点t处的输出响应，x_t表示该FC层在时间点t处的输入，W_xh表示从该FC层的输入x_t到输出h_t的映射矩阵，b_h表示偏置矩阵，并且θ(·)表示非线性函数。非线性函数可以是tangent函数、sine函数、sigmoid函数或者可以向输入应用非线性的任何其他函数。

在一些实现中，学习网络的最后一层可以认为是分类器，用于基于特征来确定一个帧与预定义的动作标签(如果有多个预定义动作则是标签向量)相关联的概率。分类分支可以构成分离子网络。在一些实现中，可以使用多于一个神经元(单元)。在分类分支中的神经元的数目可以取决于预定义的动作标签的数量。每个神经元可以用于执行针对特定动作标签的预测。分类层可以生成标签向量，例如以上描述的标签向量y_t，具有该向量的每个元素指示该帧与对应的动作标签相关联的概率。分类层有时也可以被称为神经网络中用于分类认为的软最大化(“SoftMax”)层。

在一些示例中，在SoftMax层中针对帧v_t的预定义的动作标签的确定可以被表示为如下：

q＝W_hqh_t+b_q, (10)

其中y_t＝{y_t,0,...,y_t,k,...,y_t,M}表示包括与(M+1)个预定义动作相关联的(M+1)动作标签的标签向量，P(y_t|v₀,...v_t)表示帧v_t与标签向量y_t相关联的概率，h_t表示由SoftMax层在时间t处从神经网络的之前的层接收到的特征，W_hq表示从先前的层到SoftMax层的映射矩阵，q＝{q₀,...,q_i,...q_M}表示SoftMax层的输出响应，并且b_q表示偏置矩阵。如先前所描述的，标签向量中的元素的值可以指示对应的动作存在的概率。

图3示出了学习网络300的结构的框图。如所示出的，学习网络300包括特征学习子网络310和分类子网络320。特征学习子网络310可以包括一个或多个RNN层，例如RNN层312和316，每个RNN层包括一个或多个LSTM神经元(诸如LSTM神经元200)。特征学习子网络310还可以包括一个或多个FC层，例如FC层314和316，每个FC层包括一个或多个神经元。每个FC层可以被布置在两个RNN层之间以便对从先前的RNN层接收到的特征执行特征融合，并且将经更新的特征提供至接下来的RNN层。

将认识到，尽管示出了两个RNN层和两个FC层，特征学习子网络可以包括另外的RNN层或FC层，或者这些RNN层或FC层中的一些层可以被省略。在一些实现中，特征学习子网络310可以仅包括一个RNN层，其包括多个LSTM神经元或者普通RNN神经元。在一些其他实现中，特征学习子网络310可以包括两个或更多连续的RNN层或FC层。也就是说，RNN层和FC层可以不必要以交替的方式来布置。

分类子网络320包括SoftMax层324，其包括用于(多个)预定义动作标签的一个或多个神经元。SoftMax层324可以被用于基于来自特征学习子网络310的最后一层的特征来确定帧在预定义的动作标签之中的概率分布。在一些实现中，另外的FC层322被包括在分类子网络320中以用于对从特征学习子网络310接收到的特征执行进一步的特征融合。

在确定了结构的情况下，包括视频的带标签的帧的数据集可以被用于训练学习网络300。每个帧可以被贴有与对应的动作标签或标签向量。训练的目标在于确定被包括在学习网络300中的神经元的参数，确定例如公式(3-1)或公式(3-2)-(6)以及公式(8)和(10)示出的RNN层312和316、FC层314、318和322以及SoftMax层324的映射矩阵(和偏置矩阵)。为了实现在线动作检测，学习网络要被训练为获得基于当前帧以及可能当前帧之前的帧来检测动作的能力。RNN层可以被构建为单向层，以仅使用过去的信息来学习当前帧的特征。

基于学习网络300的结构，在一些实现中，可以基于包括帧的表示信息和对应的预定义动作标签来确定特征学习子网络310和分类子网络320的参数。在一些实现中，诸如交替最小二乘法(alternating least square，ALS)、随机梯度下降法(SGD)或者有限记忆BFGS(Broyden,Fletcher,Goldfarb和Shanno)可以被用于训练学习网络300。附加地，可以使用通过时间后向传播(BackPropagation Through Time，BPTT)方法来在迭代过程更新参数。

在一些实现中，被包括在学习网络300中的神经元的参数可以被初始化为例如某些随机值。在一些实现中，可以首先基于相应帧的表示信息和预定义动作标签来训练特征学习子网络310的参数。在这些实现中，可以首先固定分类子网络320的参数。在特征学习子网络310训练之后，可以基于由具有经训练的参数的特征学习子网络310生成的针对帧的特征、以及预定义动作标签来确定分类子网络320的参数。在分类子网络320的训练期间，可以通过应用BPTT方法来基于分类子网络320的参数更新特征子网络310的参数。在一些实现中，如果确定先前的参数已经达到收敛，则可以不用执行更新。备选地，可以联合地训练特征学习子网络310和分类子网络320。在这种情况下，可以在每轮迭代中更新一次特征学习子网络310和分类子网络320的参数。

将认识到，针对子网络310和320的单独训练或联合训练，可以以迭代的过程来逐帧地训练学习网络300。当一个帧的表示信息通过特征学习子网络310的第一层、例如RNN层312时，可以初始地确定LSTM神经元的特征。具有所确定的特征的RNN层312可以基于表示信息和先前帧的特征(其已经由RNN层312的LSTM神经元学习到)来生成针对该帧的特征。这些特征可以被传递到下一层，例如FC层314，以供特征融合。该帧的特征在特征学习子网络310中以逐层的基础被融合和更新。在这个过程期间，被包括在这些层中的神经元的参数可以相应地被更新。针对特征学习子网络310的参数的确定旨在于减少学习网络通过使用这些参数所生成的输出与实际输出之间的差异。

由子网络310的最后一层生成的特征可以被提供至分类子网络320。可选的FC层、例如FC层322可以对接收到的特征执行另外的特征融合。经更新的特征可以被提供至SoftMax层324以便确定被包括在这一层中的神经元的参数。这些神经元的参数的确定也旨在于减少学习网络通过使用这些参数所生成的输出与实际输出之间的差异。

在一些实现中，训练网络300的目标函数(针对子网络310和320的单独训练或联合训练)是要减少或最小化最大似然估计损失函数：

其中L_c(v_t)表示针对输入帧v_t的学习网络300的损失函数，P(y_t,k|v₀,...,v_t)表示帧v_t与要由学习网络300确定的标签向量y_t＝{y_t,0,...,y_t,k,...,y_t,M}中的预定义动作标签k相关联的概率，z_t,k表示预定义的标签向量z_t＝{z_t,0,...,z_t,k,...,z_t,M}中的一个元素并且表示关于动作标签k的实况(ground-truth)标签，因此z_t,k＝1，意味着帧v_t包括与动作标签k对应的动作并且其他元素的值可以为0。(M+1)表示预定义的动作标签的数目(对应于预定义的动作的数目)。

从公式(11)可以看出，对于特征学习子网络310或分类子网络320的参数确定，这些参数每次更新小的数值，以提供针对标签向量y_t中的元素y_t,k的更大概率P(y_t,k|v₀,...,v_t)标签提供针对其他元素的更小概率(这意味着标签向量y_t与预定义标签向量z_t之间的差异被减少)，这因此减少了损失函数L_c(v_t)。

在一些实现中，目标函数可以被设计为获得针对一段时间内的帧的最小结果。用于训练学习网络300的目标函数可以被重写为如下：

其中L_c(V)表示针对具有N个帧的视频片段的损失函数，并且N表示要考虑用于最小化损失函数的帧的数目。在一些示例中，N可以是视频中的帧的总数目。在一些其他示例中，N可以是预定义的帧数目。

将认识到，具有学习网络的结构的情况下，可以采用许多其他方法、基于相应帧的表示信息和已知的动作标签来确定表示信息。训练学习网络300的目标可以被表示为其他形式，只要目标在于减少针对相应帧的标签向量y_t与实际标签向量z_t之间的差异。

具有经训练的参数的学习网络300可以用于实时地针对每个输入的帧来检测动作标签(或者标签向量)。在一些实现中，当接收到视频的输入帧的表示信息时，特征学习子网络310可以基于表示信息来提取该帧的特征。具体地，特征学习子网络310的第一层、例如RNN层312利用对应的预定参数，可以基于表示信息输出初始特征。在一些实现中，RNN层312的输出可以基于以上描述的公式(3-1)或者(3-2)至(7)来确定。初始特征可以被传输至下一层、例如FC层314以供非线性处理。特征可以由FC层314基于以上描述的公式(8)来更新。

取决于学习网络的结构，RNN层和FC层上的处理可以以交替的方式执行。特征学习子网络310的最后一层的输出响应是针对输入帧的学习到的特征。在一些实现中，分类子网络320、例如SoftMax层324可以基于这些特征来生成该帧与(多个)预定义动作标签相关联的概率。在分类子网络320包括附加的FC层、例如FC层322的情况中，可以在被输入到SoftMax层324之前由FC层322进一步处理这些特征。

SoftMax层324可以针对对应的预定义动作标签生成包括一个或多个概率的标签向量。在一些实现中，标签向量中的最高概率可以指示当前帧包括与该动作标签对应的动作。例如，SoftMax层324可以输出针对输入帧v_t的标签向量y_t＝{y_t,0,...,y_t,k,...,y_t,M}。如果元素y_t,k有最高相关，则该帧v_t可以被检测为与被分类为动作标签k的动作有关。在一些示例中，标签向量中的概率可以与阈值进行比较，并且帧v_t可以被确定为与标签向量中高于该阈值的一个或多个动作标签相关联。

以上参照图3描述了具有提供在线动作检测能力的学习网络。一般而言，学习网络300可以从动作开始的帧到动作结束的帧中正确地检测动作。在一些实现中，如以上提及的，可能期望在开始之前预测动作的开始和/或结束。

图4示出了对动作的检测和预测的示意图。如所示出的，图像402-408分别对应于流式视频的帧412-418并且分别包括这些帧的骨架表示。经训练的学习网络300可以用于从开始点414起，基于在对应的图像404中的表示信息来正确地检测“打开微波炉”的动作。学习网络300还可以用于从动作期间内的帧直至该动作的结束点处的帧418中检测该动作。在一些情况中，将期望学习网络能够在开始点之前的T帧的时段中、例如从帧416起预测该动作的开始。还将期望从比该动作的结束点早T帧的帧416处预测该动作的结束。

在一些实现中，可以向学习网络添加回归子网络，用于预测动作在不久的将来是否将发生或终止。图5示出了这样的学习网络500的框图。被包括在学习网络500中的特征学习子网络310和分类子网络320与以上参照图3所描述的基本相同。附加地，学习网络500包括回归子网络330用于执行预测任务。分类子网络320和回归子网络330可以共享特征学习子网络330。

在一些实现中，回归子网络330可以被设计为确定针对当前帧的置信度，用以衡量该帧是特定动作开始的特殊帧的概率。该置信度可以基于当前帧与在开始点处的特殊帧之间的时间间隙来确定。当该帧在时间上接近于开始点的时候，该置信度可以增加。备选地或附加地，回归子网络330可以以类似的方式确定针对每个帧的另一个置信度，用以衡量该帧是特定动作结束的另一个特殊帧。在一些示例中，针对不同的帧的置信度可以被描述为具有峰值点的曲线，峰值点指示该帧是特殊帧。曲线可以包括但不限于类高斯曲线或者类三角形曲线。

图6示出了针对图4的动作“打开微波炉”的开始点和结束点的预测的两个示例类高斯置信度曲线610和620。从曲线610可以看出，针对当前帧的较低置信度指示该帧与动作的开始点具有较大的距离。如果置信度被确定为具有峰值置信度，这意味着当前帧就是动作开始的帧。以类似的方式，曲线620示出了当这个帧接近于该动作的结束点时该帧的置信度增加。

在一些示例中，关于动作j的开始点，在类高斯曲线中在时间点t处的帧v_t的置信度可以被表示为：

其中s_j是其中动作j开始的帧，是帧v_t是帧s_j的置信度，并且σ是预定参数，该参数控制置信度曲线的形状。可以看出，对于在开始点处的帧，例如对于t＝s_j，置信度具有它的峰值1。可以以与公式(13)类似的方式定义v_t是动作j的结束点处的帧e_j的置信度在一些其他示例中，针对开始点和结束点的预测的置信度曲线的形状可以不同。

在一些实现中，回归子网络330的目标可以被设计为自动地基于由学习子网络310学习到的一个帧的特征，来提供该帧是动作的开始点和/或结束点的(多个)置信度。在一些实施例中，为了能够使得回归子网络330针对预定义动作(每个动作可能具有不同的开始点和/或结束点)的预测任务，分类子网络320的输出可以用于指导预测任务。因此，如图5所示，回归子网络330可以包括软选择器334，用于集成来自分类子网络320的概率，并且扮演针对不同动作的特征选择的角色。软选择器334可以基于来自分类子网络320的指示该帧与预定义动作标签相关联的概率，处理来自特征学习子网络310的输入帧的特征。软选择器334也被称为学习网络500中的特征处理单元(或神经元)。

在一些实现中，软选择器334可以将特征与针对预定义动作标签的概率相乘。如以上提及的，概率的数目等于预定义动作标签的数目。在一些示例中，特征可以被划分成特征集，特征集的数目等于预定义动作标签的数目。每个特征集可以乘以一个概率。在一些实现中，为了促进基于概率的特征处理，特征学习子网络310中的最后一个层(例如，FC层318)中的神经元的数目可以是预定义动作标签的数目的倍数。在一些其他实现中，回归子网络330可以包括用于特征融合的FC层332，并且被包括在FC层332中的非线性处理神经元的数目可以是预定义动作标签的数目的倍数。

图7示出了在软选择器334中的特征处理的示例过程的示意图。如所示出的，来自特征学习子网络310中的最后一层318或者回归子网络330的FC层332(如果被包括的话)的三十五个特征712被布置在矩阵710中，每一行包括七个特征712。每一行的特征被乘以来自分类子网络732的五个概率自已722，得到包括三十五个经处理的特征732的矩阵730。为了简单化，仅示出了矩阵710和720的前两行中的特征的值以及前两个概率。将认识的是，给出的特征和预定义动作标签的数目仅是示例，标签可以设置其他数目的特征和预定义动作标签。

基于经处理的特征，回归子网络330可以包括FC层336用以确定输入帧是在动作的开始点处的帧和/或是动作的结束点处的帧的(多个)置信度。FC层336可以包括针对动作的开始点的预测的神经元。备选地或附加地，FC层336可以包括针对动作的结束点的预测的神经元。被包括在FC层336中的(多个)神经元可以根据公式(8)确定输出响应。在一些实现中，回归子网络330可以被训练位确定FC层中的神经元的参数以便FC层的输出指示置信度。

为了训练回归子网络330，在一些实现中，指示在预定义动作在其中开始或结束的帧的时间点的时间信息可以被包括在训练数据集中。也可以基于时间信息来确定FC层中的神经元的参数。训练FC层336的目标是较少或最小化由FC层336生成的针对输入帧的置信度与该帧的实际置信度之间的差异。也就是说，FC层336被训练位提供要被检测的动作的置信度曲线，该曲线类似于或者等同于由该动作的实际开始点定义的实际置信度。关于结束点训练FC层336的目标是类似的。因此，在考虑开始点和结束点的预测的情况中，用于训练回归子网络330的目标函数是减少或最小化每个输入帧的函数，表示如下：

其中L_r(v_t)表示针对输入帧v_t的回归子网络330的损失函数，和分别表示帧v_t是最接近的动作的开始点处的帧的实际在置信度以及是结束点处的帧的置信度，和分别表示由FC层336预测的置信度，并且表示针对开始点或结束点的预测的损失函数，诸如将认识到，损失函数可以用其他形式。

在一些实现中，基于来自软选择器334的经处理的特征和由神经元先前生成的置信度，FC层336中的神经元的参数可以以迭代方式更新。参数可以被初始化为例如某些随机值并且然后可以以较小值增加或减少，直至达到收敛。从公式(14)可以看出，可以通过减少或最小化得到的置信度与实际置信度之间的差异以及得到的置信度与实际置信度之间的差异，来增加或减少参数。

在一些实现中，为了促进回归子网络330的训练，预定义动作的开始点和/或结束点的帧之前的、处于预定时段内的帧(例如，如图4和6示出的T帧时段)也可以被标记为与这个的动作相关联。也就是说，相应的带标签的帧与开始点或结束点之间的时间间隙可以小于预定时间段。作为示例，针对预定义动作k，在训练数据集中针对帧v_t的动作标签可以被设置为值1，其中t_t,start-T≤t＜t_t,start，t_t,start是动作k的开始点。作为另一个示例，针对帧v_t的动作标签可以被设置为值1，其中t_t,end-T≤t＜t_t,end，t_t,end是动作k的结束点。

在一些实现中，用于训练回归子网络330的目标函数可以被设计为获得在一段时间内的帧的最小结果。用于训练回归子网络330的目标函数可以被表示为：

其中L_r(V)表示针对具有N个帧的视频片段的损失函数，并且N表示要考虑用于最小化损失函数的帧的数目。在一些示例中，N可以是视频中的帧的总数目。在一些其他示例中，N可以是预定义的帧数目。

在一些实现中，可以例如通过BPTT方法，基于由回归子网络330生成的(多个)置信度来更新被包括在特征学习子网络310中的神经元的参数。在这些实现中，如果FC层336生成的置信度将导致FC层336的参数的更新，则特征学习子网络310的参数也可以相应的更新，以便提高回归子网络330的收敛。

在一些实现中，特征学习子网络310和分类子网络330的训练可以首先如以上关于图3讨论的那样被执行。分类子网络320的参数确定且估计之后，分类子网络320的输出然后可以用于引导回归子网络330的训练。被包括在FC层336中的神经元的参数可以被更新，并且FC层332(如果被包括的话)中的这些参数也被更新。在回归子网络330的训练期间，特征学习子网络310的参数可以被更新，这可以间接地提高分类子网络320的输出。在一些实现中，通过考虑公式(12)中的学习子网络300的目标函数和公式(15)中的回归子网络330的目标函数，学习网络500的目标函数可以被表示为：

其中λ表示回归子网络330的预测任务的权重。在分类子网络320的训练期间，λ可以被设置为0。当开始训练回归子网络330时，λ可以设置为1。

确定了被包括在学习网络500中的神经元的参数之后，经训练的学习网络500可以用于通过分类子网络320检测每个输入帧的动作并且通过回归子网络330指示是否该动作是否将发生或终止。以上已经讨论了分类子网络320的动作检测。在一些实现中，可以在用于特征融合的FC层332中处理输入帧的特征。来自FC层332的特征输出可以在软选择器334中基于由SoftMax层324生成的针对当前帧的概率来处理。在一些示例中，来自FC层332的特征输出可以乘以当前帧与预定义动作标签相关联的概率。

得到的特征可以用作FC层336的输入以确定当前帧是动作开始的帧的第一置信度、和/或当前帧是动作结束的帧的第二置信度。在一些实现中，如果第一置信度或第二置信度大于阈值，例如0.6的阈值，可以确定动作很快将发生或终止。SoftMax层324的输出可以指示FC层336的输出指示的是哪个动作。

在许多时间使用情况中，特别是对于在线动作检测，通常在一些感兴趣的动作之间存在空白时间。为了加速动作检测，期望背景帧或否定帧(通常被标记为空白动作标签，指示这些帧中不存在动作)可以尽可能早地从学习网络中被丢弃，以便节省计算资源。图8示出了能够实现特征的丢弃的处于级联结构中的学习网络800的框图。

如所示出的，包括使用的SoftMax层330被增加到学习网络80中并且从特征学习子网络310的FC层314接收输入帧的特征的输出。另外的SoftMax层340被增加以接收来自后续FC层318的输入帧的特征的输出。SoftMax层330和340用于确定输入帧是否与预定义动作标签相关联，该预定义动作标签指示该帧不包括动作。如果这些SoftMax层之一确定该帧与该预定义动作标签(无动作)相关联的概率高于阈值，可以丢弃接收到的特征并且可以将将它们传输至后续的层。

在图8示出的实现中，从不包括预定义动作的帧获取的特征可以从学习网络800中被尽可能早地丢弃，从而学习网络800的后续部分可以不需要执行操作，从而针对这个学习网络的训练过程和执行过程均节省了计算资源。也就是说，如果仅该帧与特定动作标签相关联的概率低于阈值，特征可以被传递以用于在训练过程中训练被包括在学习网络800中的剩余部分的神经元的参数、或者用于在执行过程中用于生成子网络320和330的输出。

在一些实现中，SoftMax层330和340可以被设计为双路SoftMax层，其确定针对输入帧包括任何预定义动作的第一种情况、和针对输入帧不包括动作的第二种情况的两个概率。在这种情况下，相应的SoftMax层330和340中可以存在两个神经元，每个用于确定一个概率。SoftMax层330和340的训练过程和执行过程类似于以上SoftMax层324的训练过程，并且为了简洁而不在重复。

将认识到，尽管示出了两个SoftMax层被包括在学习网络800中以用于特征丢弃，在一些其他示例中，仅一个SoftMax层或者多于两个SoftMax层可以被包括在学习网络中。还将认识到，任何SoftMax层可以被连接至RNN层的输出而不是FC层。在一些示例中，用于特征融合的一些附加FC层可以被添加到SoftMax层与来自学习子网络310的某些层的输出之间。

将认识到，以上讨论的学习网络或神经网络可以以各种架构来获得，并且可以以硬件、软件或硬件和软件的组合来实现。在一些实现中，学习网络可以在图1的学习单元116中被训练，利用来自表示提取器114的表示信息和训练数据集112中的对应的预定义标签。在一些实现中，学习网络中的单元的结构和参数可以提供至执行单元126。利用由表示提取器124提取的输入帧的表示信息，执行单元126可以基于学习网络的结构和单元的参数，执行动作检测(以及可能的动作的开始点和结束点的预测)。

图9示出了根据本文所描述主题的一个实现的动作检测的方法900的流程图。在步骤910中，获取视频的输入帧的表示信息和针对帧的预定义动作标签。表示信息表示帧中的观察实体。在一些实现中，表示信息包括与观察实体相关联的骨架表示。在步骤920中，基于帧的表示信息和预定义动作标签，确定被包括在学习网络中的RNN单元的第一参数。

然后，在步骤930中，使得RNN单元利用第一参数、基于表示信息和视频的先前帧的特征，提取针对帧的特征。在步骤940中，基于帧的特征和预定义动作标签，确定被包括在学习网络中的分类单元的第二参数。在步骤950中，根据由分类单元利用第二参数生成的、帧与预定义动作标签相关联的概率，更新RNN单元的第一参数。

在一些实现中，预定义标签可以指示观察实体的预定义动作，并且学习网络可以进一步包括特征处理单元和预测单元。在这些实现中，可以获取与动作在其中开始或结束的特殊帧有关的时间信息。可以使得特征处理单元基于概率来处理帧的特征。可以基于经处理的特征和时间信息，确定预测单元的第三参数。可根据由预测单元利用第三参数生成的、帧是特殊帧的置信度，更新第三参数。

在一些实现中，如果帧在视频中的特殊帧之前，帧与特殊帧之间的时间间隙可以在预定义时间段之内。

在一些实现中，更新第一参数可以包括基于置信度更新RNN单元的第一参数。

在一些实现中，预定义动作标签可以指示帧不包括动作，并且学习网络可以进一步包括另外的分类单元。在这些实现中，可以基于特征和预定义动作标签，确定另外的分类单元的第四参数。可以使得另外的分类单元利用第四参数生成帧与预定义动作标签相关联的另外的概率。可以响应于另外的概率低于阈值，引起第二参数基于特征的确定。

在一些实现中，学习网络可以进一步包括特征融合单元。在这些实现中，可以基于由RNN单元提取的特征和预定义动作标签，确定特征融合单元的第五参数。可以使得特征融合单元利用第五参数、基于非线性函数来更新特征。可以使得分类单元基于经更新的特征来确定概率。

图10示出了根据本文所描述主题的另一个实现的动作检测的方法1000的流程图。在步骤1010中，获取视频的输入帧的表示信息。表示信息表示帧中的观察实体。在一些实现中，表示信息包括与观察实体相关联的骨架表示。在步骤1020中，使得被包括在学习网络中的RNN单元利用第一预定参数、基于表示信息和视频的先前帧的特征，提取针对帧的特征。然后在步骤1030中，使得被包括在学习网络中的分类单元利用第二预定参数、基于特征生成帧与预定义动作标签相关联的概率。

在一些实现中，预定义标签可以指示观察实体的预定义动作，并且学习网络可以进一步包括特征处理单元和预测单元。在这些实现中，可以使得处理单元基于概率处理特征。可以使得预测单元利用第三预定参数、基于经处理的特征生成帧是特殊帧的置信度，在特殊帧中动作开始或结束。可以响应于置信度超过阈值，确定针对特殊帧的预测。

在一些实现中，预定义动作标签可以指示帧不包括动作，并且学习网络可以进一步包括另外的分类单元。在这些实现中，可以使得另外的分类单元利用第四预定参数、基于特征来生成帧与预定义动作标签相关联的另外的概率。可以响应于另外的概率低于阈值，引起第二参数基于特征的确定。

在一些实现中，学习网络可以进一步包括特征融合单元。可以使得特征融合单元利用第四预定参数、基于非线性函数来更新特征，并且可以使得分类单元基于经更新的特征来确定概率。

图11示出了其中可以实施本文所描述主题的一个或多个实现的示例计算系统/服务器1100的框图。模型估计系统110、模型执行系统120或者两者可以由计算系统/服务器1100实现。图11示出的计算系统/服务器1100仅是示例，其不应当构成对本文所描述的实现的使用的功能和范围的限制。

如图11所示，计算系统/服务器1100是通用计算设备的形式。计算系统/服务器1100的组件可以包括但不限于一个或多个处理器或处理单元1100，存储器1120，一个或多个输入设备1130，一个或多个输出设备1140，存储装置1150，和一个或多个通信单元1160。处理单元1100可以是实际或虚拟处理器并且能够根据存储器1120中存储的持续来执行各种处理。在多处理系统中，多处理单元执行计算机可执行指令，以增加处理能力。

计算系统/服务器1100通常包括多个计算机介质。这样的介质可以是计算系统/服务器1100可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器1120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储装置1150可以是可拆卸或不可拆卸，并且可以包括机器可读介质，诸如闪存驱动、磁盘或者任何其他介质，其可以能够用于存储信息并且可以在计算系统/服务器1100内被访问。

计算系统/服务器1100可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性计算机系统存储介质。尽管未在图11中示出，可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线18。存储器1120可以包括至少一个程序产品，具有(例如至少一个)程序模块集合，这些程序模块被配置为执行本文所描述的各种实现的功能。

具有(例如至少一个)程序模块1124的集合的程序/实用程序工具1122可以被存储在例如存储器1120中。这样的程序模块1124可以包括但不限于操作系统、一个或多个应用程序、其他程序模块和操作数据。这些示例中的每个示例或特定组合可以包括联网环境的实现。程序模块1124通常执行本文所描述的主题的实现的功能和/或方法，例如方法900和/或方法1000。

输入单元1130可以是一个或多个各种输入设备。例如，输入单元1139可以包括用户设备、诸如鼠标、键盘、追踪球等。通信单元1160实现在通信介质上向另外的计算实体进行通信。附加地，计算系统/服务器1100的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接来通信。因此，计算系统/服务器1100可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。例如但不限于，通信介质包括有线或无线联网技术。

计算系统/服务器1100还可以根据需要与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等等，与一个或多个使得用户与计算系统/服务器1100交互的设备进行通信，或者与使得计算系统/服务器1100与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

本文中所描述的功能可以至少部分地由一个或多个硬件逻辑组件来执行。例如但不限于，可以使用的硬件逻辑组件的示意性类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。

可以至少部分地由一个或多个硬件逻辑部件来执行本文所描述的功能。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本文所描述的主题的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开内容的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现谢姐，但是这些不应当被解释为对本文所描述的主题的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

以下列出了本文描述的主题的一些示例实现。

在一些实现中，提供了一种设备。该设备包括：处理单元；存储器，耦合至所述处理单元并且将指令存储在其上，所述指令在由所述处理单元执行时执行包括以下的步骤：获取视频的输入帧的表示信息和针对所述帧的预定义动作标签，所述表示信息表示所述帧中的观察实体；基于所述帧的所述表示信息和所述预定义动作标签，确定被包括在学习网络中的递归神经网络(RNN)单元的第一参数；使得所述RNN单元利用所述第一参数、基于所述表示信息和所述视频的先前帧的特征，提取针对所述帧的特征；基于所述帧的所述特征和所述预定义动作标签，确定被包括在所述学习网络中的分类单元的第二参数；以及根据由所述分类单元利用所述第二参数生成的、所述帧与所述预定义动作标签相关联的概率，更新所述RNN单元的所述第一参数。

在一些实现中，所述预定义标签指示所述观察实体的预定义动作，并且所述学习网络进一步包括特征处理单元和预测单元，所述动作进一步包括：获取与所述动作在其中开始或结束的特殊帧有关的时间信息；使得所述特征处理单元基于所述概率来处理所述帧的所述特征；基于经处理的特征和所述时间信息，确定所述预测单元的第三参数；以及根据由所述预测单元利用所述第三参数生成的、所述帧是所述特殊帧的置信度，更新所述第三参数。

在一些实现中，如果所述帧在所述视频中的所述特殊帧之前，所述帧与所述特殊帧之间的时间间隙在预定义时间段之内。

在一些实现中，更新所述第一参数进一步包括：基于所述置信度更新所述RNN单元的所述第一参数。

在一些实现中，所述预定义动作标签指示所述帧不包括动作，并且所述学习网络进一步包括另外的分类单元，所述动作进一步包括：基于所述特征和所述预定义动作标签，确定所述另外的分类单元的第四参数；使得所述另外的分类单元利用所述第四参数生成所述帧与所述预定义动作标签相关联的另外的概率；以及响应于所述另外的概率低于阈值，引起所述第二参数基于所述特征的确定。

在一些实现中，所述学习网络进一步包括特征融合单元，所述动作进一步包括：基于由所述RNN单元提取的特征和所述预定义动作标签，确定所述特征融合单元的第五参数；使得所述特征融合单元利用所述第五参数、基于非线性函数来更新所述特征；以及使得所述分类单元基于经更新的特征来确定所述概率。

在一些实现中，所述RNN单元包括长短时记忆(LSTM)单元。

在一些实现中，所述表示信息包括与所述观察实体相关联的骨架表示。

在一些实现中，提供了一种设备。该设备包括：处理单元；存储器，耦合至所述处理单元并且将指令存储在其上，所述指令在由所述处理单元执行时执行包括以下的步骤：获取视频的输入帧的表示信息，所述表示信息表示所述帧中的观察实体；使得被包括在学习网络中的递归神经网络(RNN)单元利用第一预定参数、基于所述表示信息和所述视频的先前帧的特征，提取针对所述帧的特征；以及使得被包括在所述学习网络中的分类单元利用第二预定参数、基于所述特征生成所述帧与预定义动作标签相关联的概率。

在一些实现中，所述预定义标签指示所述观察实体的预定义动作，并且所述学习网络进一步包括特征处理单元和预测单元，所述动作进一步包括：使得所述处理单元基于所述概率处理所述特征；使得所述预测单元利用第三预定参数、基于所述经处理的特征生成所述帧是特殊帧的置信度，在所述特殊帧中所述动作开始或结束；以及响应于所述置信度超过阈值，确定针对所述特殊帧的预测。

在一些实现中，所述预定义动作标签指示所述帧不包括动作，并且所述学习网络进一步包括另外的分类单元，所述动作进一步包括：使得所述另外的分类单元利用第四预定参数、基于所述特征来生成所述帧与所述预定义动作标签相关联的另外的概率；以及响应于所述另外的概率低于阈值，引起所述第二参数基于所述特征的确定。

在一些实现中，所述学习网络进一步包括特征融合单元，所述动作进一步包括：使得所述特征融合单元利用第四预定参数、基于非线性函数来更新所述特征；以及使得所述分类单元基于经更新的特征来确定所述概率。

在一些实现中，所述RNN单元包括长短时记忆(LSTM)单元。

在一些实现中，提供了一种方法。该方法包括：获取视频的输入帧的表示信息和针对所述帧的预定义动作标签，所述表示信息表示所述帧中的观察实体；基于所述帧的所述表示信息和所述预定义动作标签，确定被包括在学习网络中的递归神经网络(RNN)单元的第一参数；使得所述RNN单元利用所述第一参数、基于所述表示信息和所述视频的先前帧的特征，提取针对所述帧的特征；基于所述帧的所述特征和所述预定义动作标签，确定被包括在所述学习网络中的分类单元的第二参数；以及根据由所述分类单元利用所述第二参数生成的、所述帧与所述预定义动作标签相关联的概率，更新所述RNN单元的所述第一参数。

在一些实现中，所述预定义标签指示所述观察实体的预定义动作，并且所述学习网络进一步包括特征处理单元和预测单元，所述方法进一步包括：获取与所述动作在其中开始或结束的特殊帧有关的时间信息；使得所述特征处理单元基于所述概率来处理所述帧的所述特征；基于经处理的特征和所述时间信息，确定所述预测单元的第三参数；以及根据由所述预测单元利用所述第三参数生成的、所述帧是所述特殊帧的置信度，更新所述第三参数。

在一些实现中，所述预定义动作标签指示所述帧不包括动作，并且所述学习网络进一步包括另外的分类单元，所述方法进一步包括：基于所述特征和所述预定义动作标签，确定所述另外的分类单元的第四参数；使得所述另外的分类单元利用所述第四参数生成所述帧与所述预定义动作标签相关联的另外的概率；以及响应于所述另外的概率低于阈值，引起所述第二参数基于所述特征的确定。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种设备，包括：

处理单元；

存储器，耦合至所述处理单元并且将指令存储在其上，所述指令在由所述处理单元执行时执行包括以下的步骤：

获取视频的输入帧的表示信息和针对所述帧的预定义动作标签，所述表示信息表示所述帧中的观察实体；

基于所述帧的所述表示信息和所述预定义动作标签，确定被包括在学习网络中的递归神经网络(RNN)单元的第一参数；

使得所述RNN单元利用所述第一参数、基于所述表示信息和所述视频的先前帧的特征，提取针对所述帧的特征；

基于所述帧的所述特征和所述预定义动作标签，确定被包括在所述学习网络中的分类单元的第二参数；以及

根据由所述分类单元利用所述第二参数生成的、所述帧与所述预定义动作标签相关联的概率，更新所述RNN单元的所述第一参数。

2.根据权利要求1所述的设备，其中所述预定义标签指示所述观察实体的预定义动作，并且所述学习网络进一步包括特征处理单元和预测单元，所述动作进一步包括：

获取与所述动作在其中开始或结束的特殊帧有关的时间信息；

使得所述特征处理单元基于所述概率来处理所述帧的所述特征；

基于经处理的特征和所述时间信息，确定所述预测单元的第三参数；以及

根据由所述预测单元利用所述第三参数生成的、所述帧是所述特殊帧的置信度，更新所述第三参数。

3.根据权利要求2所述的设备，其中如果所述帧在所述视频中的所述特殊帧之前，所述帧与所述特殊帧之间的时间间隙在预定义时间段之内。

4.根据权利要求2所述的设备，其中更新所述第一参数进一步包括：

基于所述置信度更新所述RNN单元的所述第一参数。

5.根据权利要求1所述的设备，其中所述预定义动作标签指示所述帧不包括动作，并且所述学习网络进一步包括另外的分类单元，所述动作进一步包括：

基于所述特征和所述预定义动作标签，确定所述另外的分类单元的第四参数；

使得所述另外的分类单元利用所述第四参数生成所述帧与所述预定义动作标签相关联的另外的概率；以及

响应于所述另外的概率低于阈值，引起所述第二参数基于所述特征的确定。

6.根据权利要求1所述的设备，其中所述学习网络进一步包括特征融合单元，所述动作进一步包括：

基于由所述RNN单元提取的特征和所述预定义动作标签，确定所述特征融合单元的第五参数；

使得所述特征融合单元利用所述第五参数、基于非线性函数来更新所述特征；以及

使得所述分类单元基于经更新的特征来确定所述概率。

7.根据权利要求1所述的设备，其中所述RNN单元包括长短时记忆(LSTM)单元。

8.根据权利要求1所述的设备，其中所述表示信息包括与所述观察实体相关联的骨架表示。

9.一种设备，包括：

处理单元；

获取视频的输入帧的表示信息，所述表示信息表示所述帧中的观察实体；

使得被包括在学习网络中的递归神经网络(RNN)单元利用第一预定参数、基于所述表示信息和所述视频的先前帧的特征，提取针对所述帧的特征；以及

使得被包括在所述学习网络中的分类单元利用第二预定参数、基于所述特征生成所述帧与预定义动作标签相关联的概率。

10.根据权利要求9所述的设备，其中所述预定义标签指示所述观察实体的预定义动作，并且所述学习网络进一步包括特征处理单元和预测单元，所述动作进一步包括：

使得所述处理单元基于所述概率处理所述特征；

使得所述预测单元利用第三预定参数、基于所述经处理的特征生成所述帧是特殊帧的置信度，在所述特殊帧中所述动作开始或结束；以及

响应于所述置信度超过阈值，确定针对所述特殊帧的预测。

11.根据权利要求9所述的设备，其中所述预定义动作标签指示所述帧不包括动作，并且所述学习网络进一步包括另外的分类单元，所述动作进一步包括：

使得所述另外的分类单元利用第四预定参数、基于所述特征来生成所述帧与所述预定义动作标签相关联的另外的概率；以及

12.根据权利要求9所述的设备，其中所述学习网络进一步包括特征融合单元，所述动作进一步包括：

使得所述特征融合单元利用第四预定参数、基于非线性函数来更新所述特征；以及

使得所述分类单元基于经更新的特征来确定所述概率。

13.根据权利要求9所述的设备，其中所述RNN单元包括长短时记忆(LSTM)单元。

14.根据权利要求9所述的设备，其中所述表示信息包括与所述观察实体相关联的骨架表示。

15.一种方法，包括：

16.根据权利要求15所述的方法，其中所述预定义标签指示所述观察实体的预定义动作，并且所述学习网络进一步包括特征处理单元和预测单元，所述方法进一步包括：

17.根据权利要求16所述的方法，其中如果所述帧在所述视频中的所述特殊帧之前，所述帧与所述特殊帧之间的时间间隙在预定义时间段之内。

18.根据权利要求16所述的方法，其中更新所述第一参数进一步包括：

基于所述置信度更新所述RNN单元的所述第一参数。

19.根据权利要求15所述的方法，其中所述预定义动作标签指示所述帧不包括动作，并且所述学习网络进一步包括另外的分类单元，所述方法进一步包括：

20.根据权利要求15所述的方法，其中所述学习网络进一步包括特征融合单元，所述动作进一步包括：

使得所述分类单元基于经更新的特征来确定所述概率。