CN108288032B

CN108288032B - 动作特征获取方法、装置及存储介质

Info

Publication number: CN108288032B
Application number: CN201810015245.XA
Authority: CN
Inventors: 舒祥波; 严锐; 马林; 唐金辉
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2018-01-08
Filing date: 2018-01-08
Publication date: 2020-11-10
Anticipated expiration: 2038-01-08
Also published as: CN108288032A

Abstract

本发明实施例公开了一种动作特征获取方法、装置及存储介质，属于计算机技术领域。H‑LSTCM模型中包括输入层、隐藏层、Co‑LSTM层和输出层，该方法包括：在通过隐藏层计算每个对象的隐层状态之后，通过Co‑LSTM层计算目标视频的记忆细胞，通过输出层计算目标视频的输出门，进而根据记忆细胞和输出门计算出目标视频的动作特征H_t。通过Co‑LSTM层有选择地整合并记忆多个对象的交互动作特征，从而保证提取到的动作特征中不仅包含单人动作特征还包括交互动作特征，提高了动作特征的准确率和全面性，并且将提取的上述动作特征应用于动作识别场景，能够提高动作识别的准确率。

Description

动作特征获取方法、装置及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种动作特征获取方法、装置及存储介质。

背景技术

动作识别是计算机视觉和模式识别领域的一项重要研究课题，通过动作识别能够自动理解视频中人们所做的动作，可以广泛应用于公共场所监控、人机交互等多种领域。而提取动作特征是动作识别过程的关键环节，只有提取到准确的动作特征，才能准确地进行动作识别。

LSTM(Long Short-Term Memory，长短期记忆)模型是一种常用的动作特征获取方法，LSTM模型中包括输入层、隐藏层和输出层，隐藏层中包括多个单人LSTM模型。考虑到目标视频中通常包括多个对象，则输入层提取出多个对象的图像特征，分别输入到隐藏层的多个单人LSTM模型中，通过多个单人LSTM模型分别获取该多个对象的单人动作特征，之后输出层将多个单人LSTM模型获取到的单人动作特征进行融合，即可得到目标视频的动作特征。其中，单人LSTM模型在获取对象在当前时刻的单人动作特征时，会考虑该对象在上一时刻的单人动作特征以及该对象在当前时刻视频帧中的图像特征。

如图1所示，目标视频中包括对象A和对象B的动作，以获取t时刻的动作特征为例，将对象A在t-1时刻的单人动作特征与对象A在t时刻视频帧中的图像特征输入到单人LSTM模型1中，通过单人LSTM模型1得到对象A在t时刻的单人动作特征，同理通过单人LSTM模型2也会提取到对象B在t时刻的单人动作特征，则将这两个对象的单人动作特征进行融合，即可得到t时刻视频帧的动作特征。

但是，目标视频中不仅包括单人动作还可能会包括交互动作，如握手、拥抱、说话等，而上述动作特征获取方法将多个对象看作是独立的个体，忽略了不同对象动作之间的关联性，无法提取到交互动作的动作特征。

发明内容

本发明实施例提供了一种动作特征获取方法、装置及存储介质，可以解决相关技术的问题。所述技术方案如下：

第一方面，提供了一种动作特征获取方法，具有层次性的长短期并发记忆H-LSTCM模型中包括输入层、隐藏层、长短期并发记忆Co-LSTM层和输出层，所述隐藏层中包括多个单人LSTM模型；所述方法包括：

通过所述输入层，根据目标视频在t时刻的视频帧中的p个对象，提取每个对象s在所述t时刻的图像特征

所述目标视频包括T个时刻的视频帧，s∈{1,2，…p}，t∈{1,2，…T}，p和T为大于1的整数；

通过所述隐藏层中与每个对象s对应的单人LSTM模型，根据每个对象s在t-1时刻的隐层状态

和每个对象s在所述t时刻的图像特征

获取每个对象s在所述t时刻的隐层状态

所述

由与每个对象s对应的单人LSTM模型在所述t-1时刻获取；

通过所述Co-LSTM层，根据所述目标视频在所述t-1时刻的隐层状态h_t-1和每个对象s在所述t时刻的隐层状态

计算所述目标视频在所述t时刻的记忆细胞C_t，所述记忆细胞C_t用于记忆所述p个对象在所述t时刻的隐层状态中的交互动作特征；

通过所述输出层，根据所述目标视频在所述t-1时刻的隐层状态h_t-1和每个对象s在所述t时刻的隐层状态

计算所述目标视频在所述t时刻的输出门O_t，所述输出门O_t用于确定所述p个对象在所述t时刻的隐层状态中需要输出的动作特征；

根据所述目标视频在所述t时刻的记忆细胞C_t和输出门O_t，计算所述目标视频在所述t时刻的动作特征H_t。

第二方面，提供了一种动作特征获取装置，所述装置包括：输入层模块、隐藏层模块、并发记忆模块和输出层模块，所述隐藏层模块包括多个单人隐层子模块；

所述输入层模块，用于根据目标视频在t时刻的视频帧中的p个对象，提取每个对象s在所述t时刻的图像特征

所述每个单人隐层子模块，用于根据每个对象s在t-1时刻的隐层状态

和每个对象s在所述t时刻的图像特征

获取每个对象s在所述t时刻的隐层状态

所述

由与每个对象s对应的单人LSTM模型在所述t-1时刻获取；

所述并发记忆模块，用于根据所述目标视频在所述t-1时刻的隐层状态h_t-1和每个对象s在所述t时刻的隐层状态

所述输出层模块，用于根据所述目标视频在所述t-1时刻的隐层状态h_t-1和每个对象s在所述t时刻的隐层状态

计算所述目标视频在所述t时刻的输出门O_t，所述输出门

用于确定所述p个对象在所述t时刻的隐层状态中需要输出的动作特征；

所述输出层模块，还用于根据所述目标视频在所述t时刻的记忆细胞C_t和输出门O_t，计算所述目标视频在所述t时刻的动作特征H_t。

第三方面，提供了一种动作特征获取装置，所述动作特征获取装置包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如第一方面所述的动作特征获取方法中所执行的操作。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如第一方面所述的动作特征获取方法中所执行的操作。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的方法、装置及存储介质，提供了一种H-LSTCM模型，H-LSTCM模型包括输入层、隐藏层、Co-LSTM层和输出层，在通过隐藏层计算出隐层状态之后，通过Co-LSTM层有选择地整合并记忆多个对象的交互动作特征，从而保证提取到的动作特征中不仅包含单人动作特征还包括交互动作特征，提高了动作特征的准确率和全面性，并且将提取的上述动作特征应用于动作识别场景，能够提高动作识别的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种LSTM模型的结构示意图；

图2是本发明实施例提供的一种H-LSTCM模型的结构示意图；

图3是本发明实施例提供的一种动作特征获取方法的流程图；

图4是本发明实施例提供的一种H-LSTCM模型的Co-LSTM层和输出层的结构示意图；

图5是本发明实施例提供的一种动作特征获取装置的结构示意图；

图6是本发明一个示例性实施例提供的终端的结构框图；

图7是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种H-LSTCM(Hierarchical Long Short-Term ConcurrentMemories，具有层次性的长短期并发记忆)模型，该H-LSTCM模型在提取目标视频的动作特征时，不仅可以提取到每个对象的单人动作特征，而且还能提取到不同对象之间的并发关联动作而产生的交互动作特征。

该H-LSTCM模型可以应用于动作识别的场景下，如视频录制应用或者拍照应用中，能够有效地实现对图像或视频中的人物分析与动作理解。在H-LSTCM模型的训练过程中，针对多个样本视频，可以通过H-LSTCM模型获取这些样本视频的动作特征，包括单人动作特征和交互动作特征，并根据提取的动作特征训练H-LSTCM模型，确定H-LSTCM模型中的模型参数，如权重矩阵和偏置向量等。之后，通过训练好的H-LSTCM模型即可获取任一视频的动作特征，并根据获取的动作特征识别出该视频中的单人动作和交互动作。

例如，通过H-LSTCM模型不仅可以识别出视频中的单人动作，如挥手、走路等，还可以识别出视频中的交互动作，如拥抱、握手等。

图2是本发明实施例提供的一种H-LSTCM模型的结构示意图，通过H-LSTCM模型可以提取目标视频的动作特征，该动作特征包含单人动作特征和交互动作特征。

参见图2，H-LSTCM模型包括输入层、隐藏层、Co-LSTM(Concurrent LSTM，长短期并发记忆)层和输出层，隐藏层中包括多个单人LSTM模型，Co-LSTM层包括多个子记忆单元和一个联合记忆单元，多个子记忆单元与多个单人LSTM模型一一对应。

其中，输入层根据目标视频中多个对象的动作信息，提取多个对象的图像特征，输入至隐藏层中；隐藏层中的每个单人LSTM模型根据相应对象的图像特征，获取该对象的隐层状态；Co-LSTM层中，每个子记忆单元存储各个对象的相关特征，控制对应子记忆单元内的交互动作特征进入联合记忆单元，在联合记忆单元中，有选择地整合和存储多个对象之间的交互动作特征，从而捕捉所有交互的对象产生的交互动作特征。

图3是本发明实施例提供的一种动作特征获取方法的流程图，该动作特征获取方法的执行主体为获取装置，该获取装置可以为服务器或者手机、计算机等终端。参见图3，该方法包括：

301、通过输入层，根据目标视频在t时刻的视频帧中的p个对象，提取每个对象s在t时刻的图像特征

目标视频包括T个时刻的视频帧，s∈{1,2，…p}，t∈{1,2，…T}，p和T为大于1的整数。

其中，目标视频为需要获取动作特征的视频，可以为训练H-LSTCM模型过程中的样本视频，或者也可以为需要识别动作类别的视频。且，该目标视频可以为生成的视频文件，或者也可以为实时监控系统中采集的视频等。

针对该目标视频，可以将该目标视频划分为T个时刻的视频帧，T为大于1的整数。本发明实施例以提取目标视频在t时刻的动作特征为例，对于t时刻的视频帧中的每个对象，追踪出该对象在该视频帧中的动作信息，该动作信息可以表示该对象的动作轨迹，采用特征提取算法对该动作信息进行特征提取可以得到对应的图像特征。其中，采用的特征提取算法可以为CNN(Convolutional Neural Network，卷积神经网络)特征提取算法、图像变换算法、方向梯度直方图等。

目标视频中包括p个对象，采用上述提取特征的方式，可以提取每个对象s在t时刻的图像特征

s∈{1,2，…p}，p为大于1的整数。进一步地，针对目标视频中的每个时刻，可以提取每个对象在每个时刻t的图像特征，包括：

302、通过隐藏层中与每个对象s对应的单人LSTM模型，根据每个对象s在t-1时刻的隐层状态

和每个对象s在t时刻的图像特征

获取每个对象s在t时刻的隐层状态

由与每个对象s对应的单人LSTM模型在t-1时刻获取。

隐藏层中包括p个单人LSTM模型，与目标对象中的p个对象一一对应，分别用于获取每个对象的隐层状态。

针对每个对象s，将输入层输出的图像特征

输入至对应的单人LSTM模型中，并且还会将每个单人LSTM模型在t-1时刻输出的隐层状态输入至当前t时刻的单人LSTM模型中，即将对象s在t-1时刻的隐层状态

输入至当前t时刻的单人LSTM模型中，通过单人LSTM模型获取对象s在t时刻的隐层状态

具体地，通过隐藏层计算每个对象s在t时刻的隐层状态

包括：

1、计算每个对象s在t时刻的输入门

表示隐藏层中每个对象s的输入门与输入层之间的权重矩阵，

表示隐藏层中每个对象s的输入门与隐藏层之间的权重矩阵，

表示隐藏层中每个对象s的输入门的偏置向量。

2、计算每个对象s在t时刻的遗忘门

表示隐藏层中每个对象s的遗忘门与输入层之间的权重矩阵，

表示隐藏层中每个对象s的遗忘门与隐藏层之间的权重矩阵，

表示隐藏层中每个对象s的遗忘门的偏置向量。

3、计算每个对象s在t时刻的记忆细胞

表示隐藏层中每个对象s的记忆细胞与输入层之间的权重矩阵，

表示隐藏层中每个对象s的记忆细胞与隐藏层之间的权重矩阵，

表示隐藏层中每个对象s的记忆细胞的偏置向量。

4、计算每个对象s在t时刻的输出门o_t：

表示隐藏层中每个对象s的输出门与输入层之间的权重矩阵，W_oh表示隐藏层中的输出门与隐藏层之间的权重矩阵，b_o表示隐藏层中的输出门的偏置向量。

5、计算每个对象s在t时刻的隐层状态h_t：

其中，σ(·)为阈值函数，

为双曲正切函数，×为向量的点乘函数。

303、通过Co-LSTM层的每个子记忆单元，根据目标视频在t-1时刻的隐层状态h_t-1和每个对象s在t时刻的隐层状态

计算每个对象s在t时刻的输入门

Co-LSTM层包括多个子记忆单元和一个联合记忆单元，隐藏层中的每个单人LSTM模型输出的隐层状态传入到Co-LSTM层中对应的子记忆单元，通过子记忆单元计算后传入到联合记忆单元中，最后在联合记忆单元中进行整合以后输出动作特征。

首先，将目标视频在t-1时刻的隐层状态h_t-1和每个对象s在t时刻的隐层状态

输入至子记忆单元中，通过子记忆单元计算出输入门

该输入门

用于保留每个对象s在t时刻的隐层状态中的相关特征。实际应用中，该输入门

可以以每个对象s在t时刻的隐层状态的影响程度来表示，输入门越大表示对象s的隐层状态的影响越大，越可能是相关特征，也越应当被保留。

在一种可能实现方式中，根据目标视频在t-1时刻的隐层状态h_t-1和每个对象s在t时刻的隐层状态

采用以下公式计算每个对象s在t时刻的输入门

其中，σ(·)为阈值函数，

表示每个对象s的输入门与输入层之间的权重矩阵，表示每个对象s的输入门与隐藏层之间的权重矩阵，

表示每个对象s的输入门的偏置向量。

304、根据目标视频在t-1时刻的隐层状态h_t-1和每个对象s在t时刻的隐层状态

计算每个对象s在t时刻的遗忘门

将目标视频在t-1时刻的隐层状态h_t-1和每个对象s在t时刻的隐层状态

输入至子记忆单元中，通过子记忆单元计算出遗忘门

该遗忘门

用于将每个对象s在t时刻的隐层状态中的不相关特征去除，从而剩余相关特征。实际应用中，遗忘门

可以以对象s在t时刻的隐层状态需要被记忆的程度来表示，遗忘门

越大表示对象s的动作特征越应当被记忆。

采用以下公式计算每个对象s在t时刻的遗忘门

其中，σ(·)为阈值函数，

表示每个对象s的遗忘门与输入层之间的权重矩阵，

表示每个对象s的遗忘门与隐藏层之间的权重矩阵，

表示每个对象s的遗忘门的偏置向量。

305、根据目标视频在t-1时刻的隐层状态h_t-1、每个对象s在t时刻的隐层状态

输入门

和遗忘门

每个对象s在t-1时刻的记忆细胞

计算每个对象s在t时刻的记忆细胞

其中，记忆细胞

用于记忆每个对象s在t时刻的隐层状态中提取的相关特征，通过记忆细胞

可以将选择保留的动作特征记忆下来。

在一种可能实现方式中，采用以下公式，计算每个对象s在t时刻的记忆细胞

其中，

为双曲正切函数，×为向量的点乘函数，

表示每个对象s的记忆细胞与输入层之间的权重矩阵，

表示每个对象s的记忆细胞与隐藏层之间的权重矩阵，

表示每个对象s的记忆细胞的偏置向量。

306、根据目标视频在t-1时刻的隐层状态h_t-1和每个对象s在t时刻的隐层状态

计算每个对象s在t时刻的细胞门

其中，细胞门

用于从每个对象s在t时刻的隐层状态中提取交互动作特征。

在一种可能实现方式中，采用以下公式计算每个对象s在t时刻的细胞门

其中，σ(·)为阈值函数，

表示每个对象s的细胞门与隐藏层之间的权重矩阵，W_πh表示Co-LSTM层中的细胞门与隐藏层之间的权重矩阵，b_π表示细胞门的偏置向量。

307、通过联合记忆单元，根据每个对象s在t时刻的记忆细胞

和细胞门

计算目标视频在t时刻的记忆细胞C_t。

多个子记忆单元向联合记忆单元输出记忆细胞

和细胞门

由联合记忆单元根据每个对象s在t时刻的记忆细胞

和细胞门

进行整合，计算目标视频在t时刻的记忆细胞C_t，记忆细胞C_t用于记忆p个对象在t时刻的隐层状态中的交互动作特征。

在一种可能实现方式中，采用以下公式，计算目标视频在t时刻的记忆细胞

×为向量的点乘函数。

本发明实施例中，在LSTCM模型的基础上添加了Co-LSTM层，通过Co-LSTM层，能够根据目标视频在t-1时刻的隐层状态h_t-1和每个对象s在t时刻的隐层状态

计算目标视频在t时刻的记忆细胞C_t，从而记忆交互动作特征。

308、通过输出层，根据目标视频在t-1时刻的隐层状态h_t-1和每个对象s在t时刻的隐层状态

计算目标视频在t时刻的输出门O_t。

隐藏层将目标视频在t-1时刻的隐层状态h_t-1和每个对象s在t时刻的隐层状态

输入至输出层中，通过输出层计算出输出门O_t，输出门O_t用于确定p个对象在t时刻的隐层状态中需要输出的动作特征。

在一种可能实现方式中，采用以下公式，计算目标视频在t时刻的输出门O_t：

其中，σ(·)为阈值函数，

表示每个对象s的输出门与输入层之间的权重矩阵，W_oh表示输出门与隐藏层之间的权重矩阵，b_o表示输出门的偏置向量。

309、根据目标视频在t时刻的记忆细胞C_t和输出门O_t，计算目标视频在t时刻的动作特征H_t。

在一种可能实现方式中，采用以下公式，计算目标视频在t时刻的动作特征

为双曲正切函数，×为向量的点乘函数。

在一种可能实现方式中，针对需要进行动作识别的目标视频，当提取到目标视频在t时刻的动作特征H_t之后，可以采用以下公式，计算目标视频在t时刻的视频帧属于每个交互动作类别的概率：

其中，W_zh表示交互动作类别与隐藏层之间的权重矩阵，b_z表示交互动作类别的偏置向量，z_t包括k个维度，z_t，l为z_t在第l个维度上的元素值表示第l个交互动作类别的置信度，l∈{1,2，…k}，z_t，j为z_t在第j个维度上的元素值，表示第j个交互动作类别的置信度，j∈{1,2，…k}，y_t，l表示目标视频在t时刻的视频帧属于第l个交互动作类别的概率，则y_t，l中概率最大的交互动作类别即为目标视频在t时刻的视频帧所属的交互动作类别。

需要说明的一点是，采用本发明实施例提供的方法，可以通过H-LSTCM模型提取出目标视频在每个时刻的动作特征，从而捕捉到目标视频随时间而产生的动作特征序列。

需要说明的另一点是，本发明实施例提供了一种H-LSTCM模型的网络架构，其中，在隐藏层之后的Co-LSTM层和输出层的网络架构可以如图4所示。基于该H-LSTCM模型的网络架构，可以根据多个样本视频进行训练，确定H-LSTCM模型中的模型参数，包括上述权重矩阵和偏置向量等，之后即可应用该H-LSTCM模型进行动作识别。

相关技术中的LSTM模型是递归神经网络的一种变体，它允许网络去学习何时忘记前馈输入及何时更新隐层状态。然而，目前的递归神经网络忽略了群体内不同个体间关联信息随时间的变化。因此，本发明实施例有针对性地提供了一种H-LSTCM模型，能够对多个个体的动作信息进行建模，通过细胞门将个体的动作特征从单个子记忆单元中有选择地提取出更具有判别性的并发关联动作特征，并存储到新的联合记忆单元中，更有效地捕捉群体内不同个体间长期关联的动作信息，以识别个体之间的交互动作。整体来看，堆叠的Co-LSTM层能在一个时间序列中呈现递归传递，以捕捉所有交互的个体随时间而产生的并发关联动作信息。通过针对三个群体动作进行大量的实验，验证了H-LSTCM模型的有效性。

本发明实施例提供的方法、装置及存储介质，提供了一种H-LSTCM模型，H-LSTCM模型包括输入层、隐藏层、Co-LSTM层和输出层，在通过隐藏层计算出隐层状态之后，通过Co-LSTM层中的子记忆单元和联合记忆单元，有选择地整合并记忆多个对象的相关特征，去除不相关的特征，从而保证提取到的动作特征中不仅包含单人动作特征还包括交互动作特征，提高了动作特征的准确率和全面性，并且将提取的上述动作特征应用于动作识别场景，能够提高动作识别的准确率。

图4是本发明实施例提供的一种动作特征获取装置的结构示意图。参见图4，该装置包括：输入层模块501、隐藏层模块502、并发记忆模块503和输出层模块504，隐藏层模块502包括多个单人隐层子模块5021；

输入层模块501，用于执行上述实施例中提取图像特征的步骤；

单人隐层子模块5021，用于执行上述实施例中获取隐层状态的步骤；

并发记忆模块503，用于执行上述实施例中计算目标视频的记忆细胞的步骤；

输出层模块504，用于执行上述实施例中计算目标视频的输出门并计算动作特征的步骤。

在一种可能实现方式中，并发记忆模块503包括多个单人记忆子模块5031和一个联合记忆子模块5032，多个单人记忆子模块5031与多个单人隐层子模块5021一一对应。

单人记忆子模块5031，用于执行上述实施例中计算记忆细胞和细胞门的步骤；

联合记忆子模块5032，用于执行上述实施例中根据记忆细胞和细胞门计算目标视频的记忆细胞的步骤。

在一种可能实现方式中，该输出层模块504还用于执行上述实施例中计算目标视频在t时刻的视频帧属于每个交互动作类别的概率的步骤。

需要说明的是：上述实施例提供的动作特征获取装置在获取动作特征时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将获取装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的动作特征获取装置与动作特征获取方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图6示出了本发明一个示例性实施例提供的终端600的结构框图。该终端600可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的动作特征获取方法。

在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时，由处理器601根据用户对触摸显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商标志集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制触摸显示屏605的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏605的显示亮度；当环境光强度较低时，调低触摸显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图7是本发明实施例提供的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)701和一个或一个以上的存储器702，其中，所述存储器702中存储有至少一条指令，所述至少一条指令由所述处理器701加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

服务器700可以用于执行上述动作特征获取方法中获取装置所执行的步骤。

本发明实施例还提供了一种动作特征获取装置，该动作特征获取装置包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，指令、程序、代码集或指令集由处理器加载并执行以实现上述实施例的动作特征获取方法中所执行的操作。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该指令、该程序、该代码集或该指令集由处理器加载并执行以实现上述实施例的动作特征获取方法中所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种动作特征获取方法，其特征在于，具有层次性的长短期并发记忆H-LSTCM模型中包括输入层、隐藏层、长短期并发记忆Co-LSTM层和输出层，所述隐藏层中包括多个单人LSTM模型，所述方法包括：

和每个对象s在所述t时刻的图像特征

获取每个对象s在所述t时刻的隐层状态

所述

由与每个对象s对应的单人LSTM模型在所述t-1时刻获取；

2.根据权利要求1所述的方法，其特征在于，所述Co-LSTM层包括多个子记忆单元和一个联合记忆单元，所述多个子记忆单元与所述多个单人LSTM模型一一对应；所述通过所述Co-LSTM层，根据所述目标视频在所述t-1时刻的隐层状态h_t-1和每个对象s在所述t时刻的隐层状态

计算所述目标视频在所述t时刻的记忆细胞C_t，包括：

通过所述Co-LSTM层的每个子记忆单元，根据所述目标视频在所述t-1时刻的隐层状态h_t-1和每个对象s在所述t时刻的隐层状态

计算每个对象s在所述t时刻的记忆细胞

和细胞门

所述记忆细胞

用于记忆每个对象s在所述t时刻的隐层状态中提取的相关特征，所述细胞门

用于从每个对象s在所述t时刻的隐层状态中提取相关特征；

通过所述联合记忆单元，根据每个对象s在所述t时刻的记忆细胞

和细胞门

计算所述目标视频在所述t时刻的记忆细胞C_t。

3.根据权利要求2所述的方法，其特征在于，所述通过所述Co-LSTM层的每个子记忆单元，根据所述目标视频在所述t-1时刻的隐层状态h_t-1和每个对象s在所述t时刻的隐层状态

计算每个对象s在所述t时刻的记忆细胞

和细胞门

包括：

根据所述目标视频在所述t-1时刻的隐层状态h_t-1和每个对象s在所述t时刻的隐层状态

计算每个对象s在所述t时刻的输入门

和遗忘门

所述输入门

用于保留每个对象s在所述t时刻的隐层状态中的相关特征，所述遗忘门

用于将每个对象s在所述t时刻的隐层状态中的不相关特征去除；

根据所述目标视频在所述t-1时刻的隐层状态h_t-1、每个对象s在所述t时刻的隐层状态

所述输入门

和所述遗忘门

每个对象s在所述t-1时刻的记忆细胞

计算每个对象s在所述t时刻的记忆细胞

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标视频在所述t-1时刻的隐层状态h_t-1和每个对象s在所述t时刻的隐层状态

计算每个对象s在所述t时刻的输入门

和遗忘门

包括：

采用以下公式，计算每个对象s在所述t时刻的输入门

其中，σ(·)为阈值函数，

表示每个对象s的输入门与所述输入层之间的权重矩阵，

表示每个对象s的输入门与所述隐藏层之间的权重矩阵，

表示每个对象s的输入门的偏置向量。

5.根据权利要求3所述的方法，其特征在于，所述根据所述目标视频在所述t-1时刻的隐层状态h_t-1和每个对象s在所述t时刻的隐层状态

计算每个对象s在所述t时刻的输入门

和遗忘门

包括：

采用以下公式，计算每个对象s在所述t时刻的遗忘门

其中，σ(·)为阈值函数，

表示每个对象s的遗忘门与所述输入层之间的权重矩阵，

表示每个对象s的遗忘门与所述隐藏层之间的权重矩阵，

表示每个对象s的遗忘门的偏置向量。

6.根据权利要求3所述的方法，其特征在于，所述根据所述目标视频在所述t-1时刻的隐层状态h_t-1、每个对象s在所述t时刻的隐层状态

所述输入门

和所述遗忘门

每个对象s在所述t-1时刻的记忆细胞

计算每个对象s在所述t时刻的记忆细胞

包括：

采用以下公式，计算每个对象s在所述t时刻的记忆细胞

其中，

为双曲正切函数，×为向量的点乘函数，

表示每个对象s的记忆细胞与所述输入层之间的权重矩阵，

表示每个对象s的记忆细胞与所述隐藏层之间的权重矩阵，

表示每个对象s的记忆细胞的偏置向量。

7.根据权利要求2所述的方法，其特征在于，所述通过所述联合记忆单元，根据每个对象s在所述t时刻的记忆细胞

和细胞门

计算所述目标视频在所述t时刻的记忆细胞C_t，包括：

采用以下公式，计算所述目标视频在所述t时刻的记忆细胞C_t：

×为向量的点乘函数。

8.根据权利要求1所述的方法，其特征在于，所述通过所述输出层，根据所述目标视频在所述t-1时刻的隐层状态h_t-1和每个对象s在所述t时刻的隐层状态

计算所述目标视频在所述t时刻的输出门O_t，包括：

采用以下公式，计算所述目标视频在所述t时刻的输出门O_t：

其中，σ(·)为阈值函数，

表示每个对象s的输出门与所述输入层之间的权重矩阵，W_oh表示所述输出门与所述隐藏层之间的权重矩阵，b_o表示所述输出门的偏置向量。

9.根据权利要求1所述的方法，其特征在于，所述根据所述目标视频在所述t时刻的记忆细胞C_t和输出门O_t，计算所述目标视频在所述t时刻的动作特征H_t，包括：

采用以下公式，计算所述目标视频在所述t时刻的动作特征H_t：

为双曲正切函数，×为向量的点乘函数。

10.根据权利要求1-9任一项所述的方法，其特征在于，所述根据所述目标视频在所述t时刻的记忆细胞C_t和输出门O_t，计算所述目标视频在所述t时刻的动作特征H_t之后，所述方法还包括：

采用以下公式，计算所述目标视频在所述t时刻的视频帧属于每个交互动作类别的概率：

其中，W_zh表示交互动作类别与所述隐藏层之间的权重矩阵，b_z表示交互动作类别的偏置向量，z_t包括k个维度，z_t，l为z_t在第l个维度上的元素值，表示第l个交互动作类别的置信度，l∈{1,2，…k}，z_t，j为z_t在第j个维度上的元素值，表示第j个交互动作类别的置信度，j∈{1,2，…k}，y_t，l表示所述目标视频在所述t时刻的视频帧属于第l个交互动作类别的概率。

11.一种动作特征获取装置，其特征在于，所述装置包括：输入层模块、隐藏层模块、并发记忆模块和输出层模块，所述隐藏层模块包括多个单人隐层子模块；