CN113887516A

CN113887516A - 用于人体动作识别的特征提取系统和方法

Info

Publication number: CN113887516A
Application number: CN202111269611.2A
Authority: CN
Inventors: 张�成; 廖建新; 陈宇琛; 占怡雯; 王敬宇; 戚琦; 庄子睿; 王晶
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-01-04
Anticipated expiration: 2041-10-29
Also published as: CN113887516B

Abstract

用于人体动作识别的特征提取系统，包括如下功能模块：数据扩增模块、动作编码模块、前置任务模块：该模块由空间前置任务子模块和时间前置任务子模块构成和对比学习模块；用于人体动作识别的特征提取方法，包括如下操作步骤：(1)模型训练步骤；(2)特征提取步骤；本发明将前置学习功能和对比学习功能有机结合，使系统能够从未标注的人体骨架序列中，充分提取人体动作特征，并且保留了细粒度时空信息，提高了后续人体动作识别的准确率。

Description

用于人体动作识别的特征提取系统和方法

技术领域

本发明涉及用于人体动作识别的特征提取系统和方法，属于信息技术领域，特别是属于基于人体骨架的动作特征提取技术领域。

背景技术

人体动作识别是计算机视觉领域的一个很重要的问题，在视频理解、视频监控、人机交互等领域有重要意义。由于人体骨架关节点具有数据量小、有效并且具有背景不变性等特征，基于人体骨架关节点的动作识别引起了广泛的关注。

虽然目前基于人体骨架关节点的动作识别已经有了很多进展，但是现有方法大多依赖于大量的标注好的训练数据，因此需要很强的监督信息。但是标注训练数据困难且耗费巨大，同时也会面临着由于许多动作的相似性所造成的标注不确定性，以及误标的情况。

因此，如何从未标注的训练数据中，进行人体动作特征的有效提取，成为目前基于人体骨架关节点的动作识别技术领域的一个急需解决的技术难题。

发明内容

有鉴于此，本发明的目的是发明一种系统和方法，采用无监督的方式，从人体骨架序列中，进行人体动作特征的提取，并尽可能保留动作特征的细粒度时空信息，以提高后续人体动作识别的准确率。

为了达到上述目的，本发明提出了用于人体动作识别的特征提取系统，所述系统包括如下功能模块：

数据扩增模块：在模型训练阶段，该模块的功能是：首先对原始骨架序列进行采样，然后对采样所获得的采样骨架序列进行空间扩增操作，获得空间扩增骨架序列；所述的空间扩增操作包括旋转，切变以及关节点随机扰动；对采样所获得的骨架序列进行时间扩增操作，获得时间扩增骨架序列；所述的时间扩增操作是指对所述的采样骨架序列进行掩码操作；

在特征提取阶段，该模块的功能是仅对原始骨架序列进行采样，获得采样骨架序列；

动作编码模块：在模型训练阶段，该模块的功能是对所述数据扩增模块所获得的空间扩增骨架序列和时间扩增骨架序列，分别进行编码，获得空间扩增初始动作编码和时间扩增初始动作编码；在特征提取阶段，该模块的功能是对所述数据扩增模块所获得的采样骨架序列进行编码，获得初始动作编码；

前置任务模块：该模块由空间前置任务子模块和时间前置任务子模块构成；

空间前置任务子模块的功能是：为获取更细粒度的空间信息，把从动作编码模块所获得的空间扩增初始动作编码中的前一半通道数的空间扩增初始动作编码，输入到空间前置任务子模块，生成空间扩增增强动作编码；所述的空间扩增增强动作编码是前述的采样骨架序列的重建序列，与所述的采样骨架序列有相同的帧数和格式；通过上述过程，使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的空间特征信息；

时间前置任务子模块的功能是：为获取更细粒度的时间信息，把从动作编码模块所获得的时间扩增初始动作编码中的后一半通道数的时间扩增初始动作编码，输入到时间前置任务子模块，生成时间扩增增强动作编码；所述的时间扩增增强动作编码是前述的采样骨架序列的重建序列，与所述的采样骨架序列有相同的帧数和格式；通过上述过程，使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的时间特征信息；

对比学习模块：该模块的功能是：基于对比学习网络，根据前置任务模块所产生的空间扩增增强动作编码和时间扩增增强动作编码，进行动作特征提取。

所述的动作编码模块由多个时空-图卷积单元ST-GCN顺序连接构成；所述的空间前置任务子模块由多个时空-图卷积单元ST-GCN顺序连接构成；所述的时间前置任务子模块由多个时空-图卷积单元ST-GCN顺序连接构成；所述的时空-图卷积单元ST-GCN由图卷积网络GCN和时间卷积网络TCN构成。

所述的对比学习模块由时间平均池化层子模块AP和多层感知器MLP子模块构成；时间平均池化层子模块AP的功能是在时间维度上聚合空间扩增增强动作编码和时间扩增增强动作编码的全局信息，进行动作特征提取；多层感知器MLP子模块的功能是将所获得的动作特征投影到对比空间，然后通过最大化对比空间中动作特征之间的余弦相似度来优化动作特征；

所述的多层感知器MLP子模块由两层线性层构成；激活函数采用修正线性函数。

本发明还提出了用于人体动作识别的特征提取方法，所述方法包括如下操作步骤：

(1)模型训练步骤，该步骤的主要内容是采用原始骨架序列训练样本，对用于人体动作识别的特征提取系统中的各个模块进行模型训练，训练结束后，获得各个模块的最优参数；

(2)特征提取步骤，该步骤的主要内容是使用训练好的用于人体动作识别的特征提取系统，从原始骨架序列中提取动作特征，用于人体动作识别。

所述的模型训练步骤具体包括如下操作子步骤：

(11)对训练样本库中的原始骨架序列进行采样，对采样所获得的采样骨架序列进行空间扩增，获得空间扩增骨架序列

所述的空间扩增操作的内容是：对采样骨架序列进行旋转，切变以及关节点随机扰动；对采样所获得的采样骨架序列进行时间扩增，获得时间扩增骨架序列

所述的时间扩增操作的内容是：对所述的采样骨架序列进行掩码操作；

(12)把所述的空间扩增骨架序列

输入动作编码模块，获得空间扩增初始动作编码q_i；把所述的时间扩增骨架序列

输入动作编码模块，获得时间扩增初始动作编码q_j；

(13)把所述的空间扩增初始动作编码q_i的前一半通道数，输入到空间前置任务子模块，生成空间扩增增强动作编码p_i；所述的空间扩增增强动作编码p_i是前述的采样骨架序列的重建序列，与所述的采样骨架序列有相同的帧数和格式；通过上述过程，使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的空间特征信息；

把所述的时间扩增初始动作编码q_j的后一半通道数，输入到时间前置任务子模块，生成时间扩增增强动作编码p_j；所述的时间扩增增强动作编码p_j是前述的采样骨架序列的重建序列，与所述的采样骨架序列有相同的帧数和格式；通过上述过程，使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的时间特征信息；

(14)把所述的空间扩增增强动作编码p_i输入时间平均池化层子模块AP，获得第一动作特征h_i；把所述的时间扩增增强动作编码p_j输入时间平均池化层子模块AP，获得第二动作特征h_j；

(15)把所述的第一动作特征h_i和第二动作特征h_j输入到多层感知器MLP子模块，得到对应的特征映射向量Z_i和Z_j；按照设定的综合代价函数L，对系统中的各个模块进行模型优化训练，获得各个模块的最优参数。

所述的综合代价函数L的具体如下：

L＝α·L_c+β·L_s+γ·L_t

上式中，α、β和γ是权重系数，L_c是对比代价函数，L_s是空间代价函数，L_t是时间代价函数；

对比代价函数L_c定义如下：

上式中，N为训练过程中批的大小；函数l(,)定义如下：

上式中，z_s、z_t和z_k为多层感知器MLP子模块所输出的特征映射向量，τ是超参数，取值为正常数；1_k≠s∈{0,1}当且仅当k≠s时值为1；sim(,)函数定义为：

空间代价函数L_s定义如下：

上式中，T是骨架序列的帧数，

是对应第i个人的采样骨架序列的第t帧采样数据，

是与

对应的空间扩增增强动作编码p_i中的第t帧数据；

时间代价函数L_t定义如下：

上式中，

是与

对应的时间扩增增强动作编码p_j的第t帧数据；T'+1表示从第T'+1帧开始采样骨架序列进行了时间扩增操作；

所述的特征提取步骤具体包括如下操作子步骤：

(21)对要进行动作特征提取的原始骨架序列进行采样，获得采样骨架序列；

(22)把所述的采样骨架序列输入到动作编码模块，获得初始动作编码；

(23)把所述的初始动作编码输入到时间平均池化层子模块AP，获得动作特征。

本发明的有益效果在于：本发明将前置学习功能和对比学习功能有机结合，使系统能够从未标注的人体骨架序列中，充分提取人体动作特征，并且保留了细粒度时空信息，提高了后续人体动作识别的准确率。

附图说明

图1是本发明提出的用于人体动作识别的特征提取系统的模块结构图。

图2是本发明提出的用于人体动作识别的特征提取方法的流程示意图。

图3是本发明实施例中，模型训练步骤中的信息流图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

参见图1，介绍本发明提出的用于人体动作识别的特征提取系统，所述系统包括如下功能模块：

数据扩增模块：在模型训练阶段，该模块的功能是：首先对原始骨架序列进行采样，然后对采样所获得的采样骨架序列进行空间扩增操作，获得空间扩增骨架序列；所述的空间扩增操作包括旋转，切变以及关节点随机扰动；

所述旋转操作的具体内容是：对于骨架序列中的所有关节，为了收集形成角度不变的空间信息，对于随机选择的旋转轴，从[0,π/6]中随机选择一个旋转角度进行旋转。

所述切变操作的具体内容是：使每个点在一个固定的方向上位移，位移量与点到平行于该方向并经过原点的直线的单位距离成正比，每个方向的切变比是从[-1,1]中随机选择的。

所述关节点随机扰动操作的具体内容是：以0.2的概率对骨架序列的所有关节坐标加上随机高斯噪声。

对采样所获得的骨架序列进行时间扩增操作，获得时间扩增骨架序列；所述的时间扩增操作是指对所述的采样骨架序列进行掩码操作；所述掩码操作的具体内容是：把所述采样骨架序列尾部一定比例的序列裁掉，保留剩余的序列即为时间扩增骨架序列，在实施例中，比例设定为20％。

在实施例中，所述的动作编码模块由6个时空-图卷积单元ST-GCN顺序连接构成；所述的空间前置任务子模块由5个时空-图卷积单元ST-GCN顺序连接构成；所述的时间前置任务子模块由5个时空-图卷积单元ST-GCN顺序连接构成；所述的时空-图卷积单元ST-GCN由图卷积网络GCN和时间卷积网络TCN构成。

有关图卷积网络GCN的详细信息请参考文献：Sijie Yan,Yuanjun Xiong,andDahua Lin.Spatial temporal graph convolutional networks for skeleton-basedaction recognition.arXiv preprint arXiv:1801.07455,2018。

有关时间卷积网络TCN的详细信息请参见文献：Tae Soo Kim and AustinReiter.Interpretable 3d human action analysis with temporal convolutionalnetworks.In2017 IEEE conference on computer vision and pattern recognitionworkshops(CVPR W),pages 1623–1631.IEEE,2017。

参见图2，介绍本发明提出的用于人体动作识别的特征提取方法，所述方法包括如下操作步骤：

参见图3，所述的模型训练步骤具体包括如下操作子步骤：

(12)把所述的空间扩增骨架序列

输入动作编码模块，获得时间扩增初始动作编码q_j；

所述的综合代价函数L的具体如下：

L＝α·L_c+β·L_s+γ·L_t

上式中，α、β和γ是权重系数，实施例中全部取值为1；L_c是对比代价函数，L_s是空间代价函数，L_t是时间代价函数；

对比代价函数L_c定义如下：

上式中，N为训练过程中批的大小，在实施例中取值为256；函数l(,)定义如下：

上式中，z_s、z_t和z_k为多层感知器MLP子模块所输出的特征映射向量，τ是超参数，取值为正常数，在实施例中取值为0.05；1_k≠s∈{0,1}当且仅当k≠s时值为1；sim(,)函数定义为：

空间代价函数L_s定义如下：

上式中，T是骨架序列的帧数，

是对应第i个人的采样骨架序列的第t帧采样数据，

是与

对应的空间扩增增强动作编码p_i中的第t帧数据；

时间代价函数L_t定义如下：

上式中，

是与

所述的特征提取步骤具体包括如下操作子步骤：

为验证本发明提出的系统和方法，发明人在三个数据集(NTU RGB+D数据集、NTURGB+D 120数据集和North-Western UCLA数据集)上进行了全面和彻底的实验，实验结果均好于目前其他方法。实验结果证明本发明所提出的系统是一个强而有效的特征提取器，本发明所提出方法是一个有效的特征提取方法。

Claims

1.用于人体动作识别的特征提取系统，其特征在于：所述系统包括如下功能模块：

2.根据权利要求1所述的用于人体动作识别的特征提取系统，其特征在于：所述的动作编码模块由多个时空-图卷积单元ST-GCN顺序连接构成；所述的空间前置任务子模块由多个时空-图卷积单元ST-GCN顺序连接构成；所述的时间前置任务子模块由多个时空-图卷积单元ST-GCN顺序连接构成；所述的时空-图卷积单元ST-GCN由图卷积网络GCN和时间卷积网络TCN构成。

3.根据权利要求1所述的用于人体动作识别的特征提取系统，其特征在于：所述的对比学习模块由时间平均池化层子模块AP和多层感知器MLP子模块构成；时间平均池化层子模块AP的功能是在时间维度上聚合空间扩增增强动作编码和时间扩增增强动作编码的全局信息，进行动作特征提取；多层感知器MLP子模块的功能是将所获得的动作特征投影到对比空间，然后通过最大化对比空间中动作特征之间的余弦相似度来优化动作特征。

4.根据权利要求3所述的用于人体动作识别的特征提取系统，其特征在于：所述的多层感知器MLP子模块由两层线性层构成；激活函数采用修正线性函数。

5.用于人体动作识别的特征提取方法，其特征在于：所述方法包括如下操作步骤：

6.根据权利要求5所述的用于人体动作识别的特征提取方法，其特征在于：所述的模型训练步骤具体包括如下操作子步骤：