CN112906520A

CN112906520A - 一种基于姿态编码的动作识别方法及装置

Info

Publication number: CN112906520A
Application number: CN202110156920.2A
Authority: CN
Inventors: 邓小明; 张维; 林泽一; 柯铭雨; 马翠霞; 王宏安
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-06-04

Abstract

本发明公开了一种基于姿态编码的动作识别方法及装置，包括：提取检测物的姿态，将所述姿态编码成图像；获取两两关节在不同时间步长组成不同时间维度上的编码图像序列，得到若干编码图像序列，并依据若干所述编码图像序列，构建编码图片金字塔，提取编码图片金字塔中每一编码图像序列的特征；依据编码图像序列的特征对所述姿态进行分类，得到检测物姿态的动作识别结果。本发明的图像编码方法具有在三维相似变换下具有不变性的优点，通过对编码图像进行时空特征的提取，可获取精度高、实时性好的动作识别结果。

Description

一种基于姿态编码的动作识别方法及装置

技术领域

本发明属于计算机视觉、计算机图像处理领域，具体涉及到一种基于姿态编码的动作识别方法及装置，适用于人体整体或局部(如人手、人脸)、动物、机器人等对象。

背景技术

人体动作识别是计算机视觉和人机交互领域的热点问题，在虚拟现实，智能控制和终端设备上具有广泛的应用。人体动作识别是从动作视频中识别出视频中动作者所做出的动作类别。人体动作识别分为基于RGB图像的动作识别和基于人体姿态的动作识别，其中，基于人体姿态的动作识别能够剔除背景信息的影响，使得识别算法更注重动作而不是场景分类，从而开发出更好的动作分类方法。

目前基于人体姿态的动作识别方法可以分为传统机器学习方法和深度学习方法两种。传统机器学习方法主要有动态时序规整(DTW)，隐马尔科夫模型(HMM)，条件随机场(CRF)和随机森林(RF)方法。深度学习方法主要可以分为三种：基于长短时记忆网络(LSTM)架构、基于卷积神经网络(CNN)架构和基于图卷积神经网络(GCN)架构的方法。

基于LSTM的方法直接将人体姿态坐标输入到LSTM网络中提取时间信息。这种方法通常较少关注到人体姿态的空间信息，而这种信息在动作识别中是十分重要的。基于GCN的方法则是利用首先将人体姿态构造成时空图(Graph)，然后利用图卷积神经网络提取时空特征。基于GCN架构的方法都可以很好的建模人体姿态的空间信息，例如中国专利申请CN110059598A公开了一种基于姿态关节点的长时程快慢网络融合的行为识别方法，其利用图卷积网络捕捉空间和时序内关节点结构特征和轨迹特征，通过特征拼接网络模型生成每个视频片段的整体时空特征，但该申请将所有的关节点一视同仁，不能很好的建模不同位置关节之间的连接强度。而中国专利申请CN110688980A公开的基于计算机视觉的人体姿态分类方法，利用关节的角度、坐标信息计算出高阶特征进行分析，但该申请使用关节角度和坐标信息进行姿态分类，不能复用目前成熟的图像或视频深度学习网络结构和预训练模型，并且只能处理静态单个姿态输入的动作识别。

综上所述，如何同时提取人体姿态序列中的时间信息与空间信息，是现在基于人体姿态的动作识别问题中的关键。

发明内容

为解决上述问题，本发明提供了一种基于姿态编码的动作识别方法及装置，通过将骨架姿态编码为图像，利用现有的CNN网络架构进行姿态特征提取和识别，对于姿态序列输入，使用三维神经网络(3D CNN)同时提取时空特征，得到动作识别结果。

本发明的技术方案包括：

一种基于姿态编码的动作识别方法，其步骤包括：

1)提取检测物的姿态，将所述姿态编码成图像；

2)获取两两关节在不同时间步长组成不同时间维度上的编码图像序列，得到若干编码图像序列，并依据若干所述编码图像序列，构建编码图片金字塔，提取编码图片金字塔中每一编码图像序列的特征；

4)依据编码图像序列的特征对所述姿态进行分类，得到检测物姿态的动作识别结果。

进一步地，检测物包括人体整体、人体局部、动物或机器人等。

进一步地，人体局部包括人体上肢、人体下肢、人手或人脸等。

进一步地，获取编码图像序列的方法包括：计算两两关节之间的归一化距离

其中d_ij为欧氏距离，g_ij为测地线距离，1≤i≤N，1≤j≤N，i≠j，N为待检测物的关节数量。

进一步地，通过以下步骤计算测地线距离：

1)若关节J_i与关节J_j存在连接关系，则关节J_i与关节J_j之间的边的权重w_ij＝d_ij；若关节J_i与关节J_j不存在连接关系，则关节J_i与关节J_j之间的边的权重为非常大的常数；

2)计算两两关节之间的最短距离，得到测地线距离，其中计算最短距离的方法包括：Floyd算法。

进一步地，通过以下步骤得到检测物姿态的动作识别结果：

1)获取若干样本姿态，将所述样本姿态编码成样本图像；

2)获取两两关节在不同时间步长组成不同时间维度上的样本编码图像序列，得到若干样本编码图像序列，并依据若干样本所述编码图像序列，构建样本编码图片金字塔；

3)使用机器学习算法或深度学习算法，对提取的样本编码图片金字塔中每一样本编码图像序列的样本特征进行分类，得到动作识别模型；

4)将编码图片金字塔中每一编码图像序列或每一编码图像序列的特征，输入到动作识别模型，得到检测物姿态的动作识别结果。

进一步地，机器学习算法包括：三维卷积神经网络、支持向量机、Adaboost或CNN+LSTM。

进一步地，所述三维神经网络包括：3个卷积模块、2个全连接层和一个softmax层，其中每一卷积模块包括两个3D卷积操作、两个Relu激活函数和一个平均池化层。

一种基于姿态编码的动作识别方法，其步骤包括：

1)提取检测物的姿态，将所述姿态编码成图像；

3)对于获取所述检测物姿态的RGB图像序列，提取RGB图像序列的光流特征与RGB流特征，并在不同时间步长上融合编码图像序列的特征、光流特征与RGB流特征，得到融合特征；

4)依据融合特征对所述姿态进行分类，得到检测物姿态的动作识别结果。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

本发明的优点和有益效果：

本发明主要解决的问题是如何同时提取人体姿态序列中的时间信息与空间信息。本发明提出了一种基于人体姿态编码的动作识别系统，该人体姿态编码方法具有在三维相似变换下具有不变性的优点，即人体姿态编码成的图像主要于动作相关、与人体骨骼长度和三维视角基本无关。通过将人体姿态序列编码成图片序列的方式，从而可以使用3DCNN网络架构同时进行时空特征的提取，从而更好的进行动作识别。经过实际使用验证，本发明具有精度高和实时性的优点，可满足专业的或者大众化的应用需求。

本发明通过图像编码，能够使分类网络同时提取时空特征；通过时间金字塔，能够识别不同快慢的动作。相比于基于LSTM架构的动作识别方法，本发明通过对人体姿态序列进行编码，构造出人体姿态关节的空间结构，使用3DCNN同时提取时空特征，从而进行更加准确的动作分类。

本发明还可以作为基于RGB图像的动作识别网络架构的一个补充，基于RGB图像的动作识别网络架构一般是由RGB和光流作为输入的双流网络组成，本发明可以作为额外的输入，同RGB流和光流流组成多流网络架构。通过实际使用验证，多流网络相比于双流网络识别精度更高。

以上以三维卷积神经网络(3DCNN)为例对本发明的姿态编码做了动作识别，容易理解的是，本发明也适用于其他机器学习模型或深度学习网络，如SVM，Adaboost，CNN+LSTM等算法。

附图说明

图1是本发明的人体姿态编码的示意图。

图2是本发明的人体姿态编码的一个示例图。

图3是本发明的整体网络架构图。

图4是识别网络的架构图。

图5是多流网络的架构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，以下以人体为例，通过具体实施例和附图，对本发明做进一步详细说明。

本发明的动作识别方法具体步骤如下：

步骤一：人体姿态编码。

图1是本发明的人体姿态编码的示意图。给定一个视频，我们可以得到每个帧的人体姿态

如果没有提供已经标注好的姿态序列，我们可以使用先进的人体姿态提取方法获取，比如卡耐基梅隆大学的Zhe Cao等提出的OpenPose框架。获取到了人体姿态之后，我们可以将人体姿态编码成图像，我们称之为Poseimage。图1给出了Poseimage的表示示意图。通过计算两两关节之间的欧氏距离d_ij＝||J_i-J_j||₂和测地线距离g_ij。我们可以将人体姿态编码为具有J×J个像素的Poseimage，每个像素的值我们使用公式(1)定义，并命名为第i个关节和第j个关节之间的归一化距离。

为了计算两个关节之间的成对测地线距离，人体姿态被编码为一个加权图，其中每个关节作为图中的一个节点。如果在人体骨架中关节J_i和关节J_j存在连接关系，那么我们在就添加一条介于J_i和J_j之间的权重为w_ij＝d_ij的边。对于其他不存在连接关系的两两关节，我们将它们之间的边的权值设为非常大的常数。两对关节之间的测地线距离是图上所有成对关节的最短距离，我们可以使用Floyd或类似算法计算成对关节图上的最短距离也就是测地线距离，我们的Poseimage在三维相似变换下具有不变性的优点。图2显示了我们的Poseimage的一个例子。我们可以观察到，对于具有相同动作的不同个体，Poseimage之间的差异很小，而对于不同动作的Poseimage之间的差异很明显。因此，我们提出的人体姿态编码成图像Poseimage可以有效地编码动作信息，进行动作区分。

步骤二：构建人体姿态编码图片金字塔(Poseimage Pyramid)。

单个Poseimage可以有效地表示每帧内部两两关节之间的连接关系，但不能对人体轨迹等时间信息进行编码。为了编码时间信息，我们不仅使用同一帧之内的两两关节形成Poseimage，也使用不同帧之间的两两关节形成Poseimage。因为不同的动作可能有不同的身体运动速度，例如动作“行走”的身体运动通常比动作“奔跑”的身体运动慢，我们需要对人体姿态时间信息进行多尺度编码。为了对人体姿态的时间信息进行多尺度编码，我们采用不同的时间步长组成不同时间维度上的Poseimage序列，得到一系列的编码图像序列(Poseimage序列)，我们称之为编码图片金字塔(Poseimage Pyramid)。图3显示了我们的Poseimage Pyramid的架构，对于时间金字塔中的每一个Poseimage，我们使用3DCNN网络进行特征提取，并使用相同的权值融合不同时间步长的特征，然后将融合后的特征输入到softmax函数中进行动作分类。

步骤三：使用3DCNN网络架构进行动作分类。

图4给出了单个Poseimage序列作为输入时网络架构图。输入的Poseimage序列大小是N×N×T×1的，其中N表示人体关节的个数，T表示输入的帧数。我们使用3个卷积模块进行时空特征提取，每个卷积模块都包含两个3D卷积操作，两个Relu激活函数和一个平均池化层。其中，每个卷积模块的卷积核大小都是3×3×3，卷积核个数分别为64，256和512。在卷积模块提取完时空特征后，我们会将其输入到两个全连接层和一个softmax层中进行动作分类。其中，第一个全连接层的大小为4096，第二个全连接层大小为C，C是动作的类别个数。在训练的时候，我们单独训练Poseimage Pyramid中的每个Poseimage序列，在测试的时候，我们首先利用各自的网络提取特征，然后在softmax层之前融合特征并输入到softmax层中进行最后的动作分类。

步骤四，跟基于RGB图像的动作分类网络进行特征融合。

人体姿态不仅可以单独使用以进行动作分类，也可以作为跟基于RGB图像的动作分类网络进行特征融合，这样可以提高动作分类的精度。图5给出了我们的多流网络架构图，和训练Poseimage Pyramid时一样，在训练时我们分别训练每个流，在测试时我们融合3个流的特征(Poseimage Pyramid流、Optical流(光流)、RGB流)输入到softmax层中进行动作分类。其中RGB流和光流是基于获取所述姿态的RGB图像序列提取的。

本发明的方案可以通过软件的方式实现，也可以通过硬件的方式来实现，比如：

在一个实施例中，提供一种基于人体姿态的动作识别装置，其包括：

人体姿态检测模块，负责找出输入RGB视频中每帧中的人体姿态关键点；

Poseimage构建模块，负责对人体姿态进行编码。

Poseimage Pyramid构建模块，负责构建人体姿态编码图片金字塔。

动作分类模块，负责使用Poseimage Pyramid进行动作分类。

分类网络融合模块，负责基于Pose的动作分类网络和基于RGB的动作分类网络的融合。

以上步骤在实现时，可以通过GPU并行计算来加快速度。

另外，该装置还可包括：

数据预处理模块，负责进行输入人体姿态序列的数据预处理，通过对输入数据的归一化和数据增强处理，使得动作分类更加精确。

网络构建与训练模块，负责构建和训练基于姿态(Pose)流的动作识别网络。

在另一个实施例中，提供一种计算机/服务器，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

在另一个实施例中，提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的步骤。

以上以人体为例对本发明做了说明，容易理解的是，本发明也适用于人脸、人手等其他人体局部，也适用于大型动物、机器人等对象。

实验数据

以下三张表格，展示了本方法与其他方法在几大主流数据集上的分类表现，其中表1为本发明与其他方法在NTU-RGBD数据集上两种标准下的准确度比较，表2为本发明与其他方法在JHMDB数据集与HMDB数据集上的分类准确度比较，表3为本发明与其他方法在SHREC2017数据集上14种手势与28种手势的分类准确度比较。

表1

表2

表3

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的原理和范围，本发明的保护范围应以权利要求书所述为准。