CN111950485B

CN111950485B - 一种基于人体骨架的人体行为识别方法及系统

Info

Publication number: CN111950485B
Application number: CN202010831701.5A
Authority: CN
Inventors: 王亮; 张彰; 宋一帆; 单彩峰; 纪文峰
Original assignee: Cas Artificial Intelligence Research Qingdao Co ltd
Current assignee: Cas Artificial Intelligence Research Qingdao Co ltd
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2022-06-17
Anticipated expiration: 2040-08-18
Also published as: CN111950485A

Abstract

本发明公开了一种基于人体骨架的人体行为识别方法及系统，包括：获取人体骨架的行为动作与对应的骨架点坐标、骨架点帧间坐标差和骨架特征，构建训练集；根据训练集依次对图卷积网络和基于人体部位的注意力机制网络进行训练，以训练后的图卷积网络和注意力机制网络构建得到行为识别模型；根据行为识别模型对待识别人体骨架进行识别，输出人体行为动作。根据人体骨架关节点的三维坐标、点帧间坐标差和骨架特征等数据，以图卷积网络为主体，采用基于人体部位的注意力机制网络辅助寻找更加具有区分能力的骨架点，对人体行为动作进行分类识别，提高识别精度。

Description

一种基于人体骨架的人体行为识别方法及系统

技术领域

本发明涉及行为识别技术领域，特别是涉及一种基于人体骨架的人体行为识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

近年来，基于骨架的人类行为识别变得越来越重要，相对于传统的基于RGB视频的行为识别，基于骨架的方法对背景的适应力更强，对光照条件的鲁棒性更强，同时还拥有较少的计算量。一个人体行为的骨架数据主要是一个骨架序列，骨架序列中的每一帧包含了多个骨架点，每个骨架点包含三维坐标信息，而骨架点的三维坐标则是直接通过多模态传感器(如Kinect等)进行提取，或是采用一些姿态估计算法(如Openpose等)间接地从RGB视频和深度图像视频中获取。

传统的基于骨架的行为识别方法主要有两类。第一类是基于卷积神经网络的方法，该方法主要是将一个骨架序列看作是一副图像，或通过某些技巧将其改变成一幅图像，然后利用卷积神经网络的方法来进行特征提取，最终判断出行为类别；但是发明人认为，通常同一帧上的骨架点的空间上下文相关性并不如RGB像素强，采用基于卷积神经网络的方法会在一定程度上丢失了原本骨架数据中存在的空间信息。

第二类是基于循环神经网络的方法，该方法主要是将一帧上的所有骨架点通过某种方案进行排序并组合，构成一个向量，之后利用循环神经网络来对时间序列进行建模，提取动作特征；但是发明人认为，这类方法存在的问题是无论怎样进行排序，总是无法很好地描述人体骨架在空间中的结构，即同样会丢失空间信息。

由于人体骨架存在着天然的图架构，因此可以将基于图卷积网络的方法引入到基于骨架的行为识别中；然而发明人认为，该方法依然存在一些问题：首先是一个图网络并不能迭代很多层，因为没有池化操作，可能会导致每个骨架点之间的过度平滑化；其次，由于无法采用多层结构拓展感受野，因此在图上相距较远的两个节点之间很难产生联系，然而人类行为动作又很有可能与相距较远的节点相关，比如吃饭动作同时用到了手和头，而手和头在图上相距较远，因此针对此类动作，基于图卷积网络的方法则不能够解决骨架点在图上距离较远而无法产生联系的问题。

发明内容

为了解决上述问题，本发明提出了一种基于人体骨架的人体行为识别方法及系统，根据人体骨架关节点的三维坐标、点帧间坐标差和骨架特征等数据，以图卷积网络为主体，采用基于人体部位的注意力机制网络辅助寻找更加具有区分能力的骨架点，对人体行为动作进行分类识别。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种基于人体骨架的人体行为识别方法，包括：

获取人体骨架的行为动作与对应的骨架点坐标、骨架点帧间坐标差和骨架特征，构建训练集；

根据训练集依次对图卷积网络和基于人体部位的注意力机制网络进行训练，以训练后的图卷积网络和注意力机制网络构建得到行为识别模型；

根据行为识别模型对待识别人体骨架进行识别，输出人体行为动作。

第二方面，本发明提供一种基于人体骨架的人体行为识别系统，包括：

数据获取模块，用于获取人体骨架的行为动作与对应的骨架点坐标、骨架点帧间坐标差和骨架特征，构建训练集；

训练模块，用于根据训练集依次对图卷积网络和基于人体部位的注意力机制网络进行训练，以训练后的图卷积网络和注意力机制网络构建得到行为识别模型；

识别模块，用于根据行为识别模型对待识别人体骨架进行识别，输出人体行为动作。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果为：

本发明适用于人体行为识别，通过人体骨架关节点的三维坐标对人体行为动作进行识别及分类，本发明将骨架点坐标、骨架点帧间坐标差和骨架特征分别输入至图卷积网络的三条输入流中，经过三层的图卷积网络进行特征提取，之后将汇合后的特征交替通过注意力机制网络的6层注意力模块，且每层注意力模块都包含一个图卷积模块和一个基于人体部位的注意力模块，提供一种高效的基于骨架的人类行为识别方法。

本发明的主体是图卷积网络，用来建模骨架的时空间特征，并采用基于人体部位的注意力网络辅助寻找更加具有区分能力的骨架点，增强对更具有区分能力的人体部位的关注度，提高识别精度。

本发明提供基于人体部位的池化操作，将注意力按人体部位进行区分，而非按单个骨架点进行区分，因此可以有效地解决骨架点在图上距离较远而无法产生联系的问题。

本发明引入了Bottleneck网络结构，减少模型的参数量，降低训练参数和训练成本，降低计算时间，提升本发明方法在实际场景中的应用能力。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的基于人体骨架的人体行为识别方法示意图；

图2(a)-2(c)为本发明实施例1提供的骨架点连接示意图；

图3为本发明实施例1提供的注意力机制网络训练示意图；

图4(a)为本发明实施例1提供的Basic方案示意图；

图4(b)为本发明实施例1提供的Bottleneck方案示意图；

图5为本发明实施例1提供的基于人体部位的注意力模块示意图。

具体实施方式：

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

如图1所示，本实施例提供一种基于人体骨架的人体行为识别方法，包括：

S1：获取人体骨架的行为动作与对应的骨架点坐标、骨架点帧间坐标差和骨架特征，构建训练集；

S2：根据训练集依次对图卷积网络和基于人体部位的注意力机制网络进行训练，以训练后的图卷积网络和注意力机制网络构建得到行为识别模型；

S3：根据行为识别模型对待识别人体骨架进行识别，输出人体行为动作。

所述步骤S1中，将一个骨架序列看作一张图，每一帧中的骨架点按照自然人体结构进行连接，而相邻帧的相同骨架点之间同样存在着连接，如图2(a)-图2(c)所示；在基于人体骨架的行为识别中，已知的数据只有骨架的三维坐标，但实际上该数据并不能够完全体现出人类的行为动作信息，在基于RGB视频的行为识别中，存在着计算光流信息的方法，可有效地提升识别精度。

受光流算法的启发，本实施例采用两种帧间坐标差体现人体行为运动信息，还通过相对坐标解决由于不同样本之间的绝对坐标存在差异的问题，此外，还加入骨架的长度、旋转角等信息，具体包括骨架的三维绝对坐标、与中心点的相对坐标、相邻帧间坐标差、间隔帧间坐标差、骨架长度、骨架旋转角等；

假设输入的一个骨架序列包含M帧，每帧里有N个骨架点，则一个序列样本x的维数为3×M×N，其中3代表一个骨架点在空间中的三维坐标；

具体地，相对坐标为：x_r＝x[:,:,n]-x[:,:,1]，即为所有骨架点与中心骨架点(脊柱中间位置的骨架点)之差；

相邻帧间坐标差为：x_f＝x[:,m,:]-x[:,m-1,:]，

相间隔帧间坐标差为：x_s＝x[:,m,:]-x[:,m-2,:]，其中，m-1代表第m帧图像的前一帧；

骨架长度为：x_l＝x[:,:,n]-x[:,:,connect(n)]，其中，connect(n)代表与骨架点n的相连接骨架点；

骨架旋转角为：

其中，arccos(·)为反余弦计算，i＝1、2、3分别代表三个维度的旋转角。

将x与x_r进行堆叠，将x_f与x_s进行堆叠，将x_l与x_a进行堆叠，即可得到三个6×M×N的张量。

所述步骤S2中，所述图卷积网络包括3条输入流，步骤1中得到的三个6×M×N的张量分别输入到图卷积网络的三条输入流中，即骨架点坐标、骨架点帧间坐标差和骨架特征分别输入职三条输入流中，具体的，骨架点三维绝对坐标和相对坐标作为第一条输入流的输入，相邻帧和间隔帧间坐标差作为第二条输入流的输入，骨架长度和旋转角作为第三条输入流的输入；

优选地，每条输入流的输入特征维数均为6，输出特征维数分别是64，64，32。

所述步骤S2中，所述基于人体部位的注意力机制网络包括6层注意力模块，每个注意力模块中又包含1层图卷积模块和1层基于人体部位的注意力模块，将三条输入流的输出进行汇总后经过6层注意力模块，汇总后的6层注意力模块的输出维数分别是128，128，128，256，256，256；

在本实施例中，汇合后的第1、4层有一个步长为2的时间维度跳步，用来减少计算量，1层全连接层的输入和输出特征分别为256和60/120，因为训练采用的两个数据库分别有60和120个类别，可以理解的，此数据可根据实际训练数据库进行替换。

在本实施例中，所述图卷积模块包含一个残差连接，即将输入直接与输出相加，并将其和通过激活函数后送入下一层中，如图3所示。

在本实施例中，所述图卷积模块包含两种构建方案，即Basic方案和Bottleneck方案，两种方案均是由一个空间模块和一个时间模块构成，其中：

Basic方案的空间模块包含了一个图卷积操作，一个批归一化操作，激活函数采用ReLU函数；时间模块包含了一个一维的普通卷积操作，卷积核长度为9，以及一个批归一化操作，激活函数采用ReLU函数，如图4(a)所示。

而Bottleneck方案的空间模块包含了一个图卷积操作，并在其两边分别加入一个1*1的普通卷积操作，用来降低输入特征的维数，本实施例中降低倍数为4；以上三个卷积模块后面分别都存在一个批归一化操作，激活函数采用ReLU函数，如图4(b)所示。

在本实施例中，所述图卷积操作是将一个骨架序列看作一张图，每一帧中的骨架点按照自然人体结构进行连接，而相邻帧的相同骨架点之间同样存在着连接，假设已知自然人体结构图的邻接矩阵，则每一个图卷积模块的计算公式如下所示：

其中，f_in和f_out分别代表了图卷积模块的输入和输出，D是一个预定义的最大感受距离，

表示元素矩阵乘积，A_d为图上与源节点距离为d的节点构成的邻接矩阵，

是A_d的次数矩阵，α设定为一个极小的值(如0.0001)，用来避免矩阵不可逆的情况出现。W_d则代表了对应邻接矩阵A_d的权值，M_d则用来给A_d中的每个连接赋予不同的权重，这两个矩阵属于梯度下降中的待调整参数。

所述基于人体部位的注意力模块用来寻找更加具有区分能力的骨架点，其计算公式如下：

f_out＝Concat({f_p|p＝1,2,…,P})

其中，f_in和f_out分别代表了图卷积模块的输入和输出，P＝5代表了5个人体部位，

表示元素矩阵乘积，pool表示时间维度上的全局均值操作，δ和θ分别表示人体部位级Softmax函数和ReLU激活函数，W和W_p均是可训练参数。

在本实施例中将人体分为了5个人体部位，分别是左臂，右臂，左腿，右腿和躯干；如图5所示，首先，对每个人体部位求全局均值，即为对每个人体部位内的所有骨架点求均值作为该人体部位的特征；

然后，对每个人体部位的特征在时间维度上求均值，并将所得结果组合在一起，通过一个全连接层进行降维，降维倍数为4，以及一个批处理操作，和一个激活函数ReLU；

之后，将降维后的特征分别通过5个不同的全连接层进行升维，使其维度等于之前求得的每个人体部位的特征，并将5个输出的分别利用Softmax函数求得每个人体部位对应得注意力分数；

最后，将5个注意力分数与5个人体部位的特征求矩阵元素乘积，并组合在一起，重新利用人体部位结构构造出骨架数据，送入下一层中。

在本实施例中，输入数据都经过图卷积网络的3条输入流进行特征提取，三条输入流汇总在一起后，经过6层的注意力机制网络，每一层网络包含1个图卷积模块和1个基于人体部位的注意力模块，最终的输出再通过1层的全连接层进行计算，获取到每类行为对应的分数；

获取到每类行为的得分后，利用Softmax函数获取到每类行为的最终得分，取得分最高的一个类别作为最终的识别结果；计算过程如下所示：

其中，i＝1,2,…,C，对应不同的类别,o_i表示第i个类别对应的网络输出结果。

在本实施例中，将最终的识别结果与给出的标签进行对比，利用交叉熵损失函数求得网络当前的训练误差，之后利用带动量项的随机梯度下降法更新网络中的权值，多次迭代，直至网络的识别精度不再提高。

在本实施例中，通过随机梯度下降法进行训练，训练采用的动量项参数设定为0.9，权值削减参数设定为0.0002，最大迭代次数设定为70，学习率初始化为0.1，并在第20、50次迭代后再乘以0.1来减小步长。

依据以上步骤，本实施例采用NTU RGB+D60/120数据库进行训练，得到的实验结果与其他主流网络结果对比如表1所示，其中，X-sub和X-view为NTU RGB+D 60数据库中的两种训练子集分割方案，X-sub120和X-set120为NTU RGB+D120数据库中的两种训练子集分割方案。

表1结果对比表

本实施例提出了一种基于人体部位的注意力模块，将注意力按人体部位进行区分，而非按单个骨架点进行区分，因此可以有效地解决骨架点在图上距离较远而无法产生联系的问题，寻找更加具有区分能力的骨架点，提升网络的识别精度；此外，本实施例采用了Bottleneck网络结构降低训练参数，使得训练成本得到了显著地降低，同时也降低了网络计算时间，提升在实际场景中的应用能力。

实施例2

本实施例提供一种基于人体骨架的人体行为识别系统，包括：

此处需要说明的是，上述模块对应于实施例1中的步骤S1至S3，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于人体骨架的人体行为识别方法，其特征在于，包括：

根据训练集依次对图卷积网络和基于人体部位的注意力机制网络进行训练，以训练后的图卷积网络和注意力机制网络构建得到行为识别模型；图卷积模块采用Bottleneck结构，所述图卷积网络包括3条输入流，所述骨架点坐标、骨架点帧间坐标差和骨架特征分别输入三条输入流中，将其输出合并后输入注意力机制网络中；基于人体部位的注意力机制网络包括6层注意力模块，每层注意力模块中包含1层图卷积模块和1层基于人体部位的注意力子模块；

2.如权利要求1所述的一种基于人体骨架的人体行为识别方法，其特征在于，所述骨架点坐标包括骨架的三维绝对坐标和中心点的相对坐标，所述骨架点帧间坐标差包括相邻帧间坐标差和间隔帧间坐标差，所述骨架特征包括骨架长度和骨架旋转角。

3.如权利要求1所述的一种基于人体骨架的人体行为识别方法，其特征在于，所述Bottleneck结构的空间模块包括图卷积操作，并在图卷积操作的两边分别加入1*1的普通卷积操作，降低输入特征的维数，所述普通卷积操作连接批归一化操作，激活函数采用ReLU函数。

4.如权利要求1所述的一种基于人体骨架的人体行为识别方法，其特征在于，所述基于人体部位的注意力子模块中，人体部位包括左臂，右臂，左腿，右腿和躯干，将人体部位的骨架点特征在时间维度上求均值，通过全连接层进行降维和升维后，使维度等于人体部位的骨架点特征的维度，利用Softmax函数得到每个人体部位对应的注意力分数，以此得到每类人体行为的得分。

5.如权利要求1所述的一种基于人体骨架的人体行为识别方法，其特征在于，采用交叉熵损失函数得到当前的训练误差，采用随机梯度下降法更新权值，多次迭代训练后，构建行为识别模型。

6.一种基于人体骨架的人体行为识别系统，其特征在于，包括：

训练模块，用于根据训练集依次对图卷积网络和基于人体部位的注意力机制网络进行训练，以训练后的图卷积网络和注意力机制网络构建得到行为识别模型；图卷积模块采用Bottleneck结构，所述图卷积网络包括3条输入流，所述骨架点坐标、骨架点帧间坐标差和骨架特征分别输入三条输入流中，将其输出合并后输入注意力机制网络中；基于人体部位的注意力机制网络包括6层注意力模块，每层注意力模块中包含1层图卷积模块和1层基于人体部位的注意力子模块；

7.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-5任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-5任一项所述的方法。