CN109614874A

CN109614874A - 一种基于注意力感知和树形骨架点结构的人体行为识别方法和系统

Info

Publication number: CN109614874A
Application number: CN201811366233.8A
Authority: CN
Inventors: 丁润伟; 刘畅
Original assignee: Shenzhen Moving Intelligent Technology Co Ltd; Peking University Shenzhen Graduate School
Current assignee: Shenzhen Moving Intelligent Technology Co Ltd; Peking University Shenzhen Graduate School
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2019-04-12
Anticipated expiration: 2038-11-16
Also published as: CN109614874B

Abstract

本发明公开一种基于注意力感知和树形骨架点结构的人体行为识别方法和系统。该方法包括：1)输入训练集中所有行为样本的骨架点信息；2)通过添零补帧使各样本帧数一致；3)使用三向树状遍历法则对无序的骨架点进行重构；4)对重构后得到的特征图的拉普拉斯矩阵进行归一化处理；5)构建注意力感知网络和主体网络；6)将注意力感知网络和主体网络分层级连接；7)将重构的特征图分别输入主体网络和注意力感知网络，训练行为识别网络模型；8)利用训练好的行为识别网络模型进行行为识别。本发明能够显著提高行为识别的精度和效率。

Description

一种基于注意力感知和树形骨架点结构的人体行为识别方法和系统

技术领域

本发明属于机器人视觉技术和人机交互领域，具体涉及一种基于注意力感知和树形骨架点结构的人体行为识别方法和系统；通过对无序的骨架点进行树形重构来更好的描述表达行为模式，并利用注意力网络对不同骨架点的重要性进行描述，为人体行为的分类提供合适的先验条件，可近一步减少人体行为识别的分类处理时间和提高后期行为识别的精度。

背景技术

行为识别是隶属于行为分析这一领域，针对给定包含某种运动的视频序列，按运动的类别给该视频序列加标签，可以被应用于人机交互、智能监控和视频分析等方面。然而，基于RGB的视频序列的人体行为识别算法性能仍然受限，人体遮挡、相机晃动、视角变换等都会带来很大的干扰和噪声。因此，选用骨架序列等深度数据可以避免这些问题，提高行为识别的精度和速度。

现有的一类方法(Sijie Yan,Yuanjun Xiong,and Dahua Lin.“Spatialtemporal graph convolutional networks for skeleton-based action recognition,”in Association for the Advance of Artificial Intelligence(AAAI),2018.)的基础是时空图结构，从骨架关键点序列构建时空图，在按照既定规则得到的时空图保留了骨架关键点的空间信息，并使得关键点的运动轨迹以时序边的形式得到表现。但是该方法默认所有的骨架点具有同样的重要性，这并不符合人类在区分不同行为时的经验认知。另一种方式(S.Song,C.Lan,J.Xing,W.Zeng,and J.Liu.“An end-to-end spatio-temporalattention model for human action recognition from skeleton data.”inAssociation for the Advance of Artificial Intelligence(AAAI),2017.)使用了LSTM作为注意力网络，获取不同骨架点的关键性信息。然而基于LSTM结构的网络复杂度较高，加上该注意力机制后的网络虽然检测精度有所提升，但是其算法效率低，不便之后的维护改进，也不适合应用于实际的场景。

发明内容

针对现有技术存在的技术问题，本发明的目的是提供一种基于注意力感知和树形骨架点结构的人体行为识别方法和系统，首先对无序的骨架点进行树形重构，然后利用注意力网络对不同骨架点的重要性进行描述，可以进一步提高行为识别的精度和速度。

本发明采用的技术方案如下：

一种基于注意力感知和树形骨架点结构的人体行为识别方法，包括以下步骤：

1)输入训练集中所有行为样本的骨架点信息(三维坐标)；

2)进行数据预处理，通过添零补帧使各样本的帧数一致；

3)基于三向树状遍历法则对无序的骨架点进行重构，重构后得到的特征图作为新的数据源；

4)对构建的特征图的拉普拉斯矩阵进行归一化处理；

5)构建注意力感知网络和主体网络；

6)将注意力感知网络和主体网络分层级连接；

7)将重构的特征图分别输入主体网络和注意力感知网络，并进行训练，得到训练好的行为识别网络模型；

8)将人体骨架点序列分别通过训练得到的行为识别网络模型，得到相应的特征描述，通过分类器判定人体的行为类别。

进一步地，步骤1)-步骤4)属于数据预处理部分，对原始骨架点进行树形重构，表达了更高阶的空间信息，能够更完善地描述人体骨架。

进一步地，步骤5)-步骤7)属于行为识别网路的构建和训练部分，通过对输入的重构特征图训练，可以得到有效的行为识别模型。

进一步地，步骤8)属于基于训练得到的模型进行实际测试的部分。

进一步地，步骤3)中涉及到本方法中提出的一种树形骨架点重构方法，包含三向树状遍历规则，来描述人体骨架点的空间结构特征，这种针对动作识别任务设计的空间构型划分进一步提高了识别精确度。

进一步地，步骤6)中包含注意力感知网络，通过模拟人的注意力机制，将注意力网络作为主体网络的分支来对不同骨架点的关键性进行判定，行为识别的精度和效率可以进一步提升。

与上面方法对应地，本发明还提供一种基于注意力感知和树形骨架点结构的人体行为识别系统，其包括：

数据预处理单元，负责输入训练集中所有行为样本的骨架点信息，通过添零补帧使各样本帧数一致，使用三向树状遍历法则对无序的骨架点进行重构，以及对重构后得到的特征图的拉普拉斯矩阵进行归一化处理；

识别网路的构建和训练单元，负责构建注意力感知网络和主体网络，将注意力感知网络和主体网络分层级连接，并将重构的特征图分别输入主体网络和注意力感知网络，训练行为识别网络模型；

行为识别单元，负责利用训练好的行为识别网络模型进行行为识别。

本发明的有益效果如下：

本发明针对现有的基于骨架的动作识别方法，通过重构一阶骨架点来引入二阶空间结构信息，使用设计的三向树状遍历规则，可以保留人体骨架的空间信息并获取运动轨迹。这描述了骨架点的连接关系，而且不需要手动定义身体部件，简单高效。此外，设计的注意力感知网络作为主干网络的分支，可以有效感知在本行为识别任务中更为关键的骨架点，通过赋予骨架点不同的权重，减少弱相关骨架点的干扰，提高行为识别的精度和效率。

附图说明

图1.基于三向树状遍历规则的数据重构流程图。

图2.注意力感知网络结构图。

图3.注意力感知网络和主干网络连接图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步说明。

如图1为本发明的基于三向树状遍历规则的数据重构流程图，包括以下几个步骤：

步骤1，输入训练集人体骨架点序列。

在图论中树是一种无向图，一个样本序列每帧都包含N个骨架点，将这些骨架点看做树的节点，这些节点的集合V，定义为：

V＝{v_i|i＝1,2,...,N}

步骤2，采用深度遍历的方法来遍历骨架点集合V。

由步骤1中获取的骨架点集合V，采用深度遍历法进行遍历并存储空间关系为α，用逆深度遍历法进行遍历并存储空间关系为β，定义为：

α＝{(v_i,...v_j)|v∈V,i∈[1,N],j∈[1,N]}

β＝{(v_m,...v_n)|v∈V,m∈[1,N],n∈[1,N]}

步骤3，计算骨架点的自连接关系。

由步骤1中获取的骨架点集合V，遍历顺序为1-2-...-N，关系γ存储骨架中各个节点自身的连接关系γ，定义为：

γ＝(v₁,v₂,...,v_N)

步骤4，定义骨架结构为包含N个节点的无向树T＝(V,A)，使用A记录节点的连接关系，即为邻接矩阵。针对步骤2和步骤3获得的空间关系，可以获得骨架点的最终空间描述，即三向树遍历图TTTM，定义为：

TTTM＝stack(A_α,A_β,A_γ)

其中stack即为在新的维度上堆叠三个邻接矩阵。

步骤5，针对步骤4得到的三向树遍历图TTTM，定义树的拉普拉斯方程为L＝D-A，其中D为对角度矩阵。使用单位矩阵I，可以得到最终归一化后的拉普拉斯矩，定义为：

如图2为注意力感知网络结构图，包括以下几个步骤：

步骤1，输入训练集骨架序列。

注意力感知网络是独立于主网络的一个分支，主要任务是获取不同骨架点在特定任务中的重要性，辅助行为识别的分类判定。针对此问题，需要该分支网络预测并输出不同骨架点的权重信息矩阵。

步骤2，将骨架序列放入注意力感知网络。

注意力感知网络是用于生成骨架点权重信息的5层CNN网络，包括前三个5×5的作用于骨架序列的卷积层Conv，每层分别经过ELU激活函数和步长为3、2、2的pooling(池化)操作。后两个为3×3的卷积层，同样使用ELU激活函数。

步骤3，权重信息矩阵的输出。

随着主网络的加深，获取的信息是从低层到高层的逐渐表达。注意力网络需要同步加深并在不同的层级输出权重矩阵，然后与主体网络的匹配层级结合。本实施例分别在第三、四、五层级分别输出权重矩阵mask，定义为：

并与主体网络结合。图2中的三个子网络模块Block-A、Block-B、Block-C与图3中的网络结构相同。

如图3注意力感知网络和主干网络连接图。包括以下几个步骤：

步骤1，将权重矩阵masks与主体网络连接。

利用注意力感知网络可以生成三个权重矩阵masks，原始骨架序列x经过三向树状遍历规则重构后，也会获取三向树遍历图TTTM。masks、TTTM和x具有相同的空间维度N×N，可以直接使用矩阵的乘积和点乘，将结合后的特征图S放入主体网络，定义为：

步骤2，主体网络的结构单元。

主体网络的结构单元包含四个卷积操作，前三个是具有相同结构的并行卷积操作，均包含一个二维卷积层，一个BN层(BatchNorm)来对神经元做归一化处理，以及一个ReLU非线性激活函数。形式化这种变换y，定义为：

最后一个卷积操作还包含了另一个全局pooling操作来降维整合特征。

在本领域中公开的数据集NTU-RGB-D上，与其他方法相比，目前本发明取得了最好的精确度性能，如下面表1所示，其中CV、CS分别为不同视角、不同人体的子数据库。

方法	CS	CV
			Deep LSTM	60.7％	67.3％
PA-LSTM	62.9％	70.3％
			ST-GCN	81.5％	88.3％
本发明	83.6％	89.5％

Deep LSTM和PA-LSTM：A.Shahroudy andJ.Liu,T.-S.Ng,and G.Wang.Ntu rgb+d:A large scale dataset for 3d human activity analysis,in CVPR,2017.

ST-GCN：Sijie Yan,Yuanjun Xiong,and Dahua Lin.“Spatial temporal graphconvolutional networks for skeleton-based action recognition,”in AAAI,2018.

本发明另一实施例提供一种基于注意力感知和树形骨架点结构的人体行为识别系统，其包括：

数据预处理单元，负责输入训练集中所有行为样本的骨架点信息，)通过添零补帧使各样本帧数一致，使用三向树状遍历法则对无序的骨架点进行重构，以及对重构后得到的特征图的拉普拉斯矩阵进行归一化处理；

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于注意力感知和树形骨架点结构的人体行为识别方法，包括以下步骤：

1)输入训练集中所有行为样本的骨架点信息；

2)通过添零补帧使各样本帧数一致；

3)使用三向树状遍历法则对无序的骨架点进行重构；

4)对重构后得到的特征图的拉普拉斯矩阵进行归一化处理；

5)构建注意力感知网络和主体网络；

6)将注意力感知网络和主体网络分层级连接；

7)将重构的特征图分别输入主体网络和注意力感知网络，训练行为识别网络模型；

8)利用训练好的行为识别网络模型进行行为识别。

2.如权利要求1所述的方法，其特征在于，步骤1)的输入为原始的骨架序列，没有任何的数据增强和去噪操作。

3.如权利要求1所述的方法，其特征在于，步骤2)将骨架序列的帧数进行归一化，均固定为300帧，便于步骤3)中使用三向树状遍历法则对数据进行重构。

4.如权利要求1所述的方法，其特征在于，步骤3)通过重构一阶骨架点来引入二阶空间结构信息，使用三向树状遍历规则，保留人体骨架的空间信息并获取运动轨迹。

5.如权利要求4所述的方法，其特征在于，步骤3)包括：

3.1)由骨架点集合V，采用深度遍历法进行遍历并存储空间关系为α，用逆深度遍历法进行遍历并存储空间关系为β；

3.2)由步骤1中获取的骨架点集合V，计算骨架点的自连接关系γ；

3.3)定义骨架结构为包含N个节点的无向树T＝(V,A)，使用A记录节点的连接关系，即为邻接矩阵，从而获得骨架点的最终空间描述，即三向树遍历图TTTM，定义如下，其中stack即为在新的维度上堆叠三个邻接矩阵：

TTTM＝stack(A_α,A_β,A_γ)。

6.如权利要求1所述的方法，其特征在于，步骤3)的重构结果作为特征图的拉普拉斯矩阵放入步骤4)归一化处理后，作为新的数据源输入步骤7)的网络。

7.如权利要求1所述的方法，其特征在于，步骤5)构建的注意力感知网络，通过模拟人的注意力机制，将注意力网络作为主体网络的分支，以有效感知在本行为识别任务中更为关键的骨架点，通过赋予骨架点不同的权重，减少弱相关骨架点的干扰，提高行为识别的精度和效率。

8.如权利要求1所述的方法，其特征在于，步骤5)构建的注意力感知网络的输出为三个分别包含网络低、中、高层次信息的骨架点权重矩阵，该权重矩阵分层级与构建的主体网络相结合。

9.如权利要求1所述的方法，其特征在于，所述注意力感知网络是用于生成骨架点权重信息的5层CNN网络，包括前三个5×5的作用于骨架序列的卷积层Conv，每层分别经过ELU激活函数和步长为3、2、2的pooling操作，后两个为3×3的卷积层，同样使用ELU激活函数；所述主体网络的结构单元包含四个卷积操作，前三个是具有相同结构的并行卷积操作，均包含一个二维卷积层，一个BN层来对神经元做归一化处理，以及一个ReLU非线性激活函数，最后一个卷积操作还包含一个全局pooling操作来降维整合特征。

10.一种基于注意力感知和树形骨架点结构的人体行为识别系统，其特征在于，包括：