CN111310655A

CN111310655A - 基于关键帧和组合注意力模型的人体动作识别方法和系统

Info

Publication number: CN111310655A
Application number: CN202010091521.8A
Authority: CN
Inventors: 蒋营国; 曹兵华
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2020-06-19

Abstract

本发明公开了一种基于关键帧和组合注意力模型的人体动作识别方法和系统，采集人体关节骨骼数据，进行与视图无关的表示，组装成数据帧；从数据帧中筛选出记录人体动作姿态形变达到阈值的关键数据帧；将关键数据帧输入组合注意力模型，提取带注意力的深度动作特征，进行动作分类识别。本发明使用非常少量的关键数据帧；消除了视图影响；计算量少，可应用于实时识别；输入数据量少，识别精度高。

Description

基于关键帧和组合注意力模型的人体动作识别方法和系统

技术领域

本发明涉及计算机视觉、人机交互、人工智能领域，特别是指一种基于关键帧和组合注意力模型的人体动作识别方法和系统。

背景技术

人体动作识别是计算机视觉领域中的一个重要分支，在人机交互、安全监控、无人驾驶、机器人、体感交互游戏、虚拟现实等方面具有十分重要的地位。同时，也是一项十分具有挑战性的任务，这是因为人体动作具有高度复杂性。在动作过程中，人的身体部位在不同时刻对应的空间信息不同，同一时刻从不同视图观察动作对应人体姿态不同，动作完成的快慢和连贯性不同，甚至连执行动作的主体也不同，例如高矮胖瘦、健全人与残疾人等。

对动作区分的依据是它们的相似性，这是一个很难被量化的数值。识别动作对人来说是非常容易的，而对传统的动作识别方法则是非常困难的。这是因为传统动作识别方法必须要明确：参照的动作数据库、固定的匹配步骤、做出判断和分类的条件和时机。因此，传统方法显得十分笨拙，没有记忆效果，每次识别都需要逐一匹配，识别出结果的时间不确定，遇到复杂动作时固定的匹配步骤无法处理，同时需要大型的动作数据库和巨大的计算能力。

随着人工智能的出现，展现了许多传统方法不具备的优势，突出了仿人类思考的特性，擅长模糊搜索和匹配。相比传统方法，将人工智能应用于动作识别，能使机器模仿人类思维进行抽象理解和分类，是对传统方法的巨大改进。然而，目前现有的基于人工智能的动作识别方法同样存在一些不足，如需要动作样本较多人工标注费时费力、受视图影响明显导致稳健性较差、计算量大达不到实时识别要求等，这些都是需要改进的地方。

发明内容

本发明提出一种基于关键帧和组合注意力模型的人体动作识别方法和系统，解决了现有技术中需要动作样本较多人工标注费时费力、受视图影响明显导致稳健性较差、计算量大达不到实时识别要求的问题。

本发明的技术方案是这样实现的：

一种基于关键帧和组合注意力模型的人体动作识别方法，具体包括以下步骤：

(1)采集人体关节骨骼数据，进行与视图无关的表示，组装成数据帧；

(2)从数据帧中筛选出记录人体动作姿态形变达到阈值的关键数据帧；

(3)将关键数据帧输入组合注意力模型，提取带注意力的深度动作特征，进行动作分类识别。

作为本发明的一个优选实施例，步骤(1)具体包括以下步骤：

(101)采集人体N个关节的三维坐标值；

(102)将N个关节的三维坐标值计算为N-1个非髋关节各自对应的三个欧拉角；

(103)将N-1个非髋关节各自对应的欧拉角的表示形式按照非髋关节特定的层级排列顺序组装成数据帧。

作为本发明的一个优选实施例，在步骤(102)中将髋关节对应的向量为参照向量。

作为本发明的一个优选实施例，步骤(2)具体包括以下步骤

(201)求当前数据帧中N-1个非髋关节与前一数据帧中N-1个非髋关节的向量方向的夹角；

(202)判断夹角是否达到设定阈值，若是，则将当前数据帧记为关键数据帧，否则记为普通数据帧。

作为本发明的一个优选实施例，组合注意力模型包括用于提取动作特征的神经网络、提供时间注意力机制的模块；神经网络由三个长短期记忆网络层和一个全连接层组成，当前关键数据帧作为输入，提取深层的动作特征；提供时间注意力机制的模块的输入端包括当前关键数据帧和前一个关键数据帧，前一个关键数据帧经过一个长短期记忆网络层后提取到的高层抽象特征与当前关键数据帧输入全连接层，再进行归一化得到注意力权重；神经网络、提供时间注意力机制的模块输出端进行乘积，得到带注意力的深度动作特征，再经过一个softmax层进行动作分类。

一种基于关键帧和组合注意力模型的人体动作识别系统，包括

数据采集和组装模块，用于采集人体关节骨骼数据，进行与视图无关的表示，组装成数据帧；

数据帧筛选模块，用于从数据帧中筛选出记录人体动作姿态形变达到阈值的关键数据帧；

组合注意力模块，用于将关键数据帧输入组合注意力模型，提取带注意力的深度动作特征，进行动作分类识别。

本发明的有益效果在于：使用非常少量的关键数据帧；消除了视图影响；计算量少，可应用于实时识别；输入数据量少，识别精度高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于关键帧和组合注意力模型的人体动作识别方法一个实施例的流程图；

图2为人体关节骨骼数据进行与视图无关的表示的示意图；

图3为本发明参照使用的人体关节排列顺序图；

图4为本发明提出的组合注意力模型架构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提出了一种基于关键帧和组合注意力模型的人体动作识别方法，具体包括以下步骤：

步骤(1)具体包括以下步骤：

(101)采集人体N个关节的三维坐标值；采集骨骼数据是根据硬件设备最大支持可采集的关节数目N和参照的三维坐标系，采集动作主体身上N个关节的三维坐标值。

(102)将N个关节的三维坐标值计算为N-1个非髋关节各自对应的三个欧拉角；将髋关节对应的向量为参照向量。求出这个参照向量旋转到其它所有非髋关节向量的这些过程对应的四元数；求出这些四元数对应各自的三个欧拉角。经过处理，这N-1个非髋关节各自对应三个欧拉角表示形式。欧拉角反映的是动作主体自身关节的旋转关系，因此与视图无关，从而消除了视图的影响。

(103)将N-1个非髋关节各自对应的欧拉角的表示形式按照非髋关节特定的层级排列顺序组装成数据帧，成为硬件设备单次采集到的一个完整数据记录单位。

(2)从数据帧中筛选出记录人体动作姿态形变达到阈值的关键数据帧；挑选关键数据帧是按照本发明中的方法，选出其中一部分记录着人体动作姿态形变较大、足够区分动作信息的关键数据帧。筛选关键帧和过滤普通帧是将挑选出来的关键数据帧传输至下一模块组合注意力模型使用，当前关键数据帧成为前一关键帧，并直接丢弃记录冗余信息的普通帧。

步骤(2)具体包括以下步骤

组合注意力模型包括用于提取动作特征的神经网络(Part A)、提供时间注意力机制的模块(Part B)、两部分的结合方式这三个关键之处。Part A由三个长短期记忆网络层(LSTM)和一个全连接层(FC)组成，它使用当前的关键帧作为输入，用于提取深层的动作特征。Part B需要两路输入，其中一路是当前的关键帧，另一路是前一个关键帧，当前关键帧与前一关键帧经过一个LSTM层后提取到的高层抽象特征这二者共同作为FC层的输入；经过FC层将信息融合后，再进行归一化得到注意力权重。两部分的结合是Part A与Part B二者的输出中所有对应的元素进行乘积，得到带注意力的深度动作特征，再经过一个softmax层进行动作分类。

本发明还提出了一种基于关键帧和组合注意力模型的人体动作识别系统，包括

数据采集和组装模块，用于采集人体关节骨骼数据，进行与视图无关的表示，组装成数据帧；该模块包括采集骨骼数据、将骨骼数据处理成与视图无关的表示、组装成数据帧这三种功能。该模块需要与硬件设备进行数据通信，可采用常规的编程语言，如C++或C#实现。采集骨骼数据是硬件设备根据它最大支持可采集的关节数目N和参照的三维坐标系，采集动作主体身上N个关节的三维坐标值。

数据帧筛选模块，用于从数据帧中筛选出记录人体动作姿态形变达到阈值的关键数据帧；该模块包括挑选关键数据帧、筛选关键帧和过滤普通帧这两种功能。该模块也可使用常规的编程语言，如C++或C#实现。关键数据帧记录着人体动作姿态形变较大、足够区分动作的信息。筛选关键帧和过滤普通帧是将挑选出来的关键数据帧传输至下一模块组合注意力模型使用，当前关键帧则成为前一关键帧，并直接丢弃记录冗余信息的普通帧。

组合注意力模块，用于将关键数据帧输入组合注意力模型，提取带注意力的深度动作特征，进行动作分类识别。组合注意力模型预先经过训练。该模块包括用于提取动作特征的神经网络(Part A)、提供时间注意力机制的模块(Part B)、两部分的结合方式这三个关键之处。Part A由三个长短期记忆网络层(Long and short term memory network,LSTM)和一个全连接层(Fully connected,FC)组成，使用当前的关键帧I作为输入，用于提取深层的动作特征。Part B需要两路输入，其中一路是当前的关键帧I，另一路是前一个关键帧I’，当前关键帧与前一关键帧经过一个LSTM层后提取到的高层抽象特征这二者共同作为FC层的输入；经过FC层将信息融合后，再进行归一化得到注意力权重。两部分的结合是Part A与Part B二者的输出中所有对应的元素进行乘积，得到带注意力的深度动作特征，再经过一个softmax层进行动作分类,并且将当前关键帧设置为前一关键帧。

实施案例：虚拟现实模拟跳伞体验游戏

根据图1所示的完整执行流程图，设计出一个虚拟现实模拟跳伞体验游戏。以体验用户做出操控降落伞动作(拉下伞绳，这个动作约持续0.33秒)为例进行说明：

将采集骨骼数据的硬件设备微软Kinect V2放于体验用户的正面，距离3-5米。Kinect V2最大支持25个人体关节，每采集一次(1/30秒)，就可以采集到25个关节的骨骼数据。再根据已有的数学公式，如图2所示，将这些骨骼数据表示为各个关节对应的三个欧拉角形式，成为与视图无关的欧拉角表示；再按照图3所示的关节顺序，将这24个非髋关节各自对应的三个欧拉角表示形式依次排列放置，成为一个数据帧，流水式不停地采集骨骼数据成为数据帧。图3中0表示臀部，1表示脊椎，2表示两肩中心，3表示左锁骨，4表示左肩，5表示左手肘，6表示左手腕，7表示左手掌，8表示左大拇指，9表示颈，10表示头，11表示右锁骨，12表示右肩，13表示右手肘，14表示右手腕，15表示右手掌，16表示右大拇指，17表示左大腿，18表示左膝，19表示左脚踝，20表示左脚尖，21表示右大腿，22表示右膝，23表示右脚踝，24表示右脚尖。

将这一数据帧传送至关键数据帧筛选过滤模块，对该数据帧中的每一个非髋关节，计算其在这一帧的向量方向与在前一关键帧中的向量方向之间的夹角。将其与预先设置的一个阈值(如12度)比较，如果任何一个非髋关节的这个夹角大于或等于阈值，则判定当前帧为关键数据帧，保留该帧，输送至组合注意力模型，并将该帧作为这个模块的前一关键帧。如所有的非髋关节的夹角都小于阈值，则表示该帧是普通帧，丢弃该帧。

将该关键帧与组合注意力模型的前一关键帧都作为该模型的输入，如图4所示，该组合注意力模型使用GPU加速计算进行动作的分类，达到识别动作的目的。

这个动作持续0.33秒，因为是垂直范围内的手部动作，可认为在同一平面完成，夹角变化约为45度。Kinect V2对应采集约10次，产生10个数据帧，每个数据帧对应夹角的变化为4.5度。设置的阈值角度为12度，因此第1、4、7、10帧为关键数据帧，这就由原来的10帧缩减为4帧的输入。并且骨骼数据采集和数据帧处理模块工作时，其余两个模块都可以正常工作，加之GPU的计算加速。这整个动作识别的流程从数据采集完到动作识别，总的时间不会超过0.1秒。正常人反应时间是0.3秒，而经过训练的运动员最快反应时间也不会低于0.1秒，对普通人的体验而言，这可完全认为是实时识别。然后，游戏系统快速响应，将降落伞打开的动画效果传输至虚拟现实显示设备，并将相应声音传输至音频设备，完成用户的这次体验。

本发明的有益效果在于：(1)使用非常少量的关键数据帧；(2)消除了视图影响；(3)模型架构简单，容易实现；(4)计算量少，可应用于实时识别；(5)输入数据量少，识别精度高。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于关键帧和组合注意力模型的人体动作识别方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的基于关键帧和组合注意力模型的人体动作识别方法，其特征在于，步骤(1)具体包括以下步骤：

(101)采集人体N个关节的三维坐标值；

3.根据权利要求2所述的基于关键帧和组合注意力模型的人体动作识别方法，其特征在于，在步骤(102)中将髋关节对应的向量为参照向量。

4.根据权利要求2所述的基于关键帧和组合注意力模型的人体动作识别方法，其特征在于，步骤(2)具体包括以下步骤

5.根据权利要求1或4所述的基于关键帧和组合注意力模型的人体动作识别方法，其特征在于，组合注意力模型包括用于提取动作特征的神经网络、提供时间注意力机制的模块；神经网络由三个长短期记忆网络层和一个全连接层组成，当前关键数据帧作为输入，提取深层的动作特征；提供时间注意力机制的模块的输入端包括当前关键数据帧和前一个关键数据帧，前一个关键数据帧经过一个长短期记忆网络层后提取到的高层抽象特征与当前关键数据帧输入全连接层，再进行归一化得到注意力权重；神经网络、提供时间注意力机制的模块输出端进行乘积，得到带注意力的深度动作特征，再经过一个softmax层进行动作分类。

6.一种基于关键帧和组合注意力模型的人体动作识别系统，其特征在于，包括