CN110472604A

CN110472604A - 一种基于视频的行人与人群行为识别方法

Info

Publication number: CN110472604A
Application number: CN201910771166.6A
Authority: CN
Inventors: 章东平; 郑寅; 束元
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2019-11-19
Anticipated expiration: 2039-08-20
Also published as: CN110472604B

Abstract

本发明公开了一种基于视频的行人与人群行为识别方法，整个框架包括单人肢体部位网络、单人整体及肢体联合网络、多人网络。该框架旨在以端到端的方式共同学习联合共现和时间演进，通过利用CNN全局聚合的能力，可以简单有效地利用CNN模型学习骨架序列信息的联合共现特征。在该方法中独立地学习每个关节的点级特征，然后将每个关节的特征视为卷积层的通道，以学习层次共生特征。最关键的是在设计的单个行人行为识别联合网络结构中采用多部位的肢体网络特征融合到单个行人运动特征中加强单个行人的行为识别。此外，在设计的人群交互行为识别网络中，利用单人行为特征加强群体行为的特征，群体行为涉及多个人的行为有拥抱和握手等活动。

Description

一种基于视频的行人与人群行为识别方法

技术领域

本发明属于深度神经网络提取脸部特征的深度学习领域，涉及到神经网络、模式识别等技术，尤其涉及到基于人体骨架信息的行人与人群行为识别模型的训练及测试方法。

背景技术

对行为识别和检测等人类行为的分析是计算机视觉中的基本和具有挑战性的任务之一。以人体为主要研究对象的行为识别技术，大多运动识别方法采用目标分割的方法，但受限于图像中人体数目、目标的规模大小等因素，效果并不理想，导致后续识别工作不能尽如人意。所以许多研究工作往往省略运动目标检测的过程，直接对原始数据进行行为特征提取。真实场景的光照变化、相机运动、目标遮挡等干扰因素使得这类行为识别方法的鲁棒性不高，准确性受限。解决上述问题的方法是采用人体关节点连接的人体姿势数据集，人体姿势数据集也被称为骨架数据集，是一种描述人类行为非常好的表示。一方面，骨架数据本质上对背景噪声具有鲁棒性，并提供人类行为的抽象信息和高级特征。另一方面，与RGB数据相比，骨架数据的尺寸非常小，这使得设计轻量级和硬件友好型模型成为可能。主要的更是CNN模型具有极好的提取高级信息的能力，并且已被用于学习骨骼的时空特征，将骨架的每个关节点信息视作通道，则卷积层可以轻松地了解所有关节的点级特征，如果也将骨架的每个关节都视为通道，则卷积层也可以轻松地了解所有关节的共生现象。

那么在此基础上我们提出对骨架数据的输入采用不同的方式增加数据的全局性和多样性，并且在已有的端到端卷积共现特征学习框架中加入肢体动作学习行为网络，提取每个肢体部位的学习特征，用局部特征增强对整体(全局)行为动作分类的效果。此外该方法也易于多人扩展，当进行群体行为识别时，对不同的单人联合网络输出特征进行融合，就可以提高群体交互行为分类的效果。

发明内容

本发明既克服了现有技术的不足之处，又在现有技术之上提出了一种基于多肢体行为网络的动作识别模型训练及测试方法，意在利用卷积神经网络训练出适用于多肢体的动作行为识别模型，提取其卷积层上的特征，提高完整骨架身体在单人或人群的动作行为识别过程中的准确性。

本发明为达上述发明目的，具体技术方案如下：

一种基于视频的行人与人群行为识别方法，包括如下步骤：

步骤一，准备200个描述5种单人或多人全身行为的视频数据，每个视频帧数在150帧左右，用人体姿态估计算法得到每一个视频每一帧上每个人的代表各个肢体关节点的18个含有三维坐标信息的关键点。

步骤二，在视频的输入数据处理上，对每一段视频得到的多帧骨架序列用两种选取方法得到2种N帧信息(任意一种都可以作为输入信息)，然后将多帧单人骨架序列以帧数×18关键点数×3(3维骨架坐标即3)的形状表示为一个三维数组；同时按照头、胳膊、躯干、脚人体部位对人体18个关键点进行区分得到4组对应关键点的三维数组骨架序列，将其全部放入JSON文件中，这样每个视频都会有5个JSON文件。然后按照4种头部动作种类：摇头、点头、晃头、不动。4种手部(胳膊)的肢体动作种类分为弯曲摆臂、伸直摆臂、推拉、垂立。4种脚(腿)部：跑、站立、走、蹲。 2种躯干的动作：弯腰、站立。整体的动作分类有单人的跌倒、打开车门和涉及交互的拥抱、握手、打架行为。18个含有三维坐标信息的关键点描述人体各个部位的骨骼信息，关键点按头部、胳膊、躯干、腿的顺序排列，即为单帧人体骨架序列。按此关系做好各类骨架序列的标签。

步骤三，设计了一种单人行为联合网络每个的结构，是由4个单人肢体行为网络和1个单人行为网络构成。每个单人肢体行为网络包含一个基本的卷积神经网络如图 4所示，这个卷积神经网络包括4个卷积层、1个转置层、2个最大池化层。如果我们在视频中不重叠地从同一视频选取了K个N帧的4类肢体骨架序列信息，就有K个这样的卷积神经网络接收这些信息，最终都连上同一个含有1个Concat层、2个卷积层、 2个最大池化层的神经网络构成一个单人肢体行为网络。单人肢体行为联合网络由全身整体网络和各个肢体网络组成，并且把网络的第一层全连接层输出的特征全部叠加，最后叠加够的特征通过分类层进行动作识别分类。扩展到多人交互行为网络时，由多个单人肢体部位联合网络组成，对各自的Conv6层输出的图像特征叠加，通过特征处理层，最后连上2个全连接层。

也设计了一种人群交互行为识别网络，该框架由由多个单人行为联合网络和一个群体行为网络构成，是从单人行为联合网络扩展到群体行为而来的。每个人的骨骼信息分别输入到各自的单人行为识别网络，同时所有人的骨骼信息都输入到群体行为识别网络，所有输出的特征通过Flatten层，由多维转为1维，最后接上两个全连接层进行输出分类。

步骤四，对搭建好的网络进行模型训练，将处理好的数据分别送入对应的4个肢体部位网络，都采用Soft-max损失函数进行训练分类，提取子网络中全连接层上的 256维特征向量，进行叠加得到256×4维的向量特征。将整体骨架序列信息送入到单人整体网络中去，得到256维特征向量，再叠加4个肢体网络层的特征向量，总共为 1280维的，再经过一个全连接层，也采用Soft-max损失函数进行分类训练，得到训练结果。扩展到多人交互行为时，直接将Conv6层输出的特征图全部进行叠加/最大化 /平均操作来进行合并，然后进行扁平化，最后使用soft-max损失函数进行分类。

进一步地，所述的基于视频的行人与人群行为识别，其特征在于：所述步骤一中，包括：

单人或多人全身行为种类分为单人的跌倒、打开车门和涉及交互的拥抱、握手、打架行为5类，每类各100个视频。各类肢体的动作行为，头部动作种类为3种：摇头、点头、晃头。手部(胳膊)的肢体动作种类分为弯曲摆臂、伸直摆臂、推拉。脚 (腿)部的种类为跑、站立、走、蹲。躯干的动作种类为弯腰、站立，每种肢体的视频各120个，然后每种肢体的每种动作平均分配。

进一步地，所述的基于人体骨架的行为动作识别算法网络，所述步骤三中，还包括：

单人肢体行为网络是指为单个人某部位的骨架信息输入的网络，单人整体网络是指单个人全身的骨架信息输入的网络，单人行为联合网络是由多个单人肢体行为网络和1个单人整体网络联合而成，扩展到多人行为特征学习网络框架就是由单人联合网络构成。

进一步地，所述的基于人体骨架的行为动作识别算法网络，所述步骤四中，还包括：

单人整体网络与肢体部位网络结构相同，不同的是将每个肢体部位网络在第一个全连接层输出的256维特征进行固定并且叠加到整体网络第一个全连接层输出的特征上，最后连接一个全连接层进行分类。

进一步地，所述的基于人体骨架的行为动作识别算法网络，所述步骤五中，还包括：

每个肢体部位网络包含一个基本的卷积神经网络，给定骨架序列和运动输入，对应不同肢体的肢体行为学习特征。

与现有技术相比，本发明的有益效果体现在：

本方法除了采用骨架序列的人体信息可以摆脱受各种条件限制效果并不理想的目标分割的方法，并且端到端的分层多肢体行为模块共现特征学习框架，用于骨架的动作识别和检测。通过利用CNN全局聚合的能力，我们发现可以简单有效地利用CNN模型学习关节点之间特征，我们独立地学习每个关节的点级特征，

然后，我们将每个关节的特征视为卷积层的通道，以学习关节点之间的共生特征。更重要的是采用多肢体行为模块，用各类局部肢体信息融合整体运动特征，可有效提高动作识别和检测任务的性能。

附图说明

图1是行为识别测试流程示意图；

图2人群交互行为识别网络结构示意图；

图3是单个行人行为联合识别网络结构示意图；

图4是单人肢体部位网络结构示意图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，本发明的基于视频的行人与人群行为识别方法，包括如下步骤：

1、将帧数在150帧左右的视频采用人体姿态估计算法进行处理，得到一个150(帧数)×18(关键点数)×3(3维骨架坐标即3)形状的整体骨架序列。同时按照按头、胳膊、躯干、脚人体部位对人体18个关键点进行区分，得到4组一个150(帧数)×相应关键点数×3(3维骨架坐标即3)形状的肢体部位骨架序列。

2、单人全身行为种类分为单人的跌倒、下蹲、起跳等动作，群体行为涉及交互的拥抱、握手、打架等行为，每类各100个视频。各类肢体的动作行为，头部动作种类为3种：摇头、点头、晃头。手部(胳膊)的肢体动作种类分为弯曲摆臂、伸直摆臂、推拉。脚(腿)部的种类为跑、站立、走、蹲。躯干的动作种类为弯腰、站立，每种肢体的视频各120个，然后每种肢体的每种动作平均分配。并以此每个视频都做好相对应的标签，用于每一类网络的训练。然后从上述的视频帧中跳帧选取K个N帧信息，例如以5帧为一间隔从视频中选帧，第1个信息的第1帧选择为视频的第0帧，则第一个该N帧视频是由0，5，··，5(N-1)帧的信息组成。由此可推第K个N帧信息是由5(K-1)N，··，5(K*N-1)帧的信息组成。

3、如图3所示，设计了一种单个行人行为识别网络，是由4个单人肢体行为网络和1个单人行为网络构成。每个单人肢体行为网络包含一个基本的卷积神经网络如图4所示，这个卷积神经网络包括4个卷积层、1个转置层、2个最大池化层。如果我们在视频中不重叠地从同一视频选取了K个N帧的4类肢体骨架序列信息，就有K个这样的卷积神经网络接收这些信息，最终都连上同一个含有1个Concat层、2个卷积层、 2个最大池化层的神经网络构成一个单人肢体行为网络。单人肢体行为联合网络由全身整体网络和各个肢体网络组成，并且把网络的第一层全连接层输出的特征全部叠加，最后叠加够的特征通过分类层进行动作识别分类。扩展到多人交互行为网络时，由多个单人肢体部位联合网络组成，对各自的Conv6层输出的图像特征叠加，通过特征处理层，最后连上2个全连接层。

4、如图2所示，设计了一种人群交互行为识别网络，该框架由由多个单人行为联合网络和一个群体行为网络构成，是从单人行为联合网络扩展到群体行为而来的。每个人的骨骼信息分别输入到各自的单人行为识别网络，同时所有人的骨骼信息都输入到群体行为识别网络，所有输出的特征通过Flatten层，由多维转为1维，最后接上两个全连接层进行输出分类。

5、对于单人行为联合网络的训练：将步骤1处理好的肢体部位骨架数据按照步骤2中选取的骨架序列输入到步骤2中设计好的4类肢体行为网络的结构当中去，设置 batch参数、学习率、SGD梯度下降方式、迭代次数，按照上述阐述的肢体行为分类关系做好各类骨架序列的标签作为真实值，然后开始使用Soft-max损失函数进行迭代训练，训练出一个相对好的肢体行为分析模型，提取这4类网络中第一层全连接层的256 维特征。将这4个256维特征叠加到单人行为网络中的第一层全连接层上面去构成1280 维特征向量，然后按上述训练设置超参数等进行单人行为网络模型的训练。

6、对于人群交互行为识别网络的训练，按照图2的形式进行训练，每个单人行为联合网络的训练步同骤5，然后所有的单人骨骼信息全部输入到群体行为网络中，最终得到的单人行为特征和群体行为特征叠加，使用soft-max进行群体行为分类训练。

7、测试过程：将一段多帧骨架序列输入到单个行人行为识别网络中去，利用训练好的行人行为识别模型进行特征提取，获得单个行人的行为分类结果。或者将一段多帧多人骨架序列输入到人群交互行为识别网络框架中，并利用训练好的模型进行特征提取，获得该群体行为的分类结果。

Claims

1.一种基于视频的行人与人群行为识别方法，包括如下步骤：

步骤一，数据准备：准备描述全身整体动作行为的视频，用人体姿态估计算法得到每一个视频每一帧上每个人不同肢体关节点的二维关节点信息(x，y)，设定每个人全身共有18个关节点信息并构成一个骨架序列；

步骤二，数据处理：对每一段视频得到的骨架序按一定的跳帧方式取帧，得到一定数量的N帧信息；其中对于描述全身整体动作行为的骨架序列信息，以帧数×18关键点数×3的形状表示为1个三维数组；对于描述各个肢体行为动作的骨架序列信息，按头、胳膊、躯干、脚人体部位对人体18个关键点进行区分，得到各自对应的三维数组，分别存放在一个JSON文件，作为网络模型的输入；

步骤三，单个行人行为识别联合网络结构设计：设计一种端到端的单个行人人体行为特征学习网络，每个单人识别行为联合网络是由多个单人肢体行为网络构成，每个单人肢体行为网络包含一个基本的卷积神经网络，这个卷积神经网络包含4个卷积层、1个转置层、2个最大池化层；从视频帧中选取K个肢体骨架序列信息，输入K个这样的基本卷积神经网络，最终都连上同一个含有1个Concat层、2个卷积层、2个最大池化层的神经网络构成一个单人肢体网络；单人肢体部位联合网络由单人全身行为网络和各个肢体行为网络组成，并且把网络的第一层全连接层输出的特征全部叠加，最后叠加后的特征通过分类层进行动作识别分类；扩展到多人交互行为网络时，由多个单人肢体部位联合网络组成，对各自的Conv6层输出的图像特征叠加，通过特征处理层，最后连上2个全连接层；

人群交互行为识别网络结构设计：设计一种端到端的群体行为特征学习网络框架，该框架由多个单人行为联合网络和一个群体行为网络构成；每个人的骨骼信息分别输入到各自的单人行为识别网络，同时所有人的骨骼信息都输入到群体行为识别网络，所有输出的特征通过Flatten层，由多维转为1维，最后接上两个全连接层进行输出分类；

步骤四，单个行人行为识别网络训练：将处理好的单个人的各个肢体行为动作的骨架序列信息分别送入对应的4个肢体网络，都采用Soft-max损失函数进行训练分类，提取每个网络中第一个全连接层上的256维特征向量，进行叠加得到256×4维的向量特征；接下来，再在单人整体网络中的第一层全连接层上叠加这4个肢体网络层输出的特征向量，总共为1280维，再经过一个全连接层，也采用Soft-max损失函数进行分类训练，得到行人动作的训练结果；

人群交互行为识别网络的训练：将处理好的单个人骨架序列信息按照单个行人行为识别网络的方法去训练得到特征并且将所有单人骨架序列信息全部送入人群交互行为识别网络中得到群体行为特征，最后所有特征进行叠加，再全部进行叠加/最大化/平均操作来进行合并，又进行扁平化，最后使用soft-max损失函数进行群体行为的分类；

步骤五，网络测试：将一段多帧骨架序列输入到单个行人行为识别网络中去，利用训练好的行人行为识别模型进行特征提取，获得单个行人的行为分类结果；或者将一段多帧多人骨架序列输入到人群交互行为识别网络框架中，并利用训练好的模型进行特征提取，获得该群体行为的分类结果。

2.根据权利要求1所述的基于视频的行人与人群行为行为识别方法，其特征在于：所述步骤一中，包括：

把一段多帧骨架序列分割为4个部分；头部动作种类为：摇头、点头、晃头、不动；手部或者胳膊的肢体动作种类分为弯曲摆臂、伸直摆臂、推拉、垂立；脚或腿部的种类为跑、站立、走、蹲；躯干的动作种类为弯腰、站立；单个行人的动作分类有跌倒、跳和下蹲，人群交互行为分类有拥抱、握手、打架行为；18个含有三维坐标信息的关键点描述人体各个部位的骨骼信息，关键点按头部、胳膊、躯干、腿的顺序排列，即为单帧人体骨架序列。

3.根据权利要求1所述的基于视频的肢体与人体行为识别方法，其特征在于：所述步骤二中，还包括：

步骤2.1按照头、胳膊、躯干、脚人体部位对人体18个关键点进行区分，头部包含了5个关键点，左手和右手各有3个关键点，躯干有3个关键点，左脚或腿和右脚或腿各有2个关键点，分成4个部分，与帧数和坐标组成三维骨架序列；

步骤2.2以跳帧的方法从视频帧中选取K个N帧信息，第1个信息的第1帧选择为视频的第0帧，则第一个该N帧视频是由0，5，··，5(N-1)帧的信息组成；由此可推第K个N帧信息是由5(K-1)N，··，5(K*N-1)帧的信息组成。

4.根据权利要求1所述的基于视频的行人与人群行为识别方法，其特征在于：所述步骤三中，还包括：

在单个行人行为识别网络结构中，将4个肢体行为识别网络的Fc7全连接层输出的特征固定参数并且都叠加到单人全身行为识别网络Fc7全连接层输出的特征上，以此增强单个行人全身的行为动作分类效果；在人群交互行为识别网络结构中，将所有单个行人的骨骼信息全部输入到群体行为网络中去，叠加上单人骨骼送入单人行为联合网络中输出的特征，来达到增强人群交互行为识别的效果。

5.根据权利要求1所述的基于视频的行人与人群行为识别方法，其特征在于：所述步骤四中，还包括：