CN110348395B

CN110348395B - 一种基于时空关系的骨架行为识别方法

Info

Publication number: CN110348395B
Application number: CN201910633168.9A
Authority: CN
Inventors: 张栗粽; 卢国明; 罗光春; 刘贵松; 吴婷婷
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2023-01-20
Anticipated expiration: 2039-07-12
Also published as: CN110348395A

Abstract

本发明公开了一种基于时空关系的骨架行为识别方法，结合卷积神经网络和长短时记忆网络作为行为识别模型，将人体骨架表示成矩阵的形式作为模型的输入，并将骨架序列进行分段处理，使提高网络处理效率，同时能表现各个分段在动作识别中的注意力程度。结合卷积神经网络和长短时记忆网络的特点进行行为识别模型设计，能够自适应的提取人体骨架在时间空间上的动作行为特征，进而进行行为分类。本发明实现了视频中人体行为的智能化识别，从而取代了传统的视频行为识别中依靠人工进行识别时人工精力、时间有限所带来的弊端，从智能化的角度来解决传统行为识别问题。

Description

一种基于时空关系的骨架行为识别方法

技术领域

本发明属于计算机视觉和深度学习技术领域，具体涉及一种基于时空关系的骨架行为识别方法。

背景技术

计算机视觉已经被应用到各个领域，基于监控视频的研究也是当今计算机视觉研究的热门方向之一。随着智能化视频监控的发展，越来越多的视频监控设备被应用到安防的各个领域，监控设备的不断扩增导致监控视频的数据量也在不断增加，依靠人工识别视频行为时，监看人员的时间、精力都很难保障，因此需要计算机来代替人类对监控视频中的人体行为进行分析。

通过原始RGB图像序列进行行为识别分析会受到光照条件、背景以及视觉角度等因素的影响，同时通过RGB视频图像只能提取到人体的二维运动信息，难以刻画人体的三维空间信息。与RGB视频图像相比，骨架数据对于背景和不相关对象的噪声更具有鲁棒性。另外，随着科技的发展，现阶段可通过深度摄像机技术以及姿态估计算法得到人体骨架关节节点的三维位置坐标，因此可实现人体的三维骨架坐标数据的获取，以此来表示人体在三维空间中时间空间上的动作信息。

传统的通过骨架序列进行行为识别的方法主要是通过人工提取特征后，再经过特征分类器来对骨架行为进行分类，传统人工提取特征的方法普遍存在特征提取过程复杂、特征维度高的弊端，往往会有提取的特征量比原始视频量还要大的情况产生，因此会大大降低视频的处理速度。

随着深度学习的发展，通过深度学习模型来解决行为识别的方法也越来越多，包括卷积神经网络以及循环神经网络。卷积神经网络被大量运用到图片识别中，循环神经网络以其记忆细胞的特点被用来处理和预测带时序的序列数据。由于骨架序列具有时序以及其空间位置关系的特征，上诉两种深度学习模型分别被用在骨架行为的识别中。

发明内容

本发明的目的在于：解决目前通过骨架序列进行行为识别方法通过特征分类器进行行为分类，传统人工提取特征过程复杂、特征维度高，提取的特征量比原始视频量大导致视频处理速度大大降低的问题，提出了一种基于时空关系的骨架行为识别方法。

本发明采用的技术方案如下：

一种基于时空关系的骨架行为识别方法,方法包括：

获取人体骨架数据，并将整体骨架进行部位的划分，将整体人体骨架数据表示为矩阵的形式并进行骨架序列分段处理，将各部位人体骨架数据进行处理分别得到各部位对应的各个时间段的关系矩阵；

分别将骨架序列分段处理后的整体人体骨架矩阵数据和各部位各个时间段的人体骨架关系矩阵数据作为卷积神经网络的输入，分别提取得到整体人体骨架和各部位人体骨架各个时间段上的行为特征；

分别将整体人体骨架和各部位人体骨架各个时间段上的行为特征按照时间顺序依次作为长短时记忆网络不同时刻的输入，分别得到整体人体骨架和各部位人体骨架包含整个时间段的时空特征；

将所有整体人体骨架和各部位人体骨架的时空特征进行融合后通过分类器进行行为结果识别。

进一步，所述方法还包括卷积神经网络、长短时记忆网络和分类器的训练步骤。

进一步，所述将整体人体骨架数据表示为矩阵的形式并进行序列分段处理的具体方法为：

将整体人体骨架数据进行人体关节节点位置数据获取，并将人体关节节点位置数据表示为三维矩阵形式；

将人体关节节点位置的三维矩阵数据进行标准化处理，然后对数据进行骨架序列分段处理，得到n个三维矩阵数据。

进一步，所述对数据进行骨架序列分段处理，得到n个三维矩阵数据的方法为：

将骨架序列均分为n小段具有连续时刻的骨架序列，每小段包含k帧连续的骨架序列；

将每小段骨架序列的人体关节节点位置数据合并成k*3*t的三维矩阵数据，得到n个k*3*t的三维矩阵数据。

进一步，所述将各部位人体骨架数据进行处理分别得到各部位对应的各个时间段的关系矩阵的方法为：

将各部位人体骨架数据进行人体关节节点位置数据获取，将各部位人体骨架的关节节点位置数据存储到n₁x3的二维矩阵中，并对二维矩阵进行标准化处理；

对各部位人体骨架选取该部分中某个关节点作为该部分的关键节点，将该部位人体骨架中所有关节节点与其关键节点的位置求差值，将得到的差值存储到二维矩阵中；

将二维矩阵按照时间顺序组合为三维矩阵，将该三维矩阵作为该部位对应的各个时间段的关系矩阵。

进一步，所述将二维矩阵按照时间顺序组合为三维矩阵的方法为：

将各部位人体骨架分别进行骨架序列分段处理，分为n小段具有连续时刻的骨架序列，每小段包含t帧连续的骨架序列，每帧骨架包含k个骨架关节点；

将每小段骨架序列的关节节点与其关键节点位置差值数据合并成k*3*t的三维矩阵数据，得到n个k*3*t的三维矩阵数据。

进一步，所述将所有整体人体骨架和各部位人体骨架的时空特征进行融合的方法为：

将得到的所有整体人体骨架和各部位人体骨架的时空特征分别进行神经网络的全连接操作，设置全连接层的结点个数为要判定的行为类别数；

将经过全连接操作的时空特征进行相加，得到融合后的时空特征。

根据权利要求1所述的一种基于时空关系的骨架行为识别方法，其特征在于：所述获取人体骨架数据时，每个动作提取连续的50帧骨架序列数据。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明中，结合卷积神经网络和长短时记忆网络作为行为识别模型，将人体骨架表示成矩阵的形式作为模型的输入，并将骨架序列进行分段处理，使提高网络处理效率，同时能表现各个分段在动作识别中的注意力程度。结合卷积神经网络和长短时记忆网络的特点进行行为识别模型设计，能够自适应的提取人体骨架在时间空间上的动作行为特征，进而进行行为分类。本发明实现了视频中人体行为的智能化识别，从而取代了传统的视频行为识别中依靠人工进行识别时人工精力、时间有限所带来的弊端，从智能化的角度来解决传统行为识别问题。是一种智能的、鲁棒性强的、有效的行为识别方法，使得针对视频中的行为识别更加简单高效。

2、本发明中，通过人体关节节点表示人体骨架行为数据，更加准确和高效。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例1的方法示意图；

图2为本发明实施例1中的骨架示意图；

图3为本发明实施例1中的整体人体骨架数据处理示意图；

图4为本发明实施例1中的头部骨架数据处理示意图；

图5为本发明实施例1中特征融合处理示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明将深度学习中的卷积神经网络和长短时记忆网络运用到骨架行为识别中，实现了视频中人体行为的智能化识别，从而取代了传统的视频行为识别中依靠人工进行识别时人工精力、时间有限所带来的弊端，从智能化的角度来解决传统行为识别问题。

提出了一种智能的、鲁棒性强的、有效的行为识别方法，使得针对视频中的行为识别更加简单高效，对海量视频数据有着很好的支持，利用深度学习方法自动化的提取所需要的行为特征，而不需要再通过传统的人工提取特征的方法进行操作；本发明立足视频大数据，在视频行为识别方面进行了深入研究，有着很大的实用价值。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

实施例1

本发明较佳实施例提供的一种基于时空关系的骨架行为识别方法，如图1所示，本实例包括如下步骤：

第一步，获取人体的骨架关节节点坐标序列。通过深度摄像头与姿态估计算法结合得到人体的各个骨架关节节点坐标(x,y,z)，一个人体骨架有18个关节坐标点，包括鼻子、脖子、右肩、右肘、右手腕、左肩、左肘、左手腕、右臀、右膝盖、右脚踝、左臀、左膝盖、左脚踝、右眼、左眼、右耳朵、左耳朵，将所有关节坐标点按照人体的物理结构连接得到人体的骨架图，骨架图如图2所示。每个动作的骨架序列段提取连续的50帧骨架序列。

第二步，对深度学习网络的输入部分进行数据准备工作。

将18个关节坐标点存储到18x3的二维矩阵H₁ ^t中，H₁ ^t(i，j)表示t时刻视频中人体第i个关节点在j维上的坐标值，j的值为1,2,3，分别表示x,y,z三个维度上的投影坐标。

将整体骨架序列进行等分段处理。分为5段具有连续时刻的骨架序列，每段包含10帧连续的骨架序列，将5段的骨架序列的人体骨架坐标分别存储到三维矩阵T₁、T₂、T₃、T₄、T₅中，即将第一段骨架序列的二维矩阵H₁ ^t按照时间顺序组合成三维矩阵T₁：

T₁＝[H₁ ¹,H₁ ²,…,H₁ ^t]

运用相同的方法，得到T2、T3、T4、T5。

将人体关节节点的骨架分为头部、左躯干、右躯干三部分，头部包括鼻子、脖子、右耳朵、左耳朵、右眼、左眼，左躯干包括左肩、左肘、左手腕、左臀、左膝盖、左脚踝，右躯干包括右肩、右肘、右手腕、右臀、右膝盖、右脚踝。

将头部、左躯干、右躯干三部分的骨架数据分别存储到二维矩阵H₂、H₃、H₄中，矩阵的列数代表该部分的节点个数，每一列代表一个关节节点。

求各个部分的关系矩阵。选取头部部分的某个节点作为该部分的关键节点k₁，其三维坐标位置为k₁(x_k1,y_k1,z_k1)，该部分的节点为n₁。计算头部部分中的所有关节节点与该关键节点key在各个维度上投影的坐标差，并将得到的差值存储到二维矩阵W₁中,计算公式如下：

W₁(i,j)＝H₂(i,j)-x_k1, (j＝1)

W₁(i,j)＝H₂(i,j)-y_k1, (j＝2)

W₁(i,j)＝H₂(i,j)-z_k1, (j＝3)

类似与整体骨架序列的操作，将该头部部分的整段骨架序列进行等分段处理，分为5段具有连续时刻的骨架序列，每段包含10帧连续的骨架序列，将各小段的头部部分骨架序列的骨架坐标差存储到三维矩阵W_s1＇中，s1表示第一段骨架序列，即将二维矩阵H₂ ^t按照时间顺序组合成三维矩阵W_s1＇：

W'_s1＝[W₁ ¹,W₁ ²,W₁ ³,...,W₁ ^t]

其中，W_s1＇表示该头部部分的关系矩阵，W_s1＇在x轴上的长度即为该小段骨架序列的时间段长度，另外四段骨架序列按照同样的方法计算另外四个时间段的关系矩阵W_s2＇、W_s3＇、W_s4＇、W_s5＇。

在得到头部各个时间段的关系矩阵后，运用相同的方法，计算得到左躯干、右躯干各个时间段的关系矩阵，左躯干各个部分的关系矩阵表示为W_s1＂、W_s2＂、W_s3＂、W_s4＂、W_s5＂，左躯干各个部分的关系矩阵表示为W_s1＂＇、W_s2＂＇、W_s3＂＇、W_s4＂＇、W_s5＂＇。

第三步，通过深度学习进行动作识别网络的设计。

将得到三维矩阵T1、T2、T3、T4、T5分别输入到三维的卷积神经网络中，提取各个时间段上的行为特征。如图3所示，卷积操作如下：

将卷积的滤波器大小设置为3*3*3，第一层滤波器的大小均为3×3×3，滤波器个数为64，设置对卷积核移动范围限制的方式为“SAME”，池化的核大小设置为3×3，第二层滤波器的大小为3×3×3，滤波器个数为128，设置对卷积核移动范围限制的方式为“SAME”，池化的核大小设置为2×2。

每段骨架序列经过三维的卷积神经网络后，均会得到特征图，将得到5个特征图按照时间顺序依次作为长短时记忆网络的5个时刻的输入，网络会输出得到包含整个时间段时空特征的向量F₁。

将得到三维矩阵W_s1＇、W_s2＇、W_s3＇、W_s4＇、W_s5＇分别输入到三维的卷积神经网络中，提取头部部分在各个时间段上的行为特征。如图4所示，卷积操作如下：

将卷积的滤波器大小设置为3*3*3，第一层滤波器的大小均3×3×3，滤波器个数为64，设置对卷积核移动范围限制的方式为“SAME”，池化的核大小设置为3×3，第二层滤波器的大小为3×3×3，滤波器个数为128，设置对卷积核移动范围限制的方式为“SAME”，池化的核大小设置为2×2。

同样，将经过三维的卷积神经网络后得到特征图，按照时间顺序依次作为长短时记忆网络的5个时刻的输入，网络同样会输出得到包含整个时间段在头部部分上的时空特征向量F₂。

与头部部分操作类似，将左躯干、右躯干进行相同的深度学习网络后，分别会得到包含整个时间段在左躯干、右躯干部分上的时空特征向量F₃、F₄。

第四步，特征融合及分类。

将第三步得到的时空特征向量F₁、F₂、F₃、F₄分别进行神经网络的全连接操作，设置全连接层的结点个数为要判定的行为类别数。如图5所示。

将各个时空特征向量经过全连接操作后的向量进行相加，得到融合后的特征向量。

融合后的特征向量通过softmax分类器后即可得到预测的每种行为的概率大小，通过概率大小即可判定该段骨架序列属于哪种类别。

本发明基于深度学习，将深度学习中的卷积神经网络和长短时记忆网络应用到行为识别模型中，用自动化的提取行为特征代替了传统的人工提取特征的模式，同时智能化的行为识别方法解决了人工查看视频时耗时耗力的问题。另外，本发明中采用的行为识别模型结合了当今深度学习网络中在图像识别与时序数据处理上表现优异的网络，能通过该模型完整有效的提取人体骨架在时间空间上的行为特征，充分表示人体的运动行为。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于时空关系的骨架行为识别方法，其特征在于：方法包括：

将各部位人体骨架数据进行处理分别得到各部位对应的各个时间段的关系矩阵的方法为：

对各部位人体骨架选取该部位中某个关节点作为该部位的关键节点，将该部位人体骨架中所有关节节点与其关键节点的位置求差值，将得到的差值存储到二维矩阵中；

将二维矩阵按照时间顺序组合为三维矩阵，将该三维矩阵作为该部位对应的各个时间段的关系矩阵；

2.根据权利要求1所述的一种基于时空关系的骨架行为识别方法,其特征在于：所述方法还包括卷积神经网络、长短时记忆网络和分类器的训练步骤。

3.根据权利要求1所述的一种基于时空关系的骨架行为识别方法,其特征在于：所述将整体人体骨架数据表示为矩阵的形式并进行序列分段处理的具体方法为：

4.根据权利要求3所述的一种基于时空关系的骨架行为识别方法,其特征在于：所述对数据进行骨架序列分段处理，得到n个三维矩阵数据的方法为：

5.根据权利要求1所述的一种基于时空关系的骨架行为识别方法，其特征在于：所述将二维矩阵按照时间顺序组合为三维矩阵的方法为：

6.根据权利要求1所述的一种基于时空关系的骨架行为识别方法,其特征在于：所述将所有整体人体骨架和各部位人体骨架的时空特征进行融合的方法为：

7.根据权利要求1所述的一种基于时空关系的骨架行为识别方法，其特征在于：所述获取人体骨架数据时，每个动作提取连续的50帧骨架序列数据。