CN112149531B

CN112149531B - 一种行为识别中人体骨骼数据的建模方法

Info

Publication number: CN112149531B
Application number: CN202010939872.XA
Authority: CN
Inventors: 邓春华; 田志强; 朱子奇; 刘静
Original assignee: Wuhan University of Science and Engineering WUSE
Current assignee: Science And Technology University Jizhi Technology Hubei Co ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2022-07-08
Anticipated expiration: 2040-09-09
Also published as: CN112149531A

Abstract

本发明公开了一种行为识别中人体骨骼数据的建模方法，包括如下步骤：S1、获取视频中的人体骨骼数据；S2、分别构建时序散度特征和点源特征；S3、在时序散度特征中为骨骼点添加注意力机制；S4、分别构建时序神经网络模型用于提取时序散度的抽象特征以及构建空间神经网络模型用于提取点源的抽象特征；S5、通过矩阵合并将步骤S4所述的两种抽象特征融合，得到预测结果。通过本发明所述建模方法建立的模型突显了人体骨骼点的运动表征；对于运动幅度较大的人体行为，本发明所提出的建模方法相比于传统的建模方法，具有更好的识别效果。

Description

一种行为识别中人体骨骼数据的建模方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种行为识别中人体骨骼数据的建模方法。

背景技术

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等的机器视觉，并进一步做图形处理，使计算机处理成为更适合人眼观察或传送给仪器检测的图像。而视频序列中人体行为识别任务是计算机视觉中一个重要的任务，也是机器视觉、模式识别和人工智能等多个学科领域的交叉研究课题，在视频监控、人机交互、智能机器人、虚拟现实等领域被广泛应用。

Kinect深度传感器：它是一种3D体感摄影机，能够发射红外线，从而对整个房间进行立体定位，并可以借助红外线来识别人体的运动，也可以准确获取人体3D骨骼信息。

目前，基于人体骨骼点的行为识别方法是当今的主流方法。人体骨架数据是人体关节和骨骼点的一种拓扑表示方式，人体骨架结构不受视频中场景噪声的影响，故在面对复杂背景以及人体尺度变化、视角变化和运动速度变化时具有先天优势。此外，在深度传感器和人体姿态估计的技术不断成熟下，我们可以轻松获得准确的人体骨架数据。因此，许多研究人员和实际项目都使用人体骨架数据来做行为检测和识别。

当前主流的基于骨骼点的人体行为识别算法的主要步骤如图3所示。首先通过深度传感器或人体姿态估计算法获取视频序列中的人体骨骼模型；接着对获取到的人体骨骼点数据进行建模(一般采用坐标矩阵的形式表示)；然后构建神经网络并将构建好的模型输入网络中进行训练，当前主流的网络模型有：ST-GCN(Spatial Temporal GraphConvolutional Networks)；2s-AGCN(Two-Stream Adaptive Graph ConvolutionalNetworks)；最后通过分类器预测结果，其流程图如图4所示。

对于复杂的骨骼数据，良好的建模方法往往能让神经网络学习到更有用语义信息，从而有效提高算法的性能。现有的人体骨骼点建模时存在以下难点问题：(1)人体骨架骨骼点采用坐标表示，缺乏骨骼点的运动细节信息；(2)在某些视频中，人体骨架的运动幅度太小，关键骨骼点的表征信息不明显。本发明针对上述两个问题，提出了一种适用于绝大部分神经网络的行为识别中人体骨骼数据的建模方法。

发明内容

本发明为了克服以上技术的不足，提供了一种行为识别中人体骨骼数据的建模方法。通过本发明所述建模方法建立的模型突显了人体骨骼点的运动表征；对于运动幅度较大的人体行为，本发明所提出的建模方法相比于传统的建模方法，具有更好的识别效果。

本发明克服其技术问题所采用的技术方案是：

一种行为识别中人体骨骼数据的建模方法，包括如下步骤：

S1、获取视频中的人体骨骼数据；

S2、分别构建时序散度特征和点源特征；

S3、在时序散度特征中为骨骼点添加注意力机制；

S4、分别构建时序神经网络模型用于提取时序散度的抽象特征以及构建空间神经网络模型用于提取点源的抽象特征；

S5、通过矩阵合并将步骤S4所述的两种抽象特征融合，得到预测结果。

进一步地，所述步骤S1中，对获取得到的人体骨骼数据建立坐标数据矩阵，设该矩阵维度为[N,T,C,G]，其中，N、T、C和G分别表示所有视频中的总人数、视频帧数、坐标维度和骨骼点个数。

进一步地，所述步骤S2中，构建时序散度特征具体包括如下：

在三维笛卡尔坐标系中，通过连续可微向量场的散度场描述该向量场的强弱，其表达式如下：

公式(1)中，

分别表示向量场中任意一点在x、y、z方向上的偏导数，i、j、k分别表示x、y、z方向上的单位向量；

人体骨骼点在某一时间段内的运动轨迹即构成了向量场，则对于任意时间段[t,t+Δt]，骨骼点的轨迹向量场可表示如下：

V^t＝S^t+Δt-S^t (2)

公式(2)中，S表示骨骼点的点源坐标矩阵，S^t表示视频t时刻骨骼点的坐标特征，S^t ^+Δt表示视频t+Δt时刻骨骼点的坐标特征；

在任意时间段[t,t+Vt]，其中Vt趋近于0，人体骨骼点的位移矢量与时间变化量的比值即为骨骼点在t时刻的时序散度，在空间坐标系中，骨骼点的位移矢量可分解为x、y、z三个方向上位移分量，骨骼点的时序散度的定义式如下：

公式(3)所示，对于任意时刻，每一个个体的骨骼点都可以提取三维时序散度，其描述骨骼点在时间维度上的运动幅度；

在某一完整的人体行为视频序列中，融合每一帧所有骨骼点的时序散度则可得到该视频的时序散度特征：

其中，公式(4)中，K表示关节点的下标集合，T表示视频帧数，时序散度特征即为骨骼点每一时刻时序散度的集合。

进一步地，所述步骤S3中，在时序散度特征中为骨骼点添加注意力机制，具体包括如下：

以人体重心点为基准，用重心点到其他各个骨骼点的连线表示各个骨骼点到人体重心点的相对距离，在相邻时刻[t,t+dt]，骨骼点j_k的到重心点的平均距离L可表示如下：

公式(5)中，l∈[0,1]，由于其数值过小，无法起到表征的作用；故采用区间激活函数δ(g)，将l归一化到新的区间[a,b]，区间激活函数δ(g)的定义式如下：

δ(x)＝ln(x+p)+q (6)

令x＝L，将原始区间[0,1]和新区间[a,b]带入公式(6)，可解得：

p＝1/(e^b-a-1)

q＝b-ln(e^b-a/(e^b-a-1))

对于任意时刻t，骨骼点j_k基于人体重心点的散度特征的定义式如公式(7)所示：

公式(7)中，

为公式(3)中骨骼点的时序散度，其描述的是骨骼点的运动方向和运动幅度，

为公式(5)中时刻t骨骼点j_k到重心点的平均距离，其物理意义是骨骼点距离人体重心点的相对位置关系，其值越大，则该骨骼点距离重心点越远，其值越小，则该骨骼点距离重心点越近；最终得到添加注意力机制的时序散度特征的表达式如下：

进一步地，步骤S2中，构建点源特征具体包括如下：

提取视频序列中每一帧目标的关节点坐标；

用矩阵的形式存储每一帧目标的关节点坐标；

将所有帧的关节点矩阵进行拼接，得到点源特征。

进一步地，所述步骤S4中，设时序神经网络模型和空间神经网络模型分别为Ts(g)和Js(g)。

进一步地，所述步骤S5中，通过矩阵合并将步骤S4所述的两种抽象特征融合，得到预测结果，其表达式如下：

res＝σ(Ts(Tf)⊕Js(S)) (9)

公式(9)中，Tf和S分别表示时序散度特征和点源特征，σ(g)表示softmax激活函数，⊕表示矩阵拼接。

本发明的有益效果是：

本发明通过骨骼点时序散度的大小来表示骨骼点在该时刻的运动幅度，充分体现了骨骼点的运动细节信息。

本发明可以解决人体骨骼点坐标数据运动表征不明显的问题，通过本发明的建模方法建立的模型突显了人体骨骼点的运动表征，对于运动幅度较大的人体行为，本发明所提出的方法相比于传统的建模方法，具有更好的识别效果。

本发明所述的方法可向工业的人体行为识别领域推广，基于该建模方法的人体行为识别算法，可应用于简单场景的人体行为识别和监管，例如服务机器人，室内安全监控等。本方法能有效的突显视频中人体的动态特征，对运动幅度较大的目标有较好的识别率，几乎能适用于所有神经网络模型。有一定的推广价值。

附图说明

图1为本发明实施例提取视频中人体骨骼点坐标信息的示意图。

图2为本发明实施例骨骼点的结构分布示意图。

图3为常规的人体骨骼数据的建模示意图。

图4为常规的基于骨骼点的行为识别方法流程图。

图5为本发明实施例不同行为之间的运动差异示意图，其中，图(a)为挥手行为时手腕和脚踝的位移矢量分布图，图(b)为踢腿行为时手腕和脚踝的位移矢量分布图，图(c)为挥手行为时骨骼点的变化状态图，图(d)为踢腿行为时骨骼点的变化状态图。

图6为本发明实施例所述的行为识别中人体骨骼数据的建模方法的流程图。

图7为基于本发明实施例所述行为识别中人体骨骼数据的建模方法的应用场景示意图。

图2中，1-脊柱的底部；2-脊柱的中间；3-脖子；4-头；5-左肩；6-左肘；7-左手腕；8-左手；9-右肩；10-右肘；11-右手腕；12-右手；13-左臀部；14-左膝盖；15-左脚踝；16-左脚；17-右臀部；18-右膝盖；19-右脚踝；20-右脚；21-脊柱；22-左手的尖端；23-左拇指；24-右拇指尖端；25-右拇指。

具体实施方式

为了便于本领域人员更好的理解本发明，下面结合附图和具体实施例对本发明做进一步详细说明，下述仅是示例性的不限定本发明的保护范围。

本发明实施例提供了一种行为识别中人体骨骼数据的建模方法，包括如下几大步骤：首先，获取视频中骨骼点的坐标数据矩阵S，该矩阵维度为[N,T,C,G],其中，N、T、C和G分别表示所有视频中的总人数、视频帧数、坐标维度和骨骼点个数。接着，利用公式(2)求出轨迹向量V^t。然后，确认归一化区间[a,b]，并解出公式(6)中的实参p和q。再根据公式(5)求得骨骼点到人体重心点的平均距离L，将x＝L带入公式(6)中将其归一化到区间[a,b]之间。利用公式(7)可求得时序散度特征Tf。然后分别构建时序神经网络Ts(g)和空间神经网络Js(g)，用它们分别提取时序散度和点源的抽象特征。最后，采用矩阵合并的方式将上述抽象特征融合，最后使用softmax得到分类结果res。

本实施例中，以图2中所示的人体骨骼点的分布图来描述。

本实施例中，采用Kinect深度传感器获取视频中的人体25个骨骼点的坐标信息，获取方式如图1所示。对于某一视频序列，首先用Kinect深度传感器提取视频序列中每一帧目标的骨骼点坐标信息，并用坐标矩阵表示，其维度为[G,C,M]，G表示关节点个数(本实施例中取G＝25)，C表示坐标维度(本实施例中C＝3：x，y，z)，若中间有关节点未被检测到，则用0填充，M表示目标个数，默认取值为2，若目标个数大于2，则选取其中两个，若目标人数少于2，则空缺的位置用0填充。接着，将每一帧提取出来的坐标矩阵拼接到一起，得到整个视频的骨骼点坐标矩阵，其维度为[1,T,G,C,M]，其中T表示视频帧数，在本实施例中，视频帧数默认选取300帧，如待测视频不足300帧，则空余的帧数用0补全。在实验中，常常需要批量处理视频，故需要将每一个视频序列的坐标矩阵拼接，得到维度为的坐标矩阵，B表示视频总个数。在此，为了将矩阵与将要输入的神经网络相适应，需要将矩阵转置，交换C和G两个维度的位置，并将B和M两个维度合并，最终得到转换之后的矩阵，其维度为[N,T,C,G]，其中N＝B×M。N可以看作是所有视频中的总人数。为了方便描述，本实施例将用S表示上述得到的坐标矩阵(也可称之为点源坐标模型，或点源特征模型)。

对于人体行为识别任务，人们往往能通过某些骨骼点的运动差异性来分辨某些人体行为。例如，当人们主观去辨别“挥手”和“踢腿”这两个行为时，可以通过手臂和腿部骨骼的运动差异性来对这两种行为做出辨别。在此，本实施例通过一个简单的实验来论证上述观点。

本实施例提取NTU-RGB+D 60数据集中类别为“挥手”和“踢腿”的两个视频，计算视频序列中所有时刻手腕和脚踝在x,y,z三个方向上的平均位移矢量Δx,Δy,Δz，并将其标记在三维坐标系上。其中，关于NTU-RGB+D 60数据集，NTU-RGB+D 60是公开的3D人体行为数据集，该数据集包含60个动作类别，总共包含57880个视频样本。该数据集的拍摄和剪辑工作由40个年龄段在10至35岁之间的志愿者所执行，每个动作由3台摄像机拍摄，这3台摄像机拍摄时选择的高度相同，但水平角度不同，分别为：-45°、0°、45°。该数据集利用深度传感器检测到每一帧人体的3D骨骼点序列，骨骼序列中每个人有25个骨骼点，骨骼点的分布如图3所示，且所有视频中的总人数不超过2人。官方提供了2个基准来对数据集进行划分数据集：X-Sub和X-View。其中X-Sub按拍摄视频中参与者的不同来将数据集划分为训练集(40320个视频)和验证集，将2号摄像机拍摄到18960个视频作为验证集。本实施例将遵循上述两种划分方式来评估本文所提出的模型。

如图5所示，图(a)和(b)分别表示“挥手”和“踢腿”两个人体行为类别中人物骨骼点位移矢量的分布图，图(c)和(d)分别表示“挥手”行为和“踢腿”行为的骨骼点的可视化。图(a)和(b)中的圆点与“×”号分别表示视频中所有时刻手腕和脚踝在x、y、z三个方向上的位移矢量，从图中可以明显的看出，对于“挥手”这种行为，其手腕的位移矢量分布的离散程度要大于脚踝，而对于“踢腿”这种行为，其脚踝的位移矢量分布的离散程度则要大于手腕。依靠骨骼点位移矢量分布的离散程度，人们就能很容易的区分“挥手”和“踢腿”这两种行为。

为了更好的描述图5中所示的骨骼点位移矢量的分布状态，本实施例给出骨骼点时序散度的概念：骨骼点的时序散度可以用来描述人体骨骼点在时间维度的运动状态。例如，在某一时刻，骨骼点时序散度的大小可以表示骨骼点在该时刻的运动幅度；而在宏观上，在一时间段内，每个时刻散度分布的离散程度可以反应骨骼点的运动幅度。

先介绍一下笛卡尔坐标系中向量场的散度定义。在三维笛卡尔坐标系中，通过连续可微向量场的散度场描述该向量场的强弱，其表达式如下：

公式(1)中，

分别表示向量场中任意一点在x、y、z方向上的偏导数；

V^t＝S^t+Δt-S^t (2)

轨迹向量场可以放大不同行为之间的类间方差。公式(1)中描述的是物理力学中向量场在空间坐标系下的变化状态，而本实施例所研究的是骨骼点轨迹向量场在时间维度上的变化状态。参照公式(1)，可以衍生出骨骼点时序散度的定义：

其中，公式(4)中，K表示关节点的下标集合，T表示视频帧数，时序散度特征即为骨骼点每一时刻时序散度的集合。宏观上可以看作是人体骨骼连续的运动轨迹及瞬时的运动幅度。

在行为识别任务中，人们往往只需要通过“手”、“足”这些具有代表特征的骨骼点就能判别某些行为。这些骨骼点都有一个共同特点：他们距离人体重心点的距离较远，运动半径更大，灵活性更强。相比于人体上灵活性相对较弱的骨骼点(例如肩膀、跨部)，手腕和脚踝这些骨骼点往往对人体行为识别任务起到更为关键的作用。

为了突显这些骨骼点的特征，本实施例在时序散度特征中为骨骼点添加注意力机制，具体包括如下：

以人体重心点为基准，本实施例中，选择脊柱21为重心点，用重心点到其他各个骨骼点的连线表示各个骨骼点到人体重心点的相对距离，在相邻时刻[t,t+dt]，骨骼点j_k的到重心点的平均距离L可表示如下：

公式(5)中，l∈[0,1]，由于其数值过小，无法起到表征的作用；故采用δ激活函数，将l归一化到新的区间[a,b]，δ激活函数的定义式如下：

δ(x)＝ln(x+p)+q (6)

令_x＝L，将原始区间[0,1]和新区间[a,b]带入公式(6)，可解得：

p＝1/(e^b-a-1)

q＝b-ln(e^b-a/(e^b-a-1))

本实施例中，a,b的取值分别为0.8和1，e是自然常数，无限不循环小数，也自然对数函数的底数，在数学中称之为欧拉数，其值约为2.718281828459。

公式(7)中，

注意力机制可以增强距离人体重心点较远以及运动幅度较大的骨骼点的表征能力，进一步增加不同人体行为的类间方差，使神经网络更容易辨别不同人体行为。

然后，分别构建时序神经网络模型Ts(g)用于提取时序散度的抽象特征以及构建空间神经网络模型Js(g)用于提取点源的抽象特征，所述神经网络模型Ts(g)和空间神经网络模型Js(g)的网络结构相同，仅仅是输入的模型不一样。

最后，结合原始的骨骼点坐标信息与公式(8)中的散度信息，将时序散度特征与点源流特征相结合，训练分类器并得到最终预测结果，其表达式如下：

res＝σ(Ts(Tf)⊕Js(S))(9)

公式(9)中，Tf和S分别表示时序散度特征以及点源特征，σ(g)表示softmax激活函数，本实施例中，σ(x)＝softmax(x)，res表示预测结果，Ts(g)和Js(g)分别表示骨骼点的时序散度特征流以及点源流特征的卷积网络模型，⊕表示矩阵拼接。如图6所示为采用本实施例所述的行为识别中人体骨骼数据的建模方法的流程图。

表1为本实施例所述的行为识别中人体骨骼数据的建模方法与常规建模方法的对比，实验在权威的数据集NTU-RGB+D 60上进行，所选用的基准神经网络模型分别为ST-GCN(Spatial Temporal Graph Convolutional Networks)以及AGCN(Adaptive GraphConvolutional Networks)。

表1

如表1所示，粗体标出的是本实施例所述的建模方法建立的模型(时序散度模型)所得出的准确率，未用粗体标出的是常规的点源坐标模型所得出的准确率。可以看出，本发明所提出的时序散度模型比常规的点源坐标模型有更高的准确率和更好的性能。

基于本实施例所述建模方法中用到的行为识别算法已经可以应用到室内的深度摄像头上，通过深度摄像头拍摄画面，提取人体骨架信息，将其回传至PC端，用基于本实施例用到的行为识别算法对视频中目标的行为进行预测，并根据目标的行为作出相应的反馈，例如，当目标挥拳、踢腿破坏公共物品时，会立刻报警，并且可以通过移动终端(比如手机或笔记本)实时监控，如图7所示。

以上仅描述了本发明的基本原理和优选实施方式，本领域人员可以根据上述描述做出许多变化和改进，这些变化和改进应该属于本发明的保护范围。