CN110222653B

CN110222653B - 一种基于图卷积神经网络的骨架数据行为识别方法

Info

Publication number: CN110222653B
Application number: CN201910499246.0A
Authority: CN
Inventors: 李策; 徐频捷; 盛龙帅
Original assignee: China University of Mining and Technology Beijing CUMTB
Current assignee: China University of Mining and Technology Beijing CUMTB
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2020-06-16
Anticipated expiration: 2039-06-11
Also published as: CN110222653A

Abstract

本发明公开了一种基于图卷积神经网络的骨架数据行为识别方法，其中，方法包括：通过对训练集中的每一段骨架数据的时间维度进行下采样获得时间维度固定的骨架数据，以训练神经网络；将输入数据按照三维坐标拆分成三个通道，对每一个空间通道分别做带双重注意力的图卷积，再将三个通道合并；对合并后的向量作时空卷积；通过标注动作类别更新神经网络权重；最终获得和指定标注结果强相关的行为识别模型。该方法充分利用骨架数据的拓扑结构和时空关系，提高行为识别性能。

Description

一种基于图卷积神经网络的骨架数据行为识别方法

技术领域

本发明涉及深度学习、行为识别技术领域，尤其涉及一种基于图卷积神经网络的骨架数据行为识别方法。

背景技术

行为识别一直是计算机视觉领域的一个热点，近年来随着深度学习和计算机视觉的技术融合和发展，行为识别被广泛应用在视频分析、智能监控、人机交互、增强显示等领域。传统的基于彩色视频数据的行为识别方法需要大量的数据，难以学习到视频中的人体关键信息，而基于骨架的三维人体动作识别由于其对人体运动的高水平的表征性和对视角、外观、尺度和环境干扰的鲁棒性，近年来吸引了许多研究人员的兴趣。

基于骨架的三维人体动作识别方法可以分为手工特征提取和深度学习特征提取两大类。其中手工特征提取有基于人体骨架建模的Lie群方法等，这些方法使用相对关节坐标来描述人体动作，忽略了骨架关节的绝对运动和运动的时间信息，这些手工提取的特征难以表征从骨架结构到动作类别这样复杂的非线性映射。而基于深度学习的方法普遍采用循环神经网络、长短时记忆网络、门控循环单元网络、卷积神经网络等方法，这些方法在基于骨架的人体行为识别上取得了较好的效果，但是基于序列的深度学习方法受限于方法本身难以构建深层网络且不能学习骨架本身的拓扑关系，而基于卷积的深度学习方法又难以学习序列的时间信息。

发明内容

本发明针对现有技术中的上述问题，提出的一种基于图卷积神经网络的骨架数据行为识别方法，利用带有双重注意力机制的图卷积模块学习骨架数据的拓扑关系，利用时空卷积模块学习骨架序列的时空特征，适用于基于骨架数据的人体行为识别，可以高效准确地分类骨架点对应的动作。

本发明所采用的技术方案如下：

步骤(1)、将训练集中每一段骨架数据的时间维度进行下采样使得数据的时间维度固定，以训练神经网络；

步骤(2)、将步骤(1)中输入神经网络的骨架数据按空间坐标拆分成三个空间通道，把每一个空间通道分别送入带双重注意力的图卷积模块，再将输出的三个通道合并；

步骤(3)、将步骤(2)中三通道合并后的向量送入时空卷积模块；

步骤(4)、对步骤(3)输出的特征向量使用归一化指数分类器分类，获得动作类别和得分；

步骤(5)、将人工标注的动作类别作为监督，更新神经网络权重。

本发明的有益效果是，相比传统的人工设计的骨架数据行为识别方法，本发明提出一种基于图卷积神经网络的骨架数据行为识别方法，充分利用了骨架数据的时空拓扑关系，可以更准确、快速的分类人体骨架点对应的动作类别。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1为根据本发明一个实施例的基于图卷积神经网络的骨架数据行为识别方法的流程图；

图2为根据本发明一个实施例的人体骨架建模示意图，捡东西动作的第1、31和61帧；

图3为根据本发明一个实施例的带双重注意力的图卷积模块，该图中，fc表示全连接，LeakyReLU表示修正线性激活函数，Mask表示掩膜函数，softmax表示归一化指数函数，AveragePooling是全局平均池化，Duplicate是堆叠函数，sigmoid是S型激活函数，input表示输入特征向量，output表示输出特征向量，A表示输入的图结构，T表示转置运算；

图4为根据本发明一个实施例的整体网络结构；

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出。参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在介绍基于图卷积神经网络的骨架数据行为识别方法之前，先介绍本实施例选用的数据。人体骨架数据可以由深度传感器(如Kinect)采集，目前有大量的开源骨架数据集，如NTU RGB+D、SYSU-3D、HDM05、UT-Kinect等。其中NTU RGB-D数据集是当前最大的基于骨架的动作识别数据集，拥有56000多个序列和400万帧，共有60类动作，每个骨架有25个关节点，涉及单人动作和双人动作。本实施例将采用NTU RGB-D作为数据集。

如图1所示，该基于图卷积神经网络的骨架数据行为识别方法包括以下步骤：

在步骤S1010中，需要将骨骼数据的时间维度下采样到一个固定值，本实施将时间维度下采样到50。

可以理解的是，无论是NTU RGB-D数据还是直接使用深度传感器采集到的数据，为了完成不同的动作(如喝水和跳跃)，所使用的时间是不一样的，为了方便后续的网络训练，需要统一不同动作序列在时间维度上的长度，因此需要下采样。

图2为根据本发明一个实施例的人体骨架建模示意图，表示捡东西动作的第1、31和61帧；

考虑到NTU RGB-D数据集中存在双人动作(具有两副骨架)且每个骨架有25个关节点，为了统一网络的输入，对于双人动作，在空间维度上将两个人骨架关节点连接成长度为25×2＝50的向量，对于单人动作，在空间维度上将单人骨架关节点上采样成长度为50的向量。

本实施例构建的图结构A是一个大小为50×50的邻接矩阵，表示50个骨架点之间的连接关系，当两个骨架点之间存在连接关系时矩阵对应位置值为1，否则值为0。

在本实施中，送入网络的特征向量维度是(T，N，C)，其中T＝50是时间维度，N＝50是骨架关节点数即空间维度，C＝3表示骨架关节点的三维坐标。

在步骤S1020中，需要将骨架数据拆分成三个通道，将每个通道分别送入带双重注意力的图卷积模块，再将输出的三个通道合并。

为了学习三维坐标每一个维度的空间特性，将骨架数据的三维坐标拆分成三个通道，每个通道用一个特征向量来表示，每一个向量的维度是(T，N)。将三个向量分别送入带双重注意力的图卷积模块。

图3为根据本发明一个实施例的带双重注意力的图卷积模块结构图。

带双重注意力的图卷积模块分为图卷积子模块和注意力子模块。

在带双重注意力的图卷积模块中，为了获得更有代表性的特征，将输入特征向量input送入全连接层得到向量x，全连接的输入和输入维度相同，因此向量x的维度是(T，N)。

在图卷积子模块中，为了使用注意力机制学习带权重的图结构A_attention，需要将x送入如下公式描述的神经网络结构：

A_attention＝softmax(LeakyReLU(fc(x)+fc(x)^T)+Mask(A)) (1)

上式中，A是原始图结构，fc(.)是全连接层，该处全连接输入和输出维度相同，LeakyReLU(.)是修正线性激活函数，softmax(.)是归一化指数函数，mask(.)是掩膜函数。

在公式(1)中，LeakyReLU公式如下：

上式中z是LeakyReLU(.)函数的输入向量，z_i是LeakyReLU(.)函数的输入向量的第i个值，a＝0.2是常数，使用LeakyReLU是为了赋予神经网络非线性学习能力，相比与其他激活函数LeakyReLU有更强的生物解释性，因此神经网络具有更好的性能。

在公式(1)中，softmax(.)公式如下：

上式中，Z是softmax(.)函数的输入向量；Z_j是softmax(.)函数的输入向量的第j个值，K是softmax(.)函数的输入向量的维度，使用归一化指数函数是为了归一化权重，使得权重值始终保持在区间(0,1)之间，且所有权重之和等于1。

在公式(1)中，Mask(.)公式如下：

Mask(A)＝-inf·(1.0-A) (4)

上式中，A是原始图结构，inf表示足够大的数字，本实施例中inf＝10⁹，使用掩膜函数是为了增强图结构的表示能力。

接下来对向量x做图卷积操作，公式如下：

上式中，dense为图卷积后输出的特征向量，A_attention是带权重的图结构，*是图卷积计算，M是骨架节点数，m是图结构中每个骨架节点的索引；Λ是对角矩阵，该矩阵的值为

x是输入的特征向量，W_m是神经网络的权重。

在注意力子模块中，利用x学习图卷积分支的权重向量attention，注意力子模块由公式(6)定义：

attention＝sigmoid(fc(softmax(fc(Duplicate(AveragePooling(x))))))(6)

上式中，AveragePooling(.)是全局平均池化，括号由里到外，第一个全连接层输出维度为每一帧的骨架点数除以16，第二个全连接输出维度为每一帧的骨架点数，sigmoid(.)是S型激活函数，Duplicate(.)是堆叠函数，表示将输入的特征向量重复叠加，由公式(7)定义：

上式中，K′表示叠加次数，该值和每一帧的骨架点数一致,X表示输入特征向量x经全局平均池化后得到的向量；

计算带权重的输出特征向量dense_attention，由下式定义：

上式中，

表示特征向量对应元素相乘法，该处全连接输出特征向量维度和input的维度相同；使用残差结构对输入特征向量input和带权重的输出特征向量dense_attention求和，公式如下：

上式中，

表示特征向量对应元素相加；

将特征向量output作为带双重注意力的图卷积模块的输出。

最后合并带双重注意力的图卷积模块输出的三个通道，合并后的通道维度是(N，T，3)。

在步骤S1030中，需要将合并三个通道后的结果作为输入，使用时空卷积模块提取输入特征向量的时空信息，该模块使用ResNet-18结构，该结构为领域内公知。

对时空卷积模块输出的特征向量使用归一化指数分类器分类，获得动作类别和得分。归一化指数分类器为：

Z′是时空卷积模块输出的特征向量；Z′_j是时空卷积模块输出的特征向量的第j个值，N是时空卷积模块输出的特征向量的维度；经过归一化指数分类器得到的结果与时空卷积模块的输出特征向量的维度相同，选取经归一化指数分类器得到的结果中数值最高的维度作为动作分类的结果，该数值为动作类别相应的得分。

在步骤S1040中，使用NTU RGB-D数据集自带的标注作为监督，使用梯度下降算法更新网络权重。

把NTU RGB-D数据集划分成训练集和测试集，使用训练集训练网络，使用测试集验证模型效果，最后准确率达到83.1％，效果显著。

综合来看，如图4为根据本发明一个实施例的整体网络结构；

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于图卷积神经网络的骨架数据行为识别方法，其特征在于，包括以下步骤：

步骤(2)、将步骤(1)中输入神经网络的骨架数据按空间坐标拆分成三个空间通道，把每一个空间通道分别送入带双重注意力的图卷积模块，其中，带双重注意力的图卷积模块包括图卷积子模块和注意力子模块；

对于空间通道，将输入的特征向量input送入一个全连接层获得向量x，该全连接层输入和输出维度相同，向量x的维度为(T，N)，T表示时间维度，N表示骨架点空间维度；

在图卷积子模块中，利用向量x和原始图结构A学习带权重骨架图结构A_attention，使用公式(1)表示：

A_attention＝softmax(LeakyReLU(fc(x)+fc(x)^T)+Mask(A)) (1)

上式中，fc(.)是全连接层，该全连接层输入和输出维度相同，LeakyReLU(.)是修正线性激活函数，softmax(.)是归一化指数函数，Mask(.)是掩膜函数，该掩膜函数使用公式(2)表示：

Mask(A)＝-inf·(1.0-A) (2)

上式中，A是原始图结构，inf表示足够大的数字；

LeakyReLU(.)函数表示为：

其中，z是LeakyReLU(.)函数的输入向量，z_i是LeakyReLU(.)函数的输入向量的第i个值，a＝0.2是常数；

softmax(.)函数表示为：

上式中，Z是softmax(.)函数的输入向量；Z_j是softmax(.)函数的输入向量的第j个值，K是softmax(.)函数的输入向量的维度；

对向量x做图卷积，获得输出向量dense，公式如下：

上式中，*是图卷积计算，M是骨架节点数，m是图结构中骨架节点的索引；Λ是对角矩阵，该矩阵的值为

x是输入的特征向量，W_m是神经网络的权重；

在注意力子模块中，利用向量x学习图卷积分支的权重向量attention，注意力子模块由公式(6)进行表示：

attention＝sigmoid(fc(softmax(fc(Duplicate(AveragePooling(x)))))) (6)

上式中，AveragePooling(.)是全局平均池化，括号由里到外，第一个全连接输出维度为每一帧的骨架点数除以16，第二个全连接输出维度为每一帧的骨架点数，sigmoid(.)是S型激活函数，Duplicate(.)是堆叠函数，表示将输入的特征向量X重复叠加，堆叠函数由公式(7)表示：

上式中，K′表示叠加次数，其取值和每一帧的骨架点数一致，其中X表示输入特征向量x经全局平均池化后得到的向量；

计算带权重的输出向量dense_attention，由公式(8)表示：

上式中，

表示向量对应元素相乘，公式(8)中的全连接输入维度和输出维度相同；

使用残差结构对输入特征向量input和dense_attention求和，公式如下：

上式中，

表示向量对应元素相加；

将向量output作为带双重注意力的图卷积模块的输出；

再将输出的三个通道合并；

步骤(4)、对步骤(3)输出的特征向量使用归一化指数分类器分类，获得动作类别和得分，归一化指数分类器为：

Z′是时空卷积模块输出的特征向量，Z_j′是时空卷积模块输出的特征向量的第j个值，N是时空卷积模块输出的特征向量的维度，经过归一化指数分类器得到的结果与时空卷积模块的输出特征向量的维度相同，选取经归一化指数分类器得到的结果中数值最高的维度作为动作分类的结果，该数值为动作类别相应的得分；