CN114187653A

CN114187653A - 一种基于多流融合图卷积网络的行为识别方法

Info

Publication number: CN114187653A
Application number: CN202111356801.8A
Authority: CN
Inventors: 金城; 胡海苗; 段梦梦
Original assignee: Fudan University; Hangzhou Innovation Research Institute of Beihang University
Current assignee: Fudan University; Hangzhou Innovation Research Institute of Beihang University
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-03-15

Abstract

本发明属于行为识别技术领域，具体为一种基于多流融合图卷积网络的行为识别方法。本发明主要通过提取并融合多类行为信息进行行为识别，分为三个阶段进行：数据预处理、特征提取、特征融合。在数据预处理阶段，提出三种骨架规范化措施，减少人体位置、摄像机视角和人体与摄像机距离等因素对人体骨架数据表示的影响；在特征提取阶段，构建骨架的全局连接图，直接学习远距离关节点之间的相互关系；在特征融合阶段，分两阶段来融合三类信息的特征。本发明针所提出的方法更加有效的利用了多类行为的互补信息，提出的骨架规范化措施使得人体骨架的表示具有仿射不变性，降低了网络的训练难度，在公开数据集上取得了较好的结果。

Description

一种基于多流融合图卷积网络的行为识别方法

技术领域

本发明属于行为识别技术领域，具体涉及一种基于多流融合图卷积网络的行为识别方法。

背景技术

行为识别的目标是识别出视频中人的行为，该技术在智慧安防、视频检索、智能照护、高级人机交互等领域均发挥着重要的作用，因此受到学术界和工业界的广泛关注。行为识别分为基于静态图像的行为识别和基于视频的行为识别两大研究方向，前者仅仅根据单张图像识别图像中人的行为，忽略了运动信息；而后者则是根据从视频中获取的图像序列来识别。基于视频的行为识别方法可以根据输入数据的不同分为两种类型：基于图像的行为识别方法和基于人体骨架的行为识别方法，前者的输入是图像序列，而后者的输入则是人体骨架序列。基于图像的行为识别方法，易受图像数据的背景环境，光照和视角等因素的影响，且该类方法需要较大的计算量，在实际应用中需要较高的算力。相比于基于图像的行为识别方法，基于人体骨架的行为识别方法更加鲁棒，不受背景环境的影响，且计算量更小，成为近年来研究的热点。人体骨架中包含关节点信息、骨骼信息和运动信息，这三类信息紧密联系且相互补充。然而，主流方法对多类信息的融合方式较为简单，未充分挖掘多类信息间的互补性。

发明内容

为解决现有技术存在的问题，本发明提出了一种基于多流融合图卷积网络的行为识别方法。该方法是针对现有模型没有很好的挖掘多类信息间互补性这一缺陷进行的改进。本发明提出的骨架规范化措施使得人体骨架的表示具有仿射不变性，降低了网络的训练难度；本发明针对现有方法对多类信息的融合方式较为简单、未充分挖掘多类信息间互补性的问题，所提出的方法能够更好的提取和融合多类行为特征，更加有效的利用了多类行为的互补信息，提高了行为识别的准确率。

本发明主要通过提取并融合多类行为信息进行行为识别，分为三个阶段进行：数据预处理、特征提取、特征融合。在数据预处理阶段，提出三种骨架规范化措施，减少人体位置、摄像机视角和人体与摄像机距离等因素对人体骨架数据表示的影响；在特征提取阶段，构建骨架的全局连接图，直接学习远距离关节点之间的相互关系；在特征融合阶段，分两阶段来融合三类信息的特征。本发明的技术方案具体介绍如下。

本发明提出一种基于多流融合图卷积网络的行为识别方法，其分为3个阶段：数据预处理、特征提取、特征融合；其中：

数据预处理阶段，利用骨架规范化模块对输入的人体骨架序列数据即关节点数据进行处理，得到规范化的人体骨架数据，然后进一步求出骨骼数据和运动数据。骨骼数据通过求得相邻关节点之间构成的向量获得，运动数据通过求得相邻帧之间的同一个关节点的位移获得。其中，人体骨架序列数据可以表示为

T表示骨架序列的长度，本发明中T取300，x_t∈R^V×C表示第t个骨架的关节点坐标，V表示人体骨架中关节点的数目，本发明中V＝14，C表示关节点坐标的维度，本发明中C＝3，表示每个关节点有x、y、z三个坐标。

其中，人体关节编号及其含义如下：

0：颈；1：头；2：右肩；3：右肘；4：右腕；5：左肩；6：左肘；7：左腕；

8：右臀；9：右膝；10：右踝；11：左臀；12：左膝；13：左踝。

特征提取阶段，利用时空图卷积网络分别提取关节点数据、骨骼数据和运动数据的时空特征，获得关节点特征、骨骼特征和运动特征；

特征融合阶段，利用多流特征融合网络进一步融合关节点特征、骨骼特征和运动特征，再通过分类器得到行为的预测结果；其中，利用多流特征融合网络进行融合的方法如下：

第一阶段，首先将三种特征两两拼接，将拼接后的特征输入到两个连续的图卷积单元，融合两类信息的特征；之后，将融合的特征输入到池化层；

第二阶段，池化层后连接两个全连接层，两个全连接层中有一个ReLU层，得到三个分类特征f₀、f₁和f₂，然后融合三路特征得到总体分类特征f₃，f₃＝f₀+f₁+f₂。

本发明中，数据预处理阶段的骨架规范化模块提出了骨架规范化方法，其包含位置规范化、视角规范化和尺度规范化三个处理步骤，具体如下：

(1)位置规范化

首先对输入骨架序列进行位置规范化处理，即给定人体骨架序列

其中,x_t表示序列中的第t个骨架，T表示序列的长度，按下式更新所有关节点的坐标：

其中，x_t,i表示骨架x_t的第i个关节点坐标，i＝0,1,…,13。记经过位置规范化处理后的骨架序列为X¹，上式中的

即为X¹的第t个骨架

的第i个关节点坐标。

(2)视角规范化

然后对位置规范化后的骨架序列X¹进行旋转变化。具体来说，即首先根据序列X的第1个骨架x₁确定旋转矩阵R，公式如下：

其中，向量v_x、v_y、v_z由x₁确定，分别计算如下：

(a)根据x₁的2号关节和5号关节确定水平方向向量v_x，：

v_x＝x_1,5-x_1,2

(b)根据下式确定v_y：

其中，v_1,0表示骨架x₁中1号关节点指向0号关节点的向量，即：

v_1,0＝x_1,1-x_1,0

表示v_1,0在v_x上的投影；

(c)获得v_x和v_y后，再按下式求与这两个向量垂直的向量v_z：

v_z＝v_x×v_y

然后按照下式旋转X₁中所有关节点的坐标：

其中，

的第j个关节点坐标，j＝0,1,…,13。记经过视角规范化处理后的骨架序列为X²，上式中的

即为X²的第t个骨架

的第j个关节点坐标。

(3)尺度规范化

最后进行尺度规范化处理，对于骨架序列X²，首先将0号和1号关节点的距离缩放到1，即按下式计算缩放因子r：

然后按下式更新X²中所有关节点的坐标：

记经过尺度规范化处理后的骨架序列为X³，上式中的

即为X³的第t个骨架

的第k个关节点坐标。

本发明中，特征提取阶段中，通过时空图卷积网络来提取关节数据、骨骼数据和运动数据的时空特征，时空图卷积网络的实现步骤如下：

(1)构建人体骨架时空图

人体骨架时空图的构建分为三步：

(a)对于骨架序列X³及人体生理上相邻的关节点集合H，H的定义如下所示，对X³中的每个

连接其生理上相邻的关节点，得到部分空间边，从而构建局部连接图。

H＝{(0,1),(0,2),(0,5),(2,3),(3,4),(5,6),(6,7),(8,9),(9,10),(11,12),(12,13)}

(b)给定集合M，M为生理上不相邻但却紧密联系的关节点集合，其定义如下所示，对给定的骨架序列X³中的每个

根据M建立边，得到全局连接图。与步骤(a)中得到的局部连接图组成骨架空间图G_S＝{V,E_S}，其中V表示关节点集合，V＝{v_t,i|t＝1…T,i＝0…N-1}，T为骨架序列的长度，N为骨架中关节点的个数，且

E_S为空间边的集合，E_S＝{(v_t, _iv_t,j)|(i,j)∈U}，U为H和M的并集。

M＝{(1,4),(1,7),(4,7),(4,13),(4,10),(7,10),(7,13),(10,13)}

(c)对于步骤(b)中得到的骨架空间图G_S，在相邻帧之间的骨架空间图中建立同一关节点间的时间边，得到时间边的集合E_T，E_T＝{(v_t,iv_t+1,i)|t＝1…T-1,i＝0…N-1}，从而得到骨架时间图G_T＝{V,E_T}，最终得到骨架时空图G＝{V,E}，其中E＝{E_S,E_T}，G＝{G_S,G_T}。

(2)时空图卷积

在步骤(1)得到的人体骨架时空图上进行时空图卷积，空间上的图卷积采用ST-GCN实现，并引入2S-AGCN中提出的两种自适应图，时间上的图卷积采用一个9×1的一维卷积来实现。

空间上的采用的卷积操作，公式如下：

其中，f_in和f_out分别为输入和输出的骨架序列矩阵；K_v＝3表示卷积核大小；k为集合的序号；w_k为第k个集合使用的权重参数；A_k∈R^N×N为邻接矩阵；B_k和C_k为通过网络学习得到的权重参数。其中C_k的计算方式可表示为：

其中W_θk和

分别表示两个1×1卷积的参数。

表示通过卷积得到的两个嵌入特征。

本发明中，特征提取阶段中，时空图卷积网络由一个批规范化BN层和六个连续的时空图卷积单元堆叠而成；每个时空图卷积单元结构一致，包括空间图卷积GCN-S、BN层、ReLU层、Dropout层、时间图卷积GCN-T、BN层、ReLU层和一个残差连接。

本发明中，特征融合阶段中，多流特征融合网络中设计损失函数的方法如下：

首先利用softmax分类器处理f₀、f₁、f₂和f₃四个特征，得到它们的预测概率值，分别是p₀、p₁、p₂和p₃，再构建损失函数为：

L＝αL₀+βL₁+γL₂+δL₃

其中L₀、L₁、L₂和L₃分别是每一类特征对应的损失，

其中，c表示行为的数目；y表示样本的真实标签，α、β、γ和δ分别是每一种损失的权重。

与现有技术相比，本发明的有益效果在于：

通过骨架规范化方法使人体骨架的表示具有仿射不变性，从而降低了网络的训练难度；在时空图卷积网络中构建了局部和全局连接图，使网络同时关注人体的局部和整体；所提出的多流特征融合网络有效地融合了多种运动信息，充分挖掘了信息间的互补性，提高了行为识别的准确率。

附图说明

图1是本发明所提的基于多流融合图卷积网络的行为识别方法的流程图。

图2是人体骨架空间图，(a)是局部连接图(b)是全局连接图(c)是骨架空间图。

图3是人体骨架时空图。

图4是时空图卷积网络的网络结构。

图5是多流融合图卷积网络的网络结构。

具体实施方式

本发明提出一种基于多流融合图卷积网络的行为识别方法，主要分为三个阶段：数据预处理、特征提取、特征融合；整个网络的结构如图1所示。数据预处理阶段，利用骨架规范化模块对输入的人体骨架序列数据进行处理，得到规范化的人体骨架数据。接着再从中分别求出人体骨骼数据和人体运动数据。特征提取阶段，利用三个时空图卷积网络分别提取关节点数据、骨骼数据和运动数据的时空特征。特征融合阶段，利用多流特征融合网络分两个阶段进一步融合三种信息的特征，最后通过分类器得到行为的预测结果。

其中，人体关节编号及其含义如下：

以下是具体步骤：

1.数据预处理

(1)位置规范化

即为X¹的第t个骨架

的第i个关节点坐标。

(2)视角规范化

其中，向量v_x、v_y、v_z由x₁确定，分别计算如下：

(a)根据x₁的2号关节和5号关节确定水平方向向量v_x，：

v_x＝x_1,5-x_1,2

(b)根据下式确定v_y：

v_1,0＝x_1,1-x_1,0

表示v_1,0在v_x上的投影；

(c)获得v_x和v_y后，再按下式求与这两个向量垂直的向量v_z：

v_z＝v_x×v_y

然后按照下式旋转X₁中所有关节点的坐标：

其中，

即为X²的第t个骨架

的第j个关节点坐标。

2.特征提取

特征提取通过时空图卷积网络来提取关节数据、骨骼数据和运动数据的时空特征时空图卷积网络的实现步骤如下：

(1)构建人体骨架时空图

人体骨架时空图的构建分为三步：

连接其生理上相邻的关节点，得到部分空间边，从而构建局部连接图(如图2(a)所示)。

H＝{(0,1),(0,2),(0,5),(2,3),(3,4),(5,6),(6,7),(8,9),(9,10),(11,12),(12,13)}

根据M建立边，得到全局连接图(如图2(b)所示)。与步骤(a)中得到的局部连接图组成骨架空间图G_S＝{V,E_S}，骨架空间图如图2(c)所示，其中V表示关节点集合，V＝{v_t,i|t＝1…T,i＝0…N-1}，T为骨架序列的长度，N为骨架中关节点的个数，且

E_S为空间边的集合，E_S＝{(v_t,iv_t,j)|(i,j)∈U}，U为H和M的并集。

M＝{(1,4),(1,7),(4,7),(4,13),(4,10),(7,10),(7,13),(10,13)}

(c)对于步骤(b)中得到的骨架空间图G_S，在相邻帧之间的骨架空间图中建立同一关节点间的时间边，得到时间边的集合E_T，E_T＝{(v_t,iv_t+1,i)|t＝1…T-1,i＝0…N-1}，从而得到骨架时间图G_T＝{V,E_T}，最终得到骨架时空图G＝{V,E}，如图3所示，其中E＝{E_S,E_T}，G＝{G_S,G_T}。

(2)时空图卷积

空间上的采用的卷积操作，公式如下：

其中W_θk和

分别表示两个1×1卷积的参数。

表示通过卷积得到的两个嵌入特征。

时空图卷积网络由一个批规范化(BN)层和六个连续的时空图卷积单元(G1至G6)堆叠而成。每个时空图卷积单元结构一致：空间图卷积(GCN-S)、BN层、ReLU层、Dropout层、时间图卷积(GCN-T)、BN层、ReLU层，一个残差连接。其结构如图4所示。

其中，时空图卷积网络的输入输出维度分别列举如下：

G1的输入维度为3×T×N，输出维度为64×T×N。

G2的输入维度为64×T×N，输出维度为64×T×N。

G3的输入维度为64×T×N，输出维度为64×T×N。

G4的输入维度为64×T×N，输出维度为

G5的输入维度为

输出维度为

G6的输入维度为

输出维度为

T为骨架序列的长度，N＝14为人体关节点数。

3.特征融合

多流融合模块分两阶段进行；第一阶段，首先将特征提取阶段输出的三种特征两两拼接，特征的维度由

变化为

将拼接后的特征输入到两个连续的图卷积单元，融合两类信息的特征。之后，将融合的特征输入到池化层，在池化层中对N和T这两个维度进行平均池化。第二阶段，池化层后接两个全连接层，两个全连接层中有一个ReLU层，之后得到三个分类特征f₀、f₁和f₂。然后融合三路特征得到总体分类特征f₃，f₃＝f₀+f₁+f₂。多流融合模块的网络结构如图5所示。

在多流融合模块中设计适用本发明的损失函数，具体为：首先利用softmax分类器处理f₀、f₁、f₂和f₃四个特征，得到它们的预测概率值，分别是p₀、p₁、p₂和p₃。据此，构建的损失函数为：

L＝αL₀+βL₁+γL₂+δL₃

其中L₀、L₁、L₂和L₃分别是每一类特征对应的损失，

其中，c表示行为的数目；y表示样本的真实标签。α、β、γ和δ分别是每一种损失的权重。在训练过程中，采用SGD优化器，将超参数α、β、γ和δ分别设置为1、1、1、3。

实施例1

本发明提出的一种基于多流融合图卷积网络的行为识别方法，在公开数据集NTU-RGB+D 60上进行了实验，并和当前主流方法的结果进行对比。按照主流做法，实验在X-Sub和X-View两个benchmark上进行，使用Top1作为评价指标。

本发明的实验参数设置为：

在训练时，使用连续的300帧的人体骨架数据作为输入，样本数目不足300帧时，重复使用该样本进行填充，直到达到300帧。

在训练过程中，采用SGD优化器，将损失函数中的超参数α、β、γ和δ分别设置为1、1、1、3。学习率设置为0.01，并分别在第10和20个轮次将学习率缩小10倍，批次大小设置为64，总计训练30个轮次。

本发明的实验环境为：处理器为Intel(R)Xeon(R)CPU E5-2603 v4@1.70GHz，显卡为NVIDIA Titan XP 12GB，内存64GB，操作系统为Ubuntu 16.04(64位)，编程语言为Python3.7.4，深度学习框架为PyTorch1.2.0。

实验结果如表1所示，可以看出，本发明所提方法在两个benchmark上的指标均优于既有方法，证实了所提方法的有效性。

表1 NTU-RGB+D数据集上的对比结果

方法名称	X-Sub	X-View
			2S-AGCN[1]	88.5	95.1
PR-GCN[2]	85.2	91.7
			PL-GCN[3]	89.2	95.0
本发明所提方法	89.3	96.0

参考文献：

[1]Shi L,Zhang Y,Cheng J,et al.Two-stream adaptive graphconvolutional networks for skeleton-based action recognition[C]//Proceedingsof the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:12026-12035.

[2]Li S,Yi J,Farha Y A,et al.Pose Refinement Graph ConvolutionalNetwork for Skeleton-Based Action Recognition[J].IEEE Robotics and AutomationLetters,2021,6(2):1028-1035.

[3]Huang L,Huang Y,Ouyang W,et al.Part-Level Graph ConvolutionalNetworkfor Skeleton-Based Action Recognition[C]//Proceedings of the AAAIConference on Artificial Intelligence.2020,34(07):11045-11052。

Claims

1.一种基于多流融合图卷积网络的行为识别方法，其特征在于，其分为3个阶段：数据预处理、特征提取、特征融合；其中：

数据预处理阶段，利用骨架规范化模块对输入的人体骨架序列数据即关节点数据进行处理，得到规范化的人体骨架序列数据，然后进一步通过求得相邻关节点之间构成的向量获得骨骼数据，通过求得相邻帧之间的同一个关节点的位移获得运动数据；其中：人体骨架序列数据表示为

T表示骨架序列的长度，T取300，x_t∈R^V×C表示第t个骨架的关节点坐标，V表示人体骨架中关节点的数目，V＝14，C表示关节点坐标的维度，C＝3，表示每个关节点有x、y、z三个坐标；

其中，人体关节编号及其含义如下：

8：右臀；9：右膝；10：右踝；11：左臀；12：左膝；13：左踝；

特征融合阶段，利用多流特征融合网络进一步融合关节点特征、骨骼特征和运动特征，再通过分类器得到行为的预测结果；利用多流特征融合网络进行融合的方法如下：

2.根据权利要求1所述的基于多流融合图卷积网络的行为识别方法，其特征在于，数据预处理阶段的骨架规范化模块提出了骨架规范化方法，其包含位置规范化、视角规范化和尺度规范化三个处理步骤，具体如下：

(1)位置规范化

其中，x_t,i表示骨架x_t的第i个关节点坐标，i＝0,1,…,13，记经过位置规范化处理后的骨架序列为X¹，上式中的

即为X¹的第t个骨架

的第i个关节点坐标；

(2)视角规范化

然后对位置规范化后的骨架序列X¹进行旋转变化；具体来说，即首先根据序列X的第1个骨架x₁确定旋转矩阵R，公式如下：

其中，向量v_x、v_y、v_z由x₁确定，分别计算如下：

(a)根据x₁的2号关节和5号关节确定水平方向向量v_x，：

v_x＝x_1,5-x_1,2

(b)根据下式确定v_y：

v_1,0＝x_1,1-x_1,0

表示v_1,0在v_x上的投影；

(c)获得v_x和v_y后，再按下式求与这两个向量垂直的向量v_z：

v_z＝v_x×v_y

然后按照下式旋转X₁中所有关节点的坐标：

其中，

即为X²的第t个骨架

的第j个关节点坐标。

(3)尺度规范化

然后按下式更新X²中所有关节点的坐标：

记经过尺度规范化处理后的骨架序列为X³，上式中的

即为X³的第t个骨架

的第k个关节点坐标。

3.根据权利要求1所述的基于多流融合图卷积网络的行为识别方法，其特征在于，特征提取阶段中，通过时空图卷积网络来提取关节数据、骨骼数据和运动数据的时空特征，时空图卷积网络的实现步骤如下：

(1)构建人体骨架时空图

人体骨架时空图的构建分为三步：

H＝{(0,1),(0,2),(0,5),(2,3),(3,4),(5,6),(6,7),(8,9),(9,10),(11,12),(12,13)}

M＝{(1,4),(1,7),(4,7),(4,13),(4,10),(7,10),(7,13),(10,13)}

(2)时空图卷积

4.根据权利要求1所述的基于多流融合图卷积网络的行为识别方法，其特征在于，特征提取阶段中，时空图卷积网络由一个批规范化BN层和六个连续的时空图卷积单元堆叠而成；每个时空图卷积单元结构一致，包括空间图卷积GCN-S、BN层、ReLU层、Dropout层、时间图卷积GCN-T、BN层、ReLU层和一个残差连接。

5.根据权利要求1所述的基于多流融合图卷积网络的行为识别方法，其特征在于，特征融合阶段中，多流特征融合网络中设计损失函数的方法如下：

L＝αL₀+βL₁+γL₂+δL₃

其中L₀、L₁、L₂和L₃分别是每一类特征对应的损失，