CN114694174A

CN114694174A - 一种基于时空图卷积的人体交互行为识别方法

Info

Publication number: CN114694174A
Application number: CN202210199016.4A
Authority: CN
Inventors: 夏海轮; 唐志浩; 冯春燕
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2022-07-01

Abstract

本发明公开了一种基于时空图卷积的人体交互行为识别方法，属于人工智能领域，具体为：首先，用深度摄像机录制时间T内的双人交互行为的视频，直接提取人体骨骼关键点三维坐标数据，将数据规整成形如1×M×C×T×V的张量；初始化时空交互图卷积网络，输入数据张量经过归一化层后，到达6层结构相同的子网络层，每层子网络层由两个单人特征提取模块和一个交互特征关联模块组成；单人特征提取模块包含空间图卷积模块GCN和时间卷积模块TCN；经过6层空间图卷积和时间卷积后输出两张量特征R₁,R₂进行归一化后在通道维度处拼接，依次经过全连接层和Softmax层得到类别号label，最后，查询类别号‑行为名称组成的哈希表，得到行为名称；本发明有效提高了交互特征的聚合效率和识别准确率。

Description

一种基于时空图卷积的人体交互行为识别方法

技术领域

本发明属于人工智能领域，涉及深度学习和图卷积神经网络，具体是一种基于时空图卷积的人体交互行为识别方法。

背景技术

人体行为识别(Human Action Recognition)是指从未知的视频或图像序列中，自动化分析其中人体正在进行的行为[1]。广义的人体行为识别可以细分为未修剪视频分类(Untrimmed Video Classification)、修剪视频识别(Trimmed Action Recognition)、时序定位提名(Temporal Action Proposal)、时序行为定位(Temporal ActionLocalization)以及密集行为描述(Dense Captioning Events)五项子任务。

根据目前国内外已有的研究工作，交互行为识别总体可分为基于模板匹配的方法以及基于深度学习的方法；

基于模板匹配的方法代表工作如Van Gemeren等[2]结合HOG/HOF描述符对人体之间的交互作用的特征帧进行编码；又如Ji等[3]使用HMM建模HOG描述符随时间的变化并且区分交互行为的开始、中间和结束阶段。

基于深度学习的交互行为识别又可以主要分为基于CNN(Convolutional NeuralNetworks，卷积神经网络)、基于RNN(Recurrent Neural Networks，循环神经网络)、基于GCN(Graph Convolutional Networks，图卷积网络)的方法；

其中代表性的CNN方法如Tang等[4]提出的AlphaAction网络，其使用交互聚合结构对RGB视频中的交互动作进行统一建模；代表性的RNN方法如Wang等[5]利用LSTM统一了视频中单人动作和交互动作特征建模过程。而基于GCN的方法为近年来发展最为火热的行为识别方向，最早由Yan等[6]将ST-GCN引入人体行为识别领域，对从视频中提取出来的人体骨骼关键点构造而成的图拓扑结构数据，依次进行时空图卷积操作完成识别，超越了以往直接基于RGB图像分析的网络表现。

而受到ST-GCN的启发，也有一些工作将图卷积操作迁移到交互行为识别中，例如Li等[7]提出K-GCN将双人交互的知识嵌入到图卷积网络；又如Zhu等[8]提出DR-GCN组合双人交互的几何特征和注意力特征来构造双人交互拓扑图结构。

而总体来讲，GCN在交互行为识别领域的应用并不充分，对交互行为的建模过程通常涉及到较为庞大的参数量和计算量，并且对交互的时空关系构建方面有所欠缺。

[1]Kong Y,Fu Y.Human action recognition and prediction:A survey[J].arXiv preprint arXiv:1806.11230,2018.

[2]Van Gemeren C,Tan R T,Poppe R,et al.Dyadic interaction detectionfrom pose and flow[C]//International Workshop on Human BehaviorUnderstanding.Springer,Cham,2014:101-115.

[3]Ji X,Wang C,Ju Z.A new framework of human interaction recognitionbased on multiple stage probability fusion[J].Applied Sciences,2017,7(6):567.

[4]Tang J,Xia J,Mu X,et al.Asynchronous Interaction Aggregation forAction Detection[J].arXiv preprint arXiv:2004.07485,2020.

[5]Wang M,Ni B,YangX.Recurrent modeling of interaction context forcollective activity recognition[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2017:3048-3056.

[6]Yan S,Xiong Y,Lin D.Spatial temporal graph convolutional networksfor skeleton-based action recognition[J].arXiv preprint arXiv:1801.07455,2018.

[7]Li J,Xie X,Cao Y,et al.Knowledge embedded GCN for skeleton-basedtwo-person interaction recognition[J].Neurocomputing,2021,444:338-348.

[8]Zhu L,Wan B,Li C,et al.Dyadic relational graph convolutionalnetworks for skeleton-based human interaction recognition[J].PatternRecognition,2021,115:107920.

发明内容

针对上述问题，本发明提出一种基于时空图卷积的人体交互行为识别方法，通过时间交互模块和空间交互模块能有效地填补交互时空关系构建方面的空白，并且有较低参数量和计算量的优势。

所述人体交互行为识别方法，具体步骤如下：

步骤一、用深度摄像机录制时间T内的双人交互视频作为待识别样本，并直接提取人体骨骼关键点三维坐标数据；

要求整段视频中仅含一种交互行为，并自始至终仅包含两个人，两个人整个身体清晰可见。

步骤二、将骨骼关键点三维坐标数据规整成形如1×M×C×T×V的张量；

其中M＝2代表人体的数量，C＝3为空间坐标数据的X，Y，Z三个维度，T代表视频的长度，V＝25代表人体骨骼关键点的数量；

步骤三、初始化时空交互图卷积网络，并输入数据张量，推理得到交互行为的类别号label；

时空交互图卷积网络由归一化层、6层结构相同的子网络层以及附加的全连接层顺序堆叠而成；

推理的过程具体为：

步骤301、输入数据张量

经过归一化层在M×C×V维度上完成归一化，归一化前后张量形状不改变。

步骤302、将归一化后的张量分成两个分支，对应交互的两人，分别为：

X₁＝X[:,0,:,:]

X₂＝X[:,1,:,:]

其中X₁,

分别代表两个人的数据，二者形状完全相同。X[:,0,:,:]表示取张量X第1维度中下标为0的所有值的操作，同理X[:,1,:,:]表示取张量X第1维度中下标为1的所有值的操作。

步骤303、将两人数据X₁和X₂同时送入6层时空图卷积子网络层中的当前层；

每一个子网络层由两个单人特征提取模块和一个交互特征关联模块组成；单人特征提取模块均包含空间图卷积模块GCN和时间卷积模块TCN；当前层初始为第一层；

首先，将两人数据X₁和X₂分别送入到两个单人特征提取模块中，各自经过GCN的空间图卷积操作处理后输出的张量特征分别为Y₁和Y₂；

表示为：

其中Y₁,

为输出的张量特征，C′为经过空间图卷积之后的通道维度数量；ReLu代表线性整流激活函数；BN代表批量归一化函数；

为归一化之后的单人邻接矩阵，A∈{0,1}^V×V是用来描述单人人体骨骼关键点之间的连接关系矩阵；D是单人邻接矩阵A的度矩阵；

是动态邻接矩阵；W₁,

分别是对数据X₁进行两次1*1二维卷积操作的不同卷积权重，同理W₃,

分别是对数据X₂进行两次1*1二维卷积操作的不同卷积权重；

然后，将输出的张量特征Y₁和Y₂分别送入各自的TCN中，进行时间卷积操作分别输出特征Z₁和Z₂；

表示为：

Z₁＝ReLu(BN(Y₁W₅))

Z₂＝ReLu(BN(Y₂W₆))

其中Z₁,

为输出特征，其中T′＝T/s，s为步长，W₅和W₆分别代表两个不同的9*1二维卷积操作的卷积权重；

最后，将输出特征Z₁和Z₂一同输入交互特征关联模块进行时空特征关联；

具体为：

首先，使用S函数对输入特征Z₁和Z₂进行采样率为r的降采样池化操作，池化输出张量S₁,

表示为：

S₁＝S(Z₁),S₂＝S(Z₂)

然后，应用DTW算法计算输出特征Z₁和Z₂的关联矩阵M_2→1∈{0,1}^τ×τ；

M_2→1＝DTW(mean(S₁)),mean(S₂))

mean函数代表对特征在通道维度(C)和空间维度(V)上进行归一化压缩，压缩之后的张量形状为1×τ，即仅保留时间维度特征；

对于关联矩阵M_2→1中的元素m_i,j(i,j＝0,1,...,τ-1)，当且仅当Z₂ ⁱ和Z₁ ^j存在关联时m_i,j＝1，否则m_i,j＝0。

接着，张量S₂与关联矩阵M_2→1相乘完成与张量S₁在时间维度上的对齐；

表示为：

S₂′＝S₂M_2→1

最后，将对齐之后的特征在空间维度上拼接，进行双人特征的空间图卷积操作，输出图卷积特征Q；

表示为：

P＝Concat(S₁,S₂′)

拼接函数Concat表示将S₁和S₂′在第3维度上顺次拼接，拼接输出

双人空间图卷积使用的是归一化之后的交互邻接矩阵

D_I是度矩阵，A_I∈{0,1}^2V×2V用于描述交互骨骼关键点的连接关系；

为双人特征空间图卷积的卷积权重，使用1*1的二维卷积实现，输出

交互邻接矩阵A_I的构造过程表示为：

A₁₂描述两个人体之间骨骼关键点的连接关系，包含对称连接和镜像连接两个部分，对称连接为归属于两个人体的相同编号的骨骼关键点建立的连接，而镜像连接为两个人体有镜像关系的骨骼关键点之间建立起连接。

对上述图卷积的输出特征Q在空间维度拆分之后得到两个相同形状的张量，分别经过线性整流函数ReLu和批量归一化函数BN之后作为交互特征关联模块的最终输出Q₁和Q₂，表示为：

Q₁＝ReLu(BN(Q[:,:,:,0]))

Q₂＝ReLu(BN(Q[:,:,:,1]))

其中Q₁,

Q[:,:,:,0]表示取张量Q的第3维度中下标为0的所有值的操作，同理Q[:,:,:,1]表示取张量Q的第3维度中下标为1的所有值的操作。

步骤304、返回步骤303，将输出的两分量特征Q₁和Q₂分别作为两人的对应数据，送入到6层时空图卷积子网络层的下一层中；

步骤305、重复直至完成6层的处理，最后得到的两分量分别记为R₁,

C_out表示输出的通道维度第1维度的大小；

T_out表示输出的时间维度第2维度的大小；

步骤306、将两分量R₁,R₂对时间维度和空间维度进行归一化处理得到

并在通道维度处拼接，依次经过全连接层、Softmax层得到推理结果；

表示为：

其中FC代表全连接层，Softmax代表Softmax层处理；

为推理结果，γ是行为类别数量；

步骤307、推理结果即为对当前输入所有可能的行为分类结果的置信度排列，找到置信度最大值所对应的行为类别标号，即为时空交互图卷积网络输出的最终结果label；

表示成：

label＝argmax(R)

步骤四、使用类别号label作为键查询NTU-RGB+D 120数据集中所有类别号-行为类别名称所组成的哈希表，查询得到行为类别名称；

本发明的优点在于：

(1)一种基于时空图卷积的人体交互行为识别方法，使用DTW(Dynamic TimeWrapping)算法计算出两个人的动作信息在时间维度的关联关系，进而完成动作信息在时间维度的对齐融合，能够在较低运算复杂度的情况下填补现有工作中未考虑时间特征关联的空白；

(2)一种基于时空图卷积的人体交互行为识别方法，使用所提出的双人交互图完成空间图卷积。结合DTW算法共同完成双人交互动作信息的时空关联，从而有效提高交互特征的聚合效率，提升识别准确率。

附图说明

图1为本发明一种基于时空图卷积的人体交互行为识别方法的总体步骤流程图；

图2为本发明所述的时空交互图卷积网络结构图；

图3为本发明单个时空图卷积子网络层结构图；

图4为本发明单人特征提取模块结构图；

图5为本发明单人骨骼关键点连接关系示意图；

图6为本发明交互特征关联模块结构图。

具体实施方式

下面将结合附图和实例对本发明作进一步的详细说明。

本发明提供了一种基于时空图卷积的人体交互行为识别方法，人体交互行为识别属于修剪视频识别的一个子类，即对一段经过修剪的、其中只包含一种类型的两个人交互动作的视频进行分析，识别其所属的动作类别。

如图1所示，所述人体交互行为识别方法，具体步骤如下：

所述深度摄像机选用Kinect相机，要求整段视频中仅含一种交互行为，并自始至终仅包含两个人，两个人整个身体清晰可见。

步骤三、初始化时空交互图卷积网络，并载入预先训练完成的网络参数权重，输入数据张量，经过推理得到交互行为的类别号label；

如图2所示，时空交互图卷积网络由归一化层、6层结构相同的子网络层以及附加的全连接层顺序堆叠而成；其中“*6”表示核心处理部分由6层相同结构的时空交互图卷积层堆叠而成，重复的网络层使用“……”来简化表示；

推理的过程具体为：

步骤301、输入数据张量

经过一维批量归一化层(BatchNormalization Layer)在M×C×V维度上完成归一化，归一化前后张量形状不改变。

原始数据

即时间T内的两个人交互过程中的人体骨骼关键点三维坐标序列；

步骤302、将归一化后的张量在第1维度根据所属人的不同分成两个分支，对应交互的两人，分别为：

X₁＝X[:,0,:,:]

X₂＝X[:,1,:,:]

其中X₁,

如图3所示，特征张量的流向为：第一层的单个时空图卷积子网络层接收的输入特征为X₁和X₂，二者分别经过两个相同的单人特征提取模块完成处理分别输出Z₁和Z₂，二者再共同输入到交互特征关联模块中进行进一步操作，该模块输出Q₁和Q₂作为整个层的输出再输入到第二层的时空图卷积子网络层结构中，依此类推，最终得到当前输入的交互行为的最终类别号label；

具体为：

如图4所示，图中用虚线将整体划分为两个大模块，内部的小方框表示各个小模块，方框中的文字表示模块的名称，其中“1*1卷积”表示卷积核形状为1*1的二维卷积操作模块，同理“9*1卷积”表示卷积核形状为9*1的二维卷积操作模块，BN表示批量归一化操作模块，ReLu表示ReLu激活函数模块；带方框的

和B分别表示归一化后的单人邻接矩阵和由网络自动学习的动态邻接矩阵；

符号分表表示张量相加和张量相乘操作；箭头指示数据流向，箭头旁的符号代表各个阶段的特征，整个单人特征提取模块的输入为X，先进入到空间图卷积模块中，在该模块中，X分为两路，其中一路直接经过1*1卷积，另一路完成图卷积操作(与

进行矢量相乘之后在进行1*1卷积)，两路操作的结果张量相加之后经过批量归一化和ReLu激活函数得到空间图卷积模块的输出Y，再经过9*1卷积后经过批量归一化和ReLu函数完成时间卷积操作，输出的结果Z即为整个单人特征提取模块的输出。

其沿用了ST-GCN的子网络层设计，即包含一个空间图卷积模块(GCN)和时间卷积模块(TCN)，空间图卷积操作表示为：

表示为：

其中Y₁,

为归一化之后的单人邻接矩阵A，A∈{0,1}^V×V是用来描述单人人体骨骼关键点之间的连接关系矩阵；如图5所示，为人体骨架连接结构，使用带数字的圆圈表示人体骨骼关键点，圆圈之间的连线代表骨骼，圆圈中的数字为骨骼关键点的序号，从1号到25号共包含25个人体骨骼关键点。

对于节点i,j＝0,1,...,V-1当且仅当两点之间有连接(包括节点自身和自身的连接)时，邻接矩阵对应位置元素α_i,j＝1，否则α_i,j＝0；

D是单人邻接矩阵A的度矩阵；

是动态邻接矩阵，该部分由数据驱动网络自适应调整值的大小；W₁,

分别是对数据X₂进行两次1*1二维卷积操作的不同卷积权重；

表示为：

Z₁＝ReLu(BN(Y₁W₅))

Z₂＝ReLu(BN(Y₂W₆))

其中Z₁,

为输出特征，其中T′＝T/s，s为步长，s取值为1或2；W₅和W₆分别代表两个不同的9*1二维卷积操作的卷积权重；

如图6所示，展示了交互特征关联模块的内部结构，整个模块分为时间特征关联模块和空间特征关联模块两个部分，各个小方框代表执行的操作，方框中的文字为执行的操作内容，1*1卷积代表卷积核形状为1*1的二维卷积操作，

代表张量相乘操作；箭头指示数据流动方向；Z₁和Z₂同时输入到交互特征关联模块中，首先完成时间特征关联，二者分别经过相同的降采样池化输出S₁和S₂，再经过通道空间特征归一化之后使用DTW算法计算得到二者的关联矩阵M_2→1，其后M_2→1与S₂张量相乘之后在空间特征关联模块的头部与S₁完成两张量在空间维度上的拼接得到P，P与归一化后的交互邻接矩阵

进行张量相乘后通过1*1卷积完成图卷积，重新规整形状得到Q，再将其沿着空间维度分离成两个相同形状的张量后分别经过批量归一化和ReLu激活函数作用后得到交互特征关联模块的最终输出Q₁和Q₂。

具体为：

表示为：

S₁＝S(Z₁),S₂＝S(Z₂)

M_2→1＝DTW(mean(S₁)),mean(S₂))

DTW代表使用DTW算法找到两张量在时间维度上的关联关系，DTW算法本身是一种衡量两时间序列相似度的方法，广泛用于语音识别领域，本申请中为了减少DTW算法的计算复杂度，采用曼哈顿距离作为DTW的距离度量；M_2→1∈{0,1}^τ×τ为DTW算法生成的关联矩阵，对于该矩阵中的元素m_i,j(i,j＝0,1,...,τ-1)，当且仅当Z₂ ⁱ和Z₁ ^j存在关联时m_i,j＝1，否则m_i,j＝0。

表示为：

S₂′＝S₂M_2→1

表示为：

P＝Concat(S₁,S₂′)

双人空间图卷积类似于单人空间图卷积，区别仅在于使用的是归一化之后的交互邻接矩阵

为双人特征空间图卷积的卷积权重，使用1*1的二维卷积实现，注意这里的r即为之前时间关联操作前的进行降采样操作的采样率，特征P与

矩阵相乘之后经过二维卷积后完成了通道维度扩增，其后再进行Reshape操作，其目的是将通道维度的扩增填补到时间维度，以此来保证交互特征关联模块的输入输出张量的形状一致，输出

交互邻接矩阵A_I的构造过程表示为：

A_I是一个分块矩阵，由四个矩阵拼接组成，A为前述单人邻接矩阵，A₁₂描述两个人体之间骨骼关键点的连接关系，包含对称连接和镜像连接两个部分，对称连接为归属于两个人体的相同编号的骨骼关键点建立的连接，而镜像连接为两个人体有镜像关系的骨骼关键点之间建立起连接；如此连接方式的设计依据是考虑到了两人进行交互行为时具有对称性和镜像性的特点。

对称连接中两个人体具有相同编号的骨骼关键点对应相连，而镜像连接中除了人体躯干部分的骨骼关键点对应相连之外，其他骨骼关键点(四肢部分)之间的连接呈现左右镜像关系。假设将两人体分别记为人体a和人体b，使用“ax-by”表示人体a的关键点x和人体b的关键点y建立连接，结合图5说明两种连接关系，则对称连接下建立所有的连接包括：a1-b1、a2-b2、……a24-b24、a25-b25；镜像连接下建立所有的连接为：a1-b1、a2-b2、a3-b3、a4-b4、a21-b21、a5-b9、a9-b5、a6-b10、a10-b6、a11-b7、a7-b11、a12-b8、a8-b12、a25-b23、a23-b25、a24-b22、a22-b24、a17-b13、a13-b17、a18-b14、a14-b18、a19-b15、a15-b19、a20-b16、a16-b20。

Q₁＝ReLu(BN(Q[:,:,:,0]))

Q₂＝ReLu(BN(Q[:,:,:,1]))

其中Q₁,

至此完成了本子网络层对输入特征的单人特征提取以及交互特征关联。

C_out表示输出的通道维度第1维度的大小；

T_out表示输出的时间维度第2维度的大小；

并在第1维度(通道维度)处拼接，依次经过全连接层FC和Softmax层得到推理结果；

表示为：

其中FC代表全连接层，Softmax代表Softmax层处理；

为推理结果，γ是行为类别数量；

步骤307、推理结果即为对当前输入所有可能的交互行为分类结果的置信度排列，找到置信度最大值所对应的行为类别标号，即为时空交互图卷积网络输出的最终类别号label；

表示成：

label＝argmax(R)

其中argmax代表求最大值的自变量取值的函数；

实际实现时，各个子网络层的参数设置不相同，参数设置情况如表1所示。网络最后的全连接层输入通道数量设置为512，输出通道数量设置为γ。

表1

步骤四、使用类别号label作为键查询NTU-RGB+D 120数据集中所有类别号-行为类别名称所组成的哈希表，查询得到行为类别名称。