CN114694174A - 一种基于时空图卷积的人体交互行为识别方法 - Google Patents

一种基于时空图卷积的人体交互行为识别方法 Download PDF

Info

Publication number
CN114694174A
CN114694174A CN202210199016.4A CN202210199016A CN114694174A CN 114694174 A CN114694174 A CN 114694174A CN 202210199016 A CN202210199016 A CN 202210199016A CN 114694174 A CN114694174 A CN 114694174A
Authority
CN
China
Prior art keywords
convolution
dimension
space
time
tensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210199016.4A
Other languages
English (en)
Inventor
夏海轮
唐志浩
冯春燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202210199016.4A priority Critical patent/CN114694174A/zh
Publication of CN114694174A publication Critical patent/CN114694174A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时空图卷积的人体交互行为识别方法,属于人工智能领域,具体为:首先,用深度摄像机录制时间T内的双人交互行为的视频,直接提取人体骨骼关键点三维坐标数据,将数据规整成形如1×M×C×T×V的张量;初始化时空交互图卷积网络,输入数据张量经过归一化层后,到达6层结构相同的子网络层,每层子网络层由两个单人特征提取模块和一个交互特征关联模块组成;单人特征提取模块包含空间图卷积模块GCN和时间卷积模块TCN;经过6层空间图卷积和时间卷积后输出两张量特征R1,R2进行归一化后在通道维度处拼接,依次经过全连接层和Softmax层得到类别号label,最后,查询类别号‑行为名称组成的哈希表,得到行为名称;本发明有效提高了交互特征的聚合效率和识别准确率。

Description

一种基于时空图卷积的人体交互行为识别方法
技术领域
本发明属于人工智能领域,涉及深度学习和图卷积神经网络,具体是一种基于时空图卷积的人体交互行为识别方法。
背景技术
人体行为识别(Human Action Recognition)是指从未知的视频或图像序列中,自动化分析其中人体正在进行的行为[1]。广义的人体行为识别可以细分为未修剪视频分类(Untrimmed Video Classification)、修剪视频识别(Trimmed Action Recognition)、时序定位提名(Temporal Action Proposal)、时序行为定位(Temporal ActionLocalization)以及密集行为描述(Dense Captioning Events)五项子任务。
根据目前国内外已有的研究工作,交互行为识别总体可分为基于模板匹配的方法以及基于深度学习的方法;
基于模板匹配的方法代表工作如Van Gemeren等[2]结合HOG/HOF描述符对人体之间的交互作用的特征帧进行编码;又如Ji等[3]使用HMM建模HOG描述符随时间的变化并且区分交互行为的开始、中间和结束阶段。
基于深度学习的交互行为识别又可以主要分为基于CNN(Convolutional NeuralNetworks,卷积神经网络)、基于RNN(Recurrent Neural Networks,循环神经网络)、基于GCN(Graph Convolutional Networks,图卷积网络)的方法;
其中代表性的CNN方法如Tang等[4]提出的AlphaAction网络,其使用交互聚合结构对RGB视频中的交互动作进行统一建模;代表性的RNN方法如Wang等[5]利用LSTM统一了视频中单人动作和交互动作特征建模过程。而基于GCN的方法为近年来发展最为火热的行为识别方向,最早由Yan等[6]将ST-GCN引入人体行为识别领域,对从视频中提取出来的人体骨骼关键点构造而成的图拓扑结构数据,依次进行时空图卷积操作完成识别,超越了以往直接基于RGB图像分析的网络表现。
而受到ST-GCN的启发,也有一些工作将图卷积操作迁移到交互行为识别中,例如Li等[7]提出K-GCN将双人交互的知识嵌入到图卷积网络;又如Zhu等[8]提出DR-GCN组合双人交互的几何特征和注意力特征来构造双人交互拓扑图结构。
而总体来讲,GCN在交互行为识别领域的应用并不充分,对交互行为的建模过程通常涉及到较为庞大的参数量和计算量,并且对交互的时空关系构建方面有所欠缺。
[1]Kong Y,Fu Y.Human action recognition and prediction:A survey[J].arXiv preprint arXiv:1806.11230,2018.
[2]Van Gemeren C,Tan R T,Poppe R,et al.Dyadic interaction detectionfrom pose and flow[C]//International Workshop on Human BehaviorUnderstanding.Springer,Cham,2014:101-115.
[3]Ji X,Wang C,Ju Z.A new framework of human interaction recognitionbased on multiple stage probability fusion[J].Applied Sciences,2017,7(6):567.
[4]Tang J,Xia J,Mu X,et al.Asynchronous Interaction Aggregation forAction Detection[J].arXiv preprint arXiv:2004.07485,2020.
[5]Wang M,Ni B,YangX.Recurrent modeling of interaction context forcollective activity recognition[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2017:3048-3056.
[6]Yan S,Xiong Y,Lin D.Spatial temporal graph convolutional networksfor skeleton-based action recognition[J].arXiv preprint arXiv:1801.07455,2018.
[7]Li J,Xie X,Cao Y,et al.Knowledge embedded GCN for skeleton-basedtwo-person interaction recognition[J].Neurocomputing,2021,444:338-348.
[8]Zhu L,Wan B,Li C,et al.Dyadic relational graph convolutionalnetworks for skeleton-based human interaction recognition[J].PatternRecognition,2021,115:107920.
发明内容
针对上述问题,本发明提出一种基于时空图卷积的人体交互行为识别方法,通过时间交互模块和空间交互模块能有效地填补交互时空关系构建方面的空白,并且有较低参数量和计算量的优势。
所述人体交互行为识别方法,具体步骤如下:
步骤一、用深度摄像机录制时间T内的双人交互视频作为待识别样本,并直接提取人体骨骼关键点三维坐标数据;
要求整段视频中仅含一种交互行为,并自始至终仅包含两个人,两个人整个身体清晰可见。
步骤二、将骨骼关键点三维坐标数据规整成形如1×M×C×T×V的张量;
其中M=2代表人体的数量,C=3为空间坐标数据的X,Y,Z三个维度,T代表视频的长度,V=25代表人体骨骼关键点的数量;
步骤三、初始化时空交互图卷积网络,并输入数据张量,推理得到交互行为的类别号label;
时空交互图卷积网络由归一化层、6层结构相同的子网络层以及附加的全连接层顺序堆叠而成;
推理的过程具体为:
步骤301、输入数据张量
Figure BDA0003528454050000031
经过归一化层在M×C×V维度上完成归一化,归一化前后张量形状不改变。
步骤302、将归一化后的张量分成两个分支,对应交互的两人,分别为:
X1=X[:,0,:,:]
X2=X[:,1,:,:]
其中X1,
Figure BDA0003528454050000032
分别代表两个人的数据,二者形状完全相同。X[:,0,:,:]表示取张量X第1维度中下标为0的所有值的操作,同理X[:,1,:,:]表示取张量X第1维度中下标为1的所有值的操作。
步骤303、将两人数据X1和X2同时送入6层时空图卷积子网络层中的当前层;
每一个子网络层由两个单人特征提取模块和一个交互特征关联模块组成;单人特征提取模块均包含空间图卷积模块GCN和时间卷积模块TCN;当前层初始为第一层;
首先,将两人数据X1和X2分别送入到两个单人特征提取模块中,各自经过GCN的空间图卷积操作处理后输出的张量特征分别为Y1和Y2
表示为:
Figure BDA0003528454050000033
Figure BDA0003528454050000034
其中Y1,
Figure BDA0003528454050000035
为输出的张量特征,C′为经过空间图卷积之后的通道维度数量;ReLu代表线性整流激活函数;BN代表批量归一化函数;
Figure BDA0003528454050000036
为归一化之后的单人邻接矩阵,A∈{0,1}V×V是用来描述单人人体骨骼关键点之间的连接关系矩阵;D是单人邻接矩阵A的度矩阵;
Figure BDA0003528454050000037
是动态邻接矩阵;W1,
Figure BDA0003528454050000038
分别是对数据X1进行两次1*1二维卷积操作的不同卷积权重,同理W3,
Figure BDA0003528454050000039
分别是对数据X2进行两次1*1二维卷积操作的不同卷积权重;
然后,将输出的张量特征Y1和Y2分别送入各自的TCN中,进行时间卷积操作分别输出特征Z1和Z2
表示为:
Z1=ReLu(BN(Y1W5))
Z2=ReLu(BN(Y2W6))
其中Z1,
Figure BDA0003528454050000041
为输出特征,其中T′=T/s,s为步长,W5和W6分别代表两个不同的9*1二维卷积操作的卷积权重;
最后,将输出特征Z1和Z2一同输入交互特征关联模块进行时空特征关联;
具体为:
首先,使用S函数对输入特征Z1和Z2进行采样率为r的降采样池化操作,池化输出张量S1,
Figure BDA0003528454050000042
表示为:
S1=S(Z1),S2=S(Z2)
然后,应用DTW算法计算输出特征Z1和Z2的关联矩阵M2→1∈{0,1}τ×τ
M2→1=DTW(mean(S1)),mean(S2))
mean函数代表对特征在通道维度(C)和空间维度(V)上进行归一化压缩,压缩之后的张量形状为1×τ,即仅保留时间维度特征;
对于关联矩阵M2→1中的元素mi,j(i,j=0,1,...,τ-1),当且仅当Z2 i和Z1 j存在关联时mi,j=1,否则mi,j=0。
接着,张量S2与关联矩阵M2→1相乘完成与张量S1在时间维度上的对齐;
表示为:
S2′=S2M2→1
最后,将对齐之后的特征在空间维度上拼接,进行双人特征的空间图卷积操作,输出图卷积特征Q;
表示为:
P=Concat(S1,S2′)
Figure BDA0003528454050000043
拼接函数Concat表示将S1和S2′在第3维度上顺次拼接,拼接输出
Figure BDA0003528454050000044
双人空间图卷积使用的是归一化之后的交互邻接矩阵
Figure BDA0003528454050000045
DI是度矩阵,AI∈{0,1}2V×2V用于描述交互骨骼关键点的连接关系;
Figure BDA0003528454050000046
为双人特征空间图卷积的卷积权重,使用1*1的二维卷积实现,输出
Figure BDA0003528454050000047
交互邻接矩阵AI的构造过程表示为:
Figure BDA0003528454050000048
A12描述两个人体之间骨骼关键点的连接关系,包含对称连接和镜像连接两个部分,对称连接为归属于两个人体的相同编号的骨骼关键点建立的连接,而镜像连接为两个人体有镜像关系的骨骼关键点之间建立起连接。
对上述图卷积的输出特征Q在空间维度拆分之后得到两个相同形状的张量,分别经过线性整流函数ReLu和批量归一化函数BN之后作为交互特征关联模块的最终输出Q1和Q2,表示为:
Q1=ReLu(BN(Q[:,:,:,0]))
Q2=ReLu(BN(Q[:,:,:,1]))
其中Q1,
Figure BDA0003528454050000051
Q[:,:,:,0]表示取张量Q的第3维度中下标为0的所有值的操作,同理Q[:,:,:,1]表示取张量Q的第3维度中下标为1的所有值的操作。
步骤304、返回步骤303,将输出的两分量特征Q1和Q2分别作为两人的对应数据,送入到6层时空图卷积子网络层的下一层中;
步骤305、重复直至完成6层的处理,最后得到的两分量分别记为R1,
Figure BDA0003528454050000052
Cout表示输出的通道维度第1维度的大小;
Tout表示输出的时间维度第2维度的大小;
步骤306、将两分量R1,R2对时间维度和空间维度进行归一化处理得到
Figure BDA0003528454050000053
并在通道维度处拼接,依次经过全连接层、Softmax层得到推理结果;
表示为:
Figure BDA0003528454050000054
Figure BDA0003528454050000055
其中FC代表全连接层,Softmax代表Softmax层处理;
Figure BDA0003528454050000056
为推理结果,γ是行为类别数量;
步骤307、推理结果即为对当前输入所有可能的行为分类结果的置信度排列,找到置信度最大值所对应的行为类别标号,即为时空交互图卷积网络输出的最终结果label;
表示成:
label=argmax(R)
步骤四、使用类别号label作为键查询NTU-RGB+D 120数据集中所有类别号-行为类别名称所组成的哈希表,查询得到行为类别名称;
本发明的优点在于:
(1)一种基于时空图卷积的人体交互行为识别方法,使用DTW(Dynamic TimeWrapping)算法计算出两个人的动作信息在时间维度的关联关系,进而完成动作信息在时间维度的对齐融合,能够在较低运算复杂度的情况下填补现有工作中未考虑时间特征关联的空白;
(2)一种基于时空图卷积的人体交互行为识别方法,使用所提出的双人交互图完成空间图卷积。结合DTW算法共同完成双人交互动作信息的时空关联,从而有效提高交互特征的聚合效率,提升识别准确率。
附图说明
图1为本发明一种基于时空图卷积的人体交互行为识别方法的总体步骤流程图;
图2为本发明所述的时空交互图卷积网络结构图;
图3为本发明单个时空图卷积子网络层结构图;
图4为本发明单人特征提取模块结构图;
图5为本发明单人骨骼关键点连接关系示意图;
图6为本发明交互特征关联模块结构图。
具体实施方式
下面将结合附图和实例对本发明作进一步的详细说明。
本发明提供了一种基于时空图卷积的人体交互行为识别方法,人体交互行为识别属于修剪视频识别的一个子类,即对一段经过修剪的、其中只包含一种类型的两个人交互动作的视频进行分析,识别其所属的动作类别。
如图1所示,所述人体交互行为识别方法,具体步骤如下:
步骤一、用深度摄像机录制时间T内的双人交互视频作为待识别样本,并直接提取人体骨骼关键点三维坐标数据;
所述深度摄像机选用Kinect相机,要求整段视频中仅含一种交互行为,并自始至终仅包含两个人,两个人整个身体清晰可见。
步骤二、将骨骼关键点三维坐标数据规整成形如1×M×C×T×V的张量;
其中M=2代表人体的数量,C=3为空间坐标数据的X,Y,Z三个维度,T代表视频的长度,V=25代表人体骨骼关键点的数量;
步骤三、初始化时空交互图卷积网络,并载入预先训练完成的网络参数权重,输入数据张量,经过推理得到交互行为的类别号label;
如图2所示,时空交互图卷积网络由归一化层、6层结构相同的子网络层以及附加的全连接层顺序堆叠而成;其中“*6”表示核心处理部分由6层相同结构的时空交互图卷积层堆叠而成,重复的网络层使用“……”来简化表示;
推理的过程具体为:
步骤301、输入数据张量
Figure BDA0003528454050000061
经过一维批量归一化层(BatchNormalization Layer)在M×C×V维度上完成归一化,归一化前后张量形状不改变。
原始数据
Figure BDA0003528454050000062
即时间T内的两个人交互过程中的人体骨骼关键点三维坐标序列;
步骤302、将归一化后的张量在第1维度根据所属人的不同分成两个分支,对应交互的两人,分别为:
X1=X[:,0,:,:]
X2=X[:,1,:,:]
其中X1,
Figure BDA0003528454050000071
分别代表两个人的数据,二者形状完全相同。X[:,0,:,:]表示取张量X第1维度中下标为0的所有值的操作,同理X[:,1,:,:]表示取张量X第1维度中下标为1的所有值的操作。
步骤303、将两人数据X1和X2同时送入6层时空图卷积子网络层中的当前层;
每一个子网络层由两个单人特征提取模块和一个交互特征关联模块组成;单人特征提取模块均包含空间图卷积模块GCN和时间卷积模块TCN;当前层初始为第一层;
如图3所示,特征张量的流向为:第一层的单个时空图卷积子网络层接收的输入特征为X1和X2,二者分别经过两个相同的单人特征提取模块完成处理分别输出Z1和Z2,二者再共同输入到交互特征关联模块中进行进一步操作,该模块输出Q1和Q2作为整个层的输出再输入到第二层的时空图卷积子网络层结构中,依此类推,最终得到当前输入的交互行为的最终类别号label;
具体为:
首先,将两人数据X1和X2分别送入到两个单人特征提取模块中,各自经过GCN的空间图卷积操作处理后输出的张量特征分别为Y1和Y2
如图4所示,图中用虚线将整体划分为两个大模块,内部的小方框表示各个小模块,方框中的文字表示模块的名称,其中“1*1卷积”表示卷积核形状为1*1的二维卷积操作模块,同理“9*1卷积”表示卷积核形状为9*1的二维卷积操作模块,BN表示批量归一化操作模块,ReLu表示ReLu激活函数模块;带方框的
Figure BDA0003528454050000072
和B分别表示归一化后的单人邻接矩阵和由网络自动学习的动态邻接矩阵;
Figure BDA0003528454050000073
符号分表表示张量相加和张量相乘操作;箭头指示数据流向,箭头旁的符号代表各个阶段的特征,整个单人特征提取模块的输入为X,先进入到空间图卷积模块中,在该模块中,X分为两路,其中一路直接经过1*1卷积,另一路完成图卷积操作(与
Figure BDA0003528454050000074
进行矢量相乘之后在进行1*1卷积),两路操作的结果张量相加之后经过批量归一化和ReLu激活函数得到空间图卷积模块的输出Y,再经过9*1卷积后经过批量归一化和ReLu函数完成时间卷积操作,输出的结果Z即为整个单人特征提取模块的输出。
其沿用了ST-GCN的子网络层设计,即包含一个空间图卷积模块(GCN)和时间卷积模块(TCN),空间图卷积操作表示为:
表示为:
Figure BDA0003528454050000075
Figure BDA0003528454050000081
其中Y1,
Figure BDA0003528454050000082
为输出的张量特征,C′为经过空间图卷积之后的通道维度数量;ReLu代表线性整流激活函数;BN代表批量归一化函数;
Figure BDA0003528454050000083
为归一化之后的单人邻接矩阵A,A∈{0,1}V×V是用来描述单人人体骨骼关键点之间的连接关系矩阵;如图5所示,为人体骨架连接结构,使用带数字的圆圈表示人体骨骼关键点,圆圈之间的连线代表骨骼,圆圈中的数字为骨骼关键点的序号,从1号到25号共包含25个人体骨骼关键点。
对于节点i,j=0,1,...,V-1当且仅当两点之间有连接(包括节点自身和自身的连接)时,邻接矩阵对应位置元素αi,j=1,否则αi,j=0;
D是单人邻接矩阵A的度矩阵;
Figure BDA0003528454050000084
是动态邻接矩阵,该部分由数据驱动网络自适应调整值的大小;W1,
Figure BDA0003528454050000085
分别是对数据X1进行两次1*1二维卷积操作的不同卷积权重,同理W3,
Figure BDA0003528454050000086
分别是对数据X2进行两次1*1二维卷积操作的不同卷积权重;
然后,将输出的张量特征Y1和Y2分别送入各自的TCN中,进行时间卷积操作分别输出特征Z1和Z2
表示为:
Z1=ReLu(BN(Y1W5))
Z2=ReLu(BN(Y2W6))
其中Z1,
Figure BDA0003528454050000087
为输出特征,其中T′=T/s,s为步长,s取值为1或2;W5和W6分别代表两个不同的9*1二维卷积操作的卷积权重;
最后,将输出特征Z1和Z2一同输入交互特征关联模块进行时空特征关联;
如图6所示,展示了交互特征关联模块的内部结构,整个模块分为时间特征关联模块和空间特征关联模块两个部分,各个小方框代表执行的操作,方框中的文字为执行的操作内容,1*1卷积代表卷积核形状为1*1的二维卷积操作,
Figure BDA0003528454050000088
代表张量相乘操作;箭头指示数据流动方向;Z1和Z2同时输入到交互特征关联模块中,首先完成时间特征关联,二者分别经过相同的降采样池化输出S1和S2,再经过通道空间特征归一化之后使用DTW算法计算得到二者的关联矩阵M2→1,其后M2→1与S2张量相乘之后在空间特征关联模块的头部与S1完成两张量在空间维度上的拼接得到P,P与归一化后的交互邻接矩阵
Figure BDA0003528454050000089
进行张量相乘后通过1*1卷积完成图卷积,重新规整形状得到Q,再将其沿着空间维度分离成两个相同形状的张量后分别经过批量归一化和ReLu激活函数作用后得到交互特征关联模块的最终输出Q1和Q2
具体为:
首先,使用S函数对输入特征Z1和Z2进行采样率为r的降采样池化操作,池化输出张量S1,
Figure BDA00035284540500000810
表示为:
S1=S(Z1),S2=S(Z2)
然后,应用DTW算法计算输出特征Z1和Z2的关联矩阵M2→1∈{0,1}τ×τ
M2→1=DTW(mean(S1)),mean(S2))
mean函数代表对特征在通道维度(C)和空间维度(V)上进行归一化压缩,压缩之后的张量形状为1×τ,即仅保留时间维度特征;
DTW代表使用DTW算法找到两张量在时间维度上的关联关系,DTW算法本身是一种衡量两时间序列相似度的方法,广泛用于语音识别领域,本申请中为了减少DTW算法的计算复杂度,采用曼哈顿距离作为DTW的距离度量;M2→1∈{0,1}τ×τ为DTW算法生成的关联矩阵,对于该矩阵中的元素mi,j(i,j=0,1,...,τ-1),当且仅当Z2 i和Z1 j存在关联时mi,j=1,否则mi,j=0。
接着,张量S2与关联矩阵M2→1相乘完成与张量S1在时间维度上的对齐;
表示为:
S2′=S2M2→1
最后,将对齐之后的特征在空间维度上拼接,进行双人特征的空间图卷积操作,输出图卷积特征Q;
表示为:
P=Concat(S1,S2′)
Figure BDA0003528454050000091
拼接函数Concat表示将S1和S2′在第3维度上顺次拼接,拼接输出
Figure BDA0003528454050000092
双人空间图卷积类似于单人空间图卷积,区别仅在于使用的是归一化之后的交互邻接矩阵
Figure BDA0003528454050000093
DI是度矩阵,AI∈{0,1}2V×2V用于描述交互骨骼关键点的连接关系;
Figure BDA0003528454050000094
为双人特征空间图卷积的卷积权重,使用1*1的二维卷积实现,注意这里的r即为之前时间关联操作前的进行降采样操作的采样率,特征P与
Figure BDA0003528454050000095
矩阵相乘之后经过二维卷积后完成了通道维度扩增,其后再进行Reshape操作,其目的是将通道维度的扩增填补到时间维度,以此来保证交互特征关联模块的输入输出张量的形状一致,输出
Figure BDA0003528454050000096
交互邻接矩阵AI的构造过程表示为:
Figure BDA0003528454050000097
AI是一个分块矩阵,由四个矩阵拼接组成,A为前述单人邻接矩阵,A12描述两个人体之间骨骼关键点的连接关系,包含对称连接和镜像连接两个部分,对称连接为归属于两个人体的相同编号的骨骼关键点建立的连接,而镜像连接为两个人体有镜像关系的骨骼关键点之间建立起连接;如此连接方式的设计依据是考虑到了两人进行交互行为时具有对称性和镜像性的特点。
对称连接中两个人体具有相同编号的骨骼关键点对应相连,而镜像连接中除了人体躯干部分的骨骼关键点对应相连之外,其他骨骼关键点(四肢部分)之间的连接呈现左右镜像关系。假设将两人体分别记为人体a和人体b,使用“ax-by”表示人体a的关键点x和人体b的关键点y建立连接,结合图5说明两种连接关系,则对称连接下建立所有的连接包括:a1-b1、a2-b2、……a24-b24、a25-b25;镜像连接下建立所有的连接为:a1-b1、a2-b2、a3-b3、a4-b4、a21-b21、a5-b9、a9-b5、a6-b10、a10-b6、a11-b7、a7-b11、a12-b8、a8-b12、a25-b23、a23-b25、a24-b22、a22-b24、a17-b13、a13-b17、a18-b14、a14-b18、a19-b15、a15-b19、a20-b16、a16-b20。
对上述图卷积的输出特征Q在空间维度拆分之后得到两个相同形状的张量,分别经过线性整流函数ReLu和批量归一化函数BN之后作为交互特征关联模块的最终输出Q1和Q2,表示为:
Q1=ReLu(BN(Q[:,:,:,0]))
Q2=ReLu(BN(Q[:,:,:,1]))
其中Q1,
Figure BDA0003528454050000101
Q[:,:,:,0]表示取张量Q的第3维度中下标为0的所有值的操作,同理Q[:,:,:,1]表示取张量Q的第3维度中下标为1的所有值的操作。
至此完成了本子网络层对输入特征的单人特征提取以及交互特征关联。
步骤304、返回步骤303,将输出的两分量特征Q1和Q2分别作为两人的对应数据,送入到6层时空图卷积子网络层的下一层中;
步骤305、重复直至完成6层的处理,最后得到的两分量分别记为R1,
Figure BDA0003528454050000102
Cout表示输出的通道维度第1维度的大小;
Tout表示输出的时间维度第2维度的大小;
步骤306、将两分量R1,R2对时间维度和空间维度进行归一化处理得到
Figure BDA0003528454050000103
并在第1维度(通道维度)处拼接,依次经过全连接层FC和Softmax层得到推理结果;
表示为:
Figure BDA0003528454050000104
Figure BDA0003528454050000105
其中FC代表全连接层,Softmax代表Softmax层处理;
Figure BDA0003528454050000106
为推理结果,γ是行为类别数量;
步骤307、推理结果即为对当前输入所有可能的交互行为分类结果的置信度排列,找到置信度最大值所对应的行为类别标号,即为时空交互图卷积网络输出的最终类别号label;
表示成:
label=argmax(R)
其中argmax代表求最大值的自变量取值的函数;
实际实现时,各个子网络层的参数设置不相同,参数设置情况如表1所示。网络最后的全连接层输入通道数量设置为512,输出通道数量设置为γ。
表1
Figure BDA0003528454050000111
步骤四、使用类别号label作为键查询NTU-RGB+D 120数据集中所有类别号-行为类别名称所组成的哈希表,查询得到行为类别名称。

Claims (4)

1.一种基于时空图卷积的人体交互行为识别方法,其特征在于,具体步骤如下:
首先,用深度摄像机录制时间T内的双人交互视频作为待识别样本,并直接提取人体骨骼关键点三维坐标数据;将骨骼关键点三维坐标数据规整成形如1×M×C×T×V的张量;
其中M代表人体的数量,C为空间坐标数据的X,Y,Z三个维度,T代表视频的长度,V代表人体骨骼关键点的数量;
然后、初始化由归一化层、6层结构相同的子网络层以及附加的全连接层顺序堆叠而成的时空交互图卷积网络,并输入数据张量,推理得到交互行为的类别号label;
最后、使用类别号label作为键查询NTU-RGB+D 120数据集中所有类别号-行为类别名称所组成的哈希表,查询得到行为类别名称。
2.如权利要求1所述的一种基于时空图卷积的人体交互行为识别方法,其特征在于,所述双人交互视频,要求整段视频中仅含一种交互行为,并自始至终仅包含两个人,两个人整个身体清晰可见。
3.如权利要求1所述的一种基于时空图卷积的人体交互行为识别方法,其特征在于,所述时空交互图卷积网络的推理过程具体为:
步骤301、输入数据张量
Figure FDA0003528454040000011
经过归一化层在M×C×V维度上完成归一化,归一化前后张量形状不改变;
步骤302、将归一化后的张量分成两个分支,对应交互的两人,分别为:
X1=X[:,0,:,:]
X2=X[:,1,:,:]
其中
Figure FDA0003528454040000012
分别代表两个人的数据,二者形状完全相同;X[:,0,:,:]表示取张量X第1维度中下标为0的所有值的操作,同理X[:,1,:,:]表示取张量X第1维度中下标为1的所有值的操作;
步骤303、将两人数据X1和X2同时送入6层时空图卷积子网络层中的当前层;
每一个子网络层由两个单人特征提取模块和一个交互特征关联模块组成;单人特征提取模块均包含空间图卷积模块GCN和时间卷积模块TCN;当前层初始为第一层;
首先,将两人数据X1和X2分别送入到两个单人特征提取模块中,各自经过GCN的空间图卷积操作处理后输出的张量特征分别为Y1和Y2
表示为:
Figure FDA0003528454040000013
Figure FDA0003528454040000014
其中
Figure FDA0003528454040000015
为输出的张量特征,C′为经过空间图卷积之后的通道维度数量;ReLu代表线性整流激活函数;BN代表批量归一化函数;
Figure FDA0003528454040000016
为归一化之后的单人邻接矩阵,A∈{0,1}V×V是用来描述单人人体骨骼关键点之间的连接关系矩阵;D是单人邻接矩阵A的度矩阵;
Figure FDA0003528454040000021
是动态邻接矩阵;
Figure FDA0003528454040000022
分别是对数据X1进行两次1*1二维卷积操作的不同卷积权重,同理
Figure FDA0003528454040000023
分别是对数据X2进行两次1*1二维卷积操作的不同卷积权重;
然后,将输出的张量特征Y1和Y2分别送入各自的TCN中,进行时间卷积操作分别输出特征Z1和Z2
表示为:
Z1=ReLu(BN(Y1W5))
Z2=ReLu(BN(Y2W6))
其中
Figure FDA0003528454040000024
为输出特征,其中T′=T/s,s为步长,W5和W6分别代表两个不同的9*1二维卷积操作的卷积权重;
最后,将输出特征Z1和Z2一同输入交互特征关联模块进行时空特征关联;
具体为:
首先,使用S函数对输入特征Z1和Z2进行采样率为r的降采样池化操作,池化输出张量
Figure FDA0003528454040000025
表示为:
S1=S(Z1),S2=S(Z2)
然后,应用DTW算法计算输出特征Z1和Z2的关联矩阵M2→1∈{0,1}τ×τ
M2→1=DTW(mean(S1)),mean(S2))
mean函数代表对特征在通道维度(C)和空间维度(V)上进行归一化压缩,压缩之后的张量形状为1×τ,即仅保留时间维度特征;
对于关联矩阵M2→1中的元素mi,j(i,j=0,1,...,τ-1),当且仅当Z2 i和Z1 j存在关联时mi,j=1,否则mi,j=0;
接着,张量S2与关联矩阵M2→1相乘完成与张量S1在时间维度上的对齐;
表示为:
S2′=S2M2→1
最后,将对齐之后的特征在空间维度上拼接,进行双人特征的空间图卷积操作,输出图卷积特征Q;
表示为:
P=Concat(S1,S2′)
Figure FDA0003528454040000026
拼接函数Concat表示将S1和S2′在第3维度上顺次拼接,拼接输出
Figure FDA0003528454040000027
双人空间图卷积使用的是归一化之后的交互邻接矩阵
Figure FDA0003528454040000028
DI是度矩阵,AI∈{0,1}2V×2V用于描述交互骨骼关键点的连接关系;
Figure FDA0003528454040000031
为双人特征空间图卷积的卷积权重,使用1*1的二维卷积实现,输出
Figure FDA0003528454040000032
对上述图卷积的输出特征Q在空间维度拆分之后得到两个相同形状的张量,分别经过线性整流函数ReLu和批量归一化函数BN之后作为交互特征关联模块的最终输出Q1和Q2,表示为:
Q1=ReLu(BN(Q[:,:,:,0]))
Q2=ReLu(BN(Q[:,:,:,1]))
其中
Figure FDA0003528454040000033
Q[:,:,:,0]表示取张量Q的第3维度中下标为0的所有值的操作,同理Q[:,:,:,1]表示取张量Q的第3维度中下标为1的所有值的操作;
步骤304、返回步骤303,将输出的两分量特征Q1和Q2分别作为两人的对应数据,送入到6层时空图卷积子网络层的下一层中;
步骤305、重复直至完成6层的处理,最后得到的两分量分别记为
Figure FDA0003528454040000034
Cout表示输出的通道维度第1维度的大小;
Tout表示输出的时间维度第2维度的大小;
步骤306、将两分量R1,R2对时间维度和空间维度进行归一化处理得到
Figure FDA0003528454040000035
并在通道维度处拼接,依次经过全连接层、Softmax层得到推理结果;
表示为:
Figure FDA0003528454040000036
Figure FDA0003528454040000037
其中FC代表全连接层,Softmax代表Softmax层处理;
Figure FDA0003528454040000038
为推理结果,γ是行为类别数量;
步骤307、推理结果即为对当前输入所有可能的行为分类结果的置信度排列,找到置信度最大值所对应的行为类别标号,即为时空交互图卷积网络输出的最终结果label;
表示成:
label=argmax(R)
其中argmax代表求最大值的自变量取值的函数。
4.如权利要求3所述的一种基于时空图卷积的人体交互行为识别方法,其特征在于,所述步骤303中,交互邻接矩阵AI的构造过程表示为:
Figure FDA0003528454040000039
A12描述两个人体之间骨骼关键点的连接关系,包含对称连接和镜像连接两个部分,对称连接为归属于两个人体的相同编号的骨骼关键点建立的连接,而镜像连接为两个人体有镜像关系的骨骼关键点之间建立起连接。
CN202210199016.4A 2022-03-02 2022-03-02 一种基于时空图卷积的人体交互行为识别方法 Pending CN114694174A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210199016.4A CN114694174A (zh) 2022-03-02 2022-03-02 一种基于时空图卷积的人体交互行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210199016.4A CN114694174A (zh) 2022-03-02 2022-03-02 一种基于时空图卷积的人体交互行为识别方法

Publications (1)

Publication Number Publication Date
CN114694174A true CN114694174A (zh) 2022-07-01

Family

ID=82137571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210199016.4A Pending CN114694174A (zh) 2022-03-02 2022-03-02 一种基于时空图卷积的人体交互行为识别方法

Country Status (1)

Country Link
CN (1) CN114694174A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665308A (zh) * 2023-06-21 2023-08-29 石家庄铁道大学 双人交互时空特征提取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665308A (zh) * 2023-06-21 2023-08-29 石家庄铁道大学 双人交互时空特征提取方法
CN116665308B (zh) * 2023-06-21 2024-01-23 石家庄铁道大学 双人交互时空特征提取方法

Similar Documents

Publication Publication Date Title
CN108596039B (zh) 一种基于3d卷积神经网络的双模态情感识别方法及系统
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
CN108491880B (zh) 基于神经网络的物体分类和位姿估计方法
CN106951923B (zh) 一种基于多视角信息融合的机器人三维形状识别方法
CN110414432A (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
CN112801015B (zh) 一种基于注意力机制的多模态人脸识别方法
CN110728183A (zh) 一种基于注意力机制的神经网络的人体动作识别方法
CN113221663A (zh) 一种实时手语智能识别方法、装置及系统
CN111414875B (zh) 基于深度回归森林的三维点云头部姿态估计系统
CN110135277B (zh) 一种基于卷积神经网络的人体行为识别方法
CN113673510A (zh) 一种结合特征点和锚框共同预测和回归的目标检测算法
CN113743544A (zh) 一种跨模态神经网络构建方法、行人检索方法及系统
CN112016601A (zh) 基于知识图谱增强小样本视觉分类的网络模型构建方法
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
CN113128424A (zh) 基于注意力机制的图卷积神经网络动作识别方法
CN111401116B (zh) 基于增强卷积和空时lstm网络的双模态情感识别方法
John et al. Real-time hand posture and gesture-based touchless automotive user interface using deep learning
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN109508640A (zh) 一种人群情感分析方法、装置和存储介质
CN114694174A (zh) 一种基于时空图卷积的人体交互行为识别方法
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
CN112163447B (zh) 基于Attention和SqueezeNet的多任务实时手势检测和识别方法
CN116246338B (zh) 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN114863548B (zh) 基于人体运动姿态非线性空间特征的情绪识别方法及装置
CN112613405B (zh) 任意视角动作识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination