CN111931549A - 一种基于多任务非自回归解码的人体骨架的动作预测方法 - Google Patents

一种基于多任务非自回归解码的人体骨架的动作预测方法 Download PDF

Info

Publication number
CN111931549A
CN111931549A CN202010429280.3A CN202010429280A CN111931549A CN 111931549 A CN111931549 A CN 111931549A CN 202010429280 A CN202010429280 A CN 202010429280A CN 111931549 A CN111931549 A CN 111931549A
Authority
CN
China
Prior art keywords
skeleton
human body
human
network
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010429280.3A
Other languages
English (en)
Other versions
CN111931549B (zh
Inventor
李玺
李斌
田�健
张仲非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010429280.3A priority Critical patent/CN111931549B/zh
Publication of CN111931549A publication Critical patent/CN111931549A/zh
Application granted granted Critical
Publication of CN111931549B publication Critical patent/CN111931549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多任务非自回归解码的人体骨架的动作预测方法,用于人体3D骨架的动作预测问题。具体包括如下步骤:获取用于训练的人体3D骨骼关键点数据集,并定义算法目标;建立图卷积编码器,对输入的人体3D骨架进行特征学习,得到输入骨架的特征;建立分类器,对输入的人体3D骨架输入进行行为识别;建立非自回归解码器,预测未来时刻人体3D骨架;使用共享的图卷积编码器和分类器,对预测的人体3D骨架再进行行为识别;使用所述联合学习框架进行未来时刻的人体动作预测。本发明用于真实视频中的人体动作预测分析,面对各类复杂情况具有较佳的效果和鲁棒性。

Description

一种基于多任务非自回归解码的人体骨架的动作预测方法
技术领域
本发明属于计算机视觉领域,特别地涉及一种基于多任务非自回归解码的人体骨架的动作预测方法。
背景技术
基于人体骨架的动作预测问题被定义为如下问题:在包含多帧的一组人体骨骼关键点序列中,预测未来时刻的人体关键点序列。人体骨骼关键点常作为一些高层视觉任务的辅助信息,如人机交互,异常行为检测等。人体骨架动作预测的关键因素包括对于时序结构的建模。传统方法常使用自回归的解码方式,即后一帧的预测结果完全依赖于前一帧的预测结果,利用这种递归的方式对未来时刻进行预测,而没有考虑预测误差也会随非自回归解码过程进行传播这一事实。本发明提出了一种非自回归的解码方式,利用一种未知信息嵌入的特征以表征位置信息,学习到动作信息与位置信息的特定关联,打断了自回归方式中误差传播的路径,从而有效避免了预测误差在解码过程中的传播。
此外,本发明还探究了基于人体骨架的动作预测问题以及基于人体骨架的行为识别问题。由于两种任务的相似性较强,利用一种自监督的方式同时完成动作预测和行为识别,能够有效地提高二者的准确率。
由于统计建模的有效性,目前基于学习的方法逐渐被应用于基于人体骨架的动作预测任务中。现有的基于学习的方法主要采用深度学习框架,输入一组人体骨架序列,输出未来时刻对应的人体骨架序列。深度学习能够有效地解决特征表达的问题。
发明内容
为解决上述问题,本发明的目的在于基于多任务非自回归解码的人体动作预测方法。该方法基于深度神经网络,在解码过程中引入了位置信息嵌入,建模了动作信息和位置信息的关系,避免了预测误差在解码过程中的传播,从而使模型更具准确性和鲁棒性。此外,引入了与动作误测任务强关联的行为识别任务,利用自监督的学习方式同时完成动作预测和行为识别,能够有效地提高二者的准确率。
为实现上述目的,本发明的技术方案为:
基于多任务非自回归解码的人体骨架的动作预测方法,其包括以下步骤:
S1、获取用于训练的人体3D骨骼关键点数据集,并定义算法目标;
S2、建立图卷积编码器,对输入的人体3D骨架进行特征学习,得到输入骨架的特征;
S3、建立分类器,对输入的人体3D骨架输入进行行为识别;
S4、建立非自回归解码器,预测未来时刻人体3D骨架;
S5、使用共享的图卷积编码器和分类器,对预测的人体3D骨架再进行行为识别;
S6、使用S1~S5建立的联合学习框架进行未来时刻的人体动作预测。
基于上述方案,各步骤可以通过如下方式实现:
作为优选,步骤S1中,所述的用于训练的人体3D骨骼关键点数据集,包括给定的人体骨架关键点序列
Figure BDA0002499897930000031
其中
Figure BDA0002499897930000032
表示第t帧中第n个节点的3D信息,N为人体关节点总数,T1为给定序列帧数;还包括待预测的人体骨架关键点序列
Figure BDA0002499897930000033
其中
Figure BDA0002499897930000034
为待预测的第t帧中第n个节点的3D信息真值,T2为待预测序列帧数;
定义算法目标为:给定连续T1帧人体骨架序列作为输入,预测未来T2帧人体骨架序列的动作信息。
进一步的,步骤S2中,所述建立图卷积编码器,对输入的人体3D骨架进行特征学习,得到输入骨架的特征,具体包括:
S21、建立9层的图卷积编码网络,每一层加入LeakvReLU激活函数,且网络的每一层分别包含图卷积部分和时序卷积部分;图卷积部分所使用的图结构为数据集所定义的人体骨骼连接关系,时序卷积部分卷积核大小为9;利用该图卷积编码网络对给定的人体骨架输入
Figure BDA0002499897930000035
提取其高层语义特征c,公式表示为:
c=fenc(X;θenc)
其中,fenc()为图卷积编码网络,θenc为编码网络参数,X为人体骨架输入序列。
进一步的,步骤S3中,所述建立分类器,对输入的人体3D骨架输入进行行为识别,具体包括:
S31、建立3层的全连接网络作为行为识别分类网络,每一层加入LeakyReLU激活函数以及Dropout随机丢弃函数;在行为识别分类网络中,给定如S21所述的高层语义特征c,输出多类行为动作概率值p,公式表示为:
p=fcls(c;θcls)
其中,fcls()为行为识别分类网络,θcls为分类网络参数。
进一步的,步骤S4中,所述建立非自回归解码器,预测未来时刻人体3D骨架,具体包括:
S41、计算一系列位置编码嵌入
Figure BDA0002499897930000041
其中et为256维特征,表示第t帧的位置编码嵌入,公式表示为:
Figure BDA0002499897930000042
Figure BDA0002499897930000043
其中,
Figure BDA0002499897930000044
表示第t帧的位置编码嵌入的第j维;位置编码嵌入的偶数维
Figure BDA0002499897930000045
使用sin函数,奇数维
Figure BDA0002499897930000046
使用cos函数;α和β表示超参数,用来控制位置编码嵌入的形状;dmodel为256,表示位置编码嵌入的维度大小;
S42、将S21所述的高层语义特征c与S41所述的一系列位置编码嵌入分别相加,得到一系列编码了位置的高层语义特征
Figure BDA0002499897930000047
公式表示为:
ht=et+c,t=1,...,T2
S43、建立非自回归解码网络,每一层加入LeakvReLU激活函数,且网络的每一层分别包含图卷积部分和时序卷积部分;图卷积部分所使用的图结构为数据集所定义的人体骨骼连接关系,时序卷积部分卷积核大小为1;将S42所述的一系列编码了位置的高层语义特征
Figure BDA0002499897930000051
传入非自回归解码网络,得到预测的未来时刻人体3D骨骼关键点信息
Figure BDA0002499897930000052
公式表示为:
Figure BDA0002499897930000053
其中,
Figure BDA0002499897930000054
为未来时刻第t帧中第n个节点的3D信息预测值,fdec()为非自回归解码网络,θdec为非自回归解码网络参数。
进一步的,步骤S5中,所述使用共享的图卷积编码器和分类器,对预测的人体3D骨架再进行行为识别,具体包括:
S51、使用如S21所述的图卷积编码网络fenc()、如S31所述的行为识别分类网络fcls(),以S43所述的预测的未来时刻人体3D骨骼关键点信息
Figure BDA0002499897930000055
作为输入,输出多类行为动作概率值
Figure BDA0002499897930000059
公式表示为:
Figure BDA0002499897930000058
Figure BDA0002499897930000056
其中,
Figure BDA0002499897930000057
为基于网络预测值的高层语义特征,图卷积编码网络参数θenc和行为识别分类网络参数θcls均与S21和S31中的对应网络共享。
进一步的,步骤S6中,所述使用S1~S5建立的联合学习框架进行未来时刻的人体动作预测,具体包括:
基于由S1~S5建立的统一的端到端联合学习框架,采用组输入和组输出的方式,将多组骨架序列输入该联合学习框架中进行训练,所有的卷积参数θ通过最小化损失函数学习得到,其中总的损失函数采用交叉熵损失函数与L2范数损失函数之和;
设定
Figure BDA0002499897930000061
Figure BDA0002499897930000062
分别为给定
Figure BDA0002499897930000063
预测得到的概率值以及给定
Figure BDA0002499897930000064
预测得到的概率值,其中pi
Figure BDA0002499897930000065
分别为第i类输出动作的概率值,D为行为动作数目;
Figure BDA0002499897930000066
为真值的动作类别,以独热编码形式表示,gi为第i类输出动作的真值;则所述交叉熵损失函数为:
Figure BDA0002499897930000067
Figure BDA0002499897930000068
所述L2范数损失函数作用于预测的未来时刻人体3D骨骼关键点信息
Figure BDA0002499897930000069
以及真实的未来时刻人体3D骨骼关键点信息
Figure BDA00024998979300000610
其公式表达为:
Figure BDA00024998979300000611
总的损失函数为:
Figure BDA00024998979300000612
其中θ={θenc,θdec,θcls}为卷积参数;
使用Adam优化方法和反向传播算法在损失函数
Figure BDA00024998979300000613
下训练整个网络,利用训练完成的神经网络预测未来时刻人体3D骨架的动作信息。
本发明的基于多任务非自回归解码的人体动作预测方法,相比于现有的人体动作预测方法,具有以下有益效果:
首先,本发明的人体动作预测方法将解码过程中的自回归方式修改为非自回归方式,避免了传统方法中预测误差在递归过程中的传递,使算法更加鲁棒,可以有效地解决复杂场景下的动作预测问题。
其次,本发明提出了多任务学习算法,该方法引入了与原任务强相关的基于人体骨架的行为识别任务,利用自监督的方式,同时学习两种不同任务,获得了更好的特征表达,有效地提升了预测结果。
本发明的基于多任务非自回归解码的人体动作预测方法,在人体骨架动作预测中,能够有效地提高分析的准确率和效率,大大增加了视频视频动作预测的鲁棒性。例如,在背景近似的视频中,通过对人体骨骼关键点位置的追踪,能够大大提高预测的准确性,为后续分析提供多模态依据。
附图说明
图1为本发明的的流程示意图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,在本发明的较佳实施例中,一种基于多任务非自回归解码的人体动作预测方法,包括以下步骤:
S1、获取用于训练的人体3D骨骼关键点数据集,并定义算法目标。
在本步骤中,用于训练的人体3D骨骼关键点数据集,包括给定的人体骨架关键点序列
Figure BDA0002499897930000081
其中
Figure BDA0002499897930000082
表示第t帧中第n个节点的3D信息,3D信息使用四元数表示,n∈[1,N],t∈[1,T1],N为人体关节点总数,T1为给定序列帧数;还包括待预测的人体骨架关键点序列
Figure BDA0002499897930000083
其中
Figure BDA0002499897930000084
为待预测的第t帧中第n个节点的3D信息真值,n∈[1,N],t∈[1,T2],T2为待预测序列帧数;
定义算法目标为:给定连续T1帧人体骨架序列作为输入,预测未来T2帧人体骨架序列的动作信息。
S2、建立图卷积编码器,对输入的人体3D骨架进行特征学习,得到输入骨架的特征。本步骤的具体实现方法如下:
S21、建立9层的图卷积编码网络,每一层加入LeakyReLU激活函数,且网络的每一层分别包含图卷积部分和时序卷积部分;图卷积部分所使用的图结构为数据集所定义的人体骨骼连接关系,时序卷积部分卷积核大小为9;利用该图卷积编码网络对给定的人体骨架输入
Figure BDA0002499897930000085
提取其高层语义特征c,公式表示为:
c=fenc(X;θenc)
其中,fenc()为图卷积编码网络,θenc为编码网络参数,X为人体骨架输入序列。
S3、建立分类器,对输入的人体3D骨架输入进行行为识别。本步骤的具体实现方法如下:
S31、建立3层的全连接网络作为行为识别分类网络,每一层加入LeakyReLU激活函数以及Dropout随机丢弃函数;在行为识别分类网络中,给定如S21所述的高层语义特征c,输出多类行为动作概率值p,公式表示为:
p=fcls(c;θcls)
其中,fcls()为行为识别分类网络,θcls为分类网络参数。
S4、建立非自回归解码器,预测未来时刻人体3D骨架。本步骤的具体实现方法如下:
S41、计算一系列位置编码嵌入
Figure BDA0002499897930000091
其中et为256维特征,表示第t帧的位置编码嵌入,公式表示为:
Figure BDA0002499897930000092
Figure BDA0002499897930000093
其中,
Figure BDA0002499897930000094
表示第t帧的位置编码嵌入的第j维;位置编码嵌入的偶数维
Figure BDA0002499897930000095
使用sin函数,奇数维
Figure BDA0002499897930000096
使用cos函数;α和β表示超参数,用来控制位置编码嵌入的形状;dmodel为256,表示位置编码嵌入的维度大小;
S42、将S21所述的高层语义特征c与S41所述的一系列位置编码嵌入分别相加,得到一系列编码了位置的高层语义特征
Figure BDA0002499897930000101
公式表示为:
ht=et+c,t=1,...,T2
S43、建立非自回归解码网络,每一层加入LeakyReLU激活函数,且网络的每一层分别包含图卷积部分和时序卷积部分;图卷积部分所使用的图结构为数据集所定义的人体骨骼连接关系,时序卷积部分卷积核大小为1;将S42所述的一系列编码了位置的高层语义特征
Figure BDA0002499897930000102
传入非自回归解码网络,得到预测的未来时刻人体3D骨骼关键点信息
Figure BDA0002499897930000103
公式表示为:
Figure BDA0002499897930000104
其中,
Figure BDA0002499897930000105
为未来时刻第t帧中第n个节点的3D信息预测值,fdec()为非自回归解码网络,θdec为非自回归解码网络参数。
S5、使用共享的图卷积编码器和分类器,对预测的人体3D骨架再进行行为识别。本步骤的具体实现方法如下:
S51、使用如S21所述的图卷积编码网络fenc()、如S31所述的行为识别分类网络fcls(),以S43所述的预测的未来时刻人体3D骨骼关键点信息
Figure BDA0002499897930000106
作为输入,输出多类行为动作概率值
Figure BDA00024998979300001010
公式表示为:
Figure BDA0002499897930000107
Figure BDA0002499897930000108
其中,
Figure BDA0002499897930000109
为基于网络预测值的高层语义特征,图卷积编码网络参数θenc和行为识别分类网络参数θcls均与S21和S31中的对应网络共享。
S6、使用S1~S5建立的联合学习框架进行未来时刻的人体动作预测。本步骤的具体实现方法如下:
基于由S1~S5建立的统一的端到端联合学习框架,采用组输入和组输出的方式,将多组骨架序列输入该联合学习框架中进行训练,所有的卷积参数θ通过最小化损失函数学习得到,其中总的损失函数采用交叉熵损失函数与L2范数损失函数之和;
设定
Figure BDA0002499897930000111
Figure BDA0002499897930000112
分别为给定
Figure BDA0002499897930000113
预测得到的概率值以及给定
Figure BDA0002499897930000114
预测得到的概率值,其中pi
Figure BDA0002499897930000115
分别为第i类输出动作的概率值,D为行为动作数目;
Figure BDA0002499897930000116
为真值的动作类别,以独热编码形式表示,gi为第i类输出动作的真值;则所述交叉熵损失函数为:
Figure BDA0002499897930000117
Figure BDA0002499897930000118
所述L2范数损失函数作用于预测的未来时刻人体3D骨骼关键点信息
Figure BDA0002499897930000119
以及真实的未来时刻人体3D骨骼关键点信息
Figure BDA00024998979300001110
其公式表达为:
Figure BDA00024998979300001111
总的损失函数为:
Figure BDA0002499897930000121
其中θ={θenc,θdec,θcls}为卷积参数;
使用Adam优化方法和反向传播算法在损失函数
Figure BDA0002499897930000122
下训练整个网络,利用训练完成的神经网络预测未来时刻人体3D骨架的动作信息。
下面将上述方法应用于具体实施例中,以便本领域技术人员能够更好地理解本发明的效果。
实施例
本实施例的实现方法如前所述,不再详细阐述具体的步骤,下面仅针对案例数据展示其效果。本发明在两个具有真值标注的数据集上实施,分别为:
Human3.6M数据集:该数据集包含约3,600,000人体3D姿态,其中包含了约15个动作;
CMU Mocap数据集:该数据集包含约86,000人体3D姿态,其中包含约8个动作。
上述预测方法中,参数设置如下N=25,T1=50,T2=10~25。最终本实施例的方法(记为mNAT)在两个数据集上的结果如表1和2所示,表格中同时列出了部分现有技术中的做法的结果作为对比。
表1.本实施例在Human3.6M数据集上评价指标对比
Figure BDA0002499897930000131
表2.本实施例在CMU Mocap数据集上评价指标对比
Figure BDA0002499897930000132
上述表格中列出的现有技术的具体做法参见下列参考文献:
参考文献:
[8]Martinez,Julieta,Michael J.Black,and Javier Romero.″On humanmotion prediction using recurrent neural networks.″Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2017.
[9]Li,Chen,et a1.″Convolutional sequence to sequence model for humandynamics.″Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2018.
[16]Gui,Liang-Yan,et al.″Adversarial geometry-aware human motionprediction.″Proceedings of the European Conference on Computer Vision(ECCV).2018.
[10]Guo,Xiao,and Jongmoo Choi.″Human Motion Prediction via LearningLocal Structure Representations and Temporal Dependencies.″Proceedings of theAAAI Conference on Artificial Intelligence.V01.33.2019.
[13]Mao,Wei,et al.″Learning trajectory dependencies for human motionprediction.″Proceedings of the IEEE International Conference on ComputerVision.2019.
由此表明,通过以上技术方案,本发明基于深度学习技术提供了一种基于多任务非自回归解码的人体动作预测方法,该方法可以在各类人体骨架关键点序列中,以非自回归的方式预测未来信息,从而得到更加准确、鲁棒地预测结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于多任务非自回归解码的人体骨架的动作预测方法,其特征在于,包括以下步骤:
S1、获取用于训练的人体3D骨骼关键点数据集,并定义算法目标;
S2、建立图卷积编码器,对输入的人体3D骨架进行特征学习,得到输入骨架的特征;
S3、建立分类器,对输入的人体3D骨架输入进行行为识别;
S4、建立非自回归解码器,预测未来时刻人体3D骨架;
S5、使用共享的图卷积编码器和分类器,对预测的人体3D骨架再进行行为识别;
S6、使用S1~S5建立的联合学习框架进行未来时刻的人体动作预测。
2.如权利要求1所述的基于多任务非自回归解码的人体骨架的动作预测方法,其特征在于,步骤S1中,所述的用于训练的人体3D骨骼关键点数据集,包括给定的人体骨架关键点序列
Figure FDA0002499897920000011
其中
Figure FDA0002499897920000012
表示第t帧中第n个节点的3D信息,该3D信息使用四元数表示,N为人体关节点总数,T1为给定序列帧数;还包括待预测的人体骨架关键点序列
Figure FDA0002499897920000013
其中
Figure FDA0002499897920000014
为待预测的第t帧中第n个节点的3D信息真值,T2为待预测序列帧数;
定义算法目标为:给定连续T1帧人体骨架序列作为输入,预测未来T2帧人体骨架序列的动作信息。
3.如权利要求2所述的基于多任务非自回归解码的人体骨架的动作预测方法,其特征在于,步骤S2中,所述建立图卷积编码器,对输入的人体3D骨架进行特征学习,得到输入骨架的特征,具体包括:
S21、建立9层的图卷积编码网络,每一层加入LeakyReLU激活函数,且网络的每一层分别包含图卷积部分和时序卷积部分;图卷积部分所使用的图结构为数据集所定义的人体骨骼连接关系,时序卷积部分卷积核大小为9;利用该图卷积编码网络对给定的人体骨架输入
Figure FDA0002499897920000021
提取其高层语义特征c,公式表示为:
c=fenc(X;θenc)
其中,fenc()为图卷积编码网络,θenc为编码网络参数,X为人体骨架输入序列。
4.如权利要求3所述的基于多任务非自回归解码的人体骨架的动作预测方法,其特征在于,步骤S3中,所述建立分类器,对输入的人体3D骨架输入进行行为识别,具体包括:
S31、建立3层的全连接网络作为行为识别分类网络,每一层加入LeakyReLU激活函数以及Dropout随机丢弃函数;在行为识别分类网络中,给定如S21所述的高层语义特征c,输出多类行为动作概率值p,公式表示为:
p=fcls(c;θcls)
其中,fcls()为行为识别分类网络,θcls为分类网络参数。
5.如权利要求4所述的基于多任务非自回归解码的人体骨架的动作预测方法,其特征在于,步骤S4中,所述建立非自回归解码器,预测未来时刻人体3D骨架,具体包括:
S41、计算一系列位置编码嵌入
Figure FDA0002499897920000031
其中et为256维特征,表示第亡帧的位置编码嵌入,公式表示为:
Figure FDA0002499897920000032
Figure FDA0002499897920000033
其中,
Figure FDA0002499897920000034
表示第亡帧的位置编码嵌入的第j维;位置编码嵌入的偶数维
Figure FDA0002499897920000035
使用sin函数,奇数维
Figure FDA0002499897920000036
使用cos函数;α和β表示超参数,用来控制位置编码嵌入的形状;dmodel为256,表示位置编码嵌入的维度大小;
S42、将S21所述的高层语义特征c与S41所述的一系列位置编码嵌入分别相加,得到一系列编码了位置的高层语义特征
Figure FDA0002499897920000037
公式表示为:
ht=et+c,t=1,...,T2
S43、建立非自回归解码网络,每一层加入LeakyReLU激活函数,且网络的每一层分别包含图卷积部分和时序卷积部分;图卷积部分所使用的图结构为数据集所定义的人体骨骼连接关系,时序卷积部分卷积核大小为1;将S42所述的一系列编码了位置的高层语义特征
Figure FDA0002499897920000038
传入非自回归解码网络,得到预测的未来时刻人体3D骨骼关键点信息
Figure FDA0002499897920000039
公式表示为:
Figure FDA0002499897920000041
其中,
Figure FDA0002499897920000042
为未来时刻第t帧中第n个节点的3D信息预测值,fdec()为非自回归解码网络,θdec为非自回归解码网络参数。
6.如权利要求5所述的基于多任务非自回归解码的人体骨架的动作预测方法,其特征在于,步骤S5中,所述使用共享的图卷积编码器和分类器,对预测的人体3D骨架再进行行为识别,具体包括:
S51、使用如S21所述的图卷积编码网络fenc()、如S31所述的行为识别分类网络fcls(),以S43所述的预测的未来时刻人体3D骨骼关键点信息
Figure FDA0002499897920000043
作为输入,输出多类行为动作概率值
Figure FDA0002499897920000044
公式表示为:
Figure FDA0002499897920000045
Figure FDA0002499897920000046
其中,
Figure FDA0002499897920000047
为基于网络预测值的高层语义特征,图卷积编码网络参数θenc和行为识别分类网络参数θcls均与S21和S31中的对应网络共享。
7.如权利要求6所述的基于多任务非自回归解码的人体骨架的动作预测方法,其特征在于,步骤S6中,所述使用S1~S5建立的联合学习框架进行未来时刻的人体动作预测,具体包括:
基于由S1~S5建立的统一的端到端联合学习框架,采用组输入和组输出的方式,将多组骨架序列输入该联合学习框架中进行训练,所有的卷积参数θ通过最小化损失函数学习得到,其中总的损失函数采用交叉熵损失函数与L2范数损失函数之和;
设定
Figure FDA0002499897920000051
Figure FDA0002499897920000052
分别为给定
Figure FDA0002499897920000053
预测得到的概率值以及给定
Figure FDA0002499897920000054
预测得到的概率值,其中pi
Figure FDA0002499897920000055
分别为第i类输出动作的概率值,D为行为动作数目;
Figure FDA0002499897920000056
为真值的动作类别,以独热编码形式表示,gi为第i类输出动作的真值;则所述交叉熵损失函数为:
Figure FDA0002499897920000057
Figure FDA0002499897920000058
所述L2范数损失函数作用于预测的未来时刻人体3D骨骼关键点信息
Figure FDA0002499897920000059
以及真实的未来时刻人体3D骨骼关键点信息
Figure FDA00024998979200000510
其公式表达为:
Figure FDA00024998979200000511
总的损失函数为:
Figure FDA00024998979200000512
其中θ={θenc,θdec,θcls}为卷积参数;
使用Adam优化方法和反向传播算法在损失函数
Figure FDA00024998979200000513
下训练整个网络,利用训练完成的神经网络预测未来时刻人体3D骨架的动作信息。
CN202010429280.3A 2020-05-20 2020-05-20 一种基于多任务非自回归解码的人体骨架的动作预测方法 Active CN111931549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010429280.3A CN111931549B (zh) 2020-05-20 2020-05-20 一种基于多任务非自回归解码的人体骨架的动作预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010429280.3A CN111931549B (zh) 2020-05-20 2020-05-20 一种基于多任务非自回归解码的人体骨架的动作预测方法

Publications (2)

Publication Number Publication Date
CN111931549A true CN111931549A (zh) 2020-11-13
CN111931549B CN111931549B (zh) 2024-02-02

Family

ID=73316369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010429280.3A Active CN111931549B (zh) 2020-05-20 2020-05-20 一种基于多任务非自回归解码的人体骨架的动作预测方法

Country Status (1)

Country Link
CN (1) CN111931549B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418164A (zh) * 2020-12-07 2021-02-26 公安部昆明警犬基地 一种多任务学习网络对警犬动作进行动态识别的方法
CN112926517A (zh) * 2021-03-26 2021-06-08 北京航空航天大学 一种人工智能监控方法
CN113158861A (zh) * 2021-04-12 2021-07-23 杭州电子科技大学 一种基于原型对比学习的运动分析方法
WO2022226724A1 (en) * 2021-04-26 2022-11-03 Intel Corporation Method and system of image processing with multi-skeleton tracking

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN109492581A (zh) * 2018-11-09 2019-03-19 中国石油大学(华东) 一种基于tp-stg框架的人体动作识别方法
CN109858390A (zh) * 2019-01-10 2019-06-07 浙江大学 基于端到端时空图学习神经网络的人体骨架的行为识别方法
CN110135319A (zh) * 2019-05-09 2019-08-16 广州大学 一种异常行为检测方法及其系统
CN110188599A (zh) * 2019-04-12 2019-08-30 哈工大机器人义乌人工智能研究院 一种人体姿态行为智能分析识别方法
CN110222611A (zh) * 2019-05-27 2019-09-10 中国科学院自动化研究所 基于图卷积网络的人体骨架行为识别方法、系统、装置
CN110490035A (zh) * 2019-05-17 2019-11-22 上海交通大学 人体骨架动作识别方法、系统及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN109492581A (zh) * 2018-11-09 2019-03-19 中国石油大学(华东) 一种基于tp-stg框架的人体动作识别方法
CN109858390A (zh) * 2019-01-10 2019-06-07 浙江大学 基于端到端时空图学习神经网络的人体骨架的行为识别方法
CN110188599A (zh) * 2019-04-12 2019-08-30 哈工大机器人义乌人工智能研究院 一种人体姿态行为智能分析识别方法
CN110135319A (zh) * 2019-05-09 2019-08-16 广州大学 一种异常行为检测方法及其系统
CN110490035A (zh) * 2019-05-17 2019-11-22 上海交通大学 人体骨架动作识别方法、系统及介质
CN110222611A (zh) * 2019-05-27 2019-09-10 中国科学院自动化研究所 基于图卷积网络的人体骨架行为识别方法、系统、装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418164A (zh) * 2020-12-07 2021-02-26 公安部昆明警犬基地 一种多任务学习网络对警犬动作进行动态识别的方法
CN112926517A (zh) * 2021-03-26 2021-06-08 北京航空航天大学 一种人工智能监控方法
CN112926517B (zh) * 2021-03-26 2022-11-18 北京航空航天大学 一种人工智能监控方法
CN113158861A (zh) * 2021-04-12 2021-07-23 杭州电子科技大学 一种基于原型对比学习的运动分析方法
CN113158861B (zh) * 2021-04-12 2024-02-13 杭州电子科技大学 一种基于原型对比学习的运动分析方法
WO2022226724A1 (en) * 2021-04-26 2022-11-03 Intel Corporation Method and system of image processing with multi-skeleton tracking

Also Published As

Publication number Publication date
CN111931549B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
Li et al. Exploiting temporal contexts with strided transformer for 3d human pose estimation
Xu et al. Line segment detection using transformers without edges
Ma et al. TS-LSTM and temporal-inception: Exploiting spatiotemporal dynamics for activity recognition
Zhou et al. APNet: Adversarial learning assistance and perceived importance fusion network for all-day RGB-T salient object detection
CN111931549B (zh) 一种基于多任务非自回归解码的人体骨架的动作预测方法
Wang et al. Multi-person 3d motion prediction with multi-range transformers
Ke et al. Leveraging structural context models and ranking score fusion for human interaction prediction
CN111523378B (zh) 一种基于深度学习的人体行为预测方法
Yang et al. An improving faster-RCNN with multi-attention ResNet for small target detection in intelligent autonomous transport with 6G
CN111652357A (zh) 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
Yue et al. Action recognition based on RGB and skeleton data sets: A survey
Hu et al. Apanet: Auto-path aggregation for future instance segmentation prediction
Xu et al. Prediction-cgan: Human action prediction with conditional generative adversarial networks
Zhang et al. Knowledge integration networks for action recognition
Gogate et al. Real time emotion recognition and gender classification
Pramono et al. Relational reasoning for group activity recognition via self-attention augmented conditional random field
Zhu et al. Mlst-former: Multi-level spatial-temporal transformer for group activity recognition
Hu et al. Learning scene-aware spatio-temporal GNNs for few-shot early action prediction
Chen et al. Ambiguousness-aware state evolution for action prediction
Zhang et al. Cross-domain attention network for unsupervised domain adaptation crowd counting
Sheng et al. Contrastive predictive autoencoders for dynamic point cloud self-supervised learning
Chappa et al. SoGAR: Self-supervised Spatiotemporal Attention-based Social Group Activity Recognition
Ke et al. Spatial, structural and temporal feature learning for human interaction prediction
Ahmed et al. Two person interaction recognition based on effective hybrid learning
Schmeckpeper et al. Object-centric video prediction without annotation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant