CN111931549B - 一种基于多任务非自回归解码的人体骨架的动作预测方法 - Google Patents

一种基于多任务非自回归解码的人体骨架的动作预测方法 Download PDF

Info

Publication number
CN111931549B
CN111931549B CN202010429280.3A CN202010429280A CN111931549B CN 111931549 B CN111931549 B CN 111931549B CN 202010429280 A CN202010429280 A CN 202010429280A CN 111931549 B CN111931549 B CN 111931549B
Authority
CN
China
Prior art keywords
skeleton
human
network
human body
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010429280.3A
Other languages
English (en)
Other versions
CN111931549A (zh
Inventor
李玺
李斌
田�健
张仲非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010429280.3A priority Critical patent/CN111931549B/zh
Publication of CN111931549A publication Critical patent/CN111931549A/zh
Application granted granted Critical
Publication of CN111931549B publication Critical patent/CN111931549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多任务非自回归解码的人体骨架的动作预测方法,用于人体3D骨架的动作预测问题。具体包括如下步骤:获取用于训练的人体3D骨骼关键点数据集,并定义算法目标;建立图卷积编码器,对输入的人体3D骨架进行特征学习,得到输入骨架的特征;建立分类器,对输入的人体3D骨架输入进行行为识别;建立非自回归解码器,预测未来时刻人体3D骨架;使用共享的图卷积编码器和分类器,对预测的人体3D骨架再进行行为识别;使用所述联合学习框架进行未来时刻的人体动作预测。本发明用于真实视频中的人体动作预测分析,面对各类复杂情况具有较佳的效果和鲁棒性。

Description

一种基于多任务非自回归解码的人体骨架的动作预测方法
技术领域
本发明属于计算机视觉领域,特别地涉及一种基于多任务非自回归解码的人体骨架的动作预测方法。
背景技术
基于人体骨架的动作预测问题被定义为如下问题:在包含多帧的一组人体骨骼关键点序列中,预测未来时刻的人体关键点序列。人体骨骼关键点常作为一些高层视觉任务的辅助信息,如人机交互,异常行为检测等。人体骨架动作预测的关键因素包括对于时序结构的建模。传统方法常使用自回归的解码方式,即后一帧的预测结果完全依赖于前一帧的预测结果,利用这种递归的方式对未来时刻进行预测,而没有考虑预测误差也会随非自回归解码过程进行传播这一事实。本发明提出了一种非自回归的解码方式,利用一种未知信息嵌入的特征以表征位置信息,学习到动作信息与位置信息的特定关联,打断了自回归方式中误差传播的路径,从而有效避免了预测误差在解码过程中的传播。
此外,本发明还探究了基于人体骨架的动作预测问题以及基于人体骨架的行为识别问题。由于两种任务的相似性较强,利用一种自监督的方式同时完成动作预测和行为识别,能够有效地提高二者的准确率。
由于统计建模的有效性,目前基于学习的方法逐渐被应用于基于人体骨架的动作预测任务中。现有的基于学习的方法主要采用深度学习框架,输入一组人体骨架序列,输出未来时刻对应的人体骨架序列。深度学习能够有效地解决特征表达的问题。
发明内容
为解决上述问题,本发明的目的在于基于多任务非自回归解码的人体动作预测方法。该方法基于深度神经网络,在解码过程中引入了位置信息嵌入,建模了动作信息和位置信息的关系,避免了预测误差在解码过程中的传播,从而使模型更具准确性和鲁棒性。此外,引入了与动作误测任务强关联的行为识别任务,利用自监督的学习方式同时完成动作预测和行为识别,能够有效地提高二者的准确率。
为实现上述目的,本发明的技术方案为:
基于多任务非自回归解码的人体骨架的动作预测方法,其包括以下步骤:
S1、获取用于训练的人体3D骨骼关键点数据集,并定义算法目标;
S2、建立图卷积编码器,对输入的人体3D骨架进行特征学习,得到输入骨架的特征;
S3、建立分类器,对输入的人体3D骨架输入进行行为识别;
S4、建立非自回归解码器,预测未来时刻人体3D骨架;
S5、使用共享的图卷积编码器和分类器,对预测的人体3D骨架再进行行为识别;
S6、使用S1~S5建立的联合学习框架进行未来时刻的人体动作预测。
基于上述方案,各步骤可以通过如下方式实现:
作为优选,步骤S1中,所述的用于训练的人体3D骨骼关键点数据集,包括给定的人体骨架关键点序列其中/>表示第t帧中第n个节点的3D信息,N为人体关节点总数,T1为给定序列帧数;还包括待预测的人体骨架关键点序列/>其中/>为待预测的第t帧中第n个节点的3D信息真值,T2为待预测序列帧数;
定义算法目标为:给定连续T1帧人体骨架序列作为输入,预测未来T2帧人体骨架序列的动作信息。
进一步的,步骤S2中,所述建立图卷积编码器,对输入的人体3D骨架进行特征学习,得到输入骨架的特征,具体包括:
S21、建立9层的图卷积编码网络,每一层加入LeakvReLU激活函数,且网络的每一层分别包含图卷积部分和时序卷积部分;图卷积部分所使用的图结构为数据集所定义的人体骨骼连接关系,时序卷积部分卷积核大小为9;利用该图卷积编码网络对给定的人体骨架输入提取其高层语义特征c,公式表示为:
c=fenc(X;θenc)
其中,fenc()为图卷积编码网络,θenc为编码网络参数,X为人体骨架输入序列。
进一步的,步骤S3中,所述建立分类器,对输入的人体3D骨架输入进行行为识别,具体包括:
S31、建立3层的全连接网络作为行为识别分类网络,每一层加入LeakyReLU激活函数以及Dropout随机丢弃函数;在行为识别分类网络中,给定如S21所述的高层语义特征c,输出多类行为动作概率值p,公式表示为:
p=fcls(c;θcls)
其中,fcls()为行为识别分类网络,θcls为分类网络参数。
进一步的,步骤S4中,所述建立非自回归解码器,预测未来时刻人体3D骨架,具体包括:
S41、计算一系列位置编码嵌入其中et为256维特征,表示第t帧的位置编码嵌入,公式表示为:
其中,表示第t帧的位置编码嵌入的第j维;位置编码嵌入的偶数维/>使用sin函数,奇数维/>使用cos函数;α和β表示超参数,用来控制位置编码嵌入的形状;dmodel为256,表示位置编码嵌入的维度大小;
S42、将S21所述的高层语义特征c与S41所述的一系列位置编码嵌入分别相加,得到一系列编码了位置的高层语义特征公式表示为:
ht=et+c,t=1,...,T2
S43、建立非自回归解码网络,每一层加入LeakvReLU激活函数,且网络的每一层分别包含图卷积部分和时序卷积部分;图卷积部分所使用的图结构为数据集所定义的人体骨骼连接关系,时序卷积部分卷积核大小为1;将S42所述的一系列编码了位置的高层语义特征传入非自回归解码网络,得到预测的未来时刻人体3D骨骼关键点信息公式表示为:
其中,为未来时刻第t帧中第n个节点的3D信息预测值,fdec()为非自回归解码网络,θdec为非自回归解码网络参数。
进一步的,步骤S5中,所述使用共享的图卷积编码器和分类器,对预测的人体3D骨架再进行行为识别,具体包括:
S51、使用如S21所述的图卷积编码网络fenc()、如S31所述的行为识别分类网络fcls(),以S43所述的预测的未来时刻人体3D骨骼关键点信息作为输入,输出多类行为动作概率值/>公式表示为:
其中,为基于网络预测值的高层语义特征,图卷积编码网络参数θenc和行为识别分类网络参数θcls均与S21和S31中的对应网络共享。
进一步的,步骤S6中,所述使用S1~S5建立的联合学习框架进行未来时刻的人体动作预测,具体包括:
基于由S1~S5建立的统一的端到端联合学习框架,采用组输入和组输出的方式,将多组骨架序列输入该联合学习框架中进行训练,所有的卷积参数θ通过最小化损失函数学习得到,其中总的损失函数采用交叉熵损失函数与L2范数损失函数之和;
设定和/>分别为给定/>预测得到的概率值以及给定预测得到的概率值,其中pi和/>分别为第i类输出动作的概率值,D为行为动作数目;/>为真值的动作类别,以独热编码形式表示,gi为第i类输出动作的真值;则所述交叉熵损失函数为:
所述L2范数损失函数作用于预测的未来时刻人体3D骨骼关键点信息以及真实的未来时刻人体3D骨骼关键点信息/>其公式表达为:
总的损失函数为:
其中θ={θenc,θdec,θcls}为卷积参数;
使用Adam优化方法和反向传播算法在损失函数下训练整个网络,利用训练完成的神经网络预测未来时刻人体3D骨架的动作信息。
本发明的基于多任务非自回归解码的人体动作预测方法,相比于现有的人体动作预测方法,具有以下有益效果:
首先,本发明的人体动作预测方法将解码过程中的自回归方式修改为非自回归方式,避免了传统方法中预测误差在递归过程中的传递,使算法更加鲁棒,可以有效地解决复杂场景下的动作预测问题。
其次,本发明提出了多任务学习算法,该方法引入了与原任务强相关的基于人体骨架的行为识别任务,利用自监督的方式,同时学习两种不同任务,获得了更好的特征表达,有效地提升了预测结果。
本发明的基于多任务非自回归解码的人体动作预测方法,在人体骨架动作预测中,能够有效地提高分析的准确率和效率,大大增加了视频视频动作预测的鲁棒性。例如,在背景近似的视频中,通过对人体骨骼关键点位置的追踪,能够大大提高预测的准确性,为后续分析提供多模态依据。
附图说明
图1为本发明的的流程示意图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,在本发明的较佳实施例中,一种基于多任务非自回归解码的人体动作预测方法,包括以下步骤:
S1、获取用于训练的人体3D骨骼关键点数据集,并定义算法目标。
在本步骤中,用于训练的人体3D骨骼关键点数据集,包括给定的人体骨架关键点序列其中/>表示第t帧中第n个节点的3D信息,3D信息使用四元数表示,n∈[1,N],t∈[1,T1],N为人体关节点总数,T1为给定序列帧数;还包括待预测的人体骨架关键点序列/>其中/>为待预测的第t帧中第n个节点的3D信息真值,n∈[1,N],t∈[1,T2],T2为待预测序列帧数;
定义算法目标为:给定连续T1帧人体骨架序列作为输入,预测未来T2帧人体骨架序列的动作信息。
S2、建立图卷积编码器,对输入的人体3D骨架进行特征学习,得到输入骨架的特征。本步骤的具体实现方法如下:
S21、建立9层的图卷积编码网络,每一层加入LeakyReLU激活函数,且网络的每一层分别包含图卷积部分和时序卷积部分;图卷积部分所使用的图结构为数据集所定义的人体骨骼连接关系,时序卷积部分卷积核大小为9;利用该图卷积编码网络对给定的人体骨架输入提取其高层语义特征c,公式表示为:
c=fenc(X;θenc)
其中,fenc()为图卷积编码网络,θenc为编码网络参数,X为人体骨架输入序列。
S3、建立分类器,对输入的人体3D骨架输入进行行为识别。本步骤的具体实现方法如下:
S31、建立3层的全连接网络作为行为识别分类网络,每一层加入LeakyReLU激活函数以及Dropout随机丢弃函数;在行为识别分类网络中,给定如S21所述的高层语义特征c,输出多类行为动作概率值p,公式表示为:
p=fcls(c;θcls)
其中,fcls()为行为识别分类网络,θcls为分类网络参数。
S4、建立非自回归解码器,预测未来时刻人体3D骨架。本步骤的具体实现方法如下:
S41、计算一系列位置编码嵌入其中et为256维特征,表示第t帧的位置编码嵌入,公式表示为:
其中,表示第t帧的位置编码嵌入的第j维;位置编码嵌入的偶数维/>使用sin函数,奇数维/>使用cos函数;α和β表示超参数,用来控制位置编码嵌入的形状;dmodel为256,表示位置编码嵌入的维度大小;
S42、将S21所述的高层语义特征c与S41所述的一系列位置编码嵌入分别相加,得到一系列编码了位置的高层语义特征公式表示为:
ht=et+c,t=1,...,T2
S43、建立非自回归解码网络,每一层加入LeakyReLU激活函数,且网络的每一层分别包含图卷积部分和时序卷积部分;图卷积部分所使用的图结构为数据集所定义的人体骨骼连接关系,时序卷积部分卷积核大小为1;将S42所述的一系列编码了位置的高层语义特征传入非自回归解码网络,得到预测的未来时刻人体3D骨骼关键点信息公式表示为:
其中,为未来时刻第t帧中第n个节点的3D信息预测值,fdec()为非自回归解码网络,θdec为非自回归解码网络参数。
S5、使用共享的图卷积编码器和分类器,对预测的人体3D骨架再进行行为识别。本步骤的具体实现方法如下:
S51、使用如S21所述的图卷积编码网络fenc()、如S31所述的行为识别分类网络fcls(),以S43所述的预测的未来时刻人体3D骨骼关键点信息作为输入,输出多类行为动作概率值/>公式表示为:
其中,为基于网络预测值的高层语义特征,图卷积编码网络参数θenc和行为识别分类网络参数θcls均与S21和S31中的对应网络共享。
S6、使用S1~S5建立的联合学习框架进行未来时刻的人体动作预测。本步骤的具体实现方法如下:
基于由S1~S5建立的统一的端到端联合学习框架,采用组输入和组输出的方式,将多组骨架序列输入该联合学习框架中进行训练,所有的卷积参数θ通过最小化损失函数学习得到,其中总的损失函数采用交叉熵损失函数与L2范数损失函数之和;
设定和/>分别为给定/>预测得到的概率值以及给定预测得到的概率值,其中pi和/>分别为第i类输出动作的概率值,D为行为动作数目;/>为真值的动作类别,以独热编码形式表示,gi为第i类输出动作的真值;则所述交叉熵损失函数为:
所述L2范数损失函数作用于预测的未来时刻人体3D骨骼关键点信息以及真实的未来时刻人体3D骨骼关键点信息/>其公式表达为:
总的损失函数为:
其中θ={θenc,θdec,θcls}为卷积参数;
使用Adam优化方法和反向传播算法在损失函数下训练整个网络,利用训练完成的神经网络预测未来时刻人体3D骨架的动作信息。
下面将上述方法应用于具体实施例中,以便本领域技术人员能够更好地理解本发明的效果。
实施例
本实施例的实现方法如前所述,不再详细阐述具体的步骤,下面仅针对案例数据展示其效果。本发明在两个具有真值标注的数据集上实施,分别为:
Human3.6M数据集:该数据集包含约3,600,000人体3D姿态,其中包含了约15个动作;
CMU Mocap数据集:该数据集包含约86,000人体3D姿态,其中包含约8个动作。
上述预测方法中,参数设置如下N=25,T1=50,T2=10~25。最终本实施例的方法(记为mNAT)在两个数据集上的结果如表1和2所示,表格中同时列出了部分现有技术中的做法的结果作为对比。
表1.本实施例在Human3.6M数据集上评价指标对比
表2.本实施例在CMU Mocap数据集上评价指标对比
上述表格中列出的现有技术的具体做法参见下列参考文献:
参考文献:
[8]Martinez,Julieta,Michael J.Black,and Javier Romero.″On humanmotion prediction using recurrent neural networks.″Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2017.
[9]Li,Chen,et a1.″Convolutional sequence to sequence model for humandynamics.″Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2018.
[16]Gui,Liang-Yan,et al.″Adversarial geometry-aware human motionprediction.″Proceedings of the European Conference on Computer Vision(ECCV).2018.
[10]Guo,Xiao,and Jongmoo Choi.″Human Motion Prediction via LearningLocal Structure Representations and Temporal Dependencies.″Proceedings of theAAAI Conference on Artificial Intelligence.V01.33.2019.
[13]Mao,Wei,et al.″Learning trajectory dependencies for human motionprediction.″Proceedings of the IEEE International Conference on ComputerVision.2019.
由此表明,通过以上技术方案,本发明基于深度学习技术提供了一种基于多任务非自回归解码的人体动作预测方法,该方法可以在各类人体骨架关键点序列中,以非自回归的方式预测未来信息,从而得到更加准确、鲁棒地预测结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于多任务非自回归解码的人体骨架的动作预测方法,其特征在于,包括以下步骤:
S1、获取用于训练的人体3D骨骼关键点数据集,并定义算法目标;
S2、建立图卷积编码器,对输入的人体3D骨架进行特征学习,得到输入骨架的特征;
S3、建立分类器,对输入的人体3D骨架输入进行行为识别;
S4、建立非自回归解码器,预测未来时刻人体3D骨架;
S5、使用共享的图卷积编码器和分类器,对预测的人体3D骨架再进行行为识别;
S6、使用S1~S5建立的联合学习框架进行未来时刻的人体动作预测;
步骤S2中,所述建立图卷积编码器,对输入的人体3D骨架进行特征学习,得到输入骨架的特征,具体包括:
S21、建立9层的图卷积编码网络,每一层加入LeakyReLU激活函数,且网络的每一层分别包含图卷积部分和时序卷积部分;图卷积部分所使用的图结构为数据集所定义的人体骨骼连接关系,时序卷积部分卷积核大小为9;利用该图卷积编码网络对给定的人体骨架输入提取其高层语义特征c,公式表示为:
c=fenc(X;θenc)
其中,fenc()为图卷积编码网络,θenc为编码网络参数,X为人体骨架输入序列;
步骤S3中,所述建立分类器,对输入的人体3D骨架输入进行行为识别,具体包括:
S31、建立3层的全连接网络作为行为识别分类网络,每一层加入LeakyReLU激活函数以及Dropout随机丢弃函数;在行为识别分类网络中,给定如S21所述的高层语义特征c,输出多类行为动作概率值p,公式表示为:
p=fcls(c;θcls)
其中,fcls()为行为识别分类网络,θcls为分类网络参数;
步骤S4中,所述建立非自回归解码器,预测未来时刻人体3D骨架,具体包括:
S41、计算一系列位置编码嵌入其中et为256维特征,表示第t帧的位置编码嵌入,公式表示为:
其中,表示第t帧的位置编码嵌入的第j维;位置编码嵌入的偶数维/>使用sin函数,奇数维/>使用cos函数;α和β表示超参数,用来控制位置编码嵌入的形状;dmodel为256,表示位置编码嵌入的维度大小;
S42、将S21所述的高层语义特征c与S41所述的一系列位置编码嵌入分别相加,得到一系列编码了位置的高层语义特征公式表示为:
ht=et+c,t=1,…,T2
S43、建立非自回归解码网络,每一层加入LeakyReLU激活函数,且网络的每一层分别包含图卷积部分和时序卷积部分;图卷积部分所使用的图结构为数据集所定义的人体骨骼连接关系,时序卷积部分卷积核大小为1;将S42所述的一系列编码了位置的高层语义特征传入非自回归解码网络,得到预测的未来时刻人体3D骨骼关键点信息公式表示为:
其中,为未来时刻第t帧中第n个节点的3D信息预测值,fdec()为非自回归解码网络,θdec为非自回归解码网络参数。
2.如权利要求1所述的基于多任务非自回归解码的人体骨架的动作预测方法,其特征在于,步骤S1中,所述的用于训练的人体3D骨骼关键点数据集,包括给定的人体骨架关键点序列其中/>表示第t帧中第n个节点的3D信息,该3D信息使用四元数表示,N为人体关节点总数,T1为给定序列帧数;还包括待预测的人体骨架关键点序列其中/>为待预测的第t帧中第n个节点的3D信息真值,T2为待预测序列帧数;
定义算法目标为:给定连续T1帧人体骨架序列作为输入,预测未来T2帧人体骨架序列的动作信息。
3.如权利要求1所述的基于多任务非自回归解码的人体骨架的动作预测方法,其特征在于,步骤S5中,所述使用共享的图卷积编码器和分类器,对预测的人体3D骨架再进行行为识别,具体包括:
S51、使用如S21所述的图卷积编码网络fenc()、如S31所述的行为识别分类网络fcls(),以S43所述的预测的未来时刻人体3D骨骼关键点信息作为输入,输出多类行为动作概率值/>公式表示为:
其中,为基于网络预测值的高层语义特征,图卷积编码网络参数θenc和行为识别分类网络参数θcls均与S21和S31中的对应网络共享。
4.如权利要求3所述的基于多任务非自回归解码的人体骨架的动作预测方法,其特征在于,步骤S6中,所述使用S1~S5建立的联合学习框架进行未来时刻的人体动作预测,具体包括:
基于由S1~S5建立的统一的端到端联合学习框架,采用组输入和组输出的方式,将多组骨架序列输入该联合学习框架中进行训练,所有的卷积参数θ通过最小化损失函数学习得到,其中总的损失函数采用交叉熵损失函数与L2范数损失函数之和;
设定和/>分别为给定/>预测得到的概率值以及给定预测得到的概率值,其中pi和/>分别为第i类输出动作的概率值,D为行为动作数目;/>为真值的动作类别,以独热编码形式表示,gi为第i类输出动作的真值;则所述交叉熵损失函数为:
所述L2范数损失函数作用于预测的未来时刻人体3D骨骼关键点信息以及真实的未来时刻人体3D骨骼关键点信息/>其公式表达为:
总的损失函数为:
其中θ={θencdeccls}为卷积参数;
使用Adam优化方法和反向传播算法在损失函数下训练整个网络,利用训练完成的神经网络预测未来时刻人体3D骨架的动作信息。
CN202010429280.3A 2020-05-20 2020-05-20 一种基于多任务非自回归解码的人体骨架的动作预测方法 Active CN111931549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010429280.3A CN111931549B (zh) 2020-05-20 2020-05-20 一种基于多任务非自回归解码的人体骨架的动作预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010429280.3A CN111931549B (zh) 2020-05-20 2020-05-20 一种基于多任务非自回归解码的人体骨架的动作预测方法

Publications (2)

Publication Number Publication Date
CN111931549A CN111931549A (zh) 2020-11-13
CN111931549B true CN111931549B (zh) 2024-02-02

Family

ID=73316369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010429280.3A Active CN111931549B (zh) 2020-05-20 2020-05-20 一种基于多任务非自回归解码的人体骨架的动作预测方法

Country Status (1)

Country Link
CN (1) CN111931549B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418164A (zh) * 2020-12-07 2021-02-26 公安部昆明警犬基地 一种多任务学习网络对警犬动作进行动态识别的方法
CN112926517B (zh) * 2021-03-26 2022-11-18 北京航空航天大学 一种人工智能监控方法
CN113158861B (zh) * 2021-04-12 2024-02-13 杭州电子科技大学 一种基于原型对比学习的运动分析方法
WO2022226724A1 (en) * 2021-04-26 2022-11-03 Intel Corporation Method and system of image processing with multi-skeleton tracking

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN109492581A (zh) * 2018-11-09 2019-03-19 中国石油大学(华东) 一种基于tp-stg框架的人体动作识别方法
CN109858390A (zh) * 2019-01-10 2019-06-07 浙江大学 基于端到端时空图学习神经网络的人体骨架的行为识别方法
CN110135319A (zh) * 2019-05-09 2019-08-16 广州大学 一种异常行为检测方法及其系统
CN110188599A (zh) * 2019-04-12 2019-08-30 哈工大机器人义乌人工智能研究院 一种人体姿态行为智能分析识别方法
CN110222611A (zh) * 2019-05-27 2019-09-10 中国科学院自动化研究所 基于图卷积网络的人体骨架行为识别方法、系统、装置
CN110490035A (zh) * 2019-05-17 2019-11-22 上海交通大学 人体骨架动作识别方法、系统及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN109492581A (zh) * 2018-11-09 2019-03-19 中国石油大学(华东) 一种基于tp-stg框架的人体动作识别方法
CN109858390A (zh) * 2019-01-10 2019-06-07 浙江大学 基于端到端时空图学习神经网络的人体骨架的行为识别方法
CN110188599A (zh) * 2019-04-12 2019-08-30 哈工大机器人义乌人工智能研究院 一种人体姿态行为智能分析识别方法
CN110135319A (zh) * 2019-05-09 2019-08-16 广州大学 一种异常行为检测方法及其系统
CN110490035A (zh) * 2019-05-17 2019-11-22 上海交通大学 人体骨架动作识别方法、系统及介质
CN110222611A (zh) * 2019-05-27 2019-09-10 中国科学院自动化研究所 基于图卷积网络的人体骨架行为识别方法、系统、装置

Also Published As

Publication number Publication date
CN111931549A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN111931549B (zh) 一种基于多任务非自回归解码的人体骨架的动作预测方法
CN108388900B (zh) 基于多特征融合和时空注意力机制相结合的视频描述方法
Xu et al. Dual-stream recurrent neural network for video captioning
CN110210429B (zh) 一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法
CN109948475B (zh) 一种基于骨架特征和深度学习的人体动作识别方法
Dave et al. Predictive-corrective networks for action detection
Wang et al. Multi-person 3d motion prediction with multi-range transformers
CN111652357B (zh) 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
CN111523378B (zh) 一种基于深度学习的人体行为预测方法
Cheng et al. Motion-transformer: Self-supervised pre-training for skeleton-based action recognition
Yang et al. An improving faster-RCNN with multi-attention ResNet for small target detection in intelligent autonomous transport with 6G
CN113449801B (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
Yue et al. Action recognition based on RGB and skeleton data sets: A survey
CN111723667A (zh) 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置
Xu et al. Prediction-cgan: Human action prediction with conditional generative adversarial networks
CN115588237A (zh) 一种基于单目rgb图像的三维手部姿态估计方法
Dai et al. Ctrn: Class-temporal relational network for action detection
CN116129013A (zh) 一种生成虚拟人动画视频的方法、装置及存储介质
Ke et al. Spatial, structural and temporal feature learning for human interaction prediction
Chen et al. Multi-stage degradation homogenization for super-resolution of face images with extreme degradations
CN112131429A (zh) 一种基于深度预测编码网络的视频分类方法及系统
Wang et al. Single shot multibox detector with deconvolutional region magnification procedure
Ahmed et al. Two person interaction recognition based on effective hybrid learning
Chao et al. Video2mesh: 3D human pose and shape recovery by a temporal convolutional transformer network
Dastbaravardeh et al. Channel Attention-Based Approach with Autoencoder Network for Human Action Recognition in Low-Resolution Frames

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant