CN111931549B

CN111931549B - 一种基于多任务非自回归解码的人体骨架的动作预测方法

Info

Publication number: CN111931549B
Application number: CN202010429280.3A
Authority: CN
Inventors: 李玺; 李斌; 田�健; 张仲非
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2024-02-02
Anticipated expiration: 2040-05-20
Also published as: CN111931549A

Abstract

本发明公开了一种基于多任务非自回归解码的人体骨架的动作预测方法，用于人体3D骨架的动作预测问题。具体包括如下步骤：获取用于训练的人体3D骨骼关键点数据集，并定义算法目标；建立图卷积编码器，对输入的人体3D骨架进行特征学习，得到输入骨架的特征；建立分类器，对输入的人体3D骨架输入进行行为识别；建立非自回归解码器，预测未来时刻人体3D骨架；使用共享的图卷积编码器和分类器，对预测的人体3D骨架再进行行为识别；使用所述联合学习框架进行未来时刻的人体动作预测。本发明用于真实视频中的人体动作预测分析，面对各类复杂情况具有较佳的效果和鲁棒性。

Description

一种基于多任务非自回归解码的人体骨架的动作预测方法

技术领域

本发明属于计算机视觉领域，特别地涉及一种基于多任务非自回归解码的人体骨架的动作预测方法。

背景技术

基于人体骨架的动作预测问题被定义为如下问题：在包含多帧的一组人体骨骼关键点序列中，预测未来时刻的人体关键点序列。人体骨骼关键点常作为一些高层视觉任务的辅助信息，如人机交互，异常行为检测等。人体骨架动作预测的关键因素包括对于时序结构的建模。传统方法常使用自回归的解码方式，即后一帧的预测结果完全依赖于前一帧的预测结果，利用这种递归的方式对未来时刻进行预测，而没有考虑预测误差也会随非自回归解码过程进行传播这一事实。本发明提出了一种非自回归的解码方式，利用一种未知信息嵌入的特征以表征位置信息，学习到动作信息与位置信息的特定关联，打断了自回归方式中误差传播的路径，从而有效避免了预测误差在解码过程中的传播。

此外，本发明还探究了基于人体骨架的动作预测问题以及基于人体骨架的行为识别问题。由于两种任务的相似性较强，利用一种自监督的方式同时完成动作预测和行为识别，能够有效地提高二者的准确率。

由于统计建模的有效性，目前基于学习的方法逐渐被应用于基于人体骨架的动作预测任务中。现有的基于学习的方法主要采用深度学习框架，输入一组人体骨架序列，输出未来时刻对应的人体骨架序列。深度学习能够有效地解决特征表达的问题。

发明内容

为解决上述问题，本发明的目的在于基于多任务非自回归解码的人体动作预测方法。该方法基于深度神经网络，在解码过程中引入了位置信息嵌入，建模了动作信息和位置信息的关系，避免了预测误差在解码过程中的传播，从而使模型更具准确性和鲁棒性。此外，引入了与动作误测任务强关联的行为识别任务，利用自监督的学习方式同时完成动作预测和行为识别，能够有效地提高二者的准确率。

为实现上述目的，本发明的技术方案为：

基于多任务非自回归解码的人体骨架的动作预测方法，其包括以下步骤：

S1、获取用于训练的人体3D骨骼关键点数据集，并定义算法目标；

S2、建立图卷积编码器，对输入的人体3D骨架进行特征学习，得到输入骨架的特征；

S3、建立分类器，对输入的人体3D骨架输入进行行为识别；

S4、建立非自回归解码器，预测未来时刻人体3D骨架；

S5、使用共享的图卷积编码器和分类器，对预测的人体3D骨架再进行行为识别；

S6、使用S1～S5建立的联合学习框架进行未来时刻的人体动作预测。

基于上述方案，各步骤可以通过如下方式实现：

作为优选，步骤S1中，所述的用于训练的人体3D骨骼关键点数据集，包括给定的人体骨架关键点序列其中/>表示第t帧中第n个节点的3D信息，N为人体关节点总数，T₁为给定序列帧数；还包括待预测的人体骨架关键点序列/>其中/>为待预测的第t帧中第n个节点的3D信息真值，T₂为待预测序列帧数；

定义算法目标为：给定连续T₁帧人体骨架序列作为输入，预测未来T₂帧人体骨架序列的动作信息。

进一步的，步骤S2中，所述建立图卷积编码器，对输入的人体3D骨架进行特征学习，得到输入骨架的特征，具体包括：

S21、建立9层的图卷积编码网络，每一层加入LeakvReLU激活函数，且网络的每一层分别包含图卷积部分和时序卷积部分；图卷积部分所使用的图结构为数据集所定义的人体骨骼连接关系，时序卷积部分卷积核大小为9；利用该图卷积编码网络对给定的人体骨架输入提取其高层语义特征c，公式表示为：

c＝f_enc(X；θ_enc)

其中，f_enc()为图卷积编码网络，θ_enc为编码网络参数，X为人体骨架输入序列。

进一步的，步骤S3中，所述建立分类器，对输入的人体3D骨架输入进行行为识别，具体包括：

S31、建立3层的全连接网络作为行为识别分类网络，每一层加入LeakyReLU激活函数以及Dropout随机丢弃函数；在行为识别分类网络中，给定如S21所述的高层语义特征c，输出多类行为动作概率值p，公式表示为：

p＝f_cls(c；θ_cls)

其中，f_cls()为行为识别分类网络，θ_cls为分类网络参数。

进一步的，步骤S4中，所述建立非自回归解码器，预测未来时刻人体3D骨架，具体包括：

S41、计算一系列位置编码嵌入其中e^t为256维特征，表示第t帧的位置编码嵌入，公式表示为：

其中，表示第t帧的位置编码嵌入的第j维；位置编码嵌入的偶数维/>使用sin函数，奇数维/>使用cos函数；α和β表示超参数，用来控制位置编码嵌入的形状；d_model为256，表示位置编码嵌入的维度大小；

S42、将S21所述的高层语义特征c与S41所述的一系列位置编码嵌入分别相加，得到一系列编码了位置的高层语义特征公式表示为：

h^t＝e^t+c，t＝1，...，T₂

S43、建立非自回归解码网络，每一层加入LeakvReLU激活函数，且网络的每一层分别包含图卷积部分和时序卷积部分；图卷积部分所使用的图结构为数据集所定义的人体骨骼连接关系，时序卷积部分卷积核大小为1；将S42所述的一系列编码了位置的高层语义特征传入非自回归解码网络，得到预测的未来时刻人体3D骨骼关键点信息公式表示为：

其中，为未来时刻第t帧中第n个节点的3D信息预测值，f_dec()为非自回归解码网络，θ_dec为非自回归解码网络参数。

进一步的，步骤S5中，所述使用共享的图卷积编码器和分类器，对预测的人体3D骨架再进行行为识别，具体包括：

S51、使用如S21所述的图卷积编码网络f_enc()、如S31所述的行为识别分类网络f_cls()，以S43所述的预测的未来时刻人体3D骨骼关键点信息作为输入，输出多类行为动作概率值/>公式表示为：

其中，为基于网络预测值的高层语义特征，图卷积编码网络参数θ_enc和行为识别分类网络参数θ_cls均与S21和S31中的对应网络共享。

进一步的，步骤S6中，所述使用S1～S5建立的联合学习框架进行未来时刻的人体动作预测，具体包括：

基于由S1～S5建立的统一的端到端联合学习框架，采用组输入和组输出的方式，将多组骨架序列输入该联合学习框架中进行训练，所有的卷积参数θ通过最小化损失函数学习得到，其中总的损失函数采用交叉熵损失函数与L2范数损失函数之和；

设定和/>分别为给定/>预测得到的概率值以及给定预测得到的概率值，其中p_i和/>分别为第i类输出动作的概率值，D为行为动作数目；/>为真值的动作类别，以独热编码形式表示，g_i为第i类输出动作的真值；则所述交叉熵损失函数为：

所述L2范数损失函数作用于预测的未来时刻人体3D骨骼关键点信息以及真实的未来时刻人体3D骨骼关键点信息/>其公式表达为：

总的损失函数为：

其中θ＝{θ_enc，θ_dec，θ_cls}为卷积参数；

使用Adam优化方法和反向传播算法在损失函数下训练整个网络，利用训练完成的神经网络预测未来时刻人体3D骨架的动作信息。

本发明的基于多任务非自回归解码的人体动作预测方法，相比于现有的人体动作预测方法，具有以下有益效果：

首先，本发明的人体动作预测方法将解码过程中的自回归方式修改为非自回归方式，避免了传统方法中预测误差在递归过程中的传递，使算法更加鲁棒，可以有效地解决复杂场景下的动作预测问题。

其次，本发明提出了多任务学习算法，该方法引入了与原任务强相关的基于人体骨架的行为识别任务，利用自监督的方式，同时学习两种不同任务，获得了更好的特征表达，有效地提升了预测结果。

本发明的基于多任务非自回归解码的人体动作预测方法，在人体骨架动作预测中，能够有效地提高分析的准确率和效率，大大增加了视频视频动作预测的鲁棒性。例如，在背景近似的视频中，通过对人体骨骼关键点位置的追踪，能够大大提高预测的准确性，为后续分析提供多模态依据。

附图说明

图1为本发明的的流程示意图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参考图1，在本发明的较佳实施例中，一种基于多任务非自回归解码的人体动作预测方法，包括以下步骤：

S1、获取用于训练的人体3D骨骼关键点数据集，并定义算法目标。

在本步骤中，用于训练的人体3D骨骼关键点数据集，包括给定的人体骨架关键点序列其中/>表示第t帧中第n个节点的3D信息，3D信息使用四元数表示，n∈[1，N]，t∈[1，T₁]，N为人体关节点总数，T₁为给定序列帧数；还包括待预测的人体骨架关键点序列/>其中/>为待预测的第t帧中第n个节点的3D信息真值，n∈[1，N]，t∈[1，T₂]，T₂为待预测序列帧数；

S2、建立图卷积编码器，对输入的人体3D骨架进行特征学习，得到输入骨架的特征。本步骤的具体实现方法如下：

S21、建立9层的图卷积编码网络，每一层加入LeakyReLU激活函数，且网络的每一层分别包含图卷积部分和时序卷积部分；图卷积部分所使用的图结构为数据集所定义的人体骨骼连接关系，时序卷积部分卷积核大小为9；利用该图卷积编码网络对给定的人体骨架输入提取其高层语义特征c，公式表示为：

c＝f_enc(X；θ_enc)

S3、建立分类器，对输入的人体3D骨架输入进行行为识别。本步骤的具体实现方法如下：

p＝f_cls(c；θ_cls)

其中，f_cls()为行为识别分类网络，θ_cls为分类网络参数。

S4、建立非自回归解码器，预测未来时刻人体3D骨架。本步骤的具体实现方法如下：

h^t＝e^t+c，t＝1，...，T₂

S43、建立非自回归解码网络，每一层加入LeakyReLU激活函数，且网络的每一层分别包含图卷积部分和时序卷积部分；图卷积部分所使用的图结构为数据集所定义的人体骨骼连接关系，时序卷积部分卷积核大小为1；将S42所述的一系列编码了位置的高层语义特征传入非自回归解码网络，得到预测的未来时刻人体3D骨骼关键点信息公式表示为：

S5、使用共享的图卷积编码器和分类器，对预测的人体3D骨架再进行行为识别。本步骤的具体实现方法如下：

S6、使用S1～S5建立的联合学习框架进行未来时刻的人体动作预测。本步骤的具体实现方法如下：

总的损失函数为：

其中θ＝{θ_enc，θ_dec，θ_cls}为卷积参数；

下面将上述方法应用于具体实施例中，以便本领域技术人员能够更好地理解本发明的效果。

实施例

本实施例的实现方法如前所述，不再详细阐述具体的步骤，下面仅针对案例数据展示其效果。本发明在两个具有真值标注的数据集上实施，分别为：

Human3.6M数据集：该数据集包含约3,600,000人体3D姿态，其中包含了约15个动作；

CMU Mocap数据集：该数据集包含约86,000人体3D姿态，其中包含约8个动作。

上述预测方法中，参数设置如下N＝25，T₁＝50，T₂＝10～25。最终本实施例的方法(记为mNAT)在两个数据集上的结果如表1和2所示，表格中同时列出了部分现有技术中的做法的结果作为对比。

表1.本实施例在Human3.6M数据集上评价指标对比

表2.本实施例在CMU Mocap数据集上评价指标对比

上述表格中列出的现有技术的具体做法参见下列参考文献：

参考文献：

[8]Martinez，Julieta，Michael J.Black，and Javier Romero.″On humanmotion prediction using recurrent neural networks.″Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2017.

[9]Li，Chen，et a1.″Convolutional sequence to sequence model for humandynamics.″Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2018.

[16]Gui，Liang-Yan，et al.″Adversarial geometry-aware human motionprediction.″Proceedings of the European Conference on Computer Vision(ECCV).2018.

[10]Guo，Xiao，and Jongmoo Choi.″Human Motion Prediction via LearningLocal Structure Representations and Temporal Dependencies.″Proceedings of theAAAI Conference on Artificial Intelligence.V01.33.2019.

[13]Mao，Wei，et al.″Learning trajectory dependencies for human motionprediction.″Proceedings of the IEEE International Conference on ComputerVision.2019.

由此表明，通过以上技术方案，本发明基于深度学习技术提供了一种基于多任务非自回归解码的人体动作预测方法，该方法可以在各类人体骨架关键点序列中，以非自回归的方式预测未来信息，从而得到更加准确、鲁棒地预测结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多任务非自回归解码的人体骨架的动作预测方法，其特征在于，包括以下步骤：

S3、建立分类器，对输入的人体3D骨架输入进行行为识别；

S4、建立非自回归解码器，预测未来时刻人体3D骨架；

S6、使用S1～S5建立的联合学习框架进行未来时刻的人体动作预测；

步骤S2中，所述建立图卷积编码器，对输入的人体3D骨架进行特征学习，得到输入骨架的特征，具体包括：

c＝f_enc(X；θ_enc)

其中，f_enc()为图卷积编码网络，θ_enc为编码网络参数，X为人体骨架输入序列；

步骤S3中，所述建立分类器，对输入的人体3D骨架输入进行行为识别，具体包括：

p＝f_cls(c；θ_cls)

其中，f_cls()为行为识别分类网络，θ_cls为分类网络参数；

步骤S4中，所述建立非自回归解码器，预测未来时刻人体3D骨架，具体包括：

h^t＝e^t+c,t＝1,…,T₂

2.如权利要求1所述的基于多任务非自回归解码的人体骨架的动作预测方法，其特征在于，步骤S1中，所述的用于训练的人体3D骨骼关键点数据集，包括给定的人体骨架关键点序列其中/>表示第t帧中第n个节点的3D信息，该3D信息使用四元数表示，N为人体关节点总数，T₁为给定序列帧数；还包括待预测的人体骨架关键点序列其中/>为待预测的第t帧中第n个节点的3D信息真值，T₂为待预测序列帧数；

3.如权利要求1所述的基于多任务非自回归解码的人体骨架的动作预测方法，其特征在于，步骤S5中，所述使用共享的图卷积编码器和分类器，对预测的人体3D骨架再进行行为识别，具体包括：

4.如权利要求3所述的基于多任务非自回归解码的人体骨架的动作预测方法，其特征在于，步骤S6中，所述使用S1～S5建立的联合学习框架进行未来时刻的人体动作预测，具体包括：

总的损失函数为：

其中θ＝{θ_enc,θ_dec,θ_cls}为卷积参数；