CN111753801A

CN111753801A - 人体姿态跟踪与动画生成方法及装置

Info

Publication number: CN111753801A
Application number: CN202010638556.9A
Authority: CN
Inventors: 石岩; 胡飞; 胡波
Original assignee: Shanghai Wanmian Intelligent Technology Co Ltd
Current assignee: Shanghai Wanmian Intelligent Technology Co Ltd
Priority date: 2020-07-02
Filing date: 2020-07-02
Publication date: 2020-10-09

Abstract

本发明提供了一种人体姿态跟踪与动画生成方法及装置，涉及计算机图像处理技术领域，通过对人体姿态视频数据进行预处理，得到单帧图像序列；基于深度学习神经网络模型，分别对单帧图像序列中的每帧图像进行解码，得到每帧图像的人体姿态深度信息和人体关键点信息；根据预设的动画模型的关节数据，对每帧图像的人体姿态深度信息和人体关键点信息进行处理，得到单帧图像序列的人体动作数据；基于渲染引擎，采用单帧图像序列的人体动作数据驱动动画模型，生成动画。本发明的人体动作捕捉过程简单，降低了人体动作捕捉和动画生成的成本，提高了动画生成的实时性和便利性。

Description

人体姿态跟踪与动画生成方法及装置

技术领域

本发明涉及计算机图像处理技术领域，尤其是涉及一种人体姿态跟踪与动画生成方法及装置。

背景技术

现有技术的三维动画制作过程中往往先对人体的动作进行捕捉，再驱动三维动画模型做出相应动作，以达到逼真自然的效果。传统的动作捕捉方法需要人体穿戴装有传感器的设备，再将获取的动作信息渲染到三维动画模型并输出三维动画。

上述这种人体动作驱动三维模型的方法存在两方面弊端，其一是动作捕捉设备不仅价格高昂、操作复杂；其二是捕捉到的动作数据需专业人员通过专业软件进行后期渲染合成动画，工序繁琐耗时、人工成本较高，无法做到实时输出。

综上，现有的人体三维动画制作中，人体动作捕捉过程比较复杂、成本较高，并且动画生成的实时性差、人工成本高。

发明内容

本发明的目的在于提供一种人体姿态跟踪与动画生成方法及装置，以缓解现有的人体三维动画制作中，人体动作捕捉过程比较复杂、成本较高，并且动画生成的实时性差、人工成本高的技术问题。

第一方面，本发明实施例提供一种人体姿态跟踪与动画生成方法，所述方法包括：

对人体姿态视频数据进行预处理，得到单帧图像序列；

基于深度学习神经网络模型，分别对所述单帧图像序列中的每帧图像进行解码，得到每帧图像的人体姿态深度信息和人体关键点信息；

根据预设的动画模型的关节数据，对所述每帧图像的人体姿态深度信息和人体关键点信息进行处理，得到所述单帧图像序列的人体动作数据；

基于渲染引擎，采用所述单帧图像序列的人体动作数据驱动所述动画模型，生成动画。

在可选的实施方式中，所述人体关键点信息包括2D人体关键点信息和3D人体关键点信息，所述基于深度学习神经网络模型，分别对所述单帧图像序列中的每帧图像进行解码，得到每帧图像的人体姿态深度信息和人体关键点信息的步骤，包括：

基于全卷积残差神经网络，对所述每帧图像的RGB图像进行解码，得到所述每帧图像的人体姿态深度信息；

基于部分关联域的卷积神经网络，对所述每帧图像进行解码，得到2D人体关键点信息；

基于轻量线性残差神经网络，根据所述2D人体关键点信息得到所述3D人体关键点信息。

在可选的实施方式中，所述基于渲染引擎，采用所述单帧图像序列的人体动作数据驱动所述动画模型，生成动画之后，还包括：

在关键帧之间补间动画。

在可选的实施方式中，所述方法还包括：

获取单摄像机拍摄的所述人体姿态视频数据；所述人体姿态视频数据为实时人体姿态视频数据或者离线人体姿态视频数据。

在可选的实施方式中，当所述人体姿态视频数据为实时人体姿态视频数据时，所述方法还包括：

设置所述实时人体姿态视频数据的采样帧率和采样延迟。

第二方面，本发明实施例提供一种人体姿态跟踪与动画生成装置，所述装置包括：

视频处理模块，用于对人体姿态视频数据进行预处理，得到单帧图像序列；

解码模块，用于基于深度学习神经网络模型，分别对所述单帧图像序列中的每帧图像进行解码，得到每帧图像的人体姿态深度信息和人体关键点信息；

动作捕捉模块，用于根据预设的动画模型的关节数据，对所述每帧图像的人体姿态深度信息和人体关键点信息进行处理，得到所述单帧图像序列的人体动作数据；

动画生成模块，用于基于渲染引擎，采用所述单帧图像序列的人体动作数据驱动所述动画模型，生成动画。

在可选的实施方式中，所述人体关键点信息包括2D人体关键点信息和3D人体关键点信息，所述解码模块包括：

第一解码单元，用于基于全卷积残差神经网络，对所述每帧图像的RGB图像进行解码，得到所述每帧图像的人体姿态深度信息；

第二解码单元，用于基于部分关联域的卷积神经网络，对所述每帧图像进行解码，得到2D人体关键点信息；

第三解码单元，用于基于轻量线性残差神经网络，根据所述2D人体关键点信息得到所述3D人体关键点信息。

在可选的实施方式中，所述装置还包括：

动画补间模块，用于在关键帧之间补间动画。

第三方面，本发明实施例提供一种电子设备，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现前述实施方式任一项所述的方法。

第四方面，本发明实施例提供一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现前述实施方式任一项所述的方法。

本发明实施例提供的一种人体姿态跟踪与动画生成方法，根据人体姿态视频数据进行人体动作捕捉，具体基于深度学习神经网络模型，对单帧图像进行解码，得到单帧图像的人体姿态深度信息和人体关键点信息；根据预设的动画模型的关节数据，对每帧图像的人体姿态深度信息和人体关键点信息进行处理，得到单帧图像序列的人体动作数据；从而实现人体动作捕捉，不需要人体佩戴传感器设备，操作简单，极大降低了动作捕捉的门槛，并且降低成本；基于渲染引擎，采用单帧图像序列的人体动作数据驱动动画模型，生成动画，不需要专业人员进行后期渲染合成动画，从而降低了动画生成的人工成本，提高了动画生成的实时性和便利性。

另外，通过深度学习神经网络模型对单帧图像进行解码，获得人体姿态深度信息和人体关键点信息，对人体姿态深度信息和人体关键点信息进行综合级联解码，得到人体动作数据，提高了动作捕捉和人体姿态跟踪的精确性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的人体姿态跟踪与动画生成方法流程图；

图2为本发明实施例提供的步骤S102的方法流程图；

图3为本发明实施例提供的3D关键点解码网络结构示意图；

图4为本发明实施例提供的人体姿态跟踪与动画生成方法的具体过程；

图5为本发明实施例提供的人体姿态跟踪与动画生成装置示意图；

图6为本发明实施例提供的电子设备示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，人体动作驱动三维模型的方法存在两方面弊端，其一是动作捕捉设备不仅价格高昂、操作复杂；其二是捕捉到的动作数据需专业人员通过专业软件进行后期渲染合成动画，工序繁琐耗时、人工成本较高，无法做到实时输出。因此，现有的人体三维动画制作中，人体动作捕捉过程比较复杂、成本较高，并且动画生成的实时性差、人工成本高。基于此，本发明实施例提供的一种人体姿态跟踪与动画生成方法及装置，使得人体动作捕捉过程比较简单，降低了人体动作捕捉和动画生成的成本，提高了动画生成的实时性和便利性。

在本发明的描述中，需要说明的是，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

图1示出了本发明实施例提供的人体姿态跟踪与动画生成方法流程图。参照图1，本发明实施例提供的一种人体姿态跟踪与动画生成方法，包括以下步骤：

步骤S101，对人体姿态视频数据进行预处理，得到单帧图像序列；

具体的，人体姿态视频数据可以是单摄像机拍摄的视频，例如智能手机等便携式智能终端，这样，可以极大提高人体姿态跟踪与动画生成的便携性和普及性。在实际应用中，将人体姿态视频的分辨率与帧率进行压缩，格式化视频为单帧图像序列，即多个连续的单帧图像。

本实施例中，在步骤S101之前，还可以获取单摄像机拍摄的人体姿态视频数据；该人体姿态视频数据可以为实时人体姿态视频数据或者离线人体姿态视频数据。

另外，当人体姿态视频数据为实时人体姿态视频数据时，还可以设置实时人体姿态视频数据的采样帧率和采样延迟。

通过设置采样帧率与采样延迟，可以动态优化人物动作的精细度与平滑度。采样帧率可以影响动作的精细程度，高帧率可以捕捉到人物最细小的动作。采样延迟可以影响动作的平滑程度，高延迟可以让动作更为平滑准确。如原视频流为1080P30FPS，则视频将以15FPS采样帧率，100ms采样延迟，并压缩分辨率至360P，进行格式化。离线人体姿态视频数据无需设置采样帧率与采样延迟。

步骤S102，基于深度学习神经网络模型，分别对单帧图像序列中的每帧图像进行解码，得到每帧图像的人体姿态深度信息和人体关键点信息；

本步骤中，可以采用不同的深度学习神经网络模型分别解码人体姿态深度信息和人体关键点信息，用于解码人体姿态深度信息的深度学习神经网络模型可以通过标记人体姿态深度信息的人体图像数据集进行训练得到，用于解码人体关键点信息的深度学习神经网络模型可以通过标记人体关键点信息的人体图像数据集进行训练得到。

步骤S103，根据预设的动画模型的关节数据，对每帧图像的人体姿态深度信息和人体关键点信息进行处理，得到单帧图像序列的人体动作数据；

本实施例中，预设的动画模型可以是Pmx(Polygon Model eXtended)动画模型，Pmx是动画软件MikuMikuDance中的模型文件。

具体的，该步骤实现了人体姿态与动画模型动作数据之间的对应转换。通过对人体姿态深度信息和人体关键点信息，依据预设的Pmx动画模型的关节数据，进行综合计算，平滑修正人体姿态数据，最终生成Vmd(Vocaloid Mation Data，合成动作数据)动作数据，即上述人体动作数据。其中，Vmd分别对骨骼、表情、镜头的关键帧进行编码，并以二进制的形式存储人体模型的动作数据。

步骤S104，基于渲染引擎，采用单帧图像序列的人体动作数据驱动动画模型，生成动画。

本步骤中，渲染引擎可以基于DirectX11，支持MME(特效)、Bullet(物理模拟计算引擎)物理运算等特性，单帧图像序列中每帧图像的人体动作数据分别驱动动画模型进行运动，还原并优化输出的分辨率与帧率，实现了动画渲染。

需要说明的是，预设模式生成动画为单人模式，每组人体动作数据绑定一个动画模型，多人则需要绑定多个动画模型，无人可以通过其他形式进行处理。

在一些实施例中，人体关键点信息包括2D人体关键点信息和3D人体关键点信息，如图2所示，步骤S102可以通过以下步骤实现：

步骤S201，基于全卷积残差神经网络，对每帧图像的RGB图像进行解码，得到每帧图像的人体姿态深度信息；

具体的，可以基于全卷积残差神经网络FCRN，通过输入单帧RGB图像实时获取深度预测图，从深度预测图中得到人体姿态深度信息。FCRN可以基于ResNet-50优化而来，采用一种新型的上采样结构，替换原有的全连接层，从而增加了网络输出的分辨率，使其约为输入的一半。

步骤S202，基于部分关联域的卷积神经网络，对每帧图像进行解码，得到2D人体关键点信息；具体的，基于部分关联域的卷积神经网络PAFs的核心结构，是一个多层卷积神经网络，第一个阶段输出PAFs L^t，后一个阶段输出S^t。每一阶段的输出，跟其相关的图像特征，都在其后续的层中通过串联方式连接。网络输入时的卷积核大小为7，最后三层的卷积核大小为3。

PAFs通过对输入的单帧图像分别预测关键点的热度图和PAF(Part AffinityField，部分关联域)，再根据关键点和肢体最二分匹配进行关联，最终得到单帧图像中的人体姿态2D关键点。通常的，对包含单人的图像进行解码。当检测到图像中无人或多人时，则通过设定流程控制进行处理。

步骤S203，基于轻量线性残差神经网络，根据2D人体关键点信息得到3D人体关键点信息。

具体的，如图3所示，基于轻量线性残差神经网络的核心结构块，由一个线性层，并经过Batch Norm、RELU与dropout处理后构成。这个结构块重复两次后，外接一个残差连接。结构外部又重复两次，构成整个网络结构。网络输入为2d人体关键点信息，输出为3d人体关键点信息。

2D人体关键点信息可以是人体关键点的二维坐标，人体关键点例如可以是头、颈、肩、肘、手、臀、膝、脚等部位，3D人体关键点信息可以是人体关键点的三维坐标。通过将包含2D人体关键点信息的单帧图像输入轻量线性残差神经网络，实现3D人体关键点信息的预测。通常的，可以使用3D重建的方式，将2D人体关键点信息转到3D的空间中，输出3D人体关键点信息。

上述步骤S201-S203分别通过三个深度学习神经网络模型进行单帧图像的解码。其具体流程为，通过单帧图像，解码人体姿态深度信息与2D人体关键点信息。通过2D关键点信息，解码3D人体关键点信息。

进一步的，上述步骤S103可以通过综合级联解码，将2D人体关键点信息、3D人体关键点信息与人体姿态深度信息，依据预设的Pmx动画模型关节数据，进行综合计算，生成Pmx动画模型的Vmd动作数据。

首先，对3D人体关键点信息进行解码，具体包括以下步骤：

1)对应调整3D人体关键点与骨骼关节的坐标系；

2)针对每个关节，例如上半身、下半身、颈、头、左肩、左腕、左肘、右肩、右腕、右肘、左足、左膝、右足、右膝等，生成动作数据。

然后，对2D人体关键点信息进行解码，具体包括以下步骤：

1)生成颈，右脚跟，左脚跟，右脚踝，左脚踝等的xy平面校正数据；

2)针对xy平面校正数据，在单帧图像之内对动作数据中心点进行平滑校正。该步骤具体包括以下步骤：

a.根据Pmx骨骼关节数据，计算骨骼顶点三角形面积；

b.根据xy平面校正数据，计算直立框架的三角形面积；

c.计算直立框架左右脚跟、脚踝位置的平均值；

d.综合多个校正参数，对动作数据中心点进行平滑校正；

最后，对人体姿态深度信息进行解码，提取多帧图像之间的深度信息；在多帧图像之间对动作数据中心点对z轴进行平滑校正。

本实施例通过多个解码模型综合级联解码，提高了动作捕捉，人体姿态跟踪的精确性。

在一些实施例中，在上述步骤S104之后，还可以包括以下步骤：

在关键帧之间补间动画。其中，补间动画指的是在两个关键帧中间需要做“补间动画”，才能实现图画的运动；插入补间动画后两个关键帧之间的插补帧可以由计算机自动运算而得到。例如，渲染引擎每隔预设时间更新一次动作数据，该预设时间例如为1/15秒，通过在关键帧之间补间动画，可以将输出动画帧率提高到60FPS。通过高效的动画渲染补间动画，提高了动画生成的帧率，实现了动画的实时生成。

下面结合图4介绍一下本实施例的人体姿态跟踪与动画生成方法的具体过程。

如图4所示，包括视频输入、动作捕捉和动画生成三个过程。在视频输入过程中，将输入的原始视频(上述人体姿态视频数据)进行格式化，得到单帧图像；通过深度解码模型(上述全卷积残差神经网络)对单帧RGB图像进行解码，得到人体姿态深度信息；通过2D关键点解码模型(上述部分关联域的卷积神经网络)对单帧图像进行解码，得到2D人体关键点信息；通过3D关键点解码模型(上述轻量线性残差神经网络)，根据2D人体关键点信息预测3D人体关键点信息；将上述得到的2D人体关键点信息、3D人体关键点信息和人体姿态深度信息，依据预设的Pmx动画模型关节数据，进行综合计算，平滑修正人体姿态数据，最终生成Vmd动作数据。基于渲染引擎，Vmd数据驱动Pmx模型进行运动，还原并优化输出的分辨率与帧率，实现了动画渲染。

在上述方法实施例的基础上，本发明实施例还提供了一种人体姿态跟踪与动画生成装置，如图5所示，该装置包括：

视频处理模块51，用于对人体姿态视频数据进行预处理，得到单帧图像序列；

解码模块52，用于基于深度学习神经网络模型，分别对单帧图像序列中的每帧图像进行解码，得到每帧图像的人体姿态深度信息和人体关键点信息；

动作捕捉模块53，用于根据预设的动画模型的关节数据，对每帧图像的人体姿态深度信息和人体关键点信息进行处理，得到单帧图像序列的人体动作数据；

动画生成模块54，用于基于渲染引擎，采用单帧图像序列的人体动作数据驱动动画模型，生成动画。

在可选的实施方式中，人体关键点信息包括2D人体关键点信息和3D人体关键点信息，解码模块52包括：

第一解码单元，用于基于全卷积残差神经网络，对每帧图像的RGB图像进行解码，得到每帧图像的人体姿态深度信息；

第二解码单元，用于基于部分关联域的卷积神经网络，对每帧图像进行解码，得到2D人体关键点信息；

第三解码单元，用于基于轻量线性残差神经网络，根据2D人体关键点信息得到3D人体关键点信息。

在一些实施例中，装置还包括：

动画补间模块，用于在关键帧之间补间动画。

在一些实施例中，装置还包括：

获取模块，用于获取单摄像机拍摄的所述人体姿态视频数据；人体姿态视频数据为实时人体姿态视频数据或者离线人体姿态视频数据。

在一些实施例中，当人体姿态视频数据为实时人体姿态视频数据时，装置还包括：

设置模块，用于设置所述实时人体姿态视频数据的采样帧率和采样延迟。

本发明实施例所提供的人体姿态跟踪与动画生成装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

参见图6，本发明实施例还提供一种电子设备600，包括：处理器601，存储器602，总线603和通信接口604，处理器601、通信接口604和存储器602通过总线603连接；存储器602用于存储程序；处理器601用于通过总线603调用存储在存储器602中的程序，执行上述实施例的人体姿态跟踪与动画生成方法。

其中，存储器602可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口604(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线603可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器602用于存储程序，处理器601在接收到执行指令后，执行程序，前述本发明实施例任一实施例揭示的流程定义的装置所执行的方法可以应用于处理器601中，或者由处理器601实现。

处理器601可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602，处理器601读取存储器602中的信息，结合其硬件完成上述方法的步骤。

本发明实施例还提供了一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现如上的人体姿态跟踪与动画生成方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种人体姿态跟踪与动画生成方法，其特征在于，所述方法包括：

对人体姿态视频数据进行预处理，得到单帧图像序列；

根据预设的动画模型的关节数据，分别对所述单帧图像序列中的每帧图像的人体姿态深度信息和人体关键点信息进行处理，得到所述单帧图像序列的人体动作数据；

2.根据权利要求1所述的方法，其特征在于，所述人体关键点信息包括2D人体关键点信息和3D人体关键点信息，所述基于深度学习神经网络模型，分别对所述单帧图像序列中的每帧图像进行解码，得到每帧图像的人体姿态深度信息和人体关键点信息的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于渲染引擎，采用所述单帧图像序列的人体动作数据驱动所述动画模型，生成动画之后，还包括：

在关键帧之间补间动画。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，当所述人体姿态视频数据为实时人体姿态视频数据时，所述方法还包括：

设置所述实时人体姿态视频数据的采样帧率和采样延迟。

6.一种人体姿态跟踪与动画生成装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述人体关键点信息包括2D人体关键点信息和3D人体关键点信息，所述解码模块包括：

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

动画补间模块，用于在关键帧之间补间动画。

9.一种电子设备，其特征在于，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1-5任一项所述的方法。

10.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现权利要求1-5任一项所述的方法。