CN112381003B

CN112381003B - 动作捕捉方法、装置、设备及存储介质

Info

Publication number: CN112381003B
Application number: CN202011282261.9A
Authority: CN
Inventors: 刘书颖; 张泽昕; 吴文斌; 刘宏达; 李承乾; 林悦
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2023-08-22
Anticipated expiration: 2040-11-16
Also published as: CN112381003A

Abstract

本申请提供一种动作捕捉方法、装置、设备及存储介质，该方法包括：获取单目视频，单目视频中包括人物的动作的视频，人物的动作的视频由包含连续的人物的动作的图像构成，根据单目视频中的人物的动作的视频得到与连续的人物的动作的图像对应的连续的热度图，根据连续的热度图获取连续二维关节点序列，二维关节点序列用于表示热度图中人物的关节点位置。根据连续的二维关节点序列得到三维估计结果，三维姿态估计结果中包括三维关节点位置信息。基于三维关节点位置信息生成骨骼动作文件，骨骼动作文件用于驱动目标模型执行与单目视频中人物相对应的动作。通过上述方法得到的三维姿态模拟数据更加精准，提升目标模型与视频中人物动作的一致性。

Description

动作捕捉方法、装置、设备及存储介质

技术领域

本申请实施例涉及计算机视觉领域，尤其涉及一种动作捕捉方法、装置、设备及存储介质。

背景技术

现有的视频动作捕捉方案主要有两种：一种是基于RGB-D摄像机的方案，此类方案需要RGB-D摄像机同时获取RGB三通道彩色图像和深度信息，并且只能使用配套的摄像机以保证相机参数确知，然后才能进行动作捕捉。基于多目RGB摄像机的方案，此类方案需要基于多目RGB摄像机从多个角度拍摄的图像进行动作捕捉，且不同角度拍摄的图像帧序列需要严格对齐。

对于第一种方案，由于大多数网络视频都不包含深度信息，且RGB-D摄像机在室外场景对深度信息的捕获能力较差，因此该方案的应用场景比较受限。对于第二种方案，由于大多数网络视频都是基于单目摄像机拍摄的，因此该方案的应用场景同样比较受限。

发明内容

本申请实施例提供一种动作捕捉方法、装置、设备及存储介质，采用卷积神经网络构建二维姿态估计模型和三维姿态估计模型，得到的三维姿态数据更加精准，为生成骨骼动作文件提供数据支撑。

第一方面，本申请实施例提供一种动作捕捉方法，包括：

获取单目视频，所述单目视频中包括人物的动作的视频，所述人物的动作的视频由包含连续的人物的动作的图像构成；

根据将所述单目视频中的人物的动作的视频包含人物的图像输入二维姿态估计模型进行处理，得到与连续的所述人物的动作的所述图像对应的连续的热度图；

根据连续的将所述热度图进行拟合处理，获取连续二维关节点序列，所述连续二维关节点序列用于表示热度图中人物的关节点位置；

根据将所述连续二维关节点序列输入三维姿态估计模型，得到三维估计结果，所述三维估计结果中包括三维关节点位置信息；

基于所述三维关节点位置信息进行位移估计和动作解算处理，生成骨骼动作文件，所述骨骼动作文件用于驱动目标模型执行与所述单目视频中人物相对应的动作。

在本申请的一个实施例中，所述根据所述单目视频中的人物的动作的视频得到与连续的所述人物的动作的图像对应的热度图，包括：

将所述单目视频中包含连续的人物的动作的图像输入二维姿态估计模型进行处理，得到与连续的所述人物的动作的图像对应的热度图；

所述二维姿态估计模型是根据卷积神经网络CNN训练得到的用于估计图像中人物二维姿态的模型。

在本申请的一个实施例中，所述将所述单目视频中包含连续的人物的动作的图像输入二维姿态估计模型进行处理，得到与连续的所述人物的动作的图像对应的热度图，包括：

对所述单目视频中每一帧图像进行人体检测，得到连续的包含人体包围框的图像块；

将所述连续的包含人体包围框的图像块依次输入所述二维姿态估计模型进行处理，得到与连续的所述人物的动作的图像对应的热度图。

在本申请的一个实施例中，所述方法还包括：

获取训练数据，所述训练数据中包括多个包含人物的图像，以及每个图像对应的人物的二维姿态信息；

将所述训练数据中，每个包含人物的图像中的人体包围框内的图像裁剪出来输入CNN，将所述图像对应的人物的二维姿态信息作为CNN的输出进行训练，得到所述二维姿态估计模型。

在本申请的一个实施例中，所述根据所述连续二维关节点序列得到三维估计结果，包括：

将所述连续二维关节点序列输入三维姿态估计模型，得到所述三维估计结果；

所述三维姿态估计模型是根据卷积神经网络CNN训练得到的用于根据二维关节点处理得到三维关节点位置的模型。

在本申请的一个实施例中，所述方法还包括：

获取训练数据，所述训练数据中包括多个包含人物的图像，以及每个图像对应的人物的二维姿态信息，以及每个人物的二维姿态信息对应的三维姿态信息；

将所述训练数据中，每个包含人物的图像对应的二维姿态信息输入CNN，将所述图像对应的三维姿态信息作为CNN的输出进行训练，得到所述三维姿态估计模型。

在本申请的一个实施例中，所述基于所述三维关节点位置信息生成骨骼动作文件，包括：

基于所述三维关节点位置信息进行位移估计和动作解算处理，生成所述骨骼动作文件。

在本申请的一个实施例中，所述基于所述三维关节点位置信息进行位移估计和动作解算处理，生成所述骨骼动作文件，包括：

根据所述三维关节点位置信息，将所述三维关节点投影到像素平面，与所述热度图中的二维关节点求重投影误差，得到位移估计结果；

根据所述位移估计结果，采用反向运动学算法和预先获取的人形骨骼的约束条件进行动作解算处理，得到动作解算结果；

根据所述动作解算结果生成所述骨骼动作文件。

在本申请的一个实施例中，所述获取单目视频，包括：

接收用户通过终端设备上传的所述单目视频；或者

实时接收单目摄像头拍摄返回的所述单目视频。

在本申请的一个实施例中，所述根据所述单目视频中的人物的动作的视频得到与连续的所述人物的动作的图像对应的连续的热度图之前，所述方法还包括：

对所述单目视频进行合格性检测；

在所述单目视频不合格时，向所述终端设备发送提示信息，所述提示信息用于提醒用户重新上传视频。

在本申请的一个实施例中，所述骨骼动作文件包括所述图像中人物的骨骼的姿态信息和位置信息；所述方法还包括：根据所述骨骼动作文件中的所述姿态信息和所述位置信息，将所述人物的骨骼动作重定向到预设的目标模型的骨架上，得到模拟动画。

第二方面，本申请实施例提供一种动作捕捉装置，包括：

获取模块，用于获取单目视频，所述单目视频中包括人物的动作的视频，所述人物的动作的视频由包含连续的人物的动作的图像构成；

处理模块，用于根据所述单目视频中的人物的动作的视频得到与连续的所述人物的动作的图像对应的连续的热度图；

根据连续的所述热度图获取连续二维关节点序列，所述连续二维关节点序列用于表示热度图中人物的关节点位置；

根据所述连续二维关节点序列得到三维估计结果，所述三维估计结果中包括三维关节点位置信息；

基于所述三维关节点位置信息生成骨骼动作文件，所述骨骼动作文件用于驱动目标模型执行与所述单目视频中人物相对应的动作。

第三方面，本申请实施例提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述电子设备能够执行第一方面中任一项所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，包括：用于存储计算机程序，当所述计算机程序在计算机上执行时，使得所述计算机执行第一方面中任一项所述的方法。

本申请实施例提供一种动作捕捉方法、装置、设备及存储介质。该方法包括：获取单目视频，单目视频中包括人物的动作的视频，人物的动作的视频由包含连续的人物的动作的图像构成，根据单目视频中的人物的动作的视频得到与连续的人物的动作的图像对应的连续的热度图，根据连续的热度图获取连续二维关节点序列，二维关节点序列用于表示热度图中人物的关节点位置。根据连续的二维关节点序列得到三维估计结果，三维姿态估计结果中包括三维关节点位置信息。基于三维关节点位置信息生成骨骼动作文件，骨骼动作文件用于驱动目标模型执行与单目视频中人物相对应的动作。通过上述方法得到的三维姿态模拟数据更加精准，提升目标模型与视频中人物动作的一致性。

附图说明

图1为本申请实施例提供的一种动作捕捉方法的流程图；

图2为本申请实施例提供的一种动作捕捉方法的流程图；

图3为本申请实施例提供的一种动作捕捉方法的流程图；

图4为本申请实施例提供的一种动作捕捉方法的流程图；

图5为本申请实施例提供的一种动作捕捉装置的结构示意图；

图6为本申请实施例提供的一种动作捕捉装置的结构示意图；

图7为本申请实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先对本申请实施例涉及的名词进行解释说明。

卷积神经网络(Convolutional Neural Networks,CNN)：计算机视觉领域常用的模型，能够高效地拟合训练样本和对应标签之间的非线性关系。

正向运动学(Forward Kinematics,FK)算法：指采用一个骨骼模型的运动方程，以从父关节参数指定的值计算端部执行器的位置。通俗来说是给定父骨骼位置以及它的变换来得出子骨骼的位置以及变换，例如运动手臂可以带动手肘，进而带动手掌运动。

反向运动学(Inverse Kinematics,IK)算法：三维骨骼动画中常用的算法，在自由端关节的位置确定的情况下，能够推导出其他关节(与自由端关节连接的关节)的旋转量，常用于推导膝关节和肘关节的旋转量。反向运动学又称为逆运动学，通俗来说是以子骨骼的位置和变换反推父骨骼的位置和变换，例如拉拽玩具机械臂的一头进行运行，可以看到该机械臂的各个关节跟着进行运动。

RGBD(RGB+Depth Map)：RGB色彩模式是工业界的一种颜色标准，是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，RGB即是代表红、绿、蓝三个通道的颜色，这个标准几乎包括了人类视力所能感知的所有颜色，是目前运用最广的颜色系统之一。在3D计算机图形中，Depth Map(深度图)是包含与视点的场景对象的表面的距离有关的信息的图像或图像通道。其中，Depth Map类似于灰度图像，只是它的每个像素值是传感器距离物体的实际距离。通常RGB图像和Depth图像是配准的，因而像素点之间具有一对一的对应关系。

由于现有的动作捕捉方案采用的视频数据主要来自较为昂贵的RGB-D摄像机或者多目RGB摄像机，而绝大多数网络视频都是基于单目摄像机拍摄的，这就导致现有的动作捕捉方案并不适用于单目视频，方案应用场景比较受限。

近年来，随着机器学习尤其是深度学习领域相关技术研究取得突飞猛进的进展，基于图像的人体姿态估计技术得到了迅速发展。对此，本申请实施例提供一种动作捕捉方法，该动作捕捉方法是基于深度学习的模型对单目视频中人物的动作进行捕捉，确定单目视频中每一帧图像中人物的姿态信息和位置信息，生成单目视频对应的骨骼动作文件，通过动画软件执行该骨骼动作文件，可获取动画软件中目标模型的一系列动作展示，目标模型展示的动作与单目视频中人物的动作相对应。

图1为本申请实施例提供的一种动作捕捉方法的流程图，本实施例的动作捕捉方法主要用于对离线视频的动作捕捉，如图1所示，该方法包括以下几个环节：输入视频，视频合格性检测，人体包围框检测，二维姿态估计，三维姿态估计，三维姿态精调，位移估计和动作解算，骨骼动作文件生成。

视频合格性检测：考虑到二维姿态估计采用卷积神经网络CNN实现，在对视频进行二维姿态估计之前，需要确保视频数据满足预设要求，例如视频的格式、分辨率、大小、是否包含完整人体等。

二维姿态估计：通过基于CNN的二维姿态估计模型，从视频的每一帧图像中获取人物的二维姿态，例如以人物的关节点像素坐标的形式表示。需要说明的是，二维姿态估计模型的输入图像是包括人物的图像，二维姿态估计模型的输出将作为三维姿态估计的输入。另外，二维姿态估计还用于估计视频中当前图像帧的下一帧人物的包围框位置。

三维姿态估计：获取二维姿态模型的输出，通过基于CNN的三维姿态估计模型，得到人物的局部三维姿态，例如以人体关节点的三维坐标的形式表示。需要说明的是，三维姿态估计模型考虑连续帧的信息，实现较为准确的三维姿态估计。

三维姿态精调：通过一个CNN对前述三维姿态估计得到的局部三维姿态作进一步精调，该模型同样考虑连续帧的信息，精调后的三维姿态更加稳定和准确。

三维姿态估计和三维姿态精调环节是整个方案的核心所在，通过上述两个环节，输出的三维姿态满足：

(1)准确性，输出的三维姿态需与视频中对应图像帧中人物的姿态相匹配；(2)稳定性，输出的三维姿态具有帧间连续性，不易产生明显的抖动和突变；(3)一致性，输出的三维姿态帧数应当与视频帧数一致，且保持姿态对齐。

位移估计和动作解算：位移估计是根据三维姿态精调输出的三维姿态与二维姿态估计输出的二维姿态，确定三维姿态的位移估计结果，还可以对位移估计结果进行平滑处理。动作解算是采用反向运动学算法，结合骨骼先验约束条件，进行动作求解，还可以结合触地控制、姿态合理性控制等约束条件，进一步剔除不合理的姿态，最终生成动画软件中目标模型的全局骨骼动作文件(包括目标模型中各部位的旋转量等)。其中，全局骨骼动作需满足：

(1)合理性，骨骼动作应当是正常合理的人体动作，不应出现反关节或不合理的扭曲；(2)足部稳定性，对动作的滑步需要有合理的控制。

图2为本申请实施例提供的一种动作捕捉方法的流程图，本实施例的动作捕捉方法主要用于对实时视频的动作捕捉，与上述离线视频的动作捕捉的流程基本一致，如图2所示，该方法包括以下几个环节：摄像头返回视频流，人体包围框检测，二维姿态估计，三维姿态估计，三维姿态精调，位移估计和动作解算，动作重定向，显示3D模型动画。

与图1所示实施例相同的内容，此处不再赘述，具体可参见上述实施例。

动作重定向：基于位移估计和动作解算生成的骨骼动作文件，将骨骼动作文件中的骨骼动作重定向到动画软件的目标模型的骨架上，为了得到合理稳定的重定向动作，可以对目标模型设置正向运动学约束条件和反向运动学约束条件。该环节实现将视频中人物的动作迁移至动画软件中的目标模型，目标模型的动作与视频中人物的动作相对应。

下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图3为本申请实施例提供的一种动作捕捉方法的流程图，该动作捕捉方法主要用于对离线视频(即提前拍摄好的视频)的动作捕捉，如图3所示，该动作捕捉方法包括如下步骤：

步骤101、获取单目视频，单目视频中包括人物的动作的视频。

在本申请实施例中，步骤101具体包括：接收用户通过终端设备上传的单目视频。人物的动作的视频是由包含连续的人物的动作的图像构成。

步骤102、根据单目视频中的人物的动作的视频得到与连续的人物的动作的图像对应的连续的热度图。

在本申请的一个实施例中，将单目视频中包含连续的人物的动作的图像输入二维姿态估计模型进行处理，得到与连续的人物的动作的图像对应的热度图。

本申请实施例的二维姿态估计模型是根据卷积神经网络CNN训练得到的，用于估计图像中人物二维姿态的模型。二维姿态估计模型的输入是包含人物的图像，二维姿态估计模型的输出是输入图像中人物的二维姿态信息，二维姿态信息可以是以人物的关节点像素坐标的形式表示。在模型训练数据充足的情况下，CNN能够充分拟合图像和人体二维姿态之间的非线性关系，实现鲁棒性较高的二维姿态估计。

在本申请的一个实施例中，将单目视频中包含连续的人物的动作的图像输入二维姿态估计模型进行处理，得到与连续的人物的动作的图像对应的热度图，具体包括：

对单目视频中每一帧图像进行人体检测，得到连续的包含人体包围框的图像块；将连续的包含人体包围框的图像块依次输入二维姿态估计模型进行处理，得到与连续的人物的动作的图像对应的热度图。

可选的，将连续的包含人体包围框的图像块输入二维姿态估计模型进行处理之前，还需要对图像块进行缩放处理，以满足二维姿态估计模型对图像尺寸的要求。

具体的，对二维姿态估计模型的训练过程包括：

获取训练数据，训练数据中包括多个包含人物的图像，以及每个图像对应的人物的二维姿态信息；将训练数据中，每个包含人物的图像中的人体包围框内的图像裁剪出来输入CNN，将图像对应的人物的二维姿态信息作为CNN的输出进行训练，得到所述二维姿态估计模型。

可选的，训练数据中的二维姿态信息可以是图像中人物的关节点信息，还可以是表示图像中人物的关节点信息的热度图。

为了获得足够多的训练数据，本申请实施例提供的训练数据可以是采用人工构造的三维模型的图像数据，这样极大降低了训练数据获取的时间和人工标注成本。相应的，二维姿态估计模型的训练数据包括：包含三维模型(即虚拟人物)的图像，以及三维模型的二维姿态信息。

可选的，在一些实施例中，在训练CNN时，首先对图像进行人体检测，得到人体包围框，将人体包围框对应的图像块进行缩放处理，将经过缩放处理后的图像块输入至二维姿态估计模型，并以图像块对应的热度图的形式输出二维姿态估计的结果。

可选的，在一些实施例中，对于定位难度较高的关节点设置精调分支，利用高斯分布对二维姿态估计模型输出的图像对应的热度图进行拟合，获取关节点位置，再使用平滑算法对关节点位置进行平滑处理，提高位置估计的准确性。

可选的，在一些实施例中，根据单目视频中的人物的动作的视频得到与连续的人物的动作的图像对应的连续的热度图之前，动作捕捉方法还包括：

对单目视频进行合格性检测；

在单目视频不合格时，向终端设备发送提示信息，提示信息用于提醒用户重新上传视频。

在一种可能的实现方式中，终端设备上传的单目视频的格式、分辨率、大小需要满足预设要求。如果单目视频的格式不匹配、分辨率太低或者视频过大，服务端都将发送视频不合格的提示信息。

可选的，提示信息中还可以包括对单目视频的格式、分辨率、大小的预设要求，用户可根据提示信息重新上传符合要求的单目视频。

步骤103、根据连续的热度图获取连续二维关节点序列，连续二维关节点序列用于表示热度图中人物的关节点位置。

在本申请实施例中，将多个连续图像对应的热度图进行拟合处理，获取连续二维关节点序列，连续二维关节点序列中包括人物每一个关节点在多帧图像中的坐标位置。

步骤104、根据连续二维关节点序列得到三维估计结果，三维估计结果中包括三维关节点位置信息。三维关节点位置信息用于指示人物在三维空间的姿态信息以及位置信息。

在本申请的一个实施例中，将连续二维关节点序列输入三维姿态估计模型，得到三维估计结果。

本申请实施例的三维姿态估计模型是根据卷积神经网络CNN训练得到的，用于根据二维关节点处理得到三维关节点位置的模型。需要说明的是，三维姿态估计模型的输入是连续二维关节点序列，考虑了连续帧的关节点信息，实现较为准确的三维姿态估计。

具体的，对三维姿态估计模型的训练过程包括：

获取训练数据，训练数据中包括多个包含人物的图像，以及每个图像对应的人物的二维姿态信息，以及每个人物的二维姿态信息对应的三维姿态信息；将训练数据中，每个包含人物的图像对应的二维姿态信息输入CNN，将图像对应的三维姿态信息作为CNN的输出进行训练，得到三维姿态估计模型。

需要说明的是，上述三维姿态估计模型的训练数据，可以是与训练二维姿态估计模型一致的同一组的图像数据，也可以是与训练二维姿态估计模型不同的图像数据，对此本申请实施例不作任何限制。

在一种可能的实现方式中，三维姿态估计模型的训练数据包括：二维姿态估计模型的训练数据中多个连续帧中三维模型的二维姿态信息，以及单帧(多个连续帧的其中一帧)中三维模型的三维姿态信息。需要说明的是，本申请实施例在构造三维模型的训练数据时，可以同时获取构造的三维模型的图像，以及该图像对应的三维模型的二维姿态数据以及三维姿态数据，只是在训练二维姿态估计模型时，使用训练数据中的三维模型的图像以及图像对应的二维姿态数据，在训练三维姿态估计模型时，使用训练数据中三维模型的图像对应的二维姿态数据以及三维姿态数据。

可选的，在一些实施例中，还可以在三维姿态估计模型之后，再增加一个基于CNN的精调模型，对三维姿态估计模型输出的三维姿态进行精调。该精调模型同样考虑连续帧的信息，即考虑当前图像帧之前的图像帧，和/或，当前图像帧之后的图像帧中人物的三维姿态信息，精调后的三维姿态估计结果更加稳定和准确。

步骤105、基于三维关节点位置信息生成骨骼动作文件。

其中，骨骼动作文件用于驱动目标模型执行与单目视频中人物相对应的动作。具体的，骨骼动作文件包括图像中人物的骨骼的姿态信息和位置信息。

具体的，基于三维关节点位置信息进行位移估计和动作解算处理，生成骨骼动作文件。

在本申请实施例中，基于三维关节点位置信息进行位移估计，具体包括：根据三维关节点位置信息，将三维关节点投影到像素平面，与热度图中的二维关节点求重投影误差，得到位移估计结果。应理解，通过三维姿态估计模型得到的三维关节点位置在投影至像素平面(即拍摄相机所在平面)时，各个关节点的投影坐标位置，与通过二维姿态估计模型得到的各个关节点的二维坐标位置相比，可能部分关节点重叠，部分关节点不重叠。通过上述位移估计，提高三维姿态估计模型输出结果的准确性。

可选的，在一些实施例中，还可以在位移估计之后，采用平滑算法对位移估计结果进行平滑处理，提高位移估计结果的精度。

在本申请实施例中，根据位移估计结果，采用反向运动学算法和预先获取的人形骨骼的约束条件进行动作解算处理，得到动作解算结果；根据动作解算结果生成骨骼动作文件。

可选的，在一些实施例中，还可以考虑触地控制、姿态合理性控制等约束条件，对位移估计结果作进一步动作解算处理，用于剔除不合理的姿态。其中触地控制条件包括对人形骨骼的脚底摩擦力的控制条件，属于物理合理性约束条件。姿态合理性控制条件包括人形骨骼的合理性动作的控制条件。

本申请实施例提供的动作捕捉方法，可以根据应用场景灵活调整处理算法的复杂度，例如增加上述精调模型、平滑算法、约束条件等，提高动作捕捉的精度。

本申请实施例提供的动作捕捉方法，获取单目视频，单目视频中包括人物的动作的视频，人物的动作的视频由包含连续的人物的动作的图像构成，根据单目视频中的人物的动作的视频得到与连续的人物的动作的图像对应的连续的热度图，根据连续的热度图获取连续二维关节点序列，二维关节点序列用于表示热度图中人物的关节点位置。根据连续的二维关节点序列得到三维估计结果，三维姿态估计结果中包括三维关节点位置信息。基于三维关节点位置信息生成骨骼动作文件，骨骼动作文件用于驱动目标模型执行与单目视频中人物相对应的动作。通过上述方法得到的三维姿态模拟数据更加精准，提升目标模型与视频中人物动作的一致性。

在一些实施例中，通过采用卷积神经网络构建二维姿态估计模型和三维姿态估计模型，输出的三维姿态数据更加精准。另外，上述方法无需昂贵的视频采集设备支持，与现有技术方案相比，应用场景更加灵活，降低了动作捕捉的成本。

图4为本申请实施例提供的一种动作捕捉方法的流程图，该动作捕捉方法主要用于对实时视频的动作捕捉，如图4所示，该动作捕捉方法包括如下步骤：

步骤201、获取单目视频，单目视频中包括人物的动作的视频。

在本申请实施例中，步骤201具体包括：

实时接收单目摄像头拍摄返回的单目视频。

具体的，用户可以通过打开终端设备上的应用程序，在该应用程序中选择需要使用的3D模型，并通过终端设备上的单目摄像头拍摄动作视频，实时上传动作视频。该应用程序具有动作捕捉功能，能够根据用户实时拍摄的动作视频生成控制3D模型运动的骨骼动作文件，通过执行骨骼动作文件使得3D模型与用户实时拍摄的视频中人物的动作相对应。

需要说明的是，对单目视频的处理过程可以在终端设备中执行，例如通过执行应用程序的软件安装包SDK，也可以在应用服务器中执行，对此本申请实施例不作任何限制。

步骤202、根据单目视频中的人物的动作的视频得到与连续的人物的动作的图像对应的连续的热度图。

步骤203、根据连续的热度图获取连续二维关节点序列，连续二维关节点序列用于表示热度图中人物的关节点位置。

步骤204、根据连续二维关节点序列得到三维估计结果，三维估计结果中包括三维关节点位置信息。

步骤205、基于三维关节点位置信息生成骨骼动作文件。

其中，骨骼动作文件包括图像中人物的骨骼的姿态信息和位置信息。

本申请实施例的步骤202至步骤205与上述实施例的步骤102至步骤105相同，具体可参见上述实施例，此处不再赘述。

步骤206、根据骨骼动作文件中的姿态信息和位置信息，将人物的骨骼动作重定向到预设的目标模型的骨架上，得到模拟动画。

在本申请实施例中，可以对目标模型设置一系列正向运动学约束条件和反向运动学约束条件，使得生成的模拟动画中目标模型的动作更加自然、合理。

步骤207、实时显示模拟动画。

在一种可能的实现方式中，终端设备实时拍摄的视频画面可以与模拟动画的显示画面相互独立，分别占据终端设备用户图形界面的一部分。例如，终端设备实时拍摄的视频画面位于用户图形界面的上半部分，模拟动画位于用户图形用户界面的下半部分。

在另一种可能的实现方式中，终端设备实时拍摄的视频画面上叠加模拟动画中的目标模型的运动画面，换言之，实时拍摄的视频画面中包括人物的运动画面以及投射至该视频画面中的目标模型，目标模型可以位于人物四周的任意位置。例如，在视频画面中，目标模型可以位于视频画面中人物的右侧，目标模型与人物的动作相对应。

本申请实施例提供的动作捕捉方法，通过获取用户实时拍摄的包括人物运动的单目视频，根据单目视频中的人物的动作的视频得到与连续的人物的动作的图像对应的连续的热度图，根据连续的热度图获取连续二维关节点序列，二维关节点序列用于表示热度图中人物的关节点位置。根据连续的二维关节点序列得到三维估计结果，三维姿态估计结果中包括三维关节点位置信息。基于三维关节点位置信息进行位移估计和动作解算处理，生成骨骼动作文件。根据骨骼动作文件中的姿态信息和位置信息，将人物的骨骼动作重定向至预设的目标模型的骨架上，得到模拟动画，实时显示该模拟动画。

上述方法实现基于用户实时上传的动作视频，自动生成包括目标模型的模拟动画，该模拟动画中的目标模型与动作视频中人物的动作相对应。上述方法可满足各类用户进行同人内容创作，提升用户的游戏体验，增强游戏的趣味性。

本申请实施例可以根据上述方法实施例对动作捕捉装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以使用硬件的形式实现，也可以使用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。下面以使用对应各个功能划分各个功能模块为例进行说明。

图5为本申请实施例提供的一种动作捕捉装置的结构示意图。如图5所示，本实施例的动作捕捉装置300，包括：

获取模块301，用于获取单目视频，所述单目视频中包括人物的动作的视频，所述人物的动作的视频由包含连续的人物的动作的图像构成；

处理模块302，用于根据所述单目视频中的人物的动作的视频得到与连续的所述人物的动作的图像对应的连续的热度图；

在本申请的一个实施例中，所述处理模块302，具体用于：

在本申请的一个实施例中，获取模块301，还用于：

处理模块302，还用于：

在本申请的一个实施例中，处理模块302，具体用于：

在本申请的一个实施例中，获取模块301，还用于：

处理模块302，还用于：

在本申请的一个实施例中，处理模块302，具体用于：

根据所述动作解算结果生成所述骨骼动作文件。

在本申请的一个实施例中，获取模块301，具体用于：

接收用户通过终端设备上传的所述单目视频；或者

实时接收单目摄像头拍摄返回的所述单目视频。

图6为本申请实施例提供的一种动作捕捉装置的结构示意图。在图5所示实施例的基础上，如图6所示，本实施例的动作捕捉装置300，还包括：发送模块303和显示模块304。

在本申请的一个实施例中，所述处理模块302根据所述单目视频中的人物的动作的视频得到与连续的所述人物的动作的图像对应的连续的热度图之前，还用于：

对所述单目视频进行合格性检测；

在所述单目视频不合格时，发送模块303用于：

向所述终端设备发送提示信息，所述提示信息用于提醒用户重新上传视频。

在本申请的一个实施例中，所述骨骼动作文件包括所述图像中人物的骨骼的姿态信息和位置信息；处理模块302，还用于：

根据所述骨骼动作文件中的所述姿态信息和所述位置信息，将所述人物的骨骼动作重定向到预设的目标模型的骨架上，得到模拟动画。

在本申请的一个实施例中，显示模块304，用于显示所述模拟动画。

需要说明的是，在一些实施例中，上述对二维姿态估计模型和三维姿态估计模型的训练过程可由独立于本实施例的动作捕捉装置300的其他装置执行，最终将训练好的二维姿态估计模型和三维姿态估计模型配置于动作捕捉装置300即可。

本申请实施例提供的动作捕捉装置，用于执行前述任一方法实施例中的各个步骤，其实现原理和技术效果类似，在此不再赘述。

图7为本申请实施例提供的一种电子设备的硬件结构示意图。如图7所示，本实施例的电子设备400，包括：

至少一个处理器401(图7中仅示出了一个处理器)；以及

与所述至少一个处理器通信连接的存储器402；其中，

所述存储器402存储有可被所述至少一个处理器401执行的指令，所述指令被所述至少一个处理器401执行，以使所述电子设备400能够执行前述任一方法实施例中的各个步骤。

可选的，存储器402既可以是独立的，也可以跟处理器401集成在一起。

当存储器402是独立于处理器401之外的器件时，电子设备400还包括：总线403，用于连接存储器402和处理器401。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当所述计算机执行指令被处理器执行时用于实现前述任一方法实施例中的技术方案。

本申请还提供一种芯片，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行上述方法实施例中的技术方案。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备中。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例的技术方案的范围。

Claims

1.一种动作捕捉方法，其特征在于，包括：

根据所述单目视频中的人物的动作的视频得到与连续的所述人物的动作的图像对应的连续的热度图；

对所述三维估计结果进行精调；

基于所述三维关节点位置信息生成骨骼动作文件，所述骨骼动作文件用于驱动目标模型执行与所述单目视频中人物相对应的动作；

所述基于所述三维关节点位置信息生成骨骼动作文件，包括：

基于所述三维关节点位置信息进行位移估计和动作解算处理，生成所述骨骼动作文件；

所述基于所述三维关节点位置信息进行位移估计和动作解算处理，生成所述骨骼动作文件，包括：

根据所述动作解算结果生成所述骨骼动作文件；

在所述位移估计之后，采用平滑算法对所述位移估计结果进行平滑处理。

2.根据权利要求1所述的方法，其特征在于，所述根据所述单目视频中的人物的动作的视频得到与连续的所述人物的动作的图像对应的热度图，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述单目视频中包含连续的人物的动作的图像输入二维姿态估计模型进行处理，得到与连续的所述人物的动作的图像对应的热度图，包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述连续二维关节点序列得到三维估计结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述获取单目视频，包括：

接收用户通过终端设备上传的所述单目视频；或者

实时接收单目摄像头拍摄返回的所述单目视频。

8.根据权利要求1-6任一项所述的方法，其特征在于，所述根据所述单目视频中的人物的动作的视频得到与连续的所述人物的动作的图像对应的连续的热度图之前，所述方法还包括：

对所述单目视频进行合格性检测；

在所述单目视频不合格时，向终端设备发送提示信息，所述提示信息用于提醒用户重新上传视频。

9.根据权利要求1-6任一项所述的方法，其特征在于，所述骨骼动作文件包括所述图像中人物的骨骼的姿态信息和位置信息；所述方法还包括：

10.一种动作捕捉装置，其特征在于，包括：

对所述三维估计结果进行精调；

所述处理模块具体用于，基于所述三维关节点位置信息进行位移估计和动作解算处理，生成所述骨骼动作文件；

所述处理模块具体用于，根据所述三维关节点位置信息，将所述三维关节点投影到像素平面，与所述热度图中的二维关节点求重投影误差，得到位移估计结果；根据所述位移估计结果，采用反向运动学算法和预先获取的人形骨骼的约束条件进行动作解算处理，得到动作解算结果；根据所述动作解算结果生成所述骨骼动作文件；在所述位移估计之后，采用平滑算法对所述位移估计结果进行平滑处理。

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述电子设备能够执行权利要求1-9中任一项所述的方法。

12.一种计算机可读存储介质，包括：用于存储计算机程序，当所述计算机程序在计算机上执行时，使得所述计算机执行权利要求1-9中任一项所述的方法。