CN113761965B

CN113761965B - 动作捕捉方法、装置、电子设备和存储介质

Info

Publication number: CN113761965B
Application number: CN202010484790.0A
Authority: CN
Inventors: 赵培尧; 曹炎培
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2024-03-12
Anticipated expiration: 2040-06-01
Also published as: CN113761965A

Abstract

本公开提供动作捕捉方法、装置、电子设备和存储介质。包括：对视频中的当前帧目标图像进行目标检测，获取当前帧目标图像中目标对象的图像区域；从当前帧目标图像中裁剪出所述图像区域；对图像区域进行三维姿态识别，得到目标对象的三维关键点；将三维关键点投射到图像坐标系，得到各关键点的二维位置坐标；根据各关键点的二维位置坐标，确定出目标对象在下一帧目标图像中的图像区域；对目标对象在下一帧目标图像中的图像区域进行三维姿态识别，得到目标对象在所述下一帧目标图像中的三维关键点。整个过程用于识别三维姿态的每个图像区域，采用处理复杂度小的方案来估计下一个图像区域。由此，减少了算法计算量，降低了服务器的计算开销。

Description

动作捕捉方法、装置、电子设备和存储介质

技术领域

本公开涉及人工智能技术领域，特别涉及一种动作捕捉方法、装置、电子设备和存储介质。

背景技术

动作捕捉是虚拟内容生产的重要环节，传统动作捕捉技术如光学动捕、运动传感器动捕等技术的成本较高。近年来，基于单张图片或单个视频的单视角动作捕捉技术发展较快。可以通过手机、相机等移动便携式设备对人物动作进行采集，重建出人体三维姿态，用于后期的多媒体制作等，有效地降低了虚拟内容生产成本。实时的移动端单视角动作捕捉也能够支持诸如驱动虚拟形象等应用。

现有技术中，基于神经网络的方法实现动作捕捉的方法被广泛采用，此类方法是通过标注数据来训练神经网络从单张图片或单个视频中预测人体三维姿态。然而，三维姿态估计神经网络进行三维姿态识别获得人体关键点之前，有一些预处理的算法，导致整个识别过程算法复杂性较高，整体识别速度有待提高。因此，急需一种新的方法来解决上述的问题。

发明内容

本公开提供一种动作捕捉方法、装置、电子设备及存储介质，用于解决传统的识别三维姿态的方法中由于一些预处理的算法，导致整个识别过程算法复杂性较高，整体识别速度有待提高的问题。

第一方面，本公开提供一种动作捕捉方法，所述方法包括：

对视频中的当前帧目标图像进行目标检测，获取所述当前帧目标图像中的目标对象的图像区域；

从所述当前帧目标图像中裁剪出所述目标对象的所述图像区域；

利用三维姿态估计网络对所述目标对象的所述图像区域进行三维姿态识别，得到所述目标对象的三维关键点；

将所述三维关键点投射到图像坐标系，得到所述目标对象的各关键点的二维位置坐标；

根据所述各关键点的二维位置坐标，确定出所述目标对象在下一帧目标图像中的图像区域；

利用所述三维姿态估计网络对所述目标对象在所述下一帧目标图像中的图像区域进行三维姿态识别，得到所述目标对象在所述下一帧目标图像中的三维关键点。

在一个实施例中，所述利用所述三维姿态估计网络对所述目标对象在所述下一帧目标图像中的图像区域进行三维姿态识别之后，所述方法还包括：

针对从所述下一帧目标图像开始的任意相邻的两帧目标图像，执行：

将所述相邻的两帧目标图像中排序在前的一帧目标图像的三维关键点投射到图像坐标系，得到所述目标对象的各关键点的二维位置坐标；

根据所述各关键点的二维位置坐标，确定出所述目标对象在下一帧目标图像中的图像区域。

在一个实施例中，所述根据所述各关键点的二维位置坐标，确定出所述目标对象在下一帧目标图像中的图像区域，包括：

筛选出所述各关键点的二维位置坐标的横坐标的最大值与最小值，并筛选出所述各关键点的二维位置坐标的纵坐标的最大值与最小值；

将所述横坐标的最大值与最小值的差值作为所述图像区域的初始宽度，并将所述纵坐标的最大值和最小值作为所述图像区域的初始高度；

若所述图像区域为矩形区域，则将所述初始宽度和所述初始高度分别进行放大或缩小得到所述目标对象在下一帧目标图像中的图像区域；

若所述图像区域为正方形区域，则将所述初始宽度和所述初始高度中的最大值分别进行放大或缩小得到所述目标对象在下一帧目标图像中的图像区域。

在一个实施例中，以所述图像区域左上角顶点的位置代表所述图像区域在所述当前帧目标图像中的位置，则所述根据所述各关键点的二维位置坐标，确定出所述目标对象在下一帧目标图像中的图像区域，包括：

根据以下公式确定出所述目标对象在下一帧目标图像中的图像区域：

其中，所述为下一帧目标图像中的图像区域的位置的横坐标，所述/>为下一帧目标图像中的图像区域的位置的纵坐标，所述/>为二维位置坐标的横坐标的均值，所述/>为二维位置坐标纵坐标的均值，W_t+K为下一帧目标图像中的图像区域的大小一半。

在一个实施例中，所述对视频中的当前帧目标图像进行目标检测之前，所述方法还包括：

根据以下方法确定需要进行目标检测的所述当前帧目标图像：

确定对一帧目标图像进行所述三维姿态识别所需的时长；

根据所述视频的帧率确定所述时长内包括的总帧数；

从指定帧开始，以所述总帧数的指定倍数作为采样间隔，对所述视频进行采样，采样到的每帧图像均作为进行所述目标检测的当前帧目标图像。

在一个实施例中，所述根据所述各关键点的二维位置坐标，确定出所述目标对象在下一帧目标图像中的图像区域之后，所述方法还包括：

当所述目标对象在下一帧目标图像中的图像区域的大小不符合检测条件时，则确定所述下一帧目标图像为用于进行目标检测的所述当前帧目标图像。

在一个实施例中，所述目标对象的三维关键点的表达中包括关节旋转参数θ_t、用于表示体型的体态系数β_t、大小参数s_t以及所述目标对象在相应的图像区域中的位置偏移参数

所述将所述三维关键点投射到图像坐标系，得到所述目标对象的各关键点的二维位置坐标，包括：

根据所述关节旋转参数θ_t和所述用于表示体型的体态系数β_t得到各三维关键点的三维位置坐标；

根据所述各关键点的三维位置坐标，使用弱投影方法确定出所述各关键点在所述图像区域中的投影坐标；

根据所述各关键点在所述图像区域中的投影坐标，确定出所述各关键点的二维位置坐标。

在一个实施例中，若所述视频中在所述当前帧目标图像，与所述当前帧目标图像的下一帧目标图像之间还具有至少一帧图像，则所述对所述目标对象在所述下一帧目标图像中的图像区域进行三维姿态识别，得到所述目标对象在所述下一帧目标图像中的三维关键点之后，还包括：

根据所述当前帧目标图像的三维关键点以及所述下一帧目标图像的三维关键点进行插值处理得到所述至少一帧图像中各帧图像的三维关键点。

第二方面，本公开提供一种动作捕捉装置，所述装置包括：

目标检测模块，被配置为执行对视频中的当前帧目标图像进行目标检测，获取所述当前帧目标图像中的目标对象的图像区域；

裁剪模块，被配置为执行从所述当前帧目标图像中裁剪出所述目标对象的所述图像区域；

三维姿态识别模块，被配置为执行利用三维姿态估计网络对所述目标对象的所述图像区域进行三维姿态识别，得到所述目标对象的三维关键点；

投射模块，被配置为执行将所述三维关键点投射到图像坐标系，得到所述目标对象的各关键点的二维位置坐标；

图像区域确定模块，被配置为执行根据所述各关键点的二维位置坐标，确定出所述目标对象在下一帧目标图像中的图像区域；

所述三维姿态识别模块，还被配置为执行利用所述三维姿态估计网络对所述目标对象在所述下一帧目标图像中的图像区域进行三维姿态识别，得到所述目标对象在所述下一帧目标图像中的三维关键点。

在一个实施例中，所述投射模块，还被配置为利用所述三维姿态估计网络对所述目标对象在所述下一帧目标图像中的图像区域进行三维姿态识别之后，针对从所述下一帧目标图像开始的任意相邻的两帧目标图像，执行将所述相邻的两帧目标图像中排序在前的一帧目标图像的三维关键点投射到图像坐标系，得到所述目标对象的各关键点的二维位置坐标；

所述图像区域确定模块，还被配置为执行根据所述各关键点的二维位置坐标，确定出所述目标对象在下一帧目标图像中的图像区域。

在一个实施例中，所述图像区域确定模块，还被配置为执行：

在一个实施例中，所述图像区域确定模块，还被配置为根据以下公式确定出所述目标对象在下一帧目标图像中的图像区域：

在一个实施例中，所述装置还包括：

第一目标图像确定模块，被配置为对视频中的当前帧目标图像进行目标检测之前，根据以下方法确定需要进行目标检测的所述当前帧目标图像：

确定对一帧目标图像进行所述三维姿态识别所需的时长；

根据所述视频的帧率确定所述时长内包括的总帧数；

在一个实施例中，所述装置还包括：

第二目标图像确定模块，被配置为执行根据所述各关键点的二维位置坐标，确定出所述目标对象在下一帧目标图像中的图像区域之后，当所述目标对象在下一帧目标图像中的图像区域的大小不符合检测条件时，则确定所述下一帧目标图像为用于进行目标检测的所述当前帧目标图像。

所述投射模块，还被配置为执行：

在一个实施例中，所述装置还包括：

插值处理模块，被配置为执行若所述视频中在所述当前帧目标图像，与所述当前帧目标图像的下一帧目标图像之间还具有至少一帧图像，则所述对所述目标对象在所述下一帧目标图像中的图像区域进行三维姿态识别，得到所述目标对象在所述下一帧目标图像中的三维关键点之后，根据所述当前帧目标图像的三维关键点以及所述下一帧目标图像的三维关键点进行插值处理得到所述至少一帧图像中各帧图像的三维关键点。

根据本公开实施例的第三方面，提供一种电子设备，包括：

包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令；所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够实现如第一方面所述的方法。

根据本公开实施例提供的第四方面，提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机可程序用于执行如第一方面所述的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开提供一种动作捕捉方法、装置、电子设备和存储介质。该方法包括：对视频中的当前帧目标图像进行目标检测，获取所述当前帧目标图像中的目标对象的图像区域；从所述当前帧目标图像中裁剪出所述目标对象的所述图像区域；利用三维姿态估计网络对所述目标对象的所述图像区域进行三维姿态识别，得到所述目标对象的三维关键点；将所述三维关键点投射到图像坐标系，得到所述目标对象的各关键点的二维位置坐标；根据所述各关键点的二维位置坐标，确定出所述目标对象在下一帧目标图像中的图像区域；利用所述三维姿态估计网络对所述目标对象在所述下一帧目标图像中的图像区域进行三维姿态识别，得到所述目标对象在所述下一帧目标图像中的三维关键点。整个过程用于识别三维姿态的每个图像区域，不再需要每个图像区域都依赖于复杂的目标检测方法来进行检测和定位，可以通过简单的方式来替代目标检测方法达到减少目标检测方法的使用数量的目的。也即，采用处理复杂度小的方案来估计下一个图像区域。由此，减少了算法的计算量，降低了服务器的计算开销。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1为根据本公开一个实施例的动作捕捉流程示意图之一；

图2为根据本公开一个实施例的动作捕捉流程示意图之二；

图3为根据本公开一个实施例的动作捕捉流程示意图之三；

图4为根据本公开一个实施例的动作捕捉装置；

图5为根据本公开一个实施例的电子设备的结构示意图。

具体实施方式

为进一步说明本公开实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本公开实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本公开实施例提供的执行顺序。方法在实际的处理过程中或者控制设备执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。

本公开实施例中术语“多个”是指两个或两个以上，其它量词与之类似应当理解，此处所描述的优选实施例仅用于说明和解释本公开，并不用于限定本公开，并且在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

发明人研究发现，现有技术中，三维姿态估计神经网络进行三维姿态识别时，首先，需要从输入图片中获取目标人物的检测框，传统方法通常采用人体目标检测模块实现，但是此方法算法复杂度较高，需要引入额外的计算开销。

由此，本公开提供一种动作捕捉方法、装置、电子设备和存储介质，下面结合附图，对本公开进行详细的说明。

确定需要进行目标检测的当前帧目标图像，在一个实施例中，可实施为：确定对一帧图像进行所述三维姿态识别所需的时长；根据所述视频的帧率确定所述时长内包括的总帧数；从指定帧开始，以所述总帧数的指定倍数作为采样间隔，对所述视频进行采样，采样到的每帧图像均作为进行所述目标检测的当前帧目标图像。

例如，对一帧图像进行三维姿态识别所需的时长为A秒，若视频的帧率为B，即该视频每秒包含帧数为B帧，则确定A秒内包括的总帧数为A×B帧，将总帧数的指定倍数作为采样间隔，例如确定出的采样间隔为A×B帧，则每隔A×B帧对视频进行一次采样，采样后的每帧图像均作为进行所述目标检测的当前帧目标图像。

如图1所示，图1为该动作捕捉方法的流程示意图，可包括以下步骤：

步骤101：对视频中的当前帧目标图像进行目标检测，获取所述当前帧目标图像中的目标对象的图像区域；

步骤102：从所述当前帧目标图像中裁剪出所述目标对象的所述图像区域；

步骤103：利用三维姿态估计网络对所述目标对象的所述图像区域进行三维姿态识别，得到所述目标对象的三维关键点；

步骤104：将所述三维关键点投射到图像坐标系，得到所述目标对象的各关键点的二维位置坐标；

步骤105：根据所述各关键点的二维位置坐标，确定出所述目标对象在下一帧目标图像中的图像区域；

步骤106：利用所述三维姿态估计网络对所述目标对象在所述下一帧目标图像中的图像区域进行三维姿态识别，得到所述目标对象在所述下一帧目标图像中的三维关键点。

由此，本公开中通过对当前帧目标图像进行目标检测，得到当前帧目标图像中的目标对象的图像区域并裁剪，然后利用三维姿态估计网络对目标对象的图像区域进行三维姿态识别，得到目标对象的三维关键点，并基于三维关键点确定目标对象在下一帧目标图像中的图像区域并对所述图像区域进行三维姿态识别，得到所述目标对象在所述下一帧目标图像中的三维关键点。整个过程用于识别三维姿态的每个图像区域，不再需要每个图像区域都依赖于复杂的目标检测方法来进行检测和定位，可以通过简单的方式来替代目标检测方法达到减少目标检测方法的使用数量的目的。也即，采用处理复杂度小的方案来估计下一个图像区域。由此，减少了算法的计算量，降低了服务器的计算开销。

在一个实施例中，利用所述三维姿态估计网络对所述目标对象在所述下一帧目标图像中的图像区域进行三维姿态识别之后，针对从所述下一帧目标图像开始的任意相邻的两帧目标图像，执行：将所述相邻的两帧目标图像中排序在前的一帧目标图像的三维关键点投射到图像坐标系，得到所述目标对象的各关键点的二维位置坐标；根据所述各关键点的二维位置坐标，确定出所述目标对象在下一帧目标图像中的图像区域。

例如，第A帧图像和第B帧图像为相邻的两帧目标图像，其中，第A帧图像排在第B帧图像的前面，则将第A帧图像的三维关键点投射到图像坐标系，得到目标对象的各关键点的二维位置坐标，根据各关键点的二维位置坐标，确定出目标对象在第B帧目标图像中的图像区域。

由此，针对任意相邻的两帧图像，可根据排序在前的一帧目标图像的三维关键点确定出在下一帧目标图像中的图像区域。所以，不需要每个图像区域都依赖于复杂的目标检测方法来检测和定位，采用了处理复杂度小的方案来估计下一个图像区域。由此，减少了算法的计算量，降低了服务器的计算开销。

在执行完步骤105之后，为了保证动作捕捉的整个过程的准确性，在一个实施例中，当所述目标对象在下一帧目标图像中的图像区域的大小不符合检测条件时，则确定所述下一帧目标图像为用于进行目标检测的所述当前帧目标图像。也即，对下一帧目标图像采用传统的目标检测方法确定需要进行三维姿态识别的图像区域，由此实现对该图像区域位置的更正。

需要说明的是，所述检测条件可以根据经验确定。例如，当进行人体的三维姿态识别时，尽可能要求图像区域的宽度不小于10(pix，像素)，高度不小于40。故此，检测条件可设定为图像区域的宽度不小于10，高度不小于40。也即当图像区域的宽度小于10或高度小于40时，则确定图像区域不满足检测条件。

再例如，检测条件可根据摄像机的拍摄参数来确定，例如根据摄像机的焦距确定检测条件。以人体三维姿态识别为例，通过摄像机的焦距可以确定出最远能拍摄到的具有清晰的人体姿态的人像大小，并以该人像大小作为检测条件。即大于该人像大小则继续用预估出的图像区域对图像进行三维姿态识别，否则需要通过目标检测方法重新确定图像区域。

由此，可以根据检测条件来判断下一帧目标图像是否需要进行目标检测，保证了动作捕捉的整个过程的准确性。

在一个实施例中，对一帧图像进行三维姿态识别的所需的时间较长，故此，一个视频可能仅有部分图像能够进行三维姿态识别。在这一情况下，若所述视频中在所述当前帧目标图像，与所述当前帧目标图像的下一帧目标图像之间还具有至少一帧图像，则对所述目标对象在所述下一帧目标图像中的图像区域进行三维姿态识别，得到所述目标对象在所述下一帧目标图像中的三维关键点之后，根据所述当前帧目标图像的三维关键点以及所述下一帧目标图像的三维关键点进行插值处理得到所述至少一帧图像中各帧图像的三维关键点。

其中，插值处理可包括内插和外插。

1)内插为根据当前帧目标图像的三维关键点，更新肢体关节的运动状态，对当前帧目标图像以及下一帧目标图像之间的各帧图像的三维关键点进行预测，得到各帧图像的三维关键点。内插的优点是延时小，内插的缺点是精度差，视觉效果上抖动较为明显。

2)外插是根据当前帧目标图像的三维关键点和下一帧目标图像的三维关键点对当前帧目标图像以及下一帧目标图像之间的各帧图像的三维关键点进行预测，外插的优点是精度高，动作稳定且平滑，缺点是延时大。

其中，内插和外插的区别在于是否采用下一帧目标图像的三维关键点对当前帧目标图像以及下一帧目标图像之间的各帧图像的三维关键点进行预测。在实施时，可根据具体的需求选择合适的插值方法。本公开在此不做限定。进行插值处理时，使用Slerp(Spherical linear interpolation，球面线性插值)分别处理每个关节旋转的轴角。

由此，可以根据当前帧目标图像的三维关键点，或当前帧目标图像的三维关键点结合下一帧目标图像的三维关键点进行差值处理，得到至少一帧图像中各帧图像的三维关键点。解决了现有技术中由于受限于移动端较弱的计算能力，三维姿态估计神经网络在移动端运行的帧率低于视频帧率导致会造成在实时应用中视觉效果卡顿的问题。

本公开中使用SMPL(Skinned Multi-Person Linear,参数化人体模型)描述三维网格M(θ,β)，其中关节旋转参数θ_t是长度为72的向量，表示模型中24个关节旋转的轴角；用于表示体型的体态系数β_t是长度为10的向量。三维网格M(θ_t,β_t)包含6890个顶点，用6890×3大小的矩阵描述。此外，本公开中定义固定数量个关键点，各关键点的三维位置坐标表示为J_3D(θ_t,β_t)＝T·M(θ_t,β_t)，其中J_3D(θ_t,β_t)为固定数量×3大小的矩阵，T表示从三维网格顶点到关键点的回归矩阵，大小为固定数量×6890。关键点包括脚踝、膝盖、胯、手腕、手肘、肩膀，以及鼻子和眼睛等。

在一个实施例中，所述目标对象的三维关键点的表达中包括关节旋转参数θ_t、用于表示体型(如高矮胖瘦)的体态系数β_t、大小参数s_t以及所述目标对象在相应的图像区域中的位置偏移参数

如前文所述将所述三维关键点投射到图像坐标系，得到所述目标对象的各关键点的二维位置坐标，在本申请实施例中，可实施为：

根据所述各关键点的三维位置坐标，使用弱投影方法根据公式(1)和公式(2)确定出所述各关键点在所述图像区域中的投影坐标：

其中，[J_2D(θ_t,β_t)]_x1为所述各关键点在所述图像区域中的投影的横坐标；[J_2D(θ_t,β_t)]_y1为所述各关键点在所述图像区域中的投影的纵坐标；[J_3D(θ_t,β_t)]_x表示所述各关键点的三维位置坐标的横坐标，[J_3D(θ_t,β_t)]_y示所述各关键点的三维位置坐标的纵坐标；

根据所述各关键点在所述图像区域中的投影坐标，利用公式(3)和公式(4)确定出所述各关键点的二维位置坐标：

其中，所述W_t为所述目标图像中图像区域的大小，所述为所述目标图像中图像区域位置的横坐标，所述/>为所述目标图像中图像区域位置的纵坐标。

由此，根据上述公式确定出各关键点的二维位置坐标。

所述根据所述各关键点的二维位置坐标，确定出下一帧目标图像的图像区域，在本公开实施例中，可执行为：

1)根据所述各关键点的二维位置坐标，确定出下一帧目标图像的图像区域的大小，如图2所示，可包括以下步骤：

步骤201：筛选出所述各关键点的二维位置坐标的横坐标的最大值与最小值，并筛选出所述各关键点的二维位置坐标的纵坐标的最大值与最小值；

步骤202：将所述横坐标的最大值与最小值的差值作为所述图像区域的初始宽度，并将所述纵坐标的最大值和最小值作为所述图像区域的初始高度；

步骤203：若所述图像区域为矩形区域，则将所述初始宽度和所述初始高度分别进行放大或缩小得到所述目标对象在下一帧目标图像中的图像区域；

步骤204：若所述图像区域为正方形区域，则将所述初始宽度和所述初始高度中的最大值分别进行放大或缩小得到所述目标对象在下一帧目标图像中的图像区域。

例如，筛选出的各关键点的二维位置坐标的横坐标的最大值为30，最小值5，则将所述横坐标中最大值与最小值的差值25(像素)作为图像区域的初始宽度，同样的，若筛选出的各关键点的二维位置坐标的纵坐标的最大值为90，最小值为0，则将所述纵坐标中最大值与最小值的差值90(像素)作为图像区域的初始高度。若所述图像区域为矩形区域，将初始宽度和初始高度放大或缩小，例如，都放大预设倍数1.2，则得到下一帧目标图像的图像区域的宽度为30以及下一帧目标图像的图像区域的高度为108。若所述图像区域为正方形区域，则将初始高度放大或缩小。

需要说明的是，本公开中初始宽度和初始高度放大或缩小的倍数可以相同也可以不同，在此不做限定。

图像区域左上角顶点的位置代表图像区域在当前帧目标图像中的位置，在一个实施例中，可根据公式(5)和公式(6)确定出目标对象在下一帧目标图像中的图像区域：

例如，已知二维位置坐标的横坐标的均值为20，二维位置坐标的纵坐标的均值为68，前文所述的下一帧目标图像的图像区域的宽度的一半为15，图像区域的高度的一半为54，则根据二维位置坐标的横坐标的均值(20)与下一帧目标图像的图像区域的宽度的一半(15)的差值得到下一帧目标图像中的图像区域的位置的横坐标，即横坐标的值为5。并根据二维位置坐标的纵坐标的均值(68)与下一帧目标图像的图像区域的高度的一半(54)的差值得到下一帧目标图像中的图像区域的位置的纵坐标。即纵坐标的值为14。则得到所述下一帧目标图像的图像区域的位置的坐标为(5，14)。

由此，可通过上述方法来根据各关键点的二维位置坐标确定出下一帧目标图像的图像区域的位置和大小。

为了进一步了解本公开提供的技术方案，下面结合图3进行详细说明，可包括以下步骤：

步骤301：确定对一帧目标图像进行三维姿态识别所需的时长；

步骤302：根据视频的帧率确定时长内包括的总帧数；

步骤303：从指定帧开始，以总帧数的指定倍数作为采样间隔，对视频进行采样，采样到的每帧图像均作为进行目标检测的当前帧目标图像；

步骤304：对视频中的当前帧目标图像进行目标检测，获取当前帧目标图像中的目标对象的图像区域；

步骤305：从当前帧目标图像中裁剪出目标对象的图像区域；

步骤306：利用三维姿态估计网络对目标对象的图像区域进行三维姿态识别，得到目标对象的三维关键点；

步骤307：将三维关键点投射到图像坐标系，得到目标对象的各关键点的二维位置坐标；

步骤308：根据各关键点的二维位置坐标，确定出目标对象在下一帧目标图像中的图像区域；

步骤309：利用三维姿态估计网络对目标对象在下一帧目标图像中的图像区域进行三维姿态识别，得到目标对象在下一帧目标图像中的三维关键点；

步骤310：若视频中在当前帧目标图像，与当前帧目标图像的下一帧目标图像之间还具有至少一帧图像，则根据当前帧目标图像的三维关键点以及下一帧目标图像的三维关键点进行插值处理得到至少一帧图像中各帧图像的三维关键点。

基于相同的发明构思，本公开如上所述的动作捕捉方法还可以由一种动作捕捉装置实现。该装置的效果与前述方法的效果相似，在此不再赘述。

图4为根据本公开一个实施例的动作捕捉装置的结构示意图。

如图4所示，本公开的动作捕捉装置400可以包括目标检测模块401、裁剪模块402、三维姿态识别模块403，投射模块404，图像区域确定模块405。

目标检测模块401，被配置为执行对视频中的当前帧目标图像进行目标检测，获取所述当前帧目标图像中的目标对象的图像区域；

裁剪模块402，被配置为执行从所述当前帧目标图像中裁剪出所述目标对象的所述图像区域；

三维姿态识别模块403，被配置为执行利用三维姿态估计网络对所述目标对象的所述图像区域进行三维姿态识别，得到所述目标对象的三维关键点；

投射模块404，被配置为执行将所述三维关键点投射到图像坐标系，得到所述目标对象的各关键点的二维位置坐标；

图像区域确定模块405，被配置为执行根据所述各关键点的二维位置坐标，确定出所述目标对象在下一帧目标图像中的图像区域；

所述三维姿态识别模块403，还被配置为执行利用所述三维姿态估计网络对所述目标对象在所述下一帧目标图像中的图像区域进行三维姿态识别，得到所述目标对象在所述下一帧目标图像中的三维关键点。

在一个实施例中，所述投射模块404，还被配置为利用所述三维姿态估计网络对所述目标对象在所述下一帧目标图像中的图像区域进行三维姿态识别之后，针对从所述下一帧目标图像开始的任意相邻的两帧目标图像，执行将所述相邻的两帧目标图像中排序在前的一帧目标图像的三维关键点投射到图像坐标系，得到所述目标对象的各关键点的二维位置坐标；

所述图像区域确定模块405，还被配置为执行根据所述各关键点的二维位置坐标，确定出所述目标对象在下一帧目标图像中的图像区域。

在一个实施例中，所述图像区域确定模块405，还被配置为执行：

在一个实施例中，所述图像区域确定模块405，还被配置为根据以下公式确定出所述目标对象在下一帧目标图像中的图像区域：

在一个实施例中，所述装置还包括：

第一目标图像确定模块406，被配置为对视频中的当前帧目标图像进行目标检测之前，根据以下方法确定需要进行目标检测的所述当前帧目标图像：

确定对一帧目标图像进行所述三维姿态识别所需的时长；

根据所述视频的帧率确定所述时长内包括的总帧数；

在一个实施例中，所述装置还包括：

第二目标图像确定模块407，被配置为执行根据所述各关键点的二维位置坐标，确定出所述目标对象在下一帧目标图像中的图像区域之后，当所述目标对象在下一帧目标图像中的图像区域的大小不符合检测条件时，则确定所述下一帧目标图像为用于进行目标检测的所述当前帧目标图像。

所述投射模块404，还被配置为执行：

在一个实施例中，所述装置还包括：

插值处理模块408，被配置为执行若所述视频中在所述当前帧目标图像，与所述当前帧目标图像的下一帧目标图像之间还具有至少一帧图像，则所述对所述目标对象在所述下一帧目标图像中的图像区域进行三维姿态识别，得到所述目标对象在所述下一帧目标图像中的三维关键点之后，根据所述当前帧目标图像的三维关键点以及所述下一帧目标图像的三维关键点进行插值处理得到所述至少一帧图像中各帧图像的三维关键点。

在介绍了本申请示例性实施方式的一种动作捕捉方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本申请的电子设备可以至少包括至少一个处理器、以及至少一个计算机存储介质。其中，计算机存储介质存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的动作捕捉方法中的步骤。例如，处理器可以执行如图1中所示的步骤101-106。

下面参照图5来描述根据本申请的这种实施方式的电子设备500。图5显示的电子设备500仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，电子设备500以通用电子设备的形式表现。电子设备500的组件可以包括但不限于：上述至少一个处理器501、上述至少一个计算机存储介质502、连接不同系统组件(包括计算机存储介质502和处理器501)的总线503。

总线503表示几类总线结构中的一种或多种，包括计算机存储介质总线或者计算机存储介质控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

计算机存储介质502可以包括易失性计算机存储介质形式的可读介质，例如随机存取计算机存储介质(RAM)521和/或高速缓存存储介质522，还可以进一步包括只读计算机存储介质(ROM)523。

计算机存储介质502还可以包括具有一组(至少一个)程序模块524的程序/实用工具525，这样的程序模块524包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备500也可以与一个或多个外部设备505(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与电子设备500交互的设备通信，和/或与使得该电子设备500能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口505进行。并且，电子设备500还可以通过网络适配器506与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器506通过总线503与用于电子设备500的其它模块通信。应当理解，尽管图中未示出，可以结合电子设备500使用其它硬件和/或软件模块，包括但不限于：微代码、电子设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本申请提供的一种动作捕捉方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种动作捕捉方法中的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取计算机存储介质(RAM)、只读计算机存储介质(ROM)、可擦式可编程只读计算机存储介质(EPROM或闪存)、光纤、便携式紧凑盘只读计算机存储介质(CD-ROM)、光计算机存储介质件、磁计算机存储介质件、或者上述的任意合适的组合。

本申请的实施方式的用于动作捕捉的程序产品可以采用便携式紧凑盘只读计算机存储介质(CD-ROM)并包括程序代码，并可以在电子设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘计算机存储介质、CD-ROM、光学计算机存储介质等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、电子设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读计算机存储介质中，使得存储在该计算机可读计算机存储介质中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种动作捕捉方法，其特征在于，所述方法包括：

利用所述三维姿态估计网络对所述目标对象在所述下一帧目标图像中的图像区域进行三维姿态识别，得到所述目标对象在所述下一帧目标图像中的三维关键点；

根据所述当前帧目标图像的三维关键点以及所述下一帧目标图像的三维关键点进行插值处理得到所述当前帧目标图像与所述下一帧目标图像之间还具有的至少一帧图像中各帧图像的三维关键点，其中，所述插值处理为内插或外插，且所述内插为根据所述当前帧目标图像的三维关键点，对所述当前帧目标图像以及所述下一帧目标图像之间的各帧图像的三维关键点进行预测，得到所述各帧图像的三维关键点，以及所述外插为根据所述当前帧目标图像的三维关键点和所述下一帧目标图像的三维关键点对所述当前帧目标图像以及所述下一帧目标图像之间的各帧图像的三维关键点进行预测，得到所述各帧图像的三维关键点。

2.根据权利要求1所述的方法，其特征在于，所述利用所述三维姿态估计网络对所述目标对象在所述下一帧目标图像中的图像区域进行三维姿态识别之后，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述各关键点的二维位置坐标，确定出所述目标对象在下一帧目标图像中的图像区域，包括：

4.根据权利要求3所述的方法，其特征在于，以所述图像区域左上角顶点的位置代表所述图像区域在所述当前帧目标图像中的位置，则所述根据所述各关键点的二维位置坐标，确定出所述目标对象在下一帧目标图像中的图像区域，包括：

5.根据权利要求1所述的方法，其特征在于，所述对视频中的当前帧目标图像进行目标检测之前，所述方法还包括：

确定对一帧目标图像进行所述三维姿态识别所需的时长；

根据所述视频的帧率确定所述时长内包括的总帧数；

6.根据权利要求2所述的方法，其特征在于，所述根据所述各关键点的二维位置坐标，确定出所述目标对象在下一帧目标图像中的图像区域之后，所述方法还包括：

7.根据权利要求1或2所述的方法，其特征在于，所述目标对象的三维关键点的表达中包括关节旋转参数θ_t、用于表示体型的体态系数β_t、大小参数s_t以及所述目标对象在相应的图像区域中的位置偏移参数

8.一种动作捕捉装置，其特征在于，所述装置包括：

所述三维姿态识别模块，还被配置为执行利用所述三维姿态估计网络对所述目标对象在所述下一帧目标图像中的图像区域进行三维姿态识别，得到所述目标对象在所述下一帧目标图像中的三维关键点；

插值处理模块，被配置为执行根据所述当前帧目标图像的三维关键点以及所述下一帧目标图像的三维关键点进行插值处理得到所述当前帧目标图像与所述下一帧目标图像之间还具有的至少一帧图像中各帧图像的三维关键点，其中，所述插值处理为内插或外插，且所述内插为根据所述当前帧目标图像的三维关键点，对所述当前帧目标图像以及所述下一帧目标图像之间的各帧图像的三维关键点进行预测，得到所述各帧图像的三维关键点，以及所述外插为根据所述当前帧目标图像的三维关键点和所述下一帧目标图像的三维关键点对所述当前帧目标图像以及所述下一帧目标图像之间的各帧图像的三维关键点进行预测，得到所述各帧图像的三维关键点。

9.根据权利要求8所述的装置，其特征在于，所述投射模块，还被配置为利用所述三维姿态估计网络对所述目标对象在所述下一帧目标图像中的图像区域进行三维姿态识别之后，针对从所述下一帧目标图像开始的任意相邻的两帧目标图像，执行将所述相邻的两帧目标图像中排序在前的一帧目标图像的三维关键点投射到图像坐标系，得到所述目标对象的各关键点的二维位置坐标；

10.根据权利要求8或9所述的装置，其特征在于，所述图像区域确定模块，还被配置为执行：

11.根据权利要求10所述的装置，其特征在于，所述图像区域确定模块，还被配置为根据以下公式确定出所述目标对象在下一帧目标图像中的图像区域：

12.根据权利要求8所述的装置，其特征在于，所述装置还包括：

确定对一帧目标图像进行所述三维姿态识别所需的时长；

根据所述视频的帧率确定所述时长内包括的总帧数；

13.根据权利要求9所述的装置，其特征在于，所述装置还包括：

14.根据权利要求8或9所述的装置，其特征在于，所述目标对象的三维关键点的表达中包括关节旋转参数θ_t、用于表示体型的体态系数β_t、大小参数s_t以及所述目标对象在相应的图像区域中的位置偏移参数

所述投射模块，还被配置为执行：

15.一种电子设备，其特征在于，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令；所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行根据权利要求1-7任一项所述的方法。

16.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序用于执行根据权利要求1-7任一项所述的方法。