CN113989928B

CN113989928B - 一种动作捕捉和重定向方法

Info

Publication number: CN113989928B
Application number: CN202111253389.7A
Authority: CN
Inventors: 司马华鹏; 汪圆; 王培雨
Original assignee: Nanjing Silicon Intelligence Technology Co Ltd
Current assignee: Nanjing Silicon Intelligence Technology Co Ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2023-09-05
Anticipated expiration: 2041-10-27
Also published as: CN113989928A

Abstract

本发明公开了一种动作捕捉和重定向方法，所述方法包括：获取视频数据；基于第一神经网络模型，提取所述每一帧图像中待捕捉人物的边框坐标数据；基于第二神经网络模型，根据所述待捕捉人物的边框坐标数据，获取所述每一帧图像中的待捕捉人物的关键点二维坐标数据；将所述二维坐标数据输入至三维动作方向预测模型，获取所述每一帧图像中的待捕捉人物的三维方向向量预测数据；根据所述关键点二维坐标数据、所述三维方向向量预测数据以及基于动作参数的人物结构模型拟合人体动作参数，获取所述每一帧图像中待捕捉人物的质心位移信息与欧拉角信息；将所述质心位移信息与所述欧拉角信息直接重定向到任意人物结构模型，进行相应动画。

Description

一种动作捕捉和重定向方法

技术领域

本申请涉及机器视觉领域，尤其涉及一种动作捕捉和重定向方法。

背景技术

动作捕捉是指通过对物体在三维空间中的运动进行记录，并将其运动轨迹模拟到数字模型中。例如，通过检测，记录表演者的肢体在三维空间的运动轨迹，捕获表演者的姿态动作，将捕获的姿态动作转换为数字化的抽象动作，以控制软件应用中的虚拟模型做出和表演者相同的动作，生成动画序列。近年来，动作捕捉技术主要应用于影视动画以及游戏制作中。

现有技术中，动作捕捉通常包括以下两类：1)基于设备的动作捕捉技术，其需依赖于昂贵的动捕设备得以实现，具体而言，主要通过各种传感器设备对表演者的肢体关节点位移等信息进行测量，获取这些关节点的三维空间坐标，从而重构出表演者的姿态动作；2)基于视频的动作捕捉技术，主要采用单视角或多视角拍摄的人物运动视频，利用深度学习技术从视频中预测人体关节点的运动参数。

但第一种基于设备的动作捕捉方式成本过高，且需要专业人员操作，捕捉动作较为繁琐耗时。第二种基于视频的动作捕捉动作准确性不高，且前后帧不连续导致动作抖动不流畅。

针对现有技术中，动作捕捉技术在实现过程中的成本过高，并且在实现过程中准确性以及处理效率均不理想的问题，现有技术尚未提供有效的解决方案。

发明内容

本申请提供了一种动作捕捉和重定向方法，以解决现有技术中，动作捕捉技术在实现过程中的成本过高，且在实现过程中准确性以及处理效率均不理想的问题。

本申请提供了一种动作捕捉和重定向方法，所述方法包括：

获取视频数据，所述视频数据包括若干帧图像，每一帧图像中包含待捕捉人物的运动姿态动作数据；

基于第一神经网络模型，提取所述每一帧图像中待捕捉人物的边框坐标数据；

基于第二神经网络模型，根据所述待捕捉人物的边框坐标数据，获取所述每一帧图像中的待捕捉人物的关键点二维坐标数据；

将所述二维坐标数据输入至三维动作方向预测模型，获取所述每一帧图像中的待捕捉人物的三维方向向量预测数据；

根据所述关键点二维坐标数据、所述三维方向向量预测数据以及基于动作参数的人物结构模型拟合人体动作参数，获取所述每一帧图像中待捕捉人物的质心位移信息与欧拉角信息；

将所述质心位移信息与所述欧拉角信息直接重定向到任意人物结构模型，进行相应动画。

在一种实现方式中，提取所述每一帧图像中待捕捉人物的边框坐标数据，包括：

检测所述每一帧图像中的待捕捉人物，获取待捕捉人物的位置候选框；

将所述待捕捉人物的位置候选框输入到所述第一神经网络模型中，获取所述每一帧图像中的待捕捉人物的边框坐标数据。

在一种实现方式中，获取所述每一帧图像中的待捕捉人物的关键点二维坐标数据，包括：

将所述待捕捉人物边框图像输入至所述第二神经网络模型，依次经过所述网络模型中的卷积层、残差模块以及最大池化层，将所述待捕捉人物边框图像的分辨率降低；

基于第二神经网络模型中的多个沙漏模块，所述待捕捉人物边框图像的分辨率持续降低，直至降至最低分辨率；

将所述最低分辨率的待捕捉人物边框图像，通过第二神经网络中的采样过程对所述待捕捉人物边框图像以点加方式融合，获得输出分辨率；

根据所述第二神经网络中的卷积层对所述待捕捉人物边框图像检测，获得每个热度图中像素值最大的二维坐标数据，所述每个热度图中像素最大的二维坐标数据为相对应的所述待捕捉人物的关键点二维坐标数据。

在一种实现方式中，将所述二维坐标数据输入至三维动作方向预测模型，获取所述每一帧图像中的待捕捉人物的三维方向向量预测数据之前，包括：

采集原始数据集，所述原始数据集包括多组不同身材人物不同动作下不同视角的人体关键点三维坐标数据、相机参数以及视频数据；

根据所述人体关键点三维坐标数据以及相机参数获取人体关键点二维坐标数据；

构建训练数据集，所述训练数据集中包括所述原始数据集中人物的图片、人体边框坐标、所述人体关键点二维坐标数据以及所述人体关键点三维坐标数据；

将所述训练数据集中的一张单人图片以及所述单人图片中人体关键点二维坐标数据输入至待训练三维动作方向预测模型，所述待训练三维动作方向预测模型根据初始模型参数执行以下步骤：

获取预测的三维矩阵数据，所述三维矩阵数据为所述单人图片中人物的每个关节的三维方向向量数据；

根据所述三维方向向量数据，提取所述单人图片中人物的预测人体关键点三维坐标数据；

根据所述预测人体关键点三维坐标数据与所述训练数据集中的人体关键点三维坐标数据，计算误差函数，并根据所述误差函数进行迭代训练，优化所述初始模型参数，直至所述误差函数小于阈值，完成训练，得到目标三维动作方向预测模型。

在一种实现方式中，获取所述每一帧图像中的待捕捉人物的三维方向向量预测数据，包括：

获取待捕捉人物的每一帧图像以及所述人物的二维坐标数据；

将所述的待捕捉人物每一帧图像与所述二维坐标数据输入至三维动作方向预测模型，获取所述每一帧图像中的待捕捉人物的三维方向向量预测数据，所述三维动作方向预测模型为采用上述的训练方法训练得到的。

在一种实现方式中，所述基于动作参数的人物结构模型拟合人体动作参数，包括：

根据所述人体关键点二维坐标数据与所述三维方向向量预测数据进行拟合，优化所述人体动作参数；

根据所述人体动作参数增加所述每一帧图像的前后帧约束拟合去除动作抖动。

在一种实现方式中，根据所述人体关键点二维坐标数据与所述三维方向向量预测数据进行拟合，优化所述人体动作参数，包括：

限制拟合的所述人体关键点二维坐标数据，所述人体关键点二维坐标数据包括二维关键点与检测的所述二维关键点的距离；

根据所述二维关键点与检测的所述二维关键点的距离，获取第一目标函数；

限制拟合的所述三维方向向量预测数据，所述三维方向向量预测数据包括三维方向向量与预测三维方向向量误差函数；

根据所述三维方向向量与所述三维方向向量误差函数，获取第二目标函数；

通过最小化所述第一目标函数与第二目标函数，优化所述人体动作参数。

在一种实现方式中，根据所述人体动作参数增加所述每一帧图像的前后帧约束拟合去除动作抖动，包括：

根据所述人体关键点三维坐标数据，获取第三目标函数；

通过所述人体动作参数，最小化所述第三目标函数；

通过所述最小化第三目标函数，增加所述每一帧图像的前后帧约束拟合去除动作抖动。

在一种实现方式中，所述第一神经网络模型为对称空间变换网络神经模型，所述第二神经网络模型为堆叠式沙漏神经网络模型。

在一种实现方式中，将所述质心位移信息与所述欧拉角信息直接重定向到任意人物结构模型，进行相应动画，包括：

根据重定向的人物模型骨骼比例，构建所述基于动作参数的人物结构模型；

将包含所述质心位移信息与所述欧拉角信息的BVH文件转换为通用的FBX格式动画文件；

将FBX骨格结构转换为Unity支持的标准人形结构，转换后的所述FBX格式动画文件即可驱动所述Unity中任意的人物结构模型。

由上述方案可知，本申请提供的一种动作捕捉和重定向方法，可以从视频中学习人物的相应动作，相较于现有相关技术中的动作捕捉技术，不再受限于昂贵的动作捕捉设备，可以更加灵活地捕捉目标动作。进一步的，从视频中学习到的动作可以重定向到任意的任务模型上，从而完成视频动作的复刻。并且，通过本申请提供的一种动作捕捉和重定向方法，降低动作捕捉技术在实现过程中的成本，并且有效提高操作过程中的准确性以及处理效率。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的一种动作捕捉和重定向方法的流程示意图；

图2为本申请提供的一种人体关键点与骨骼方向向量的示意图。

具体实施方式

下面将详细地对实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。

需要说明的是，本申请中对于术语的简单说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排除其他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其他组件。术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

为了解决现有的动作捕捉技术在实现过程中的成本过高，并且在实现过程中准确性以及处理效率均不理想的问题，本申请提供了一种动作捕捉和重定向方法，可以从视频中学习人物的相应动作，相较于现有的动作捕捉技术，不再受限于昂贵的动捕设备，可以更加灵活地捕获目标动作。进一步的，从视频中学习到的动作可以重定向到任意的人物模型上，从而完成视频动作的复刻。并且，通过本申请的动作捕捉和重定向方法，在实践过程可通过更为高效的形式并更加准确的实现动作的捕捉处理。

本申请公开了一种动作捕捉和重定向方法，首先将一段包含人物动作的视频提取为图像序列，对每一帧图像分别进行计算；具体地，通过对称空间变换网络得到人物在图像中的边框坐标，并根据边框将人物切分出来；将切分出的人物图片输入到堆叠式沙漏网络与三维动作方向预测网络，得到关键点坐标与关节方向向量；对每一帧图像进行两阶段拟合，拟合输入为关键点坐标，关节方向向量，带参数的数字人模型，输出动作序列，每一帧图像包含中心点坐标与关节欧拉角，该信息可以直接写入BVH文件格式中；将BVH文件格式转为FBX格式驱动虚拟模型进行相应动画。

参见图1，为本申请一种动作捕捉和重定向方法的流程图。

由图一可知，本申请提供的一种动作捕捉和重定向方法，该方法包括以下步骤：

S1，获取视频数据，所述视频数据包括若干帧图像，每一帧图像中包含待捕捉人物的运动姿态动作数据；

示例性的，获取的视频数据可以是实时录制的包含待捕捉对象运动的姿态运动数据的视频，也可以是事先录制或制作的包含待捕捉对象运动的姿态动作数据的视频，所述待捕捉对象可以是视频中运动的人或物，在本实施例中以人为例进行说明。需要说明的是，视频数据包含若干帧图像，其中，每一帧图像中皆包含待捕捉人物运动的一个姿态动作。

S2，基于第一神经网络模型，提取所述每一帧图像中待捕捉人物的边框坐标数据；

在一些实施例中，提取所述每一帧图像中待捕捉人物的边框坐标数据具体包括以下步骤：S21，检测所述每一帧图像中的待捕捉人物，获取待捕捉人物的位置候选框；S22，将所述待捕捉人物的位置候选框输入到所述第一神经网络模型中，获取所述每一帧图像中的待捕捉人物的边框坐标数据；本申请中在获取图像中待捕捉人物的关键点二维坐标数据之前，首先要获得图像中待捕捉人物的边框坐标数据，具体地，采用yolo算法检测图像中的待捕捉人物，获得待捕捉人物的位置候选框。需要说明的是，该图像为视频中的某帧图像，在该步骤中，检测的图像需要保证图像中有完整且较为清晰的人物。第一神经网络将人物的位置候选框的长宽方向延伸20％，以确保可以将人物完整的框起来，紧接着将延伸过的图像进行仿射变换，最终获得人物的边框坐标数据。

S3，基于第二神经网络模型，根据所述待捕捉人物的边框坐标数据，获取所述每一帧图像中的待捕捉人物的关键点二维坐标数据；

在一些实施例中，获取所述每一帧图像中的待捕捉人物的关键点二维坐标数据具体包括：将所述待捕捉人物边框图像输入至所述第二神经网络模型，依次经过所述网络模型中的卷积层、残差模块以及最大池化层，将所述待捕捉人物边框图像的分辨率降低；基于第二神经网络模型中的多个沙漏模块，所述待捕捉人物边框图像的分辨率持续降低，直至降至最低分辨率；将所述最低分辨率的待捕捉人物边框图像，通过第二神经网络中的采样过程对所述待捕捉人物边框图像以点加方式融合，获得输出分辨率；根据所述第二神经网络中的卷积层对所述待捕捉人物边框图像检测，获得每个热度图中像素值最大的二维坐标数据，所述每个热度图中像素最大的二维坐标数据为相对应的所述待捕捉人物的关键点二维坐标数据。

示例性的，首先将尺寸为256x256的人物边框图像输入至第二神经网络模型中，在该网络模型中，图像先经过一个步长为2的7x7卷积层，再经过一个残差模块和一个最大池化层将图像分辨率从256降至64，随后再接入两个残差模块后进入沙漏模块环节；需要说明的是，每个沙漏模块都是对称的，整个网络模型由多个沙漏模块组成，并且使用自下而上的人体关键点检测算法，通过卷积及最大池化操作将图像从高分辨率降至低分辨率。特别地，自下而上(Bottom-Up)的人体骨骼关键点检测算法主要包含两个部分，关键点检测和关键点聚类，其中关键点检测需要将图片中所有类别的所有关键点全部检测出来，然后对这些关键点进行聚类处理，将不同人的不同关键点连接在一块，从而聚类产生不同的个体。特别地，沙漏的设置具体包括：卷积层和最大池化用于将特征的分辨率处理到非常低。在达到最低分辨率后，网络开始自上而下的上采样序列和跨尺度的融合特征，将信息汇集在两个相邻的分辨率中，并进行较低分辨率的最近邻上采样，由于沙漏的拓扑结构是对称的，因此对于下行路径上存在的每个层，都会出现相应的上采样层。

进一步地，在每次最大池化操作时，该网络模型会生成一个新的分支并对池化前的图像进行更多的卷积操作，使图像的分辨率持续降低。当图像达到4x4的最低分辨率时，所述网络模型开始以最邻近差值方式进行自上而下的人体关键点检测过程对图像采样并通过网络模型生成额外分支进行额外卷积操作的对应图像以点加方式融合；特别地，自上而下(Top-Down)的人体骨骼关键点检测算法主要包含两个部分，目标检测和单人人体骨骼关键点检测。具体地，目标检测算法是将每一个待捕捉人物检测出来，然后在检测框的基础上针对单个人做人体骨骼关键点检测。而对于关键点检测算法，首先需要注意的是关键点局部信息的区分性很弱，即背景中很容易会出现同样的局部区域造成混淆，所以需要考虑较大的感受区域，其次人体不同关键点的检测的难以程度是不一样的，对于腰部、腿部这类关键点的检测要明显难于头部附近关键点的检测，所以不同的关键点可能需要区别对待。

当图像达到输出分辨率时，再接入两个1x1的卷积层用于检测。所述网络模型最终输出一组用于预测每个关键点在每个像素点存在的概率的热度图(heatmaps)，热度图数量为期望预测的关键点个数，每个热度图中像素最大的坐标位置即预测的相应人物的关键点二维坐标数据。具体地，如图2所示，预测得到的相应人物的18个关键点坐标，具体包括头部关键点、颈部关键点、盆骨关键点、胸部关键点、左锁骨关键点、左肩、左手肘、左手腕、右锁骨关键点、右肩、右手肘、右手腕、左臀、左膝盖、左脚踝、右臀、右膝盖、右脚踝。

容易注意的是，上述第一神经网络模型和第二神经网络模型是采用人工智能算法预先训练得到的模型，其中，第一神经网络模型可以用于估计图像中人物的位置，从而获得待捕捉人物的边框坐标数据；第二神经网络模型可以根据待捕捉人物的边框数据获取每一帧图像中的待捕捉人物的关键点二维坐标数据。利用神经网络强大的学习和推导能力，将视频中的人体动作转换成关键点二维坐标数据。使用大量真实的视频和图片训练出来的神经网络，能有效的识别各种环境下的人物动作。

在一些实施例中，所述第一神经网络模型为对称空间变换神经网络模型，所述第二神经网络模型为堆叠式沙漏神经网络模型。需要说明的是，本申请采用的对称空间变换神经网络SSTN(采用STN+SPPE+SDTN的网络结构)。具体地，空间变换神经网络(SpatialTransformer Networks)是一种卷积神经网络架构模型，通过变换输入的图片，降低受到数据在空间多样性的影响，来提高卷积网络模型的分类准确率，而不是通过改变网络结构。空间变换神经网络的鲁棒性很好，具有平移、伸缩、旋转、扰动、弯曲等空间不变性。进一步地，空间变换神经网络由三个部分组成：本地化网络、网格生成器以及采样器。空间变换神经网络可用于输入层，也可插入到卷积层或者其他层的后面，不需要改变原卷积神经网络模型的内部结构。空间变换神经网络对于输入的图片，先用本地化网络来预测需要进行的变换，即经过连续若干层计算(包括卷积和全连接计算)，然后网格生成器和采样器对图片实施变换，变换得到的图片被放到卷积神经网络中进行分类。其中网格生成器使用了双线性插值方法来生成网络。空间变换神经网络能够自适应地对数据进行空间变换和对齐，使得卷积神经网络模型对平移、缩放、旋转或者其它变换保持不变性。此外，空间变换神经网络的计算速度很快，几乎不会影响原有卷积神经网络模型的训练速度，和空间变换神经网络模块本身可微，可以无缝嵌入现有网络架构，且无需额外的监督信息帮助训练。

进一步地，人体二维关键点检测部分，采用堆叠式沙漏神经网络(StackedHourglass Networks)。具体地，用于人体姿态估计的堆叠式沙漏网络可以捕获并整合图像的所有尺度的信息。与传统产生像素输出的卷积方法一样，沙漏网络池化到非常低的分辨率，然后上采样并组合多种分辨率的功能。另一方面，沙漏与现有设计的不同之处主要在于其更对称的拓扑结构，通过连续将多个沙漏模块端到端地放在一起来扩展单个沙漏，允许跨尺度重复自下而上，自上而下推断。结合使用中间监督，重复的双向推断对网络的最终性能至关重要。最终的网络架构实现了姿态估计基准的水平的显著改进，并且在MPII上，所有关节的平均准确度提高超过2％，对于膝关节和脚踝等更困难的关节可提高4％-5％。另外，沙漏的设计是由于需要捕获各种规模的信息。虽然局部证据对于识别面部和手部等特征至关重要，但最终的姿态估计需要对整个身体进行连贯的理解。捕捉对象的方向，肢体的排列以及相邻关节的关系是在图像中以不同尺度最佳识别的许多提示之中。沙漏是一种简单、最小的设计，能够捕获所有这些功能并将它们组合在一起以输出像素预测。

S4，将所述二维坐标数据输入至三维动作方向预测模型，获取所述每一帧图像中的待捕捉人物的三维方向向量预测数据；

在一些实施例中，将二维坐标数据输入至三维动作方向预测模型之前，需要先对三维动作方向预测模型进行训练，具体包括以下步骤：S41，采集原始数据集，所述原始数据集包括多组不同身材人物不同动作下不同视角的人体关键点三维坐标数据、相机参数以及视频数据；具体地，基于三维动作捕捉设备，获取至少一组三维人体动作数据集以构成原始数据集。该原始数据集包含了不同身材人物的各种动作在多个视角下的关键点坐标数据，即人体关键点三维坐标数据、相机参数以及视频数据。

S42，根据所述人体关键点三维坐标数据以及相机参数获取人体关键点二维坐标数据；由于原始数据集中包含了不同身材人的各种动作在多个视角下的关键点坐标数据，即人体关键点三维坐标数据、相机参数以及视频数据，通过三维坐标数据与相机参数即可计算得到人体关键点二维坐标数据。

S43，构建训练数据集，所述训练数据集中包括所述原始数据集中人物的图片、人体边框坐标、所述人体关键点二维坐标数据以及所述人体关键点三维坐标数据；单个训练样本包含一张单人的图片、该图片中人体的边框坐标数据、人体关键点二维坐标数据与人体关键点三维坐标数据，其中，人体关键点二维坐标数据可通过三维坐标数据与相机参数计算获取。

进一步地，构建完成训练数据集后，即开始进行三维动作方向预测模型的训练，首先将所述训练数据集中的一张单人图片以及所述单人图片中人体关键点二维坐标数据输入至待训练三维动作方向预测模型；具体地，模型的输入是一张采用固定尺寸的包含单人的照片，即训练数据集中的一张单人图片以及该图片中人体关键点二维坐标数据，输出的是预测的三维矩阵数据，该三维矩阵数据对应图片中每个关节的三维方向向量数据。

示例性的，所述待训练三维动作方向预测模型根据初始模型参数执行以下步骤：S411，获取预测的三维矩阵数据，所述三维矩阵数据为所述单人图片中人物的每个关节的三维方向向量数据；S412，根据所述三维方向向量数据，提取所述单人图片中人物的预测人体关键点三维坐标数据；S413，根据所述预测人体关键点三维坐标数据与所述训练数据集中的人体关键点三维坐标数据，计算误差函数，并根据所述误差函数进行迭代训练，优化所述初始模型参数，直至所述误差函数小于阈值，完成训练，得到目标三维动作方向预测模型。

需要说明的是，在本申请中，通过将三维方向向量数据转换成人体关键点三维坐标数据，将预测的人体关键点三维坐标数据与训练样本中的真实人体关键点三维坐标进行比对，以训练预测结果与真实结果之间的误差函数，再进行多轮的参数优化训练，直到预测结果和真实结果的误差小于阈值为止此刻即可得到模型的参数，进而完成模型的训练。

在一些实施例中，获取所述每一帧图像中的待捕捉人物的三维方向向量预测数据，具体包括：获取待捕捉人物的每一帧图像以及所述人物的二维坐标数据；将所述的待捕捉人物每一帧图像与所述二维坐标数据输入至三维动作方向预测模型，获取所述每一帧图像中的待捕捉人物的三维方向向量预测数据，所述三维动作方向预测模型为采用上述的训练方法训练得到的。即完成训练之后，将所述二维坐标数据输入至三维动作方向预测模型，即可输出相对应的人体的三维方向向量预测数据。

需要说明的是，通过将待捕捉人物的三维方向向量预测数据，即待捕捉人物的图像以及待捕捉人物的二维坐标数据输入至上述训练完成的三维动作方向预测模型，最终获得图像中待捕捉人物的三维方向向量预测数据。特别地，由于手部关节和身体关节的尺度相差较大，需要针对手部的三维关键点坐标数据的预测单独进行模型训练，即分别以手部关节和身体关节为对象进行三维动作方向预测模型的训练。

S5，根据所述关键点二维坐标数据、所述三维方向向量预测数据以及基于动作参数的人物结构模型拟合人体动作参数，获取所述每一帧图像中待捕捉人物的质心位移信息与欧拉角信息；

需要说明的是，由于基于人体关键点二维坐标数据以及图像预测人体关键点三维坐标数据中，不可避免的存在动作稳定性，即动作序列抖动前后帧不连续不流畅，以及准确性不佳的问题。进一步地，需要对基于动作参数的人物结构模型拟合人体动作参数，以使动作捕捉的动作准确性更高，且保证前后帧图像连续达到动作捕捉的流畅性。具体地，所述基于动作参数的人物结构模型拟合人体动作参数，包括：根据所述人体关键点二维坐标数据与所述三维方向向量预测数据进行拟合，优化所述人体动作参数；根据所述人体动作参数增加所述每一帧图像的前后帧约束拟合去除动作抖动。

进一步地，根据人体关键点二维坐标数据与三维方向向量的预测结果结果进行动作拟合。在本申请中拟合分为两个阶段，第一阶段根据待捕捉人物的关键点二维坐标数据与三维方向向量数据进行拟合，即根据人体关键点二维坐标数据以及三维方向向量的预测结果进行拟合，具体过程包括：首先建立基于动作参数的人体模型，需要说明的是，在本申请中直接采用数字人作为人体模型，可使动作重定向时不需要手动调整动作，大大提高处理效率。设动作捕捉时人体模型为A，驱动任意其他人体模型B，当A与B关节点位与长度不同时，将导致重定向后的动作发生形变从而需要人工调整，在本实施例中直接使用待驱动的模型B进行动作参数拟合，人体模型的四肢末端点与动捕源一致，从而避免重定向后动作发生形变；接着采用目标优化的方式拟合人体动作参数，动作参数包括质心位移与关节点旋转角度，质心位移即视频中人物的运动的位移，关键点旋转角度用欧拉角表示。特别的，动作参数信息可直接保存在BVH文件中。

在一些实施例中，根据所述人体关键点二维坐标数据与所述三维方向向量预测数据进行拟合，优化所述人体动作参数，包括：限制拟合的所述人体关键点二维坐标数据，所述人体关键点二维坐标数据包括二维关键点与检测的所述二维关键点的距离；根据所述二维关键点与检测的所述二维关键点的距离，获取第一目标函数；限制拟合的所述三维方向向量预测数据，所述三维方向向量预测数据包括三维方向向量与预测三维方向向量误差函数；根据所述三维方向向量与所述三维方向向量误差函数，获取第二目标函数；通过最小化所述第一目标函数与第二目标函数，优化所述人体动作参数；

具体地，给定人体动作参数(θ，t)，其中θ表示骨骼方向，t表示整体位移，根据模型关键点在二维平面的投影点K与检测二维关键点k距离，建立第一目标函数F1：

根据模型关键点方向D以及预测三维方向向量误差d，建立第二目标函数F2：

通过最小化F1+F2计算出人体动作参数。

在一些实施例中，根据所述人体动作参数增加所述每一帧图像的前后帧约束拟合去除动作抖动。通过上述第一阶段根据人体关键点二维坐标数据与三维方向向量数据进行拟合，第二阶段基于第一阶段拟合结果增加前后帧约束拟合去除动作抖动，具体过程包括：根据所述人体关键点三维坐标数据，获取第三目标函数；通过所述人体动作参数，最小化所述第三目标函数；通过所述最小化第三目标函数，增加所述每一帧图像的前后帧约束拟合去除动作抖动；

具体地，以人体动作参数为初始值，最小化第三目标函数F3：

其中，J_i(θ,t)表示人体动作模型第i个关键点三维坐标，表示下一帧相同点坐标。

需要说明的是，拟合过程采用跟踪方式加快拟合速度，除第一帧外，每一帧的拟合参数初始化为上一帧的结果，由于动作的连续性前后帧参数差距不大，可较大程度缩短拟合计算时间，通过动作拟合，即可得到包含视频中人物的运动的位移与关键点旋转角度的信息。其中，关键点旋转角度用欧拉角表示，所述信息可直接保存在BVH文件中。

S6，将所述质心位移信息与所述欧拉角信息直接重定向到任意人物结构模型，进行相应动画；具体步骤包括：根据重定向的人物模型骨骼比例，构建所述基于动作参数的人物结构模型；将包含所述质心位移信息与所述欧拉角信息的BVH文件转换为通用的FBX格式动画文件；将FBX骨格结构转换为Unity支持的标准人形结构，转换后的所述FBX格式动画文件即可驱动所述Unity中任意的人物结构模型。

进一步地，将包含质心位移信息与欧拉角信息的BVH文件转换成游戏美术人员常常使用的FBX文件(即FilmBox软件格式的文件)。由于视频是连续的人体动作，因此保存到FBX中的信息包括了逐帧的动作信息。优选地，还可以将FBX文件转换成人体动作文件BIP文件(BIP全称为Bipedal，BIP文件即3dsmax cs特有格式的文件，用于制作动画和3D的文件)。其中，FBX文件是Autodesk公司出品的一款用于跨平台的免费三维创作与交换格式的软件，通过FBX用户能访问大多数三维供应商的三维文件。FBX文件格式支持所有主要的三维数据元素以及二维、音频和视频媒体元素。BIP文件是脚步控制器常用动作文件，是动画和三维制作常用的文件。BIP是3dsmax cs特有的格式，用Natural Motion Endorphin(动作捕捉模拟)打开，或者可以使用Motion Builder(三维角色动画软件之一)等软件打开。BIP文件是游戏美术常使用的角色动画文件。基于3DMax中的标准骨骼的样子，计算出了人体关节的旋转方向和长度。将这些数据导入到3DMax中可以得到正确的BIP骨骼和动画效果。

在一些实施例中，本申请提供的方案基于视频的动作捕捉和重定向，在动画生成过程中进行动作拟合，可驱动任意数字人模型，而不存在动作变形。具体实施例步骤如下。

本示例性实施例中，以一段包含人物动作的视频进行动作捕捉和重定向为例。

(1)获取视频中每一帧图像中待捕捉人物的运动姿态动作数据；

(2)通过对称空间变换神经网络模型，提取上述每一帧图像中待捕捉人物的边框坐标数据；

(3)通过堆叠式沙漏神经网络模型，根据待捕捉人物的边框坐标数据，获取每一帧图像中的待捕捉人物的关键点二维坐标数据；

(4)将二维坐标数据输入至训练完成的三维动作方向预测模型，获取每一帧图像中的待捕捉人物的三维方向向量预测数据；

(5)根据上述关键点二维坐标数据、三维方向向量预测数据以及基于动作参数的人物结构模型拟合人体动作参数，获取每一帧图像中待捕捉人物的质心位移信息与欧拉角信息，所述质心位移信息与欧拉角信息可直接写入BVH文件格式中；

(6)将BVH文件格式转为FBX文件格式，并直接重定向到任意人物结构模型，进行相应动画。

通过以上技术方案可以看出，本申请提供的一种动作捕捉和重定向方法首先可以从视频中学习人物的相应动作，与相关技术中的动作捕捉技术相比较，不再受限于昂贵的动作捕捉设备，从而可以更加灵活地捕获目标动作。进一步地，还解决了相关技术中，从动作捕捉设备或视频中获取运动参数后，动作重定向(即驱动任意不同的虚拟形象进行相应动作)将产生关节点位与长度不同导致的动作变形，需要使用动画制作软件依据反向动力学调整动作的问题，本申请提供的一种动作捕捉和重定向技术使得从视频中学习到的动作可以重定向到任意的人物模型上，从而完成视频动作的复刻。并且，通过本申请提供的一种动作捕捉和重定向方法，在实践过程中可以通过更加高效的形式并更为准确的实现动作的捕捉处理，从而解决相关技术中，动作捕捉技术的实现过程成本过高，并且在实现过程中准确性以及处理效率均不理想的问题。

本说明书中通篇提及的“多个实施例”、“一些实施例”、“一个实施例”或“实施例”等，意味着结合该实施例描述的具体特征，部件或特性包括在至少一个实施例中，因此，本说明书通篇出现的短语“在多个实施例中”、“在一些实施例中”、“在至少另一个实施例中”或“在实施例中”等，并不一定都指相同的实施例。此外，在一个或多个实施例中，具体特征、部件或特性可以任何合适的方式进行组合。因此，在无限制的情形下，结合一个实施例示出或描述的具体特征、部件或特性可全部或部分地与一个或多个其他实施例的特征、部件或特性进行组合。这种修改和变型旨在包括早本申请的范围之内。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims

1.一种动作捕捉和重定向方法，其特征在于，包括：

根据所述关键点二维坐标数据和所述三维方向向量预测数据进行拟合，以更新人体动作参数；

其中，更新人体动作参数的步骤包括：

通过最小化所述第一目标函数与第二目标函数，更新所述人体动作参数；

根据所述人体动作参数增加每一帧图像的前后帧约束拟合去除动作抖动，以及，获取所述每一帧图像中待捕捉人物的质心位移信息与欧拉角信息；

2.根据权利要求1所述的方法，其特征在于，提取所述每一帧图像中待捕捉人物的边框坐标数据，包括：

3.根据权利要求1所述的方法，其特征在于，获取所述每一帧图像中的待捕捉人物的关键点二维坐标数据，包括：

4.根据权利要求1所述的方法，其特征在于，将所述二维坐标数据输入至三维动作方向预测模型，获取所述每一帧图像中的待捕捉人物的三维方向向量预测数据之前，包括：

5.根据权利要求4所述的方法，其特征在于，获取所述每一帧图像中的待捕捉人物的三维方向向量预测数据，包括：

将所述的待捕捉人物每一帧图像与所述二维坐标数据输入至三维动作方向预测模型，获取所述每一帧图像中的待捕捉人物的三维方向向量预测数据，所述三维动作方向预测模型为采用权利要求4的训练方法训练得到的。

6.根据权利要求1所述的方法，其特征在于，根据所述人体动作参数增加所述每一帧图像的前后帧约束拟合去除动作抖动，包括：

根据所述人体关键点三维坐标数据，获取第三目标函数；

通过所述人体动作参数，最小化所述第三目标函数；

7.根据权利要求1所述的方法，其特征在于，所述第一神经网络模型为对称空间变换网络神经模型，所述第二神经网络模型为堆叠式沙漏神经网络模型。

8.根据权利要求1所述的方法，其特征在于，将所述质心位移信息与所述欧拉角信息直接重定向到任意人物结构模型，进行相应动画，包括：