CN113688683A

CN113688683A - 光学运动捕捉数据处理方法、模型训练方法及装置

Info

Publication number: CN113688683A
Application number: CN202110841000.4A
Authority: CN
Inventors: 陈康; 王宇攀; 张伟东
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-11-23

Abstract

本发明提供了一种光学运动捕捉数据处理方法及装置。涉及计算机技术领域。通过获取第一标记点位置帧序列，每个标记点位置帧序列包括多个标记点，一个所述标记点用于标记一个或多个关节位置；基于目标预测模型以及所述第一标记点位置帧序列，预测得到低维度的预测数据；基于目标解码模型以及所述预测数据，解码得到目标骨骼动画数据。可以直接从包含错误和噪音的标记点位置帧序列中预测出与之对应的干净的骨骼动画数据，提升了数据处理的效率。

Description

光学运动捕捉数据处理方法、模型训练方法及装置

技术领域

本发明涉及计算机技术领域，尤其是涉及一种光学运动捕捉数据处理方法、模型训练方法及装置。

背景技术

运动捕捉(Motion Capture)，简称动捕(MoCap)，指的是将真实演员的肢体动作转换为三维虚拟角色骨骼动画的技术。相比于传统的关键帧动画制作方式，运动捕捉技术有着巨大的优势，既提升了三维动作资源的真实度，又提升了其生产效率，也因此成为了当前影视、游戏行业三维人形动画的标准制作方式。

从技术原理上划分，运动捕捉设备可以分成两种类型，惯性动捕设备和光学动捕设备。其中惯性动捕设备利用固定在演员关节上的加速度传感器来获取演员各个关节的相对运动量；而光学动捕设备则通过大量不同视角的高速相机同步拍摄演员动作，并利用多视角三维重建技术计算贴在演员身上的一批特殊标记点(marker)的三维坐标，之后再基于这些坐标解算出演员每个关节点的位置和旋转信息。惯性动捕设备成本较低，但是由于受到当前惯性传感器设备的精度限制，其动作捕捉的精度也明显低于光学动捕设备。此外，由于惯性动捕设备记录的是每个关节相对于上一时刻的相对值，无法获取演员在三维空间中的绝对坐标，这一特性导致惯性动捕设备无法应用于多人同时动捕的场景，因为其无法定位不同演员之间的相对位置关系。由于以上原因，虽然光学动捕设备成本高昂，但却在运动捕捉领域占据绝对统治地位。

目前业界对光学动捕数据的清洗和解算主要依赖vicon blade、vicon shogun、autodesk motionbuilder等商业软件提供内置工具，其特点为高度依赖人工对动捕标记点数据中的错误进行修正，否则解算出的骨骼动画数据会存在明显的缺陷。典型的处理流程为，先对原标记点位置帧序列进行自动解算得到存在缺陷的骨骼动画，人工对得到对动画进行逐帧预览，寻找存在问题的区间，然后人工纠正该区间内导致解算结果异常的标记点。不断重复这一过程，直到整个动捕动作序列都能被正确解算。

发明内容

本发明的目的在于提供一种光学运动捕捉数据处理方法、模型训练方法及装置，以缓解了现有技术中存在的光学运动捕捉数据处理效率低的技术问题。

第一方面，本发明提供了一种光学运动捕捉数据处理方法。包括：

获取第一标记点位置帧序列，每个标记点位置帧序列包括多个标记点，一个所述标记点用于标记一个或多个关节位置；

基于目标预测模型以及所述第一标记点位置帧序列，预测得到低维度的预测数据；

基于目标解码模型以及所述预测数据，解码得到目标骨骼动画数据。

在可选的实现中，所述预测数据包括标记点配置预测以及骨骼动画预测，所述目标解码模型包括对应于标记点配置的第一解码模型和对应于骨骼动画的第二解码模型，所述目标预测模型包括对应于标记点配置的第一预测模型和对应于骨骼动画的第二预测模型；所述基于目标预测模型以及所述第一标记点位置帧序列，预测得到低维度的预测数据，包括：

基于第一预测模型以及所述第一标记点位置帧序列，预测得到标记点配置预测；

基于第二预测模型以及所述第一标记点位置帧序列，预测得到骨骼动画预测。

在可选的实现中，所述基于目标解码模型以及所述预测数据，解码得到目标骨骼动画数据，包括：

基所述第一解码模型以及所述标记点配置预测，解码得到第一标记点配置数据；

基于所述第二解码模型、骨骼动画预测、所述标记点配置预测以及所述第一标记点配置数据，解码得到目标骨骼动画数据。

在可选的实现中，所述第一解码模型包括依次连接的第一上池化层、第一激活层以及第一卷积层；所述第二解码模型包括依次连接的第二上池化层、第二卷积层、第二激活层、第三上池化层、以及第三卷积层；所述基于所述第一解码模型、骨骼动画预测、所述标记点配置预测以及所述第一标记点配置数据，解码得到目标骨骼动画数据，包括：

基于所述第二上池化层以及所述骨骼动画预测，进行处理得到第一中间数据；

基于所述第二卷积层、第二激活层、第三上池化层、第一中间数据以及所述标记点配置预测，进行处理得第二中间数据；

基于所述第三卷积层、第二中间数据以及所述第一标记点配置数据，解码得到目标骨骼动画数据。

在可选的实现中，所述预测数据还包括模板骨骼预测，所述目标预测模型还包括对应于模板骨骼的第三预测模型，所述方法还包括：

基于第三预测模型以及所述第一标记点位置帧序列，预测得到模板骨骼预测；

基于目标解码模型、所述模板骨骼预测以及标记点配置预测，解码得到目标模板骨骼和目标标记点配置；

基于所述目标骨骼动画数据、所述目标模板骨骼和所述目标标记点配置通过蒙皮运算得到清洗后的第二标记点位置帧序列。

在可选的实现中，还包括：

获取第三标记点位置帧序列，所述多个标记点中包括多个关键标记点；

基于预先训练的关键点评价网络以及所述第三标记点位置帧序列，对所述第三标记点位置帧序列中每个第三标记点位置帧中的所述关键标记点的可靠性进行评价；

基于可靠性高的第三标记点位置帧对应的多个关键标记点的位置，对每个所述第三标记点位置帧分别进行刚体对齐，得到所述第一标记点位置帧序列。

在可选的实现中，所述预先训练的关键点评价网络包括依次连接的第一全连接层、第三激活层、多个残差网络、第四激活层以及第二全连接层；所述基于预先训练的关键点评价网络以及所述第三标记点位置帧序列，对所述第三标记点位置帧序列中每个第三标记点位置帧中的所述关键标记点的可靠性进行评价，包括：

所述基于预先训练的关键点评价网络以及所述第三标记点位置帧序列，输出每个第三标记点位置帧中每个标记点的距离变化值；

基于所述每个第三标记点位置帧对应的多个标记点的距离变化值对每个所述第三标记点位置帧中的所述关键标记点的可靠性进行评价。

第二方面，提供了一种光学运动捕捉网络训练方法。所述光学运动捕捉网络包括解码模型、编码模型以及预测模型，包括：

确定训练数据，所述训练数据包括原始标记点位置帧样本、模板骨骼样本、标记点配置样本以及动画数据样本；

基于所述训练数据对初始光学运动捕捉网络进行训练，得到目标光学运动捕捉网络；

其中，所述预测模型用于根据原始标记点位置帧样本，预测得到低维度的预测数据；所述解码模型用于根据所述预测数据，解码得到骨骼动画数据。

在可选的实现中，所述确定训练数据，包括：

生成不同体型下的人体模型；

基于所述人体模型确定模板骨骼样本以及标记点配置样本；

将动画数据样本重定向到所述人体模型上，驱动所述人体模型进行运动，并在运动过程中记录所述人体模型表面标记点的位置得到干净的标记点；

针对所述干净的标记点增加噪声得到原始标记点位置帧样本。

第三方面，提供了一种光学运动捕捉数据处理装置。包括：

获取模块，用于获取第一标记点位置帧序列，每个标记点位置帧序列包括多个标记点，一个所述标记点用于标记一个或多个关节位置；

预测模块，用于基于目标预测模型以及所述第一标记点位置帧序列，预测得到低维度的预测数据；

解码模块，用于基于目标解码模型以及所述预测数据，解码得到目标骨骼动画数据。

在可选的实现中，所述预测数据包括标记点配置预测以及骨骼动画预测，所述目标解码模型包括对应于标记点配置的第一解码模型和对应于骨骼动画的第二解码模型，所述目标预测模型包括对应于标记点配置的第一预测模型和对应于骨骼动画的第二预测模型；所述预测模块具体用于：

在可选的实现中，所述解码模块具体用于：

在可选的实现中，所述第一解码模型包括依次连接的第一上池化层、第一激活层以及第一卷积层；所述第二解码模型包括依次连接的第二上池化层、第二卷积层、第二激活层、第三上池化层、以及第三卷积层；所述解码模块具体用于：

在可选的实现中，所述预测数据还包括模板骨骼预测，所述目标预测模型还包括对应于模板骨骼的第三预测模型，所述预测模块还用于，基于第三预测模型以及所述第一标记点位置帧序列，预测得到模板骨骼预测；

解码模块还用于，基于目标解码模型、所述模板骨骼预测以及标记点配置预测，解码得到目标模板骨骼和目标标记点配置；

蒙皮模块，用于基于所述目标骨骼动画数据、所述目标模板骨骼和所述目标标记点配置通过蒙皮运算得到清洗后的第二标记点位置帧序列。

在可选的实现中，还包括对齐模块，用于：

在可选的实现中，所述预先训练的关键点评价网络包括依次连接的第一全连接层、第三激活层、多个残差网络、第四激活层以及第二全连接层；所述对齐模块还用于：

基于预先训练的关键点评价网络以及所述第三标记点位置帧序列，输出每个第三标记点位置帧中每个标记点的距离变化值；

第四方面，提供了一种光学运动捕捉网络训练装置。所述光学运动捕捉网络包括编码模型以及预测模型，包括：

确定模块，用于确定训练数据，所述训练数据包括原始标记点位置帧样本、模板骨骼样本、标记点配置样本以及动画数据样本；

训练模块，用于基于所述训练数据对初始光学运动捕捉网络进行训练，得到目标光学运动捕捉网络；

在可选的实现中，所述确定模块具体用于：

生成不同体型下的人体模型；

基于所述人体模型确定模板骨骼样本以及标记点配置样本；

第五方面，本发明提供一种电子设备，包括：处理装置以及存储装置；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如前述实施方式任一项所述的方法，以用于相机标定和/或基于二分类模型的数据处理。

第六方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述前述实施方式任一项所述的方法的步骤。

本发明提供了一种光学运动捕捉数据处理方法及装置。通过获取第一标记点位置帧序列，每个标记点位置帧序列包括多个标记点，一个所述标记点用于标记一个或多个关节位置；基于目标预测模型以及所述第一标记点位置帧序列，预测得到低维度的预测数据，所述第一维度大于所述第二维度；基于目标解码模型以及所述预测数据，解码得到目标骨骼动画数据。可以直接从包含错误和噪音的标记点位置帧序列中预测出与之对应的干净的骨骼动画数据，提升了数据处理的效率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供了一种光学运动捕捉数据处理方法流程示意图；

图2为本发明实施例提供的一种光学运动捕捉网络结构示意图；

图3为本发明实施例提供的另一种光学运动捕捉网络结构示意图；

图4为本发明实施例提供的另一种光学运动捕捉网络结构示意图；

图5为本发明实施例提供的另一种光学运动捕捉网络结构示意图；

图6为本发明实施例提供的一种关键点评价网络结构示意图；

图7为本发明实施例提供的一种光学运动捕捉网络训练方法流程示意图；

图8为本发明实施例提供的一种光学运动捕捉网络训练架构的一个示例；

图9为本发明实施例提供的一种光学运动捕捉网络训练架构的另一个示例；

图10为本发明实施例提供的一种光学运动捕捉网络训练架构的另一个示例；

图11为本发明实施例提供了一种光学运动捕捉数据处理装置结构示意图；

图12为本发明实施例提供的一种光学运动捕捉网络训练装置结构示意图；

图13为本申请实施例提供的一种计算机设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，利用光学动捕设备进行动捕的流程分为以下几个过程：

演员装扮：演员穿着紧身动捕服装，并在衣服表面需要捕捉的关节附近粘贴一定数量的标记点(marker)，标记点总数以及每个标记点粘贴的位置构成一套标记点配置(marker configuration)。

演员标定：构建一个与演员体型相适配的人形模版模型，并获取粘贴在真实演员衣服上的每个标记点在该人形模版模型上的位置，模版模型的骨架结构叫模板骨架(template skeleton)。构建方式一般为捕捉一小段该演员的简单动作，然后用算法自动去拟合模版模型和标记点位置，这个过程也叫运动范围(range of motion，ROM)标定。

动作捕捉：演员在被一圈高速红外相机围绕的动捕场景内按照剧本表演出规定的动作，所有相机同步进行拍摄，然后动捕软件利用多视角几何和目标跟踪算法，计算出每一个时刻演员身上每个标记点在三维空间中的坐标。

动捕数据清洗：由于遮挡、传感器测量误差、重建和跟踪算法本身的误差等原因，上一步动捕软件输出的标记点坐标中往往存在很多错误，需要人工对这些错误进行修复，这个步骤也叫动捕数据清洗。清洗过程需要耗费大量人力，因此该步骤也是传统光学动捕流程中成本最高的部分。

动捕解算：利用动捕解算软件、演员标定信息，从捕捉到的标记点位置帧序列中恢复人体各个骨骼关节的位置和旋转信息，从而得到三维骨骼动画数据(也叫skeletalmotion或简称motion)。不经过人工清洗的标记点数据(raw markers)还可以称为原始标记点位置帧序列或者带噪音的标记点位置帧序列、经过人工清洗的标记点数据(cleanmarkers)还可以称为干净的标记点位置帧序列或者清洗后的标记点位置帧序列。

动作重定向：将解算得到的骨骼动画数据重定向到不同体型的三维虚拟角色上，变成对应角色的动画资源。

本发明实施例主要针对的是光学动捕流程中的数据清洗和解算环节。本发明提出了一种针对光学动捕数据自动清洗和解算方法，可以直接从包含错误和噪音的标记点位置帧序列中预测出与之对应的干净的标记点位置帧序列和/或骨骼动画数据。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

图1为本发明提供了一种光学运动捕捉数据处理方法流程示意图。如图1所示，该方法可以包括如下步骤：

S110，获取第一标记点位置帧序列。其中，标记点位置帧序列可以包括一个或多个标记点位置帧，每个标记点位置帧可以包括多个标记点，一个标记点用于标记一个或多个关节位置。

该第一标记点位置帧序列可以为经过动作捕捉得到的未清洗和解算的标记点位置帧序列，也就是包含噪音的标记点位置帧序列。该第一标记点位置帧序列可以包括多个，每一个第一标记点位置帧序列还可以称为一帧第一标记点位置帧序列，连续的多帧第一标记点位置帧序列可以用于描述一个动作中标记点的位置变化。

该一个标记点用于标记一个或多个关节位置，该关系可以通过标记点配置来确定。

S120，基于目标预测模型以及第一标记点位置帧序列，预测得到低维度的预测数据。

其中，该标记点位置帧序列可以为第一维度，该预测数据可以为第二维度，该第二维度可以为相对于第一维度的低维空间。

如图2所示，该预测数据可以包括标记点配置预测以及骨骼动画预测，目标预测模型包括对应于标记点配置的第一预测模型和对应于骨骼动画的第二预测模型；基于此，该方法可以基于第一预测模型以及第一标记点位置帧序列，预测得到标记点配置预测；基于第二预测模型以及第一标记点位置帧序列，预测得到骨骼动画预测。

S130，基于目标解码模型以及预测数据，解码得到目标骨骼动画数据。

如图2所示，该目标解码模型包括对应于标记点配置的第一解码模型和对应于骨骼动画的第二解码模型。可以基第一解码模型以及标记点配置预测，解码得到第一标记点配置数据；基于第二解码模型、骨骼动画预测、标记点配置预测以及第一标记点配置数据，解码得到目标骨骼动画数据。

在一些实施例中，如图3所示，该第一解码模型包括依次连接的第一上池化层、第一激活层以及第一卷积层；第二解码模型包括依次连接的第二上池化层、第二卷积层、第二激活层、第三上池化层、以及第三卷积层；该方法可以包括：基于第二上池化层以及骨骼动画预测，进行处理得到第一中间数据；基于第二卷积层、第二激活层、第三上池化层、第一中间数据以及标记点配置预测，进行处理得第二中间数据；基于第三卷积层、第二中间数据以及第一标记点配置数据，解码得到目标骨骼动画数据。

在一个实施例中，该第一上池化层可以为“unpool”层，还可以称为 “skeletalunpooling”，该第一激活层可以为“lerelu”层，该第一卷积层可以为“conv.”层，还可以称为“skeletal convolution”。该第二上池化层以为 “unpool”层，该第二卷积层可以为“conv.”层，该第二激活层可以为“lerelu” 层，该第三上池化层可以为“unpool”层，该第三卷积层可以为“conv.” 层。

在一些实施例中，如图4所示，该预测数据还可以包括模板骨骼预测，目标预测模型还包括对应于模板骨骼的第三预测模型，该方法还可以包括：

步骤1)，基于第三预测模型以及第一标记点位置帧序列，预测得到模板骨骼预测；

步骤2)，基于目标解码模型、模板骨骼预测以及标记点配置预测，解码得到目标模板骨骼；

步骤3)，基于目标骨骼动画数据、目标模板骨骼和第一标记点配置通过蒙皮运算得到清洗后的第二标记点位置帧序列。

如图5所示，该第三解码模块包括依次连接的第二全连接层，第五激活层、残差网络、第三全连接层、第六激活层、残差网络、第七激活层以及第四全连接层。其中，将模板骨骼预测以及标记点配置预测作为第二全连接层的输入，依次经过第二全连接层、第五激活层以及残差网络，输出中间结果，再将该中间结果与第一标记点配置数据输入到第三全连接层，依次经过第三全连接层、第六激活层、残差网络、第七激活层以及第四全连接层，输出目标模板骨骼数据。

在一个实施例中，该第二全连接层、第三全连接层以及第四全连接层可以为“dense”层，第五激活层、第六激活层以及第七激活层可以为“relu” 层、残差网络可以为“res.”层。

在一些实施例中，该方法还包括：

步骤a)，获取第一维度的多个第三标记点位置帧序列，多个标记点中包括多个关键标记点；

步骤b)，基于预先训练的关键点评价网络以及所述第三标记点位置帧序列，对所述第三标记点位置帧序列中每个第三标记点位置帧中的所述关键标记点的可靠性进行评价；

步骤c)，基于可靠性高的第三标记点位置帧对应的多个关键标记点的位置，对每个所述第三标记点位置帧分别进行刚体对齐，得到所述第一标记点位置帧序列。

由于真实运动包含很多人物根骨骼的全局位移和全局旋转，这极大增加了后续人工神经网络学习的复杂度。例如，同样的动作在不同的位置、朝着不同的方向做，会导致捕捉的标记点三维坐标存在巨大差距。此外，由于遮挡原因，真实动补数据中包含很多跟踪失败的点，其表现为保持在最后一次被成功跟踪的位置不动，随着人物远离该位置，这些点就会变成毫无规律的离群点，也会给后续网络的学习造成干扰。所以在将采集到的数据输入到目标预测模型以及目标解码模型之前，可以进行数据规范化。该数据规范化的目标可以为对离群标记点进行处理和将坐标系规范化。

为了处理离群标记点，可以提取标记点位置帧序列中每一帧所有标记点之间的距离矩阵，该矩阵可以记录所有离群标记点两两之间的欧式距离。然后，选择距离矩阵最接近所有帧的距离矩阵平均值的那一帧作为序列的参考帧。

将每一帧与参考帧的距离矩阵进行对比，将所有导致该帧的距离矩阵与参考帧的距离矩阵存在30厘米以上差异的标记点标记为离群标记点。

将离群标记点的坐标替换成新的位置，该新的位置可以使对应帧的距离矩阵与参考帧的尽量接近。这些新的位置可以通过数学优化方法得到。

对于坐标系规范化，目的是消除根骨骼全局平移和旋转。

可以将标记点的坐标由世界坐标系转换到局部坐标系。为此，可以以躯干附近(环绕胸部和腹部的两圈)的一批标记点为关键标记点，然后对序列整体的全局平移和旋转进行修正。作为一个示例，可以在序列中选定一个参考帧，计算一个刚体变换使得参考帧的这批关键标记点的位置与 T-pose下的关键标记点的位置尽量对齐(也叫刚体对齐)。通过这个操作，序列中所有帧的坐标系就由世界坐标系变换到了由T-pose定义的局部坐标系。

这个操作高度依赖参考帧中的那批参考标记点的质量，一旦参考帧的参考标记点中存在噪音和错误，坐标系规范化的效果就会大打折扣，整套算法的精度和鲁棒性都会大幅降低。

为了解决这个问题，本发明训练了一个对参考标记点的质量进行评估的深度人工神经网络，该网络可以称为关键点评价网络，并利用这个关键点评价网络挑选参考标记点可靠性高的帧做参考帧进行刚体对齐。

例如，如图6所示，该预先训练的关键点评价网络包括依次连接的第一全连接层、第三激活层、多个残差网络、第四激活层以及第二全连接层；基于此，上述步骤b)具体可以通过如下步骤实现：基于预先训练的关键点评价网络以及所述第三标记点位置帧序列，输出每个第三标记点位置帧中每个标记点的距离变化值；基于所述每个第三标记点位置帧对应的多个标记点的距离变化值对每个所述第三标记点位置帧中的所述关键标记点的可靠性进行评价。

该第一全连接层、第二全连接层可以为“dense”层，该第三激活层、第四激活层可以为“lerelu”层，该多个残差网络可以为四个，该残差网络可以为“res.”网络。

其中，该网络的输入可以为“raw markers”，输出为参考关键点的可靠性分数组成的向量。

该可靠性分数Pⁱ可以根据如下公式(一)确定：

其中，d_i为第i个参考关键点在“raw markers”中和“clean markers”中的距离变化值。

该关键点评价网络可以以交叉熵损失函数进行训练，该关键点评价网络可以预测每一帧“raw markers”中每个参考标记点的可靠度评分，如果某一帧的所有参考标记点的评分都大于0.8，则认为该帧是可靠的。参考帧在可靠的帧中产生，有效避免了算法精度过渡依赖少量参考标记点质量的问题，大幅提升了算法的鲁棒性。

图7为本发明实施例提供的一种光学运动捕捉网络训练方法流程示意图。如图7所示，该光学运动捕捉网络包括编码模型以及预测模型，该方法可以包括：

S710，确定训练数据，训练数据包括原始标记点位置帧样本、模板骨骼样本、标记点配置样本以及动画数据样本；

训练阶段包含三个重点步骤：数据准备、数据规范化(normalization)，以及深度人工神经网络结构搭建和训练。

在一些实施例中，每个演员的运动捕捉可以涉及以下数据：

模板骨骼(Template Skeleton):与演员骨骼长度对应的人形模板骨骼，维度为J×3，其中，J为骨骼点的数量，每个骨骼点需要记录其在三维空间中相对父节点的偏移量。

标记点配置(Marker Configuration)：演员动捕服上每个标记点相对于对应骨骼点的偏移量，一个演员可能有多套不同的标记点配置，因为每次演员装扮时粘贴的位置会有区别，维度为N×J×3，N为标记点的数量，每个标记点需要记录其相对每个骨骼点在三维空间的便宜量；

原始的标记点位置帧序列(Raw Markers，第三标记点位置帧序列): 每个动作被光学动捕设备采集到的原始标记点位置帧序列的维度为 t×N×3，记录了N个标记点在三维空间中的位置，t为该动作包含的帧数。

清洗后的标记点位置帧序列(Clean Markers，第二标记点位置帧序列或干净标记点位置帧序列):每个动作被清洗后的标记点序列，维度与原始的标记点位置帧序列一致。

骨骼动画(Motion):每个动作的捕捉结果，也就是从清洗后的标记点位置帧序列中解算出来的骨骼动画，维度为t×(J×4+3)，记录了每一帧每个骨骼点相对于父骨骼点的局部旋转(四元数表示)，以及根骨骼点在世界空间的全局平移。

在一些实施例中，上述数据可以直接从实际动捕中获取。还可以是通过数据仿真算法来批量生成上述数据。例如，可以生成不同体型下的人体模型；基于人体模型确定模板骨骼样本以及标记点配置样本；将动画数据样本重定向到人体模型上，驱动人体模型进行运动，并在运动过程中记录人体模型表面标记点的位置得到干净的标记点；针对干净的标记点增加噪声得到原始标记点位置帧样本。

作为一个示例，可以利用参数化人体模型SMPL生成不同体型下的人体mesh模型，并在mesh模型表面的特定位置选择一批点，即可仿真出不同的Template Skeleton和不同Marker Configuration。

将已有人形骨骼动画数据(motion)重定向到SMPL的骨骼上，即可以驱动所有SMPL形状参数空间内的mesh模型进行对应的运动，在运动过程中记录mesh模型表面标记点的位置即可以仿真出对应动画的Clean Markers。

在每一段动画的Clean Markers上随机选择一些点增加一定幅度的高斯噪音，同时随机选择一些点让其留在原地、不跟随后续动作一起运动(模拟真实动补时被遮挡的标记点)，即可仿真出每一段动画对应的Raw Markers。

由于真实运动包含很多人物根骨骼的全局位移和全局旋转，这极大增加了后续人工神经网络学习的复杂度。例如，同样的动作在不同的位置、朝着不同的方向做，会导致捕捉的标记点三维坐标存在巨大差距。此外，由于遮挡原因，真实动补数据中包含很多跟踪失败的点，其表现为保持在最后一次被成功跟踪的位置不动，随着人物远离该位置，这些点就会变成毫无规律的离群点，也会给后续网络的学习造成干扰。所以数据规范化的目标有两个：离群marker的处理和坐标系规范化。

具体方法可以参见上述方法实施例中的相关描述此处不再赘述。

S720，基于训练数据对初始光学运动捕捉网络进行训练，得到目标光学运动捕捉网络；

其中，预测模型用于根据原始标记点位置帧样本，预测得到低维度的预测数据；解码模型用于根据预测数据，解码得到骨骼动画数据。

利用上述数据和规范化方法训练一个深度人工神经网络结构，该网络包括编码模型以及预测模型。该编码模型可以包括D_C(第三解码模型)、 D_T(第一解码模型)以及D_M(第二解码模型)，该预测模型可以包括E_MS。

在一些实施例中，如图8所示，其中MoCap-Encoders为一个自编码器，该MoCap-Encoders包括E_C、E_T、E_M、D_C、D_T以及D_M。其中，该E_C、E_T、以及E_M用于编码，该用于D_C、D_T以及D_M解码。该MoCap-Encoders包括三个分支，分别对应template skeleton、markerconfiguration和motion，每个分支对应一个编码模型和一个解码模型。

对应于marker configuration的分支，可以包括E_T和D_T，将X_T(输入的标记点配置数据)输入到该E_T进行编码，得到l_T(标记点配置预测)，将该l_T输入到D_T进行解码得到Y_T(输出的标记点配置数据)。

具体的如图9所示，该E_T可以包括依次连接的卷积层(conv.)、池化层(pool)和激活层(relu)；D_T可以包括依次连接的向上池化层(unpool)、激活层(relu)以及卷积层(conv.)。

对应于template skeleton的分支，可以包括E_c和D_c，将X_c(输入的模板骨骼)、X_T和l_T输入到该E_c进行编码，得到l_c(模板骨骼预测)，将该l_c、 l_T和Y_T输入到D_c进行解码得到Y_c(输出的模板骨骼)。

具体的如图9所示，该E_c可以包括依次连接的全连接层(dense)、激活层(relu)、残差网络(res.)、全连接层(dense)、激活层(relu)和残差网络(res.)；D_c可以包括依次连接的全连接层(dense)、激活层(relu)、残差网络(res.)、全连接层(dense)、激活层(relu)、残差网络(res.)、激活层(relu)和全连接层(dense)。

对应于motion的分支，可以包括E_M和D_M，将X_M(输入的骨骼动画数据)、X_T和l_T输入到该E_M进行编码，得到l_M(骨骼动画预测)，将该l_M、 l_T和Y_T输入到D_M进行解码得到Y_M(输出的骨骼动画数据)。

具体的如图9所示，该E_M可以包括依次连接的卷积层(conv.)、池化层(pool)、激活层(relu)、卷积层(conv.)、池化层(pool)以及激活层(relu)； D_M可以包括依次连接的向上池化层(unpool)、卷积层(conv.)、激活层 (lerelu)以及卷积层(conv.)。

训练完成的自编码器既可以将template skeleton、marker configuration 和motion三种数据编码成低维空间的隐向量，也可以从隐向量中恢复出对应的原始数据。

编码模型包括模板骨骼编码分支、标记点配置编码分支以及骨骼动画数据编码分支。

可以基于第一损失函数L_T训练模板骨骼编码分支：

L_T＝D(Y_T，X_T) 公式(二)

基于第二损失函数L_M训练包括标记点配置编码分支：

L_M＝β₁D(Y_M，X_M)+β₂D(FK(Y_M，X_T)，(FK(X_M，X_T)) 公式(三)

基于第三损失函数L_C训练骨骼动画数据编码分支：

L_C＝β₃D(Y_C，X_C)+β₄D(LBS(Y_C，X_T)，(FK(X_C，X_T)) 公式(四)

其中，上述公式中X为原始标记点位置帧样本和Y输出的标记点位置帧，C用于指示对应于骨骼动画数据编码分支的数据、M用于指示对应于标记点配置编码分支的数据、T用于指示对应于模板骨骼编码分支的数据， D为距离，FK为前向动力学运算和LBS为线性蒙皮运算，β₁，β₂，β₃和β₄为权重系数。

例如，X和Y分别代表原始数据和网络重构后的数据，D可以为带权 L₁距离(头，肩，手臂，手腕，躯干，大腿和脚上的标记点的权重分别为“8: 4:6:10:4:6:10”)，FK和LBS分别为骨骼动画理论中的前向动力学运算和线性蒙皮运算β₁，β₂，β₃和β₄为权重系数，分别为“1，100，1和2”。

另一个模块MoCap-Solver的任务为从raw markers预测这个三个分支的隐向量l_c、l_t和l_m，之后利用训练完成的MoCap-Encoders就可以从这三个隐向量中解码出对应的marker configuration、template skeleton和 motion。该MoCap-Solver可以包括E_MS(预测模型)、D_C、D_T以及D_M。还可以包括标准化模块(normalization)以及蒙皮模块(skinning)，该D_C、 D_T以及D_M可以为MoCap-Encoders中训练好的模块。该标准化模块用于对raw markers进行数据规范化得到X。将该X输入到E_MS中输出为l_c、l_t和 lm

具体的如图10所示，该E_MS可以包括依次连接的全连接层(dense)、激活层(lerelu)以及三个残差网络(res.)，在该残差网络并连有三个分支，每个分支包括依次连接的两个残差网络(res.)、激活层(relu)以及全连接层(dense)。

其中，每个残差网络(res.)可以由依次连接的批标准化层(BatchNormalization，bn)、激活层(relu)以及全连接层(dense)构成。

其中的motion就是需要解算的骨骼动画，通过蒙皮(skinning)运算，可以从这三个数据中计算出对应的清洗后的clean markers，从而完成对光学动补数据raw markers的清洗和解算任务。在可选的实现中，基于第四损失函数L训练预测模型E_MS：

L＝a₁D(Y，X)+α₂D(Y_C，X_C)+α₂D(Y_T，X_T)+α₄D(Y_M，X_M)+γ||Ψ||₂ 公式(五)

其中，X为原始标记点位置帧样本和Y输出的标记点位置帧序列，C 用于指示对应于骨骼动画数据编码分支的数据、M用于指示对应于标记点配置编码分支的数据、T用于指示对应于模板骨骼编码分支的数据，D为L₁距离，||Ψ||₂为正则项，α₁，α₂，α₃，a₄和γ为权重系数。

其中D为带权L₁距离，||Ψ||₂为L₂正则项，权重系数α₁，α₂，α₃，a₄和γ分别为1，2，3，8和1。

图11为本发明实施例提供了一种光学运动捕捉数据处理装置结构示意图。如图11所示，该装置包括：

获取模块1101，用于获取第一标记点位置帧序列，每个标记点位置帧序列包括多个标记点，一个标记点用于标记一个或多个关节位置；

预测模块1102，用于基于目标预测模型以及第一标记点位置帧序列，预测得到低维度的预测数据；

解码模块1103，用于基于目标解码模型以及预测数据，解码得到目标骨骼动画数据。

在一些实施例中，预测数据包括标记点配置预测以及骨骼动画预测，目标解码模型包括对应于标记点配置的第一解码模型和对应于骨骼动画的第二解码模型，目标预测模型包括对应于标记点配置的第一预测模型和对应于骨骼动画的第二预测模型；预测模块1102具体用于：

基于第一预测模型以及第一标记点位置帧序列，预测得到标记点配置预测；

基于第二预测模型以及第一标记点位置帧序列，预测得到骨骼动画预测。

在一些实施例中，解码模块1103具体用于：

基第一解码模型以及标记点配置预测，解码得到第一标记点配置数据；

基于第二解码模型、骨骼动画预测、标记点配置预测以及第一标记点配置数据，解码得到目标骨骼动画数据。

在一些实施例中，第一解码模型包括依次连接的第一上池化层、第一激活层以及第一卷积层；第二解码模型包括依次连接的第二上池化层、第二卷积层、第二激活层、第三上池化层、以及第三卷积层；解码模块803 具体用于：

基于第二上池化层以及骨骼动画预测，进行处理得到第一中间数据；

基于第二卷积层、第二激活层、第三上池化层、第一中间数据以及标记点配置预测，进行处理得第二中间数据；

基于第三卷积层、第二中间数据以及第一标记点配置数据，解码得到目标骨骼动画数据。

在一些实施例中，预测数据还包括模板骨骼预测，目标预测模型还包括对应于模板骨骼的第三预测模型，预测模块1102还用于，基于第三预测模型以及第一标记点位置帧序列，预测得到模板骨骼预测；

解码模块1103还用于，基于目标解码模型、模板骨骼预测以及标记点配置预测，解码得到目标模板骨骼和目标标记点配置；

蒙皮模块，用于基于目标骨骼动画数据、目标模板骨骼和目标标记点配置通过蒙皮运算得到清洗后的第二标记点位置帧序列。

在一些实施例中，还包括对齐模块，用于：

在一些实施例中，预先训练的关键点评价网络包括依次连接的第一全连接层、第三激活层、多个残差网络、第四激活层以及第二全连接层；对齐模块还用于：

图12为本发明实施例提供的一种光学运动捕捉网络训练装置结构示意图。如图12所示，光学运动捕捉网络包括编码模型以及预测模型，包括：

确定模块1201，用于确定训练数据，训练数据包括原始标记点位置帧样本、模板骨骼样本、标记点配置样本以及动画数据样本；

训练模块1202，用于基于训练数据对初始光学运动捕捉网络进行训练，得到目标光学运动捕捉网络；

在一些实施例中，编码模型包括模板骨骼编码分支、标记点配置编码分支以及骨骼动画数据编码分支。

在一些实施例中，确定模块1201具体用于：

生成不同体型下的人体模型；

基于人体模型确定模板骨骼样本以及标记点配置样本；

将动画数据样本重定向到人体模型上，驱动人体模型进行运动，并在运动过程中记录人体模型表面标记点的位置得到干净的标记点；

针对干净的标记点增加噪声得到原始标记点位置帧样本。

本申请实施例提供的一种光学运动捕捉数据处理装置或一种光学运动捕捉网络训练装置，与上述实施例提供的游戏的光学运动捕捉数据处理方法或光学运动捕捉网络训练方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

如图13所示，本申请实施例提供的一种计算机设备1300，例如，该计算机设备1300可以为预处理服务器，包括：处理器1301、存储器1302和总线，存储器1302存储有处理器1301可执行的机器可读指令，当电子设备运行时，处理器1301与存储器1302之间通过总线通信，处理器1301执行机器可读指令，以执行如上述游戏的启动方法的步骤。

处理器1301可以采用数字信号处理器(DSP)、现场可编程门阵列 (FPGA)、可编程逻辑阵列(PLA)中的至少一种硬件形式来实现，处理器1001可以是中央处理单元(CPU)、图形处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，并且可以控制电子设备1000中的其它组件以执行期望的功能。

存储器1302可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1301可以运行程序指令，以实现下文的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如应用程序使用和/或产生的各种数据等。

具体地，上述存储器1302和处理器1301能够为通用的存储器和处理器，这里不做具体限定，当处理器1301运行存储器1302存储的计算机程序时，能够执行上述游戏的启动方法。

另外，该计算机设备1300还可以包括输入装置以及输出装置。该输入装置主要用于实现人机交互，该输入装置可以是用户用来输入指令的装置，可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。该输出装置可以向外部(例如，用户)输出各种信息(例如，图像或声音)，可以包括显示器、扬声器等中的一个或多个。该输出装置可以用于显示上述启动器的图形用户界面。

对应于上述游戏的启动方法，本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有机器可运行指令，计算机可运行指令在被处理器调用和运行时，计算机可运行指令促使处理器运行上述光学运动捕捉数据处理方法或一种光学运动捕捉网络训练方法的步骤。

本申请实施例所提供的光学运动捕捉数据处理装置或一种光学运动捕捉网络训练装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备执行本申请各个实施例移动控制方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的范围。都应涵盖在本申请的保护范围之内。

Claims

1.一种光学运动捕捉数据处理方法，其特征在于，包括：

获取第一标记点位置帧序列，每个标记点位置帧包括多个标记点，一个所述标记点用于标记一个或多个关节位置；

2.根据权利要求1所述的方法，其特征在于，所述预测数据包括标记点配置预测以及骨骼动画预测，所述目标解码模型包括对应于标记点配置的第一解码模型和对应于骨骼动画的第二解码模型，所述目标预测模型包括对应于标记点配置的第一预测模型和对应于骨骼动画的第二预测模型；所述基于目标预测模型以及所述第一标记点位置帧序列，预测得到低维度的预测数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于目标解码模型以及所述预测数据，解码得到目标骨骼动画数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述第一解码模型包括依次连接的第一上池化层、第一激活层以及第一卷积层；所述第二解码模型包括依次连接的第二上池化层、第二卷积层、第二激活层、第三上池化层、以及第三卷积层；所述基于所述第一解码模型、骨骼动画预测、所述标记点配置预测以及所述第一标记点配置数据，解码得到目标骨骼动画数据，包括：

5.根据权利要求2所述的方法，其特征在于，所述预测数据还包括模板骨骼预测，所述目标预测模型还包括对应于模板骨骼的第三预测模型，所述方法还包括：

基于目标解码模型、所述模板骨骼预测以及标记点配置预测，解码得到目标模板骨骼；

基于所述目标骨骼动画数据、所述目标模板骨骼和所述第一标记点配置通过蒙皮运算得到清洗后的第二标记点位置帧序列。

6.根据权利要求1所述的方法，其特征在于，还包括：

7.根据权利要求6所述的方法，其特征在于，所述预先训练的关键点评价网络包括依次连接的第一全连接层、第三激活层、多个残差网络、第四激活层以及第二全连接层；所述基于预先训练的关键点评价网络以及所述第三标记点位置帧序列，对所述第三标记点位置帧序列中每个第三标记点位置帧中的所述关键标记点的可靠性进行评价，包括：

8.一种光学运动捕捉网络训练方法，其特征在于，所述光学运动捕捉网络包括解码模型、编码模型以及预测模型，包括：

9.根据权利要求8所述的训练方法，其特征在于，所述编码模型包括模板骨骼编码分支、标记点配置编码分支以及骨骼动画数据编码分支；

基于第一损失函数L_T训练所述模板骨骼编码分支：

L_T＝D(Y_T，X_T)

基于第二损失函数L_M训练包括标记点配置编码分支：

L_M＝β₁D(Y_M，X_M)+β₂D(FK(Y_M，X_T)，(FK(X_M，X_T))

基于第三损失函数L_C训练所述骨骼动画数据编码分支：

L_C＝β₃D(Y_C，X_C)+β₄D(LBS(Y_C，X_T)，(FK(X_C，X_T))

其中，X为原始标记点位置帧样本和Y输出的标记点位置帧，C用于指示对应于骨骼动画数据编码分支的数据、M用于指示对应于标记点配置编码分支的数据、T用于指示对应于模板骨骼编码分支的数据，D为距离，FK为前向动力学运算和LBS为线性蒙皮运算，β₁，β₂，β₃和β₄为权重系数。

10.根据权利要求8所述的训练方法，其特征在于，基于第四损失函数L_C训练所述预测模型：

L＝α₁D(Y，X)|α₂D(Y_C，X_C)|α₃D(Y_T，X_T)|α₄D(Y_M，X_M)|γ||Ψ||₂

其中，X为原始标记点位置帧样本和Y输出的标记点位置帧序列，C用于指示对应于骨骼动画数据编码分支的数据、M用于指示对应于标记点配置编码分支的数据、T用于指示对应于模板骨骼编码分支的数据，D为L₁距离，||Ψ||₂为正则项，α₁，α₂，α₃，α₄和γ为权重系数。

11.根据权利要求8所述的方法，其特征在于，所述确定训练数据，包括：

生成不同体型下的人体模型；

基于所述人体模型确定模板骨骼样本以及标记点配置样本；

12.一种光学运动捕捉数据处理装置，其特征在于，包括：

13.一种光学运动捕捉网络训练装置，其特征在于，所述光学运动捕捉网络包括编码模型以及预测模型，包括：

14.一种计算机设备，其特征在于，包括存储器以及处理器；所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述权利要求1至11任一项所述的方法的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行所述权利要求1至11任一项所述的方法。