CN113079136B

CN113079136B - 动作捕捉方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN113079136B
Application number: CN202110300266.8A
Authority: CN
Inventors: 杨云; 王超; 陈波
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2022-11-15
Anticipated expiration: 2041-03-22
Also published as: CN113079136A

Abstract

本发明的实施例提供了一种动作捕捉方法、装置、电子设备和计算机可读存储介质，涉及互联网技术领域，方法包括：获得目标对象的动作图像，将动作图像输入至特征编码模块，得到初始的SMPL参数，并将初始的SMPL参数与先验的SMPL参数进行拼接，得到拼接数据，进而将拼接数据输入至回归器模块，得到预测的SMPL参数，从而提高动作捕捉的便捷性。

Description

动作捕捉方法、装置、电子设备和计算机可读存储介质

技术领域

本发明涉及互联网技术领域，具体而言，涉及一种动作捕捉方法、装置、电子设备和计算机可读存储介质。

背景技术

近年来，动作捕捉技术在影视节目、游戏娱乐和AR(Augmented Reality，增强现实)等领域有着广泛的应用。但是目前的动作捕捉技术通常需要昂贵的专业设备，如激光摄像头、传感器等来实现，需要专业人员在现场调试使用，实现较为不便。

发明内容

本发明的目的之一包括，例如，提供了一种动作捕捉方法、装置、电子设备和计算机可读存储介质，以至少部分地提高动作捕捉实现的便捷性。

本发明的实施例可以这样实现：

第一方面，本发明提供一种动作捕捉方法，包括：

获得目标对象的动作图像；

将所述动作图像输入至特征编码模块，得到初始的SMPL参数；

将所述初始的SMPL参数与先验的SMPL参数进行拼接，得到拼接数据；

将所述拼接数据输入至回归器模块，得到预测的SMPL参数。

在可选的实施方式中，获得目标对象的动作图像的步骤，包括：

基于相机采集的目标对象的运动视频，获得所述目标对象的每一帧图像；

将所述每一帧图像转换成RGB格式的图像；

将所述RGB格式的图像校正为目标尺寸的图像，将所述目标尺寸的图像作为所述目标对象的动作图像。

在可选的实施方式中，所述方法还包括训练得到所述特征编码模块和回归器模块的步骤，该步骤包括：

获得训练数据集；

将所述训练数据集输入至待训练的特征编码模块，得到初始的SMPL训练参数；

将所述初始的SMPL训练参数与先验的SMPL参数进行拼接，得到拼接训练数据；

将所述拼接训练数据输入至待训练的回归器模块，得到预测的SMPL训练参数；

将所述预测的SMPL训练参数与预存的真实的SMPL参数进行比较，计算损失值；

通过最小化所述损失值进行反向传播来更新所述待训练的特征编码模块和待训练的回归器模块的权重参数，直至达到收敛条件，从而得到特征编码模块和回归器模块。

在可选的实施方式中，获得训练数据集的步骤，包括：

获得目标对象各关节点的2D信息标注数据和3D信息标注数据；

对所述2D信息标注数据、3D信息标注数据和对应的训练图片进行预处理，生成二进制的数据文件，将所述二进制的数据文件作为训练数据集。

在可选的实施方式中，SMPL参数包括SMPL姿态参数和SMPL体型参数；所述将所述预测的SMPL训练参数与预存的真实的SMPL参数进行比较，计算损失值的步骤，包括：

根据以下公式计算得到SMPL损失值：

其中，i为当前关节点编号，i∈(0,N)，N>1；θ_i为预测的SMPL姿态参数，β_i为预测的SMPL体型参数；

为真实的SMPL姿态参数，

为真实的SMPL体型参数；

根据以下公式计算得到目标对象各关节点的3D损失值：

其中，X_i为预测的目标对象的关节点的3D位置，

为真实的目标对象的关节点的3D位置；

根据以下公式计算得到目标对象各关节点的2D位置：

x_i＝K(RX_i+t)

其中，R为根节点的旋转矩阵；K为相机的内参矩阵；t为相机的偏移矢量；

根据以下公式计算得到目标对象各关节点的2D损失值：

其中，v_i为每个关节点的可见度；x_i为人体关节点的2D位置预测值，

为人体关节点的2D位置真实值；

根据以下公式计算得到整体损失值：

L_total＝L_smpl+L_2D+L_3D。

在可选的实施方式中，所述特征编码模块包括多层的卷积神经网络和ReLu非线性激活函数；所述多层的卷积神经网络和ReLu非线性激活函数用于将输入所述特征编码模块的第一维度的内容转换为第二维度的内容并输出；

将所述第二维度的内容和先验的SMPL参数进行拼接得到的为目标维度的特征向量；

所述回归器模块包括两层的全连接层网络；所述两层的全连接层网络用于根据输入所述回归器模块的所述目标维度的特征向量，回归出预测的SMPL参数。

在可选的实施方式中，所述方法还包括：

将所述预测的SMPL参数转化成四元数，并传输至虚拟对象，以使所述虚拟对象执行与所述目标对象相同的动作。

第二方面，本发明实施例提供一种动作捕捉装置，包括：

信息获得模块，用于获得目标对象的动作图像；

信息处理模块，用于将所述动作图像输入至特征编码模块，得到初始的SMPL参数，将所述初始的SMPL参数与先验的SMPL参数进行拼接，得到拼接数据，将所述拼接数据输入至回归器模块，得到预测的SMPL参数。

第三方面，本发明提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现前述实施方式任一项所述的动作捕捉方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序运行时控制所述计算机可读存储介质所在电子设备执行前述实施方式任一项所述的动作捕捉方法。

本发明实施例的有益效果包括，例如：通过对特征编码模块、回归器模块、实现流程等的巧妙设计，使得根据动作图像便可预测出目标对象的SMPL(Skinned Multi-PersonLinear，参数化人体模型)参数，实现动作捕捉，无需额外设置昂贵的专业设备，无需专业人员进行现场调试，实现较为便捷，适合推广应用。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的一种应用场景示意图。

图2示出了本发明实施例提供的一种动作捕捉方法的流程示意图。

图3示出了本发明实施例提供的一种示例性场景下动作捕捉方法的流程示意图之一。

图4示出了本发明实施例提供的一种示例性场景下动作捕捉方法的流程示意图之二。

图5示出了本发明实施例提供的一种动作捕捉装置的示例性结构框图。

图标：100-电子设备；110-存储器；120-处理器；130-通信模块；140-动作捕捉装置；141-信息获得模块；142-信息处理模块。

具体实施方式

现今，动作捕捉技术越来越普遍地应用到了各行各业中。例如，近年来随着影视娱乐和直播秀场等的兴起，催生了一种新型的表演形式：让真人主播实时地控制虚拟主播的身体进行表演，这种表演形式强烈依赖于动作捕捉技术实现。

目前市面上的动作捕捉技术主要分为光学捕捉、惯性捕捉和混合捕捉三种。其中，光学捕捉需要搭建大量的追踪摄像机来获得人体运动信息，并且需要专业的工作人员去现场对这些追踪摄像机进行标定。惯性捕捉需要人体佩戴昂贵的惯性测量单元(InertialMeasurement Unit，IMU)，将运动数据通过无线网络传输到服务器上，操作复杂并且容易受到环境磁场的干扰。混合捕捉在系统层面对前面光学捕捉和惯性捕捉进行了混合，但目前仍然依赖于专业且昂贵的电子设备并且需要使用者接受专业的培训才有可能掌握操作事宜。

基于上述分析可知，目前的几种动作捕捉方案存在门槛高、设备贵和难操作的技术问题，实现较为不便，使得现有的动作捕捉方案应用前景有限，例如，很难在大众娱乐秀场直播中广泛应用。

基于上述研究，本发明实施例提供一种动作捕捉方案，通过巧妙设计，根据动作图像便可预测出目标对象的SMPL参数，实现动作捕捉。基于SMPL参数，从中提取出目标对象的关节点的姿态参数并进行处理，便可驱动虚拟对象执行与目标对象相同的动作，无需昂贵和专业的动作捕捉设备，从图片中便能估计出目标对象的姿态，实时地驱动虚拟对象完成与图片中的目标对象相同的动作，实现较为方便，有利于推广应用。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本发明实施例针对上述问题所提出的解决方案，都应该是发明人在发明过程中做出的贡献。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。

请参照图1，是本实施例提供的一种电子设备100的方框示意图，本实施例中的电子设备100可以为能够进行数据交互、处理的服务器、处理设备、处理平台等。所述电子设备100包括存储器110、处理器120及通信模块130。所述存储器110、处理器120以及通信模块130各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中，存储器110用于存储程序或者数据。所述存储器110可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(ErasableProgrammable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory，EEPROM)等。

处理器120用于读/写存储器110中存储的数据或程序，并执行相应地功能。

通信模块130用于通过所述网络建立所述电子设备100与其它通信终端之间的通信连接，并用于通过所述网络收发数据。

应当理解的是，图1所示的结构仅为电子设备100的结构示意图，所述电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

请结合参阅图2，为本发明实施例提供的一种动作捕捉方法的流程示意图，可以由图1所述电子设备100执行，例如可以由电子设备100中的处理器120执行。该动作捕捉方法包括S110、S120、S130和S140。

S110，获得目标对象的动作图像。

S120，将所述动作图像输入至特征编码模块，得到初始的SMPL参数。

S130，将所述初始的SMPL参数与先验的SMPL参数进行拼接，得到拼接数据。

S140，将所述拼接数据输入至回归器模块，得到预测的SMPL参数。

目标对象的动作图像可以有多种获得方式，例如，可以接收用户选择的一副或者多幅图像并进行预处理，从而获得目标对象的动作图像。又例如，电子设备可以与相机如单目相机通信，相机采集目标对象的运动视频并实时地将每一帧图像发送至电子设备，电子设备基于相机实时获得目标对象的每一帧图像，对实时获得的图像进行预处理，从而获得目标对象的动作图像。

其中，预处理可以包括格式转换、尺寸调整等。例如，对图像进行预处理可以包括：将所述每一帧图像转换成RGB(红、绿、蓝三色)格式的图像，将所述RGB格式的图像校正为目标尺寸的图像，将所述目标尺寸的图像作为所述目标对象的动作图像。又例如，预处理还可以包括对图像进行增加噪声、颜色扰动和通道变换等图像增强操作。

在一种实现方式中，SMPL参数可以包括SMPL姿态参数和SMPL体型参数。相应地，将动作图像输入特征编码模块后，特征编码模块输出的为初始的SMPL姿态参数和初始的SMPL体型参数。拼接数据包括SMPL姿态拼接数据和SMPL体型拼接数据。SMPL姿态拼接数据通过将初始的SMPL姿态参数和先验的SMPL姿态参数进行拼接得到，SMPL体型拼接数据通过将初始的SMPL体型参数和先验的SMPL体型参数进行拼接得到。将SMPL姿态拼接数据和SMPL体型拼接数据输入至回归器模块，回归器模块输出的为预测的SMPL姿态参数和预测的SMPL体型参数。

其中，先验的SMPL参数是来源于SMPL体学模型(德国马普所于2015年提出的一种人体三维模型，现已广泛应用于人体姿态估计、动作捕捉等领域)，它由先验的SMPL姿态参数和先验的SMPL体型参数组成。这些参数是利用深度学习从大规模的人体动作捕捉数据中学习出来的，因此具有先验性，从而称为先验的SMPL参数。

在一种实现方式中，本实施例中一组SMPL姿态参数可以有{24,3}维度的数据，用于描述某个时刻人体的动作姿态，其中，24表示24个定义好的人体关节点，3表示该节点针对于其父节点的旋转角度，即轴角(α、β、γ)。本实施例中一组SMPL体型参数可以有10个维度的数值，用于描述某个人的形状，每一个维度的数值都可以解释为人体形状的某个指标，比如高矮，胖瘦等。

本实施例中，两个数据的拼接指将数据A与数组B进行拼接，得到数据C。例如，若数组A＝{1,2,3,4,5}，数组B＝{6,7,8}，那么数组A和数组B拼接后得到的数组C＝{1,2,3,4,5,6,7,8}。基于此，在初始的SMPL姿态参数和先验的SMPL姿态参数均有{24,3}维度的数据，初始的SMPL体型参数和先验的SMPL体型参数均有10个维度的数值的情况下，将初始的SMPL姿态参数和先验的SMPL姿态参数进行拼接得到的SMPL姿态拼接数据是一组24*3*2＝144维度的数据。将初始的SMPL体型参数和先验的SMPL体型参数进行拼接得到的SMPL体型拼接数据是一组20维度的数据。因此，初始的SMPL参数与先验的SMPL参数拼接后便得到一组144维度的姿态参数和20维度的体型参数。本实施例中，特征编码模块和回归器模块可以有多种实现结构，只要能够得到预测的SMPL参数即可。在一种实现方式中，特征编码模块可以包括多层的卷积神经网络和ReLu非线性激活函数。回归器模块可以包括两层的全连接层网络。

其中，多层的卷积神经网络和ReLu非线性激活函数用于将输入特征编码模块的第一维度的内容转换为第二维度的内容并输出。例如，在进行预处理后，获得的动作图像为256x256大小的图像的情况下，输入特征编码模块的内容可以为[1,3,256,256]维度的图像数据，特征编码模块输出的数据的维度可以为[1,2048]。将[1,2048]维度的输出数据与85个维度的先验的SMPL参数进行拼接，得到的为维度为[1,2133]的特征向量。

两层的全连接层网络用于根据输入回归器模块的目标维度的特征向量，如上述维度为[1,2133]的特征向量，回归出预测的SMPL参数。

在得到预测的SMPL参数之后，电子设备可以将预测的SMPL参数转化成四元数，并传输至虚拟对象，以使虚拟对象执行与目标对象相同的动作。

本实施例中，预测的SMPL参数包括预测的SMPL姿态参数和预测的SMPL体型参数，由回归器模块输出。预测的SMPL参数的定义与先验的SMPL参数的定义相同，因而在此不作赘述。

四元数是由爱尔兰数学家威廉·卢云·哈密顿在1843年创立出的数学概念。根据数学的群理论，它可以描述空间的旋转。轴角可以通过罗德里格斯旋转公式推导得到旋转矩阵，通过旋转矩阵可求出四元数。

本实施例中，训练得到特征编码模块和回归器模块的方式有多种，例如，可以通过以下流程训练得到特征编码模块和回归器模块：获得训练数据集；将所述训练数据集输入至待训练的特征编码模块，得到初始的SMPL训练参数；将所述初始的SMPL训练参数与先验的SMPL参数进行拼接，得到拼接训练数据；将所述拼接训练数据输入至待训练的回归器模块，得到预测的SMPL训练参数；将所述预测的SMPL训练参数与预存的真实的SMPL参数进行比较，计算损失值；通过最小化所述损失值进行反向传播来更新所述待训练的特征编码模块和待训练的回归器模块的权重参数，直至达到收敛条件，从而得到特征编码模块和回归器模块。

其中，反向传播(Back Propagation，BP)是“误差反向传播”的简称，是一种与最优化方法(如梯度下降法)结合使用的、用来训练人工神经网络的常见方法。该方法对网络中所有权重计算损失函数的梯度，这个梯度会反馈给最优化方法，用来更新权值以最小化损失函数。

训练数据集可以通过以下步骤获得：获得目标对象各关节点的2D(2-Dimension，二维)信息标注数据和3D(3-Dimension，三维)信息标注数据，对所述2D信息标注数据、3D信息标注数据和对应的训练图片进行预处理，生成二进制的数据文件，将所述二进制的数据文件作为训练数据集。

收敛条件可以灵活设置，例如，可以设置为迭代训练的轮数达到设定值。

在SMPL参数包括SMPL姿态参数和SMPL体型参数的情况下，将所述预测的SMPL训练参数与预存的真实的SMPL参数进行比较，计算损失值可以通过以下流程实现：

根据以下公式计算得到SMPL损失值：

为真实的SMPL姿态参数，

为真实的SMPL体型参数。

根据以下公式计算得到目标对象各关节点的3D损失值：

其中，X_i为预测的目标对象的关节点的3D位置，

为真实的目标对象的关节点的3D位置。

根据以下公式计算得到目标对象各关节点的2D位置：

x_i＝K(RX_i+t)

其中，R为根节点的旋转矩阵；K为相机的内参矩阵；t为相机的偏移矢量。

根据以下公式计算得到目标对象各关节点的2D损失值：

为人体关节点的2D位置真实值。

根据以下公式计算得到整体损失值：

L_total＝L_smpl+L_2D+L_3D。

本实施例中，主要列举了对某幅动作图像进行处理，得到预测的SMPL参数，进而转化成四元数并传输至虚拟对象，以使虚拟对象执行与目标对象相同的动作的实现流程。上述流程可以多次重复执行，例如，通过实时获得目标对象的动作图像并进行处理，可以得到多个预测的SMPL参数，将每个预测的SMPL参数转化成四元数并传输至虚拟对象，便可使得虚拟对象持续执行与目标对象相同的动作。

为了更为清楚地阐述本申请实施例的实现流程，现以目标对象为真实人物，虚拟对象为虚拟人物为例，对本申请的实现原理进行举例说明。

首先，进行特征编码模块和回归器模块的训练，请参阅图3，具体训练流程如下：

准备训练特征编码模块和回归器模块所需的人体关节点的2D和3D信息标注数据集(训练数据集)。

可以收集业界内已公开的，包括人体关节点的2D信息标注数据、3D信息标注数据和对应的训练图片的数据集。其中，2D信息标注数据可以由人工标注得到，标记训练图片里人体的关节点坐标位置，可称为关节点的真实2D坐标。3D信息标注数据可以由专业的动捕设备和3D扫描仪标注得到，并通过Mosh算法转化成真实的SMPL参数，包括SMPL姿态参数和SMPL体型参数。

数据集中的训练图片中至少包含一个人体，各训练图片中的人体满足不同观察视角、多背景变化和人体姿态多样性的要求，以提高模型学习的泛化性。

读取数据集里的训练图片、人体关节点的2D信息标注数据和3D信息标注数据进行预处理，生成二进制的数据文件，用于训练特征编码模块和回归器模块。

预处理包括：对训练图片中包含人体的区域进行裁剪和调整尺寸至256x256大小，并对所选训练图片进行增加噪声、颜色扰动和通道变换等图像增强操作。为训练图片中人体的每个关节点设置可见性，如果在训练图片内被遮挡不可见则设置成0，否则设置成1。如果某幅训练图片中可见关节点的数量少于6个，那么剔除该图片样本。将训练图片、2D信息标注数据和3D信息标注数据分别归一化到同一尺度，然后以二进制格式保存。

将二进制的数据文件输入至特征编码模块进行推理计算得到初始的SMPL参数并与先验的SMPL参数进行拼接，然后输入至回归器模块进行推理计算得到预测的SMPL参数。

其中，特征编码模块由多层的卷积神经网络和ReLu非线性激活函数所组成。特征编码模块的输入数据维度为[1,3,256,256]，输出数据维度为[1,2048]。将特征编码模块输出的数据与85个维度的先验的SMPL参数进行拼接，得到维度为[1,2133]的特征向量。回归器模块主要由两层的全连接层网络所组成，回归器模块的作用在于利用拼接得到的特征向量作为回归器模块的输入而迭代设定次回归出预测的SMPL参数。

设置总的训练轮数设定次，如M，并将当前训练轮数n初始化为0。

根据设计的损失函数，将预测的SMPL参数和真实的SMPL参数进行比较和计算损失值，通过最小化该损失值来反向更新特征编码模块和回归器模块的权重参数，并将训练次数n加1。

其中，损失值可以通过以下流程计算得到：

设当前关节点编号为i，并且i∈(0,24)。预测的SMPL姿态参数为θ_i，预测的SMPL体型参数为β_i。真实的SMPL姿态参数为

真实的SMPL体型参数为

通过以下公式计算SMPL损失值：

设预测的SMPL人体关节点的3D位置为X_i，真实的人体关节点的3D位置为

通过以下公式计算出关节点的3D损失值：

通过预测得到的SMPL人体关节点的3D位置X_i、根节点的旋转矩阵R、相机的内参矩阵K和偏移矢量t，计算出每个关节点的2D位置如下：

x_i＝K(RX_i+t)

设每个关节点的可见度为v_i，基于人体关节点的2D位置预测值x_i和真实值

通过以下公式计算关节点的2D损失值：

整个网络的损失值为L_total＝_smpl+_2D+_3D。

使用随机梯度下降法对L_total进行全局优化并计算每层神经网络的梯度矩阵，然后根据反向传播原理来更新特征编码模块和回归器模块的权重矩阵。

将当前训练轮数n加1。

判断是否满足训练轮数，如果是则表示训练完成，输出特征编码模块和回归器模块。如果否则继续训练，重复执行“将二进制的数据文件输入至特征编码模块进行推理计算得到初始的SMPL参数并与先验的SMPL参数进行拼接，然后输入至回归器模块进行推理计算得到预测的SMPL参数”至“判断是否满足训练轮数”的步骤，直至满足训练轮数。

其中，判断是否满足训练轮数的条件为：当前训练轮数是否等于总训练轮数M。

根据上述步骤获得已训练好的特征编码模块和回归器模块，基于已训练好的特征编码模块和回归器模块，在电子设备为服务器的情况下，请参阅图4，人体动作捕捉方法的实现流程如下：

单目相机采集人体的运动视频，实时地将每一帧图片输入给服务器中的数据预处理模块。

数据预处理模块将图片数据转换成RGB格式，然后校正图片尺寸为256x256，并输入至特征编码模块。

特征编码模块输出初始的SMPL参数，并与先验的SMPL参数进行拼接，得到拼接数据并输入至回归器模块。

回归器模块输出预测的SMPL参数。

取SMPL参数中的关节点姿态参数，将其转化成四元数实时地传输给用户终端里的虚拟人物做与真人相同的动作。

相比于现有的动作捕捉技术方案，本申请实施例不需要额外的专业设备，基于相机和电子设备如计算机便可实现动作捕捉，实现较为便捷，自动化程度高，不需要工作人员进行现场调试，使用者不需要经过专业的培训便很容易上手，适用范围较广。

为了执行上述实施例及各个可能的方式中的相应步骤，下面给出一种动作捕捉装置的实现方式。请参阅图5，图5为本发明实施例提供的一种动作捕捉装置140的功能模块图，该动作捕捉装置140可以应用于图1所示电子设备100。需要说明的是，本实施例所提供的动作捕捉装置140，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该动作捕捉装置140包括信息获得模块141和信息处理模块142。

其中，信息获得模块141用于获得目标对象的动作图像。

信息处理模块142用于将所述动作图像输入至特征编码模块，得到初始的SMPL参数，将所述初始的SMPL参数与先验的SMPL参数进行拼接，得到拼接数据，将所述拼接数据输入至回归器模块，得到预测的SMPL参数。

在上述基础上，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序运行时控制所述计算机可读存储介质所在电子设备执行上述的动作捕捉方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种动作捕捉方法，其特征在于，包括：

获得目标对象的动作图像；

将所述动作图像输入至特征编码模块，得到初始的SMPL参数；

将所述初始的SMPL参数与先验的SMPL参数进行拼接，得到拼接数据；其中，所述先验的SMPL参数来源于SMPL体学模型，利用深度学习从人体动作捕捉数据中学习出来；

将所述拼接数据输入至回归器模块，得到预测的SMPL参数。

2.根据权利要求1所述的动作捕捉方法，其特征在于，获得目标对象的动作图像的步骤，包括：

将所述每一帧图像转换成RGB格式的图像；

3.根据权利要求1所述的动作捕捉方法，其特征在于，所述方法还包括训练得到所述特征编码模块和回归器模块的步骤，该步骤包括：

获得训练数据集；

4.根据权利要求3所述的动作捕捉方法，其特征在于，获得训练数据集的步骤，包括：

获得目标对象各关节点的2D信息标注数据和3D信息标注数据；

5.根据权利要求4所述的动作捕捉方法，其特征在于，SMPL参数包括SMPL姿态参数和SMPL体型参数；所述将所述预测的SMPL训练参数与预存的真实的SMPL参数进行比较，计算损失值的步骤，包括：

根据以下公式计算得到SMPL损失值：

其中，i为当前关节点编号，i∈(0,N)，N＞1；θ_i为预测的SMPL姿态参数，β_i为预测的SMPL体型参数；

为真实的SMPL姿态参数，

为真实的SMPL体型参数；

根据以下公式计算得到目标对象各关节点的3D损失值：

其中，X_i为预测的目标对象的关节点的3D位置，

为真实的目标对象的关节点的3D位置；

根据以下公式计算得到目标对象各关节点的2D位置：

x_i＝K(RX_i+t)

根据以下公式计算得到目标对象各关节点的2D损失值：

为人体关节点的2D位置真实值；

根据以下公式计算得到整体损失值：

L_total＝L_smpl+L_2D+L_3D。

6.根据权利要求1至5任意一项所述的动作捕捉方法，其特征在于，所述特征编码模块包括多层的卷积神经网络和ReLu非线性激活函数；所述多层的卷积神经网络和ReLu非线性激活函数用于将输入所述特征编码模块的第一维度的内容转换为第二维度的内容并输出；

7.根据权利要求1所述的动作捕捉方法，其特征在于，所述方法还包括：

8.一种动作捕捉装置，其特征在于，包括：

信息获得模块，用于获得目标对象的动作图像；

信息处理模块，用于将所述动作图像输入至特征编码模块，得到初始的SMPL参数，将所述初始的SMPL参数与先验的SMPL参数进行拼接，得到拼接数据，将所述拼接数据输入至回归器模块，得到预测的SMPL参数；其中，所述先验的SMPL参数来源于SMPL体学模型，利用深度学习从人体动作捕捉数据中学习出来。

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至7任一项所述的动作捕捉方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机程序，所述计算机程序运行时控制所述计算机可读存储介质所在电子设备执行权利要求1至7任一项所述的动作捕捉方法。