CN110349268B

CN110349268B - 一种三维人体姿态、表情及手势的重构方法

Info

Publication number: CN110349268B
Application number: CN201910499359.0A
Authority: CN
Inventors: 李桂清; 姚秀秀; 王宇攀; 邹歆仪; 聂勇伟
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2021-03-30
Anticipated expiration: 2039-06-11
Also published as: CN110349268A

Abstract

本发明公开了一种三维人体姿态、表情及手势的重构方法，包括步骤：1)用参数化模型来表示待重构的三维人体网格模型；2)通过最小化能量获得三维人体网格模型；3)采用改进的离散壳变形方法对步骤2)中的能量进行优化。本发明可以从给定特定几何形状的约束中，求解出带重构的三维人体网格模型的形状与姿态参数，使得所确定的形状逼近所给的数据。

Description

一种三维人体姿态、表情及手势的重构方法

技术领域

本发明涉及三维人体姿态、表情及手势重构的技术领域，尤其是指一种三维人体姿态、表情及手势的重构方法。

背景技术

目前已经存在大量的文献分别研究了对身体姿态、面部表情和手势的参数化模型表示。但是重构完全人体动态几何的问题仍是开放性问题，由于不同部位运动的尺度不同，建立完全人体参数化模型并未引起注意，相关文献较少.大部分现有的参数化表示仅针对身体、脸部、手部运动中的一种。

三维可变形模型。SCAPE结合了姿态的运动数据和蒙皮权重描述形态和运动变化。使用三角形的变形梯度捕捉姿态变化，将每个三角形的变形分解为形状变形、位姿相关变形和校正变形。目前的研究中，SCAPE被广泛应用于运动捕捉和三维人体重建。但是SCAPE很难描述不同个体在做相同姿态时的细微差异。此外基于SCAPE的方法可能导致严重的视觉伪影，类似于骨骼蒙皮。加上难以捕捉小规模的动态几何图形，如面部表情和手势。

基于骨骼蒙皮模型。SMPL利用顶点坐标的PCA基对人体的形状和姿态变化进行编码，并利用基于顶点坐标的混合蒙皮技术表示姿态变形。与基于SCAPE的模型相比，该模型快速、直观。近年来，它被广泛应用于许多领域，如深度地图、图像或视频的运动捕捉和三维重建。然而，SMPL在发生较大扭转的关节附近会发生严重的塌陷。受Zuffi and Black基于部分的缝制木偶模型的启发，Joo等人提出了Frankenstein模型来表示人脸、手和身体的变形。他们使用SMPL来描述身体和手的变化，利用双线性模型来模拟面部表情。但是Frankenstein模型既没有建立一个统一的参数模型，也没有产生一个单一的网格，只是对其他部分进行变形，使之与主体部分兼容。

人脸静态模型。Blendshape是早期面部动画最流行的表现形式。它为每个面部特征点创建顶点位移基，并通过混合这些基来表示个性化中立人脸的动画。然而，这个模型没有捕捉到形状的变化。相反，由Blanz and Vetter设计的3DMM(3D morphable model)侧重于表现不同的面部形状，但是无法支持表情。Amberg等人使用更多的数据集对模型进行训练，从而增强了模型。结合这两种模型，Weise等人设计了一个实时的基于性能的面部动画系统。Bouaziz等在3DMM基础上建立自适应DEM(Dynamic Expression Model)，同时捕捉面部形态和表情变化。Cao等提出了FaceWarehouse训练双线性人脸模型，用于表示人脸形状和表情的变化。Garrido等建立了基于3DMM和DEM的综合人脸模型。

手的参数模型。大多数人手部参数模型是针对手部运动跟踪而不是精确的几何重建的，骨骼蒙皮技术经常被用来做这件事。另一方面，基于骨骼网格的隐式表示也很受欢迎，它可以提供更优越的跟踪性能。然而，上述大多数方法都不是基于统计的。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种三维人体姿态、表情及手势的重构方法，从给定特定几何形状的约束中，求解出带重构的三维人体网格模型的形状与姿态参数，使得所确定的形状逼近所给的数据。

为实现上述目的，本发明所提供的技术方案为：一种三维人体姿态、表情及手势的重构方法，包括以下步骤：

1)用参数化模型来表示待重构的三维人体网格模型；

2)通过最小化能量获得三维人体网格模型；

3)采用改进的离散壳变形方法对步骤2)中的能量进行优化。

在步骤1)中，令待重构的三维人体网格模型的顶点坐标构成的3N_V(其中N_V为待重构的三维人体网格模型的顶点数目)维列向量为

(其中V是重构网格的顶点向量，v₁为第一个顶点的坐标，

为第N_V个顶点的坐标，T为转置符号)，于是表示待重构的三维人体网格模型即为最小化以下能量：

ε(V,α,β)＝ε_S(V,α,β)+ε_B(V,α,β)+ε_G(V,α)+λε_C(V,α,β)

其中，α为三维人体网格模型的形状参数，β为三维人体网格模型的姿态参数，λ为数据项的权重，ε(V,α,β)为重构的三维人体网格模型的最小化能量，该能量包括四项：ε_S(V,α,β)为拉伸项、ε_B(V,α,β)为弯曲项、ε_G(V,α)为体积项和ε_C(V,α,β)为数据项；待重构三维人体网格模型的姿态表示为B_P(α,β)，则拉伸项、弯曲项和体积项的作用是将待重构网格的边长、二面角和体积约束在B_P(α,β)所张成的子空间内。

在步骤2)中，定义待重构的三维人体网格模型的边长向量、二面角向量和体积分别为L(V)、A(V)和G(V)；B_S(α)为待重构的三维人体网格模型的形状，B_P(α,β)为待重构的三维人体网格模型的姿态，L(α)和A(α)分别为B_S(α)的LA向量的边长向量和二面角向量；

拉伸项ε_S(V,α,β)是限制每条边e的边长，表示为以下形式：

其中，|E|为待重构的三维人体网格模型中边的条数，L^(l)(V)为待重构的三维人体网格模型的第l条边的边长，

为RLA向量X_L(α,β)的第l项，L^(l)(α)为LA向量L(α)的第l项，w_S,l表示能量的权重，取值为

表示平均形状

中第l条边的边长，为表示方便，定义第l条边的能量函数f_S,l(V,α,β)为：

则拉伸项ε_S(V,α,β)重写为

弯曲项ε_B(V,α,β)用于限制待重构的三维人体网格模型的二面角，表示为以下形式：

其中，A^(l)(V)为待重构的三维人体网格模型的第l条边的二面角，

为RLA向量X_A(α,β)的第l项，A^(l)(α)为LA向量A(α)的第l项，w_B,l表示能量的权重，取值

表示平均形状

中与第l条边相邻的两个三角形的面积，为了表示方便，定义第l条边的能量函数f_B,l(V,α,β)为：

则弯曲项ε_B(V,α,β)重写为

体积项ε_G(V,α)用于约束待重构的三维人体网格模型的体积大小，表示为以下形式：

其中，α_i为三维人体网格模型的第i个形状参数，G⁽ⁱ⁾表示第i个形状基的体积，G⁽⁰⁾为标准姿态的体积，N_SB为形状基的总个数，W_G表示能量的权重，取值为

为了表示方便，定义体积项能量函数f_G(V,α)为：

则体积项ε_G(V,α)重写为ε_G(V,α)＝W_Gf_G(V,α)；

数据项ε_C(V,α,β)约束根据应用的不同而在形式上有所区别，但所有数据项最终都能够用如下能量项进行约束：

其中，N_con为数据约束个数，W_C,i为第i个数据约束的权重,f_C,i(V,α,β)为第i个数据约束的约束函数。

在步骤3)中，记f为如下定义的多元函数，其自变量由待重构的三维人体网格顶点坐标、形状参数和运动参数构成，即：

其中，x为自变量表示符号，V是重构网格的顶点向量

α为三维人体网格模型的形状参数，β为三维人体网格模型的姿态参数，N_V为待重构的三维人体网格模型的顶点个数，N_MC为从数据集中提取到的基的总个数，N_SB为形状基的总个数，

为第一个顶点的x坐标，

为第一个顶点的y坐标，

为第一个顶点的z坐标，

为第N_V个顶点的x坐标，

为第N_V个顶点的y坐标，

为第N_V个顶点的z坐标，α₁为三维人体网格模型的第一个形状参数，

为三维人体网格模型的第N_SB个形状参数，β₁为三维人体网格模型的第一个姿态参数，

为三维人体网格模型的第N_MC个姿态参数，则映射关系为：

其中，|E|为边的条数，f_S,1(V,α,β)、f_B,1(V,α,β)为步骤2)中定义的第一条边的能量函数，即定义第l条边的能量函数f_S,l(V,α,β)为

定义第l条边的能量函数f_B,l(V,α,β)为

f_S,|E|(V,α,β)、f_B,|E|(V,α,β)为步骤2)中定义的第|E|条边的能量函数，w_S,1、w_B,1、w_S,|E|、w_B,|E|为对应能量函数的权重，f_G(V,α)为步骤2)中定义的体积项能量函数，即

W_G为对应体积项能量函数的权重，N_con为数据约束个数，f_C，1(V,α,β)为步骤2)中定义的第一个数据约束的约束函数，

为步骤2)中定义的第N_con个数据约束的约束函数，w_C,1为对应第一个数据约束的权重，

为对应第N_con个数据约束的权重；

于是最小化能量

其中，f(x)^T表示为f(x)的转置；求得x＝(V,α,β)的具体求解步骤如下：

3.1)固定待重构的三维人体网格模型的形状参数α，用高斯牛顿梯度下降法对待重构的三维人体网格模型的姿态参数和顶点坐标求解最小化：

此时，f(x)的未知量为

其中x₁为此时的自变量形式，V是重构网格的顶点向量

β为三维人体网格模型的姿态参数，N_V为待重构的三维人体网格模型的顶点个数，N_MC为从数据集中提取到的基的总个数，

为第一个顶点的x坐标，

为第一个顶点的y坐标，

为第一个顶点的z坐标，

为第N_V个顶点的x坐标，

为第N_V个顶点的y坐标，

为第N_V个顶点的z坐标，β₁为三维人体网格模型的第一个姿态参数，

为三维人体网格模型的第N_MC个姿态参数；采用高斯牛顿梯度下降法最小化f，假设已求得第h次迭代的解

那么第h+1次迭代的解的公式为：

其中，J₁为函数f关于x₁的雅可比矩阵，J₁ ^T为矩阵J₁的转置矩阵，(J₁ ^TJ₁)^-1表示求矩阵J₁ ^TJ₁的逆；为求雅可比矩阵，需求函数f的各个分量关于x₁各分量的偏导，具体如下所示：

其中，M_L为对RLA向量中的边长进行自适应稀疏局部化分解得到的具有N_MC个局部运动基的矩阵，M_L(i,j)为M_L的第i行第j列的元素，M_A为对RLA向量中的二面角进行自适应稀疏局部化分解得到的具有N_MC个局部运动基的矩阵，M_A(i,j)为M_A的第i行第j列的元素，R_L(α,β)为MLP网络输出的相对边长分量，

为R_L(α,β)的第l个分量，R_A(α,β)为MLP网络输出的相对二面角分量，

为R_A(α,β)的第l个分量，B_S(α)为待重构的三维人体网格模型的形状，L(α)为B_S(α)的LA向量的边长向量，L^(l)(α)表示L(α)第l个元素，

为函数f_S,l(V,α,β)对β_i的偏导数，

为函数

对β_i的偏导数，

为函数f_B,l(V,α,β)对β_i的偏导数，

为函数

对β_i的偏导数；考虑到脸部表情和手势的变化小于其它身体姿态部位的变化，将优先重构脸部表情，然后求解身体姿态，最后求解手势；

3.2)固定待重构的三维人体网格模型的姿态参数β，用高斯牛顿梯度下降法求解待重构的三维人体网格模型的形状参数和顶点坐标：

此时，f(x)的未知量为

其中x₂为此时的自变量形式，V是重构网格的顶点向量

α为三维人体网格模型的形状参数，N_V为待重构的三维人体网格模型的顶点个数，N_SB为形状基的总个数，

为第一个顶点的x坐标，

为第一个顶点的y坐标，

为第一个顶点的z坐标，

为第N_V个顶点的x坐标，

为第N_V个顶点的y坐标，

为三维人体网格模型的第N_SB个形状参数；利用高斯牛顿梯度下降法最小化f，假设已找到第h次迭代的解

那么第h+1次迭代的解的公式为：

其中，J₂为函数f关于x₂的雅可比矩阵，J₂ ^T为矩阵J₂的转置矩阵，(J₂ ^TJ₂)^-1表示求矩阵J₂ ^TJ₂的逆；

同样，J₂由函数f的各分量关于x₂各个分量的偏导组成，具体偏导如下所示：

其中，M_L为对RLA向量中的边长进行自适应稀疏局部化分解得到的具有N_MC个局部运动基的矩阵，

为M_L的第l个的列向量，R_L(α,β)为MLP网络输出的相对边长分量，

为R_A(α,β)的第l个分量，L(α)为待重构的三维人体网格模型的边长向量，L^(l)(α)表示L(α)第l个元素，β_L为稀疏局部基的相对边长的系数向量，

为函数f_S,l(V,α,β)对α_i的偏导数，

为函数L^(l)(α)对α_i的偏导数，

为函数

对α_i的偏导数，

为函数f_B,l(V,α,β)对α_i的偏导数，

为函数

对α_i的偏导数，

为函数f_G(V,α)对α_i的偏导数；

3.3)重复步骤3.1)和3.2)，直至函数收敛或者达到最大迭代次数，输出当前最优的参数解。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明采用参数化模型进行重构，克服不同人体部位运动的尺度不同的难点，能有效的重构出人体的形状、姿态、脸部表情和手势。

2、本发明是一个完全人体运动的重构方法，区别于之前只针对身体、脸部或手部运动中的一种进行重构后再进行组合的重构方法，能够同时重构出人体的完全运动包括身体姿态、脸部表情和手势。

3、本发明的重构方法能够有效的避免严重的关节扭曲问题，使得重构出来的三维人体网格模型看上去更加自然。

附图说明

图1是具体网络拟合时候，选取的12个锚三角形的分布图。

图2是MLP网络结构图。

图3是从不同类型数据中自然地合成身体运动、脸部表情和手部姿态的示意图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本实施例所提供的三维人体姿态、表情及手势的重构方法，包括以下步骤：

1)用参数化模型来表示待重构的三维人体网格模型

令待重构的三维人体网格模型的顶点坐标构成的3N_V(其中N_V为待重构的三维人体网格模型的顶点数目)维列向量为

(其中V是重构网格的顶点向量，v₁为第一个顶点的坐标，

ε(V,α,β)＝ε_S(V,α,β)+ε_B(V,α,β)+ε_G(V,α)+λε_C(V,α,β)

2)通过最小化能量获得三维人体网格模型

定义待重构的三维人体网格模型的边长向量、二面角向量和体积分别为L(V)、A(V)和G(V)；B_S(α)为待重构的三维人体网格模型的形状，B_P(α,β)为待重构的三维人体网格模型的姿态，L(α)和A(α)分别为B_S(α)的LA向量的边长向量和二面角向量；

拉伸项ε_S(V,α,β)是限制每条边e的边长，表示为以下形式：

表示平均形状

则拉伸项ε_S(V,α,β)重写为

表示平均形状

则弯曲项ε_B(V,α,β)重写为

为了表示方便，定义体积项能量函数f_G(V,α)为：

则体积项ε_G(V,α)重写为ε_G(V,α)＝W_Gf_G(V,α)；

3)采用改进的离散壳变形方法对步骤2)中的能量进行优化

记f为如下定义的多元函数，其自变量由待重构的三维人体网格顶点坐标、形状参数和运动参数构成，即：

其中，x为自变量表示符号，V是重构网格的顶点向量

为第一个顶点的x坐标，

为第一个顶点的y坐标，

为第一个顶点的z坐标，

为第N_V个顶点的x坐标，

为第N_V个顶点的y坐标，

为三维人体网格模型的第N_MC个姿态参数则映射关系为：

定义第l条边的能量函数f_B,l(V,α,β)为

W_G为对应体积项能量函数的权重，N_con为数据约束个数，f_C,1(V,α,β)为步骤2)中定义的第一个数据约束的约束函数，

为对应第N_con个数据约束的权重；

于是最小化能量

此时，f(x)的未知量为

其中x₁为此时的自变量形式，V是重构网格的顶点向量

为第一个顶点的x坐标，

为第一个顶点的y坐标，

为第一个顶点的z坐标，

为第N_V个顶点的x坐标，

为第N_V个顶点的y坐标，

那么第h+1次迭代的解的公式为：

为函数f_S,l(V,α,β)对β_i的偏导数，

为函数

对β_i的偏导数，

为函数f_B,l(V,α,β)对β_i的偏导数，

为函数

此时，f(x)的未知量为

其中x₂为此时的自变量形式，V是重构网格的顶点向量,α为三维人体网格模型的形状参数，N_V为待重构的三维人体网格模型的顶点个数，N_SB为形状基的总个数，

为第一个顶点的x坐标，

为第一个顶点的y坐标，

为第一个顶点的z坐标，

为第N_V个顶点的x坐标，

为第N_V个顶点的y坐标，

那么第h+1次迭代的解的公式为：

为函数f_S,l(V,α,β)对α_i的偏导数，

为函数L^(l)(α)对α_i的偏导数，

为函数

对α_i的偏导数，

为函数f_B,l(V,α,β)对α_i的偏导数，

为函数

对α_i的偏导数，

为函数f_G(V,α)对α_i的偏导数；

对于我们的重构任务来说，一个好的初始解非常重要。根据不同的重构任务，一旦确定形状参数α和姿态参数β，可计算出LA向量L(α,β)和A(α,β)。我们利用合成数据库的丰富信息来建立形状参数α和姿态参数β与模型上某些特殊的标架之间的关系。为了直接从形状和运动参数得到锚定三角形标架信息，我们选取了锚定三角形，利用用多层感知机(MLP)来预测这些三角形的局部正交标架。如图1所示，选取了12个三角形，分布在人体的脸部、上下肢、躯干、腿部的区域。图2则给出了所采用的MLP的网络结构图：输入数据为形状参数α和姿态参数β，包含3层隐藏层，每层分别包含100、200、400个隐含因子，最终输出12个正交标架。其每层的激活函数为Sigmoid函数。我们用FA(α,β)表示该MLP输出。然后根据步骤2)进行能量式的优化：

a、固定待重构的三维人体网格模型的形状参数α，用高斯牛顿梯度下降法对待重构的三维人体网格模型的姿态参数和顶点坐标求解最小值；

b、固定待重构的三维人体网格模型的姿态参数β，用高斯牛顿梯度下降法对待重构的三维人体网格模型的形状参数和顶点坐标求解最小值；

c、重复a和b，至能量式函数收敛或者达到最大迭代次数，输出当前最优的参数解(α,β)。

最终重构的三维人体网格模型如图3所示，每个例子中，左图对应待合成的身体运动数据，中间两个场景分别表示待合成的脸部表情和手势，右图为合成后的结果从图中可以看出，本发明方法能够有效用于从不同类型数据中自然地合成身体运动、脸部表情和手部姿态，值得推广。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种三维人体姿态、表情及手势的重构方法，其特征在于，包括以下步骤：

1)用参数化模型来表示待重构的三维人体网格模型；

令待重构的三维人体网格模型的顶点坐标构成的3N_V维列向量为

其中N_V为待重构的三维人体网格模型的顶点数目，V是重构网格的顶点向量，v₁为第一个顶点的坐标，

为第N_V个顶点的坐标，T为转置符号；于是表示待重构的三维人体网格模型即为最小化以下能量：

ε(V,α,β)＝ε_S(V,α,β)+ε_B(V,α,β)+ε_G(V,α)+λε_C(V,α,β)

其中，α为三维人体网格模型的形状参数，β为三维人体网格模型的姿态参数，λ为数据项的权重，ε(V,α,β)为重构的三维人体网格模型的最小化能量，该能量包括四项：ε_S(V,α,β)为拉伸项、ε_B(V,α,β)为弯曲项、ε_G(V,α)为体积项和ε_C(V,α,β)为数据项；待重构三维人体网格模型的姿态表示为B_P(α,β)，则拉伸项、弯曲项和体积项的作用是将待重构网格的边长、二面角和体积约束在B_P(α,β)所张成的子空间内；

2)通过最小化能量获得三维人体网格模型；

拉伸项ε_S(V,α,β)是限制每条边e的边长，表示为以下形式：