CN117557694A

CN117557694A - 一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法

Info

Publication number: CN117557694A
Application number: CN202311479745.6A
Authority: CN
Inventors: 李渭; 谢小龙; 刘捷; 饶泓
Original assignee: Nanchang University
Current assignee: Nanchang University
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2024-02-13

Abstract

本发明提供了一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法，将条件变分自动编码(CVAE)与神经混合权重场融合，以纠正从观察空间到规范空间的翻译偏差。首先，设计了时变残差向量回归模块，将时间戳和观测空间采样点作为编码器的输入，将转换后的残差通过解码器输出，对规范空间中的点进行校正。其次，为了重建高质量的人体，基于适合渲染纹理的体积密度构建神经辐射场。第三，与NeuMan直接利用MLP网络优化不同，我们使用一个轻量级MLP来实现条件变分自编码器的编码器和解码器作为辅助网络。本发明能够准确地纠正标准空间采样点的位置，使得变形场转换具有较高准确性和鲁棒性。

Description

一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法

技术领域

本发明属于人体建模技术领域，具体涉及一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法。

背景技术

人体动画是重建可动画化的人体模型，广泛应用于虚拟人物、电子游戏和电影。传统方法的成就主要包括高质量的静态重建和基于骨骼的动画驱动，而手动通常是耗时和不智能的。随着神经辐射场(NeRF)技术的出现，人体重建技术开辟了一个新的方向，它实现了极其逼真的视觉渲染，并提出了一种新颖的视图合成方法，加速了虚拟世界和现实世界之间无缝连接的发展。然而，NeRF只能实现静态三维隐式重建和逼真渲染。有必要进一步实现逼真的人体动画。

将NeRF应用于动态人物小说姿态的合成和自动渲染已成为元宇宙中一个具有挑战性和价值的课题。在最近的工作中，AniNeRF和Neuman建立了基于皮肤多层线性(SMPL)人体模型的变形场，实现了从观测空间样本点到规范空间样本点的映射，在新颖视图和新颖姿态绘制方面表现出令人信服的性能。但是在变形场映射方面还缺乏考虑，在生成高质量的人体动画方面还需要进一步改进。

发明内容

由于观测空间中的点通过神经混合权值场直接变换到正则空间时，重构结果会受到一定的偏置影响。为了克服这一缺点，本发明提供了一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法，将条件变分自动编码(CVAE)与神经混合权重场融合，以纠正从观察空间到规范空间的翻译偏差。

为实现上述目的，本发明提供如下技术方案：一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法，包括以下步骤：

步骤S1，获取原始人体相关数据，从H36M数据集和ZJU-MoCap中获取多视角图片帧序列以及相应的SMPL数据；

步骤S2，对每一张图片定义一个时间戳，并对图片获取射线，同时在射线上采样，获取观测空间采样点集合；

步骤S3，将获取到的观测空间采样点输入到神经混合权重场，计算出当前人体混合权重的残差，并加上人体初始混合权重，得到当前人体混合权重；

步骤S4：根据线性蒙皮公式的逆推导，结合人体骨架，构造变形场，实现观测空间采样点和标准空间采样点的映射；

步骤S5：将时间戳和观测空间采样点输入到条件变分自动编码器的编码器中，输出中间变量μ和σ，并根据高斯分布从中采样潜在变量，同时结合观测空间采样点输入到解码器，输出标准空间采样点的转换残差；

步骤S6：将上述转换残差加上步骤S4中得到的标准空间采样点，即得到校准后的标准空间采样点，并将其输入到颜色密度场，得到标准空间采样点的颜色和体密度，最终通过经典体积绘制函数计算出每条射线对应的像素值；

步骤S7：将校准后的标准空间采样点输入到残差权重场，得到标准空间混合权重。由于观测空间和标准空间的混合权重损失在转换前后保持一致，故需计算二者的混合权重损失，并联合像素重建损失以优化整个网络。

进一步的，所述步骤S1中，H36M数据集中的图片分辨率为1000*1000，ZJU-MoCap数据集中的图片分辨率为1024*1024。

进一步的，所述步骤S2中，时间戳被定义为每张图片的索引除以总的图片序列数量；射线由每张图片对应的相机位姿及其像素位置确定；以每个像素为原点出发与相机中心位置连成一条直线，直线与相机坐标系z轴的夹角为射线方向；时间戳定义如下：

进一步的，所述步骤S3中，神经混合权重场F_Δw是由8个一维卷积层构成的MLP网络，观测空间采样点作为原始输入，在MLP网络的第三层，潜在编码联结中间变量输入到第四层以进一步挖掘图片帧之间的信息；潜在编码从根据训练帧数量生成的潜在嵌入层中获取；

其中w^s为根据人体统计模型S_i获取的初始人体混合权重，norm表示进行标准化。

进一步的，所述步骤S4中，人体骨架包含24个关键点，分别为'Left_Hip','Right_Hip','Waist','Left_Knee','Right_Knee','Upper_Waist','Left_Ankle','Right_Ankle','Chest','Left_Toe','Right_Toe','Base_Neck','Left_Shoulder','Right_Shoulder','Upper_Neck','Left_Arm','Right_Arm','Left_Elbow','Right_Elbow','Left_Wrist','Right_Wrist','Left_Finger','Right_Finger'；变形场T_i定义如下：

其中G_k表示人体骨骼变换矩阵，k为预定义的人体骨骼数量，w^o(x)_k表示观测空间中人体第k个骨骼的蒙皮权重。

进一步的，所述步骤S5中，变分自动编码器的编码器ε和解码器D均由2层线性层构成，时间戳t_i先经过位置编码处理，增强到25维后输入编码器；编码器输出8维的中间变量μ和σ，并根据μ和σ构成的正态分布采样8维的潜在编码z，最后联结观测空间采样点x′_i输入到解码器，得到标准空间采样点残差

进一步的，所述步骤S6中，颜色密度场F_c和F_σ的架构依次包括输入层、第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层、输出层；所有卷积层均为一维卷积，其中体密度场的第三卷积层的输出要联结外观编码l_i和采样点方向输入到第四卷积层，最终输出采样点颜色σ_i和密度c_i；

σ_i(x)，z_i(x)←F_σ(γ_x(x′)) 式六

c_i(x)←F_c(z_i(x′)，γ_d(d)，l_i) 式七

其中γ_x和γ_d分别表示对采样点位置和方向进行位置编码增强。

进一步的，所述步骤S7中，标准空间神经混合权重场的网络结构与观测空间的神经混合权重网络结构一致，同样在MLP的第三层，将观测空间采样点的潜在编码联结中间变量输入到第四层；网络训练采用Adam优化器，设置初始学习率为5e-4。

进一步的，所述步骤S7中，为了训练神经混合权重场、条件变分自动编码器和颜色密度场，分别计算混合权重损失L_nsf、KL损失L_KL、像素重建损失L_rec；此外还进一步考虑转换残差损失L_res和蒙版损失L_mask，将所有损失加权相加得到总损失L；

L＝λ_recL_rec+λ_nsfL_nsf+λ_resL_res+λ_KLL_KL+λ_maskL_mask 式九

其中是渲染像素，C_i(r)是ground truth；

引入了混合权值场之间的一致性损失，以学习正则空间上的神经混合权值场；

其中x_i是第i帧的3D人体边界box下的3D采样点集合；基于w^new和式六，产生新人体视角下的变形场Tnew，并计算新的混合权重损失来优化模型；

采样点残差正则化L_res简单地约束每个节点的位置变化以稳定训练；

KL-散度Loss是标准的变分自动编码器VAE的KL散度惩罚；

L_KL＝∑_iKL(N(μ_i，σ_i)||N(0，1)) 式十四

人体蒙版损失进一步约束重建区域，强制惩罚蒙版区域以外的射线采样点体密度为0，定义蒙版区域为M(r)＝0，背景区域为M(r)＝1；

L_mask＝σ_r||1-M(r)|| 式十五

本方法具有的优点：

1)提出了一种新的隐式三维身体重建方法，称为CVRF，它融合了CVAE和神经混合权重场。它可以校正观测空间向规范空间转换过程中的偏差。

2)使用时间戳作为CVAE编码器的输入，充分利用视频序列帧之间的关系，有效地解决了一对一映射的问题，能够更准确地捕捉人体表面的细节。

3)所提出的方法不需要额外训练新的姿态合成渲染模型，只需要训练新视角模型，以在新视角和新姿态合成中实现更好的渲染。

与现有技术相比，本发明的有益效果是：

1)基于条件变分自动编码器设计的时变残差向量回归模块，它们具有较强的残差表示能力，相比较其他对观测空间和标准空间映射欠缺考虑的方法，本方法能够准确地纠正标准空间采样点的位置，使得变形场转换具有较高准确性和鲁棒性；

2)与AniNeRF和Neural body等方法不同，本发明得益于条件变分自动编码器的编码器和解码器作为辅助网络，在新姿势合成方面也具备了一定的泛化能力，无需额外单独训练新姿势合成模型，也能得到良好的渲染效果。

附图说明

图1为本发明的整体框架图；

图2为本发明的人体24关键点拓扑图；

图3为本发明的条件变分自动编码器架构图；

图4为本发明的标准空间采样点的点云图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明技术方案，并不限于本发明。

本发明将条件变分自动编码(CVAE)与神经混合权重场融合，以纠正从观察空间到规范空间的翻译偏差。首先，设计了时变残差向量回归模块，将时间戳和观测空间采样点作为编码器的输入，将转换后的残差通过解码器输出，对规范空间中的点进行校正。其次，为了重建高质量的人体，基于适合渲染纹理的体积密度构建神经辐射场。第三，与NeuMan直接利用MLP网络优化不同，我们使用一个轻量级MLP来实现条件变分自编码器的编码器和解码器作为辅助网络。

具体来说，在推理过程中，将观测空间采样点和图像对应的时间戳输入编码器模块。然后通过中间变量采样将潜码和观测空间样本点反馈给解码器，预测时变残差向量，并对标准空间样本点进行校正。最后，将校正后的采样点位置输入到颜色密度场中，得到相应的颜色密度。射线对应的像素的RGB颜色是用经典的体绘制函数计算的。新的视图和姿态是通过查询来重建的。在H36M和ZJU-MoCap数据集上的大量实验表明，所提出的方法在新颖的人类视角和姿态合成方面优于最先进的方法，并且在合成新姿态时不需要单独的训练，即对新姿势合成具有良好的泛化能力。

一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法，整体框架图如图1所示。具体包括以下步骤：

需要说明的是，步骤S1中，H36M数据集中的图片分辨率为1000*1000，ZJU-MoCap数据集中的图片分辨率为1024*1024。

需要说明的是，步骤S2中，时间戳被定义为每张图片的索引除以总的图片序列数量；射线由每张图片对应的相机位姿及其像素位置确定。以每个像素为原点出发与相机中心位置连成一条直线，直线与相机坐标系z轴的夹角为射线方向；时间戳定义如下：

需要说明的是，步骤S3中，神经混合权重场F_Δw是由8个一维卷积层构成的MLP网络，观测空间采样点作为原始输入，在MLP网络的第三层，潜在编码联结中间变量输入到第四层以进一步挖掘图片帧之间的信息；潜在编码从根据训练帧数量生成的潜在嵌入层中获取；

需要说明的是，步骤S4中，人体骨架包含24个关键点，如图2所示，分别为′Left_Hip′，′Right_Hip′，′Waist′，′Left_Knee′，′Right_Knee′，′Upper_Waist′，′Left_Ankle′，′Right_Ankle′，′Chest′，′Left_Toe′，′Right_Toe′，′Base_Neck′，′Left_Shoulder′，′Right_Shoulder′，′Upper_Neck′，′Left_Arm′，′Right_Arm′，′Left_Elbow′，′Right_Elbow′，′Left_Wrist′，′Right_Wrist′，′Left_Finger′，′Right_Finger′。变形场T_i定义如下：

需要说明的是，步骤S5中，条件变分自动编码器架构图如图3所示，变分自动编码器的编码器ε和解码器D均由2层线性层构成，时间戳t_i需要先经过位置编码处理，增强到25维后输入编码器；编码器输出8维的中间变量μ和σ，并根据μ和σ构成的正态分布采样8维的潜在编码z，最后联结观测空间采样点x′_i输入到解码器，得到标准空间采样点残差

需要说明的是，步骤S6中，颜色密度场F_c和F_σ的架构依次包括输入层、第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层、输出层；所有卷积层均为一维卷积，其中体密度场的第三卷积层的输出要联结外观编码l_i和采样点方向输入到第四卷积层，最终输出采样点颜色σ_i和密度c_i；

σ_i(x)，z_i(x)←F_σ(γ_x(x′)) 式六

c_i(x)←F_c(z_i(x′)，γ_d(d)，l_i) 式七

需要说明的是，步骤S7中，标准空间神经混合权重场的网络结构与观测空间的神经混合权重网络结构一致，同样在MLP的第三层，将观测空间采样点的潜在编码联结中间变量输入到第四层；网络训练采用Adam优化器，设置初始学习率为5e-4。

需要说明的是，步骤S7中，为了训练神经混合权重场、条件变分自动编码器和颜色密度场，分别需要计算混合权重损失L_nsf、KL损失L_KL、像素重建损失L_rec；此外还需进一步考虑转换残差损失L_res和蒙版损失L_mask，将所有损失加权相加得到总损失L；

L＝λ_recL_rec+λ_nsf L_nsf+λ_resL_res+λ_KLL_KL+λ_maskL_mask 式九

其中是渲染像素，C_i(r)是ground truth。

由于标准空间和观测空间的两个对应点应该具有相同的混合权值，故引入了混合权值场之间的一致性损失，以学习正则空间上的神经混合权值场；

其中x_i是第i帧的3D人体边界box下的3D采样点集合；基于w^new和式六，可以产生新人体视角下的变形场T^new，并计算新的混合权重损失来优化模型；

KL-散度Loss是标准的变分自动编码器VAE的KL散度惩罚；

L_KL＝∑_iKL(N(μ_i，σ_i)||N(0，1)) 式十四

L_mask＝σ_r||1-M(r)|| 式十五

本发明在H36M数据集上的实验数据如下：

表1：在H36M数据集上进行的新视图合成的PSNR(峰值信噪比)和SSIM(结构相似性)结果。

表2：在H36M数据集上进行的新姿势合成(无需额外训练)的PSNR(峰值信噪比)和SSIM(结构相似性)结果。

以上所述仅表达了本发明的优选实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形、改进及替代，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法，其特征在于：包括以下步骤：

步骤S7：将校准后的标准空间采样点输入到残差权重场，得到标准空间混合权重；由于观测空间和标准空间的混合权重损失在转换前后保持一致，故需计算二者的混合权重损失，并联合像素重建损失以优化整个网络。

2.根据权利要求1所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法，其特征在于：所述步骤S1中，H36M数据集中的图片分辨率为1000*1000，ZJU-MoCap数据集中的图片分辨率为1024*1024。

3.根据权利要求1所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法，其特征在于：所述步骤S2中，时间戳被定义为每张图片的索引除以总的图片序列数量；射线由每张图片对应的相机位姿及其像素位置确定；以每个像素为原点出发与相机中心位置连成一条直线，直线与相机坐标系z轴的夹角为射线方向；时间戳定义如下：

4.根据权利要求3所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法，其特征在于：所述步骤S3中，神经混合权重场F_Δw是由8个一维卷积层构成的MLP网络，观测空间采样点作为原始输入，在MLP网络的第三层，潜在编码联结中间变量输入到第四层以进一步挖掘图片帧之间的信息；潜在编码从根据训练帧数量生成的潜在嵌入层中获取；

5.根据权利要求4所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法，其特征在于：所述步骤S4中，人体骨架包含24个关键点，分别为'Left_Hip','Right_Hip','Waist','Left_Knee','Right_Knee','Upper_Waist','Left_Ankle','Right_Ankle','Chest','Left_Toe','Right_Toe','Base_Neck','Left_Shoulder','Right_Shoulder','Upper_Neck','Left_Arm','Right_Arm','Left_Elbow','Right_Elbow','Left_Wrist','Right_Wrist','Left_Finger','Right_Finger'；变形场T_i定义如下：

6.根据权利要求5所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法，其特征在于：所述步骤S5中，变分自动编码器的编码器ε和解码器D均由2层线性层构成，时间戳t_i先经过位置编码处理，增强到25维后输入编码器；编码器输出8维的中间变量μ和σ，并根据μ和σ构成的正态分布采样8维的潜在编码z，最后联结观测空间采样点x′_i输入到解码器，得到标准空间采样点残差

7.根据权利要求6所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法，其特征在于：所述步骤S6中，颜色密度场F_c和F_σ的架构依次包括输入层、第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层、输出层；所有卷积层均为一维卷积，其中体密度场的第三卷积层的输出要联结外观编码l_i和采样点方向输入到第四卷积层，最终输出采样点颜色σ_i和密度c_i；

σ_i(x),z_i(x)←F_σ(γ_x(x′)) 式六

c_i(x)←F_c(z_i(x′),γ_d(d),l_i) 式七

8.根据权利要求7所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法，其特征在于：所述步骤S7中，标准空间神经混合权重场的网络结构与观测空间的神经混合权重网络结构一致，同样在MLP的第三层，将观测空间采样点的潜在编码联结中间变量输入到第四层；网络训练采用Adam优化器，设置初始学习率为5e-4。

9.根据权利要求8所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法，其特征在于：所述步骤S7中，为了训练神经混合权重场、条件变分自动编码器和颜色密度场，分别计算混合权重损失L_nsf、KL损失L_KL、像素重建损失L_rec；此外还进一步考虑转换残差损失L_res和蒙版损失L_mask，将所有损失加权相加得到总损失L；

L＝λ_recL_rec+λ_nsfL_nsf+λ_resL_res+λ_KLL_KL+λ_maskL_mask 式九

其中是渲染像素，C_i(r)是ground truth；

其中x_i是第i帧的3D人体边界box下的3D采样点集合；基于w^new和式六，产生新人体视角下的变形场T^new，并计算新的混合权重损失来优化模型；

KL-散度Loss是标准的变分自动编码器VAE的KL散度惩罚；

L_KL＝∑_iKL(N(μ_i，σ_i)||N(0，1)) 式十四

L_mask＝σ_r||1-M(r)|| 式十五。