CN114863035B

CN114863035B - 一种基于隐式表征的三维人体运动捕捉和生成方法

Info

Publication number: CN114863035B
Application number: CN202210780423.4A
Authority: CN
Inventors: 王康侃; 丛素旭; 李绍园
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-09-20
Anticipated expiration: 2042-07-05
Also published as: CN114863035A

Abstract

本发明公开了一种基于隐式表征的三维人体运动捕捉和生成方法，其包括：建立三维人体的标准模板空间，使用预先建立的三维人体模板网格训练包含占据网络的神经辐射场，获得标准模板空间NeRF；对输入视频的每一帧图像建立变形场，将标准模板空间中的三维人体模板网格变形到观察帧空间；在观察帧空间取采样点，并通过逆变形场变换到标准模板空间的对应点的坐标，输入标准模板空间NeRF查询颜色和密度，渲染获得人体合成图像；通过最小化人体合成图像与观察帧图像之间的距离优化标准模板空间NeRF和变形场，实现三维人体运动捕捉和动态人体外观恢复以及选定新的相机视角进行图像合成。本发明重建几何精度高且能合成任意视角的逼真图像。

Description

一种基于隐式表征的三维人体运动捕捉和生成方法

技术领域

本发明属于三维重建技术领域，涉及一种基于隐式表征的三维人体运动捕捉和生成方法。

背景技术

三维人体运动捕捉和生成(human performance capture and synthesis)是计算机视觉和图形学领域的一个重要研究问题，其在虚拟现实、增强现实等方面具有广泛的应用前景，例如三维全息通讯、电影特效、体育运动直播等。基于人体的多视角或单目视频，三维人体运动捕捉和生成的目标是重建几何和外观时空一致的动态人体三维模型序列，并从新的视角渲染逼真的人体运动视频。人体存在任意复杂的非刚性运动，而且光照变化、自阴影等因素会导致时序外观的变化，因此，三维人体运动捕捉和生成是一个具有很大挑战性的问题。现有的三维人体运动捕捉工作依赖于控制的多视角采集设备或者深度相机，复杂的多视角硬件设备和深度相机的局限性（移动性较差、受光照影响等）限制了这些系统在日常生活中的广泛应用。基于单目相机的运动捕捉方法利用彩色图像的特征（比如人体关节和轮廓），将一个预先建立的三维人体模板模型非刚性匹配到这些图像特征，实现三维人体的几何重建和跟踪，但是基于这些稀疏特征，并不能很好地恢复人体表面的细节变形。LiveCap利用稠密的影像约束跟踪三维人体表面的几何变形，该影像约束假定三维模板的纹理和模板在图像上投影像素颜色应该一致。由于关照变化或人体自阴影，图像中人体颜色会不断变化，三维模板的固定纹理不能匹配变化的图像纹理，因此，这种方法在人体表面几何的重建和跟踪时会失效。另外，这些相关工作没有对时序变化的外观建模，不能从新视角合成逼真的人体运动视频。

神经辐射场(Neural radiance fields，简称NeRF)是一种对三维静态场景连续、隐式的表达方式，其灵活地表示了三维场景的几何和外观，实现了逼真的新视角二维图像合成。近两年NeRF被成功推广到动态场景的图像合成，通过定义一个变形场，变形场通常表示为刚体变形场或位移向量场，将观察帧空间的三维点变换到标准空间，联合优化标准空间NeRF和变形场，实现动态场景NeRF。在不使用运动先验的情况下，同时优化标准空间下的NeRF和变形场是一个欠约束问题，这些方法不适用于运动人体。最近，Neuralbody和Ani-NeRF分别采用SMPL模型和基于骨架驱动的变形表达动态人体，有效约束了人体变形场的学习，生成了高质量的新视角动态人体视频。但是由于人体变形模型的表达能力局限性，这些方法不能处理穿宽松衣服（比如裙子等）的人体。另外，这些方法重建的几何表面很粗糙，而且不能得到时序帧的几何点对关系，限制了其在虚拟现实、增强现实等下游任务上的应用。

发明内容

本发明的目的在于提出一种基于隐式表征的三维人体运动捕捉和生成方法，以准确实现三维人体的运动捕捉和动态人体的外观的恢复，并能够合成新视角下的逼真图像。

本发明为了实现上述目的，采用如下技术方案：

一种基于隐式表征的三维人体运动捕捉和生成方法，包括如下步骤：

步骤1. 建立三维人体的标准模板空间，使用预先建立的三维人体模板网格训练包含占据网络的神经辐射场，获得标准模板空间NeRF；

步骤2. 使用非刚性变形和骨架驱动的变形对输入视频的每一帧图像建立变形场，将标准模板空间中的三维人体模板网格变形到观察帧空间；

步骤3. 在观察帧空间取采样点，将采样点的坐标通过逆变形场变换到标准模板空间下对应点的坐标，然后输入到标准模板空间NeRF查询颜色，渲染获得人体合成图像；

步骤4. 通过最小化人体合成图像与观察帧图像之间的距离，来联合优化标准模板空间NeRF和变形场，实现三维人体的运动捕捉和动态人体的外观的恢复；

步骤5. 利用训练好的标准模板空间NeRF和变形场，选定新的相机视角进行图像合成。

此外，在给定上述基于隐式表征的三维人体运动捕捉和生成方法基础上，本发明还提出了一种用于实现上述基于隐式表征的三维人体运动捕捉和生成方法的计算机设备。

该计算机设备包括存储器和处理器，存储器中存储有可执行代码；处理器执行可执行代码时，用于实现上面述及的基于隐式表征的三维人体运动捕捉和生成方法。

此外，在给定上述基于隐式表征的三维人体运动捕捉和生成方法基础上，本发明还提出了一种用于实现上述基于隐式表征的三维人体运动捕捉和生成方法的可读存储介质。

该计算机可读存储介质，其上存储有程序；当程序被处理器执行时，用于实现上面述及的基于隐式表征的三维人体运动捕捉和生成方法。

本发明具有如下优点：

如上所述，本发明述及了一种基于隐式表征的三维人体运动捕捉和生成方法，该方法能准地恢复时序变化的人体几何和外观，因此重建的几何精度高，且能合成任意视角的逼真图像，因而具有广泛的应用场景。另外，本发明方法对于穿一般衣服（包括宽松衣服）的人体也能重建较大的运动和几何细节，具有很强的人体运动表达能力。此外，本发明还在时序帧的几何模型之间恢复了稠密点对关系，为虚拟现实、增强现实等下游应用提供了基础。

附图说明

图1为本发明实施例中基于隐式表征的三维人体运动捕捉和生成方法的流程框图。

图2为本发明实施例中种基于隐式表征的三维人体运动捕捉和生成方法的流程示意图。

图3为本发明使用单目相机视频恢复的人体几何模型和新视角生成图像示意图。

图4为本发明提出的方法的结果和其他方法的比较示意图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

如图1所示，基于隐式表征的三维人体运动捕捉和生成方法，包括如下步骤：

步骤1. 首先建立三维人体的标准模板空间，使用预先建立的三维人体模板网格训练包含占据网络的神经辐射场，获得标准模板空间NeRF。

本实施例中构建的标准模板空间NeRF包括几何模型和颜色模型。

标准模板空间NeRF的几何模型在准备阶段预先建立好，在时序变化的图像合成时，该几何模型保持不变。在准备阶段时，标准模板空间NeRF不包含颜色信息，其颜色模型在与变形场的联合优化期间通过迭代优化获得。

在后续阶段，将标准模板空间的三维人体模板网格变形到与观察帧对齐，建立时序变化的几何。由于人体的运动几何都可以由标准模板空间下的人体几何的变形获得，因此，保持模板几何不变保证了后续人体动作几何生成的稳定性。

在定义标准模板空间NeRF的颜色模型时，对输入视频的每一帧图像定义一个隐式外观编码，在标准模板空间NeRF的颜色模型中融入隐式外观编码，表达并恢复时序变化的外观。

NeRF使用隐式三维体素表示静态场景。

该三维体素使用一个多层感知机网络估计颜色和密度：F_θ：(x,d)→(c,σ)。

其中，x∈R³表示空间中三维点坐标，d∈R³表示观察视角方向，c,σ分别为颜色和密度。

标准模板空间NeRF的几何模型由包含占据网络的神经辐射场表示，在神经辐射场的密度输出层后添加一层占据网络层，将密度映射到{0, 1}，有利于恢复高质量的几何。

标准模板空间NeRF的占据网络模型由函数F_o定义：o(x)= F_o(r_x(x))。

其中，o(x)∈{0, 1}表示占据网络模型输出的在x坐标处的空间是否被占据。

由于神经网络更倾向于学习低频函数，位置编码使用三角函数将坐标映射到高维空间，可以让神经网络更好地适应数据，r_x(x)表示空间坐标的位置编码，其定义如下：

r_x(x)=[sin(x),cos(x),sin(2x),cos(2x),…, sin(2^m-1x),cos(2^m-1x)]^T。其中，m为自然数，表示三维坐标经过位置编码升维后的维度大小。在本实施例中m例如取值为10。

标准模板空间NeRF的颜色估计中，为每一帧定义了一个可优化的隐式外观编码，和采样点左边x以及视角方向d一同输入，标准模板空间NeRF的颜色模型F_c(·)表示为：

c_i(x)= F_c(r_x(x), r_d(d),ψ_i)。其中，c_i(x)表示颜色模型输出的在x坐标处的颜色，d表示观察x坐标的视角方向，即x坐标所在射线的方向；ψ_i表示每一帧的隐式外观编码。

r_d(d)表示视角方向的位置编码，其定义如下：

r_d(d)=[sin(d),cos(d),sin(2d),cos(2d),…, sin(2^n-1d),cos(2^n-1d)]^T。其中，n为自然数，表示归一化三维方向向量经过位置编码升维后的维度大小。在本实施例中n例如取值为4。

本发明预先建立人体的三维人体模板网格，然后基于该三维人体模板网格提供的人体几何信息训练包含占据网络的神经辐射场，将人体的几何信息保存在标准模板空间NeRF中。

标准模板空间NeRF中，只需要输入空间点的坐标就可以查询到该点的密度，而输入空间点的坐标、视角方向和隐式外观编码，可以获取从某一视角看去该点的颜色。

在联合优化变形场和标准模板空间NeRF之前，标准模板空间NeRF中不包含颜色信息。

步骤2. 使用非刚性变形和骨架驱动的变形对输入视频的每一帧图像建立变形场，将标准模板空间中的三维人体模板网格变形到观察帧空间。

例如图2中，将标准模板空间中人体的T-pose姿态变形到观察帧空间人体的行走姿态，变形场实际上是建立了标准模板空间和观察帧空间的点对关系。

本发明方法通过在时序帧的几何模型之间恢复标准模板空间和观察帧空间的稠密点对关系，为虚拟现实、增强现实等下游应用提供基础。

而变形场的逆变换，即逆变形场，可以将观察帧空间的坐标变换到标准模板空间，从而查询标准模板空间NeRF的颜色和密度，将查询到的颜色和密度返还给观察帧空间的对应位置，从而渲染合成观察帧空间的图像和人体几何的三维重建。

单独的骨架变形往往不足以对特别是穿宽松衣服的人体的非刚性变形建模。为了解决这个问题，本发明实施例将人体的运动变形分为非刚性变形和骨架关节的运动。

首先通过嵌入变形对非刚性变形建模，该嵌入变形基于变形图计算一个弯曲场；一个嵌入变形图中包含K个节点，并且在三维人体模板网格中能够被自动建立。

在本实施例中K例如设为500个。

节点变换由欧拉角A∈R^k×3和平移向量T∈R^k×3参数化。对于三维人体模板网格的每个顶点v，经过非刚性变形后的新坐标y由下述公式得到：

y=∑_k∈N(v)w(v,g_k)[R(A_k)(v-g_k)+g_k+T_k]。

其中，N(v)表示影响到顶点v的邻域顶点集合，k∈N(v)；g_k表示第k个顶点的坐标；A_k和T_k分别表示第k个邻域顶点变形所需的欧拉角和平移向量；R(·) ：R³→SO(3) 将欧拉角转换为旋转矩阵；w(v,g_k)是顶点v的第k个邻域顶点的变形权重。

w(v,g_k)的值由如下公式计算：

w(v,g_k)=(1-||v-g_k||/d_max)²。

其中，d_max表示顶点v到k个最近顶点的距离。

非刚性形变中的欧拉角A和平移向量T都使用一个多层感知机模型训练获得，同时多层感知机还反向传播优化一个隐式变形编码w。

对于第i帧非刚性变形的欧拉角A_i，平移向量T_i和隐式变形编码w_i，由函数F_A,T定义：

F_A,T：w_i→(A_i, T_i)。

接下来估计骨架驱动的变形。

首先对输入视频的每一帧图像估计一个SMPL模型，并从估计的SMPL模型中计算蒙皮权重w(y)_j，w(y)_j表示顶点y的第j个部分的蒙皮权重。

人体的参数SMPL模型使用85维向量表示Θ=(θ,β)。

其中，β∈R¹⁰，θ∈R⁷⁵分别表示人体的形状参数和各个关节的相对角度。

基于非刚性变形获得的三维人体网格，进一步应用线性蒙皮变形来进行变形，对于三维人体网格的每个顶点y，其变形后的观察帧空间的顶点

的计算公式如下：

=[∑^J _j=1w(y)_j G_j]y，其中，J是人体关节的数量；w(y)_j表示顶点y的第j个部分的蒙皮权重，G_j∈SE(3) 表示刚性变换矩阵。

通过以上两次形变，将标准模板空间下的三维人体模板网格变形到与观察帧（输入视频的每一帧图像）相同的姿态。

随后，通过逆变形场和标准模板空间NeRF，渲染合成变形后的人体图像，将该合成图像与输入视频帧图像之间的差距最小化，来联合优化变形场和标准模板空间NeRF。

本发明通过提出一个结合骨架驱动变形和非刚性表面变形的动态人体神经辐射场，能对穿一般衣服（包括宽松衣服）的人体重建较大运动和几何细节，相比于现有的动态人体神经辐射场方法（只能处理紧身衣服），具有更强的人体运动表达能力。

步骤3. 在观察帧空间取采样点，将采样点的坐标通过逆变形场变换到标准模板空间下对应点的坐标，然后输入到标准模板空间NeRF查询密度和颜色，渲染获得人体合成图像。

首先根据相机位置，视角方向，相机内参和视距在观察帧空间采样。

为了获得在输入视频第i帧图像的动态NeRF，即人体在不同时刻的颜色和密度，首先使用x^can=T_i(x)将观察帧空间的采样点x转换到标准模板空间的点x^can。

其中，T_i是三维人体网格变形场的逆变换。

根据相机位置和拍摄视角，由相机向观察帧空间发射多条射线，每条射线r对应最终人体合成图像上的一个像素，然后在每条射线上采样。

一条射线上的采样点表示为：r(t) = o + td。

其中，o∈R³为射线起点，d∈R³为射线方向（即从起点向射线发射方向看去的视角方向），t为采样间隔。将观察帧空间中的采样点坐标经过逆变形场（包括非刚性变形和骨架驱动的形变）T_i变换到标准模板空间对应的坐标，具体过程如下：

对于观察帧空间的一个采样点x，首先搜索与该采样点x距离最近的SMPL模型的顶点v，然后使用逆线性蒙皮变换采样点x的坐标，具体公式如下：

=[∑^J _j=1w(v)_j G_j]^-1x。其中，

表示变形后的采样点坐标，w(v)_j表示顶点v的第j 个部分的蒙皮权重，G_j∈SE(3) 表示刚性变换矩阵。

使用逆变形图将

变换到标准模板空间下的坐标x^can，具体公式如下：

x^can=[∑_k∈N(v)w(v,g_k)A_k]^-1·[∑_k∈N(v) w(v,g_k)(

-g_k-T_k+A_kg_k)]。

将观察帧空间中的采样点坐标经过变换后的对应坐标输入到标准模板空间NeRF，查询各点的颜色和密度，通过体素渲染公式获得像素颜色，具体过程如下：

观察帧空间中人体合成图像上每个像素的颜色由该像素对应的射线上所有采样点的颜色值和密度值渲染而成，称为体素渲染，公式如下：

；

其中，

表示第i帧的某条射线r的颜色，o(·)表示占据网络的输出，其值为0或 1，c_i(·)表示查询颜色；N表示某条射线上的采样点的数量，l、j表示采样点在其所在射线上的序号；x_l ^can ,x_j ^can表示观察帧空间采样点经逆变形场变换后的点的坐标。

通过动态神经辐射场，本发明能够使用体素渲染方法生成任意视角的图像。

步骤4. 通过最小化人体合成图像与观察帧图像之间的距离，来联合优化标准模板空间NeRF和变形场，实现三维人体的运动捕捉和动态人体的外观的恢复。

最小化人体合成图像和观察帧图像，来优化模板空间NeRF，损失函数如下：

L_rgb=∑_r∈S||

-

||₂；

其中，S表示投射的射线r的集合；C_i(·)表示使用上述体素渲染公式渲染出的颜色。

为了加强变形表面的局部光滑性，在非刚性变形中使用一种尽可能刚性的损失函数如下：

L_arap=∑_gi∑_gj∈N(gi)w(g_i,g_j) ||d_i,j(A,T)||₂。

其中，g_i表示三维人体模板网格的顶点，g_j为g_i的邻域网格顶点，N(g_i)为g_i的邻域顶点集合，g_j∈N(g_i)，w(g_i,g_j) 表示变形权重。

d_i,j(A,T)=A_j(g_i-g_j)+g_j+T_j-(g_i+T_i)。

A_j、T_j表示第j个邻域顶点变形的欧拉角和平移向量，T_i表示顶点i变形的平移向量。

总的损失函数形式为：L= L_rgb+λL_arap，λ为混合权重，本实施例中λ=0.005。

具体为：选定新的相机位置和相机视角，由相机向观察帧空间发射射线并在射线上取采样点，并通过逆变形场变换到标准模板空间的对应点的坐标，将经过变换后的对应点的坐标输入标准模板NeRF查询密度和颜色，即可合成三维人体的新视角逼真图像。

通过以上步骤，使得本发明方法能够同时灵活地对人体的几何和外观建模，因此，重建的几何精度更高，且能合成任意视角的逼真图像，具有更广泛的应用场景。

由于本发明方法能够能准确地恢复时序变化地人体几何和外观，因而能够从多视角或单目视频中准确地捕捉三维人体运动，并生成逼真的任意视角人体运动视频。

此外，本发明还通过以下对比，以验证本发明所提方法的有效性。

如图3所示，给定一个穿宽松衣服的人体的稀疏视角多目视频或者单目视频，本发明能够捕捉时空一致的人体几何和外观，并且能够合成照片级真实的新视角人体图像。

图3中给出了本发明方法效果的4组例子，每组例子中有三幅图像，从左向右分别是真值图像、经过本发明方法恢复的三维人体几何图像以及三维人体合成图像。

图4给出了本发明方法的结果和其他方法的比较，总共两组对比数据。每组数据从左向右为：真值、Animatable NeRF、D-NeRF、Neuralbody、DeepCap、LiveCap和本发明方法。

在每一个例子中，均展示了通过以上几种方法在新视角下生成和重建的几何。

由图4中各幅图对比不难发现：

Animatable NeRF和Neuralbody在穿宽松衣服的人体的新视角生成上质量降低，而Animatable NeRF使用的骨架驱动的变形不适用于表示宽松裙子的运动。

D-NeRF由于缺乏约束和运动先验信息，也不能准确地估计人体的运动。

尽管本实施例中提到的上述几种对比方法，都能够实现高准确率的人体边缘对齐，然而他们重建的人体表面都非常不平滑和缺少细节。

而本发明方法重建的人体表面则能够很好地，对于穿一般衣服（包括宽松衣服）的人体也能重建较大的运动和几何细节，因而具有很强的人体运动表达能力。

此外，本发明实施例在给出上述基于隐式表征的三维人体运动捕捉和生成方法的基础上，还提出了一种用于实现上述方法的计算机设备。

本发明实施例中提到的计算机设备为任意具有数据处理能力的设备或装置。

该计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序。当处理器执行该计算机程序时，能够实现上述三维人体运动捕捉和生成方法。

此外，本发明实施例在给出上述基于隐式表征的三维人体运动捕捉和生成方法的基础上，还提出了一种用于实现上述方法的计算机可读存储介质。

当计算机程序被处理器执行时，能够实现上述三维人体运动捕捉和生成方法。

该计算机可读存储介质可以是任意具备数据处理能力的设备或装置的内部存储单元，例如硬盘或内存；当然也可以是任意具备数据处理能力的设备的外部存储设备，例如插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。

当然，以上说明仅仅为本发明的较佳实施例，本发明并不限于列举上述实施例，应当说明的是，任何熟悉本领域的技术人员在本说明书的教导下，所做出的所有等同替代、明显变形形式，均落在本说明书的实质范围之内，理应受到本发明的保护。

Claims

1.一种基于隐式表征的三维人体运动捕捉和生成方法，其特征在于，

包括如下步骤：

2.根据权利要求1所述的基于隐式表征的三维人体运动捕捉和生成方法，其特征在于，

所述步骤1中，标准模板空间NeRF包括几何模型和颜色模型；

标准模板空间NeRF的几何模型在时序变化的人体图像合成时保持不变；

3.根据权利要求2所述的基于隐式表征的三维人体运动捕捉和生成方法，其特征在于，

所述步骤1具体为：

标准模板空间NeRF的几何模型由包含占据网络的神经辐射场表示，在神经辐射场的密度输出层后添加一层占据网络层，将密度映射到{0, 1}；

标准模板空间NeRF的占据网络模型由函数F_o定义：o(x)= F_o(r_x(x))；

其中，o(x)∈{0, 1}表示占据网络模型输出的在x坐标处的空间是否被占据；

r_x(x)表示空间坐标的位置编码，其定义如下：

r_x(x)=[sin(x),cos(x),sin(2x),cos(2x),…, sin(2^m-1x),cos(2^m-1x)]^T，其中，m为自然数；

对输入视频的每一帧图像定义一个隐式外观编码，则颜色模型由函数F_c定义：

c_i(x)= F_c(r_x(x), r_d(d),ψ_i)；其中，c_i(x)表示颜色模型输出的在x坐标处的颜色，d表示观察x坐标的视角方向，即x坐标所在射线的方向；ψ_i表示每一帧的隐式外观编码；

r_d(d)表示视角方向的位置编码，其定义如下：

r_d(d)=[sin(d),cos(d),sin(2d),cos(2d),…, sin(2^n-1d),cos(2^n-1d)]^T，其中，n为自然数。

4.根据权利要求3所述的基于隐式表征的三维人体运动捕捉和生成方法，其特征在于，

所述步骤2具体为：

步骤2.1. 非刚性变形；

首先通过嵌入变形对非刚性变形建模，该嵌入变形基于变形图计算一个弯曲场；一个嵌入变形图中包含K个节点，并且在三维人体模板网格中能够被自动建立；

节点变换由欧拉角A∈R^k×3和平移向量T∈R^k×3参数化；

对于三维人体模板网格的每个顶点v，经过非刚性变形后的新坐标y由下述公式得到：

y=∑_k∈N(v)w(v,g_k)[R(A_k)(v-g_k)+g_k+T_k]；

其中，N(v)表示影响到顶点v的邻域顶点集合，k∈N(v)；

g_k表示第k个顶点的坐标；

A_k和T_k分别表示第k个邻域顶点变形所需的欧拉角和平移向量；

R(·) ：R³→SO(3) 将欧拉角转换为旋转矩阵；

w(v,g_k)是顶点v的第k个邻域顶点的变形权重，w(v,g_k)的值由如下公式计算：

w(v,g_k)=(1-||v-g_k||/d_max)²；

其中，d_max表示顶点v到k个最近顶点的距离；

非刚性变形中的欧拉角A和平移向量T都使用一个多层感知机模型训练获得，同时多层感知机还反向传播优化一个隐式变形编码w；

F_A,T：w_i→(A_i, T_i)；

步骤2.2. 估计骨架驱动的变形；

首先对输入视频的每一帧图像估计一个SMPL模型，并从估计的SMPL模型中计算蒙皮权重w(y)_j，w(y)_j表示顶点y的第j个部分的蒙皮权重；

人体的参数SMPL模型使用85维向量表示Θ=(θ,β)；

其中，β∈R¹⁰，θ∈R⁷⁵分别表示人体的形状参数和各个关节的相对角度；

的计算公式如下：

=[∑^J _j=1w(y)_j G_j]y；其中，J是人体关节的数量；w(y)_j表示顶点y的第j个部分的蒙皮权重，G_j∈SE(3) 表示刚性变换矩阵；

通过以上两次变形，将标准模板空间下的三维人体模板网格变形到与观察帧相同的姿态。

5.根据权利要求4所述的基于隐式表征的三维人体运动捕捉和生成方法，其特征在于，

所述步骤3具体为：

为了获得输入视频中第i帧图像时的动态NeRF，即人体在不同时刻的颜色和密度，首先使用x^can=T_i(x)将观察帧空间的采样点x转换到标准模板空间的点x^can；

其中，T_i是三维人体网格变形场的逆变换；

根据相机位置和拍摄视角，由相机向观察帧空间发射多条射线，每条射线r对应最终人体合成图像上的一个像素，然后在每条射线上采样；

一条射线上的采样点表示为：r(t) = o + td；

其中，o∈R³为射线起点，d∈R³为射线方向，t为采样间隔；

将观察帧空间中的采样点坐标经过逆变形场变换到标准模板空间对应的坐标，然后输入标准模板空间NeRF，查询各点的颜色和密度，通过体素渲染公式获得像素颜色。

6.根据权利要求5所述的基于隐式表征的三维人体运动捕捉和生成方法，其特征在于，

所述观察帧空间中的采样点逆变形的过程为：

=[∑^J _j=1w(v)_j G_j]^-1x；其中，

表示变形后的采样点坐标，w(v)_j表示顶点v的第j个部分的蒙皮权重，G_j∈SE(3) 表示刚性变换矩阵；

使用逆变形图将

变换到标准模板空间下的坐标x^can，具体公式如下：

x^can=[∑_k∈N(v)w(v,g_k)A_k]^-1·[∑_k∈N(v) w(v,g_k)(

-g_k-T_k+A_kg_k)]。

7.根据权利要求6所述的基于隐式表征的三维人体运动捕捉和生成方法，其特征在于，

将观察帧空间下的采样点坐标通过逆变形转换到标准模板空间下的采样点坐标后，将变换后的采样点坐标输入标准模板空间NeRF查询该点的颜色和密度；具体为：

；

其中，

表示第i帧的某条射线r的颜色，o(·)表示占据网络的输出，其值为0或1，c_i(·)表示查询颜色；N表示某条射线上的采样点的数量，l、j表示采样点在其所在射线上的序号；x_l ^can ,x_j ^can表示观察帧空间采样点经逆变形场变换后的点的坐标。

8.根据权利要求7所述的基于隐式表征的三维人体运动捕捉和生成方法，其特征在于，

所述步骤4具体为：

最小化人体合成图像和观察帧图像，来优化标准模板空间NeRF，损失函数如下：

L_rgb=∑_r∈S||

-

||₂；

其中，S表示投射的射线r的集合；C_i(·)表示使用上述体素渲染公式渲染出的颜色；

为了加强变形表面的局部光滑性，在非刚性变形中使用如下损失函数：

L_arap=∑_gi∑_gj∈N(gi)w(g_i,g_j) ||d_i,j(A,T)||₂；其中，g_i表示三维人体模板网格的顶点，g_j为g_i的邻域网格顶点，N(g_i)为g_i的邻域顶点集合，g_j∈N(g_i)，w(g_i,g_j)表示变形权重；

d_i,j(A,T)=A_j(g_i-g_j)+g_j+T_j-(g_i+T_i)；

A_j、T_j表示第j个邻域顶点变形的欧拉角和平移向量，T_i表示顶点i变形的平移向量；

总的损失函数形式为：L= L_rgb+λL_arap，λ为混合权重。