CN116134491A

CN116134491A - 用于面部表情、身体姿态形态和衣服表演捕捉的使用隐式可微分渲染器的多视图神经人体预测

Info

Publication number: CN116134491A
Application number: CN202280006134.7A
Authority: CN
Inventors: 张庆; 肖汉源
Original assignee: Sony Group Corp; Optical Archive Inc
Current assignee: Sony Group Corp; Sony Optical Archive Inc
Priority date: 2021-03-31
Filing date: 2022-03-31
Publication date: 2023-05-16
Also published as: EP4292059A1; WO2022208440A1; KR20230150867A; JP2024510230A

Abstract

神经人体表演捕捉框架(MVS‑PERF)从标定的多视图图像集中捕捉人的骨架、身体形态以及衣服位移和外观。它解决了单目人体网格恢复中预测绝对位置的模糊性，并将来自NeRF的体表示与动画友好的表演捕捉联系起来。MVS‑PERF包括三个模块以从多视图图像中提取特征映射并将其融合为特征体，将特征体回归为赤裸的人体参数矢量，生成具有骨架姿态、身体形态和表情的SMPL‑X贴身身体网格，并使用可微分渲染利用神经辐射场和变形场来将衣服推断为赤裸的身体上的位移。通过向SMPL‑X贴身身体网格顶点添加插值的位移矢量来获得穿衣服的身体网格。所获得的辐射场被用于输入拍摄对象的自由视图体渲染。

Description

用于面部表情、身体姿态形态和衣服表演捕捉的使用隐式可微分渲染器的多视图神经人体预测

相关申请的交叉引用

根据35U.S.C.§119(e)，本申请要求2021年11月16日提交的题为“MULTIVIEWNEURAL HUMAN PREDICTION USING IMPLICIT DIFFERENTIABLE RENDERER FOR FACIALEXPRESSION,BODY POSE SHAPE AND CLOTHES PERFORMANCE CAPTURE”的美国临时专利申请序列号No.63/279,916和2021年3月31日提交的题为“MULTIVIEW NEURAL HUMANPREDICTION USING IMPLICIT DIFFERENTIABLE RENDERER FOR FACIAL EXPRESSION,BODYPOSE SHAPE AND CLOTHES DISPLACEMENT”的美国临时专利申请序列号No.63/168,467的优先权，这两个专利申请对于所有目的通过引用整体并入本文中。

技术领域

本发明涉及用于娱乐产业的三维计算机视觉和图形。更具体地，本发明涉及获取和处理用于电影、TV、音乐和游戏内容创作的三维计算机视觉和图形。

背景技术

先前的系统，例如Facebook FrankMocap，仅从单个图像中预测赤裸的身体形态和姿态。此类系统不能预测衣服表面。此类系统是2D图像翻译方法，并且不能处理多视图输入。

隐式部分网络(Implicit Part Network)从扫描或重建的点云中预测身体和衣服两者，但需要3D扫描，并且不能处理RGB图像作为输入，也不能处理面部表情和外观。此外，隐式部分网络仅预测标签以将体素识别为身体或衣服，然后显式地拟合人体先验模型，这很慢。神经身体(Neural Body)和可动画NeRF(Animatable NeRF)使用神经辐射场(NeRF)预测没有面部表情的衣服人体。但它们需要创建稠密的隐代码体，这仅限于低分辨率并导致粗糙的人体几何。并且它们仅能够恢复没有网格顶点对应的体人体模型。

发明内容

多视图神经人体预测包括从给定相机标定的多视图图像集中预测包括骨架、身体形态以及衣服位移和外观的3D人体模型。

在一个方面，神经网络接受来自不同视图的输入图像集(其可以是单个图像或多个图像)，并预测分层的3D人体模型。所述图像集包括大小为N×w×h×c的4D张量，其中N是视图的数量，w是图像的宽度，h是所述图像的高度，并且c是所述图像的通道。所述图像集的相机信息是已知的。输出模型包含从内到外的三个层：处于预测的姿态的骨架；具有面部表情的预测的形态的赤裸的3D身体(例如，由混合形状(blendshape)和关节旋转所参数化的SMPL-X模型)；以及从所述输入图像中推断的衣服位移的3D场和外观RGB颜色。通过根据所述衣服位移场使所述赤裸的3D身体网格变形来获得穿衣服的身体网格。

在另一个方面，所述神经网络包括三个子网络：多视图立体3D卷积神经网络(MVS-3DCNN)，所述MVS-3DCNN将所述输入图像集编码为特征；人体网格恢复多层感知器(HMRMLP)，所述HMR MLP将所述特征回归为人体参数；和神经辐射场多层感知器(NeRF MLP)，所述NeRF MLP微调所述MVS-3DCNN并将查询3D射线(3D位置和方向)解码为RGB颜色和衣服到身体位移。

在另一个方面，在测试/推断模式中，在训练数据中的相机的视野范围内，所述分层的3D人体模型的预测对于小型输入集是设备无关的、全自动的和实时的，而没有任何显式的数值优化。当用训练的神经网络预测时，MVS-3DCNN接受所述多视图图像集作为输入，选择正面视图作为参考视图，并提取特征体。HMR MLP将所有所述特征体回归为人体姿态、形态、面部特征参数。SMPL-X模型根据所述参数生成人体赤裸的身体网格。然后所述赤裸的身体网格被转换为其包围框中的占用场。对于在所述身体网格附近、与来自每个视图的中心的射线方向相关联的任何3D点，训练的NeRF MLP生成RGB颜色和指向所述赤裸的身体的表面的3D位移矢量。通过查询从相机视图(与输入视图相同，或者是任何新视图)的所有像素发射的所有射线，能够将穿衣服的人体的外观渲染为RGB图像。通过使用来自采样的点的所述3D位移矢量使所述赤裸的身体变形，能够获得与SMPL-X模型相同顶点对应的穿衣服的身体网格(例如SMPL-X+D)。

在另一个方面，训练所述神经网络包括两种情况：监督和自监督。在监督情况下，给定具有已知人体参数的标记的数据集，例如H36M数据集。将地面真值(GT)参数和形态与CNN回归的参数和形态进行比较。计算差异作为形态损失。与此同时，从所述输入图像集中的采样的像素投射射线，并且NeRF MLP渲染所述射线并将参数回归为颜色和密度，其为所述赤裸的身体和3D衣服位移的密度的函数。通过采样的像素颜色和渲染的颜色的差的和来计算颜色损失。另一方面，在GT人体参数未知的大多数现有数据集(例如运动捕捉数据集)中，利用自监督/自改进(self-improving)训练。在每个训练迭代中，在从MVS 3DCNN回归参数后，所述参数被发送到诸如SMPLifyX之类的基于优化的人体预测算法，并通过显式的数值优化方法被优化。优化的参数与CNN回归的参数进行比较并变成所述形态损失。剩余步骤与监督训练相同，但自改进训练比监督情况花费更多的轮次(epoch)和更长的时间。通过诸如Adam之类的并行优化算法来执行整个神经网络的训练，所述并行优化算法最小化形态损失和颜色损失两者，并输出优化的网络权重。

附图说明

图1图示了根据一些实施例的神经人体预测的流程图。

图2图示了根据一些实施例的由张量标记法所表示的前向预测的工作流程，其中所有网络MVS 3DCNN、HMR MLP和NeRF MLP的权重是已知的。

图3图示了根据一些实施例的使用监督来训练网络的工作流程。

图4图示了根据一些实施例的用自改进策略来训练网络的工作流程。

图5图示了根据一些实施例的每个视图的MVS 3DCNN与NeRF MLP的对准。

具体实施方式

神经人体预测包括从图像集(单个图像或多视图图像)中预测包括骨架的姿态、身体形态以及衣服位移和外观的3D人体模型。神经人体预测的实施例说明了使用神经网络的方法。多视图神经人体预测在质量和鲁棒性上优于基于单个图像的运动捕捉(mocap)和人体提升；简化了诸如隐式部分网络之类的身体衣服预测网络的架构，所述隐式部分网络接受稀疏的点云作为输入、具有较高的存储开销并且执行速度慢；并且避免了诸如神经身体(Neural Body)之类的基于隐代码的网络的分辨率限制，所述神经身体编码整个3D体。

图1图示了根据一些实施例的神经人体预测的流程图。在步骤100中，作为输入获取图像的输入集I(单个图像或多视图图像，例如围绕拍摄对象拍摄的图片集)。输入I被表示为大小为N×w×h×c的4D张量，N是视图的数量，w、h、c分别是图像宽度、高度和通道。相机已经被标定，因此所有相机信息(例如相机参数)是已知的。图像预处理使用诸如Detectron2和图像Grab-Cut之类的现有方法来提取拍摄对象的包围框和前景掩膜。图像被包围框裁剪，并以相同的宽高比缩放到w×h的大小。用黑色来填充图像边界。

神经网络(MVS-PERF)102包括三个组件：多视图立体3D卷积神经网络(MVS-3DCNN)104，MVS-3DCNN 104将输入图像集编码为特征；人体网格恢复多层感知器(HMR MLP)106，HMR MLP 106将所述特征回归为人体参数；和神经辐射场多层感知器(NeRF MLP)108，NeRFMLP 108微调MVS-3DCNN并将查询3D射线(3D位置和方向)解码为RGB颜色和衣服到身体位移。

在步骤104中，深度2D CNN从每个视图中提取图像特征。除最后一层以外，每个卷积层后接批归一化(BN)层和修正线性单元(ReLU)。还放置了两个下采样层。2D CNN的输出是大小为w/4×h/4×32的特征映射。

然后，首先选择视图作为参考视图，并根据透视投影和近远平面来设定其视锥体以覆盖拍摄对象的整个工作空间。从近到远，通过d个深度平面来采样所述锥体，所述d个深度平面与近平面和远平面两者平行。所有特征映射被变换并混合到每个深度平面。对于任何视图i，i＝1,2,…,N，通过以下公式给出针对参考视图(下标为1)的3×3单应性图像变换矩阵：

其中K、[R,t]代表相机固有和非固有参数，z是从深度平面到参考视图的相机中心的距离，并且n是该深度平面的法线方向。

在所有图像被换(warp)到深度平面后，坐标(u,v,z)处的代价由所有特征的方差

来确定。

是所有视图中的平均特征值。代价体的大小为d×w/4×h/4。

在步骤106中，人体网格恢复多层感知器(HMR MLP)包括由压平(flatten)和随机失活(dropout)层所分隔的三层线性回归。它将来自MVS 3DCNN的特征体回归为人体参数θ_reg114。

人体参数θ_reg能够将人体参数化模型(例如SMPL-X)操纵为3D赤裸的身体网格202。通常，SMPL-X表示θ_reg包含骨架姿态(每个关节的3D旋转角)、控制身体形态(例如高度、重量等)的身体混合形状参数以及控制面部的表情的面部混合形状参数。它使用混合形状参数来建立T型姿态网格，并通过线性蒙皮模型的骨架姿态来使T型姿态网格变形为摆姿态的网格。

另一方面，在步骤108中，所述代价体被发送到可微分渲染MLP，诸如神经辐射场(NeRF)。NeRF MLP被公式化为函数M，函数M将由3D位置x和方向

所表示的查询射线映射到4通道颜色RGBσ，

f是从锥体MVS 3DCNN 104的代价体到NeRF体的特征映射，并且1是NeRF MLP网络的权重。σ表示3D点是否在网格内部的概率的占用密度。可以通过转换锥体104中的网格202(图2)来直接获得赤裸的身体的占用密度场σ_b。然后，穿衣服的身体的密度场σ可以被表示为3D位移矢量场D和特征映射f的函数：σ(D,f)。3D位移矢量场D 116表示穿衣服的身体表面204上的点如何与赤裸的身体表面上的点有关。在训练NeRFMLP时，也优化位移矢量场D。

图2图示了根据一些实施例的由张量标记法所表示的前向预测的工作流程，其中训练并固定所有网络MVS 3DCNN、HMR MLP和NeRF MLP的权重。通过查询来自透视投影的图像的像素的所有射线200，来渲染外观图像112。在一些实施例中，实现3D人体预测110。通过查询人体附近的采样的点，来获得位移场D 116。对于穿衣服的输出网格具有与模板相同的拓扑的人体表演捕捉任务，可以通过向每个顶点添加插值的位移矢量来使赤裸的身体网格V_b 202变形为穿衣服的身体网格V_c 204。

图3图示了根据一些实施例的使用监督来训练网络的工作流程。监督训练数据集(例如Human3.6M)不仅包含图像输入I 100，而且包含地面真值人体参数θ_gt300和赤裸的身体网格V_b,gt302，通常通过传感器或现有方法来获取地面真值人体参数θ_gt300和赤裸的身体网格V_b,gt302。在这种情况下，通过对预测的赤裸的身体与地面真值的差求和来直接获得形态损失304。

其中J是赤裸的身体的关节，Π表示对于每个相机视图的3D点的透视投影。为了有效地训练网络，在每个训练步骤中，所有视图轮流被选择为MVS 3DCNN的参考视图。

与此同时，通常使用与图像显著性成比例的非均匀采样策略来从输入图像集100中采样射线306。在高显著性区域中采样更多的射线，而从普通或背景区域中采样较少的射线。这些射线与来自MVS 3DCNN 104的特征映射一起被发送到NeRF MLP 106中，NeRFMLP106渲染样本外观RGBσ颜色308。通过对输入图像中的采样的颜色与渲染的颜色308的所有差求和来计算颜色损失310。

通过最小化形态损失和颜色损失两者，并行化随机优化算法(例如Adam)被应用于训练所有网络MVS 3DCNN、HMR MLP、NeRF MLP的权重。

图4图示了根据一些实施例的用自改进策略来训练网络的工作流程。在这种情况下，训练数据集仅提供人体图像，而没有任何标注或人体地面真值参数。对于输入集100中的每个图像，通过采用回归的参数θ_reg114作为初始猜测来应用基于优化的预测400，例如SMPLifyX算法。基于优化的预测首先检测每个图像上的人体2D关键点，并应用非线性优化以拟合3D人体。

将V_b,opt404(由θ_opt402所参数化)网格化为这些2D关键点。

其中K表示检测的关键点的2D位置，并且求和对于所有对应的关键点和所有视图进行。

虽然非线性最小二乘优化在数值上较缓慢，并且拟合精度依赖于初始猜测θ_reg，但它是可靠的。在拟合的充分迭代后，θ_opt将接近于地面真值。因此，自改进训练工作流程可以高效地朝着地面真值改进θ_opt，如以下流程中总结的那样。

自改进训练工作流程：

执行

根据输入I从MVS-3DCNN和HMR MLP中计算θ_reg采用θ_reg作为初始猜想并接受I作为输入从SMPLifyX中计算θ_opt

从I中采样射线并从NeRF MLP中计算采样的颜色c

计算形态损失和颜色损失

通过最小化形态损失和颜色损失来更新MVS 3DCNN、HMR MLP和NeRF MLP的网络权重

对于所有训练数据重复并且直到权重收敛。

在操作中，神经人体预测能够直接应用于商业和/或个人无标记表演捕捉应用两者，例如人体3D表面重建RGB相机设置或游戏工作室中的无标记运动捕捉。多视图神经人体预测的实施例的其他应用可以作为能够与任何扩展组合的实时支柱技术，例如组合3D建模、深度感应的输入，或者使用输出以创建新动画。多视图神经人体预测还能够应用于游戏、VR/AR以及任何实时人机交互应用。取决于所使用的硬件(例如GPU处理器的速度和GPU存储器的大小)，当处理稀疏的视图以预测时，多视图神经人体预测是实时的，而对于更多的视图(例如20)，能够实现近实时处理和预测。

可以在任何计算设备上实现本文中所述的方法。合适的计算设备的示例包括个人计算机、膝上型计算机、计算机工作站、服务器、大型计算机、手持式计算机、个人数字助理、蜂窝/移动电话、智能家电、游戏机、数码相机、数码摄录机、拍照电话、智能电话、便携式音乐播放器、平板计算机、移动设备、视频播放器、视频光盘写入器/播放器(例如DVD写入器/播放器、高清晰度光盘写入器/播放器、超高清晰度光盘写入器/播放器)、电视、家庭娱乐系统、增强现实设备、虚拟现实设备、智能首饰(例如智能手表)、车辆(例如自动驾驶车辆)或者任何其他合适的计算设备。

用于面部表情、身体姿态形态和衣服表演捕捉的使用隐式可微分渲染器的多视图神经人体预测的一些实施例

1、一种在设备的非暂时性存储器中编程的方法，所述方法包括：

获取图像集作为输入；和

用神经网络处理所述图像集，其中所述处理包括：

将所述图像集编码为一个或多个特征；

将所述特征回归为人体参数；

微调所述神经网络；和

将查询3D射线解码为RGB颜色和衣服到身体位移，其中所述RGB颜色基于所述图像集。

2、根据条款1所述的方法，其中所述图像集包括大小为N×w×h×c的4D张量，其中N是视图的数量，w是图像的宽度，h是图像的高度，并且c是图像的通道。

3、根据条款1所述的方法，其中所述神经网络从所述图像集中选择正面视图作为参考视图，并提取特征体。

4、根据条款3所述的方法，其中所述神经网络将所有所述特征体回归为人体姿态、形态、面部表情参数。

5、根据条款4所述的方法，其中所述神经网络根据所述参数生成人体赤裸的身体网格。

6、根据条款5所述的方法，其中所述赤裸的身体网格被转换为包围框中的占用场。

7、根据条款6所述的方法，其中对于在所述身体网格附近、与来自每个视图的中心的射线方向相关联的任何3D点，所述神经网络生成所述RGB颜色和指向所述赤裸的身体的表面的3D位移矢量。

8、根据条款7所述的方法，其中通过查询从相机视图的所有像素发射的所有射线来将穿衣服的人体的外观渲染为RGB图像，并且通过使用来自采样的点的所述3D位移矢量使所述赤裸的身体变形来获得穿衣服的身体网格。

9、根据条款1所述的方法，其中以监督模式或自监督模式来实现所述神经网络。

10、一种装置，所述装置包括：

非暂时性存储器，所述非暂时性存储器被配置为存储应用，所述应用被配置为：

获取图像集作为输入；和

用神经网络处理所述图像集，其中所述处理包括：

将所述图像集编码为一个或多个特征；

将所述特征回归为人体参数；

微调所述神经网络；和

将查询3D射线解码为RGB颜色和衣服到身体位移，其中所述RGB颜色基于所述图像集；和

处理器，所述处理器被配置为处理所述应用。

11、根据条款10所述的装置，其中所述图像集包括大小为N×w×h×c的4D张量，其中N是视图的数量，w是图像的宽度，h是图像的高度，并且c是图像的通道。

12、根据条款10所述的装置，其中所述神经网络从所述图像集中选择正面视图作为参考视图，并提取特征体。

13、根据条款12所述的装置，其中所述神经网络将所有所述特征体回归为人体姿态、形态、面部表情参数。

14、根据条款13所述的装置，其中所述神经网络根据所述参数生成人体赤裸的身体网格。

15、根据条款14所述的装置，其中所述赤裸的身体网格被转换为包围框中的占用场。

16、根据条款15所述的装置，其中对于在所述身体网格附近、与来自每个视图的中心的射线方向相关联的任何3D点，所述神经网络生成所述RGB颜色和指向所述赤裸的身体的表面的3D位移矢量。

17、根据条款16所述的装置，其中通过查询从相机视图的所有像素发射的所有射线来将穿衣服的人体的外观渲染为RGB图像，并且通过使用来自采样的点的所述3D位移矢量使所述赤裸的身体变形来获得穿衣服的身体网格。

18、根据条款10所述的装置，其中以监督模式或自监督模式来实现所述神经网络。

19、一种装置，所述装置包括：

非暂时性存储器，所述非暂时性存储器被配置为存储应用，所述应用包括：

多视图立体3D卷积神经网络(MVS-3DCNN)，所述多视图立体3D卷积神经网络被配置为将输入图像集编码为特征；

人体网格恢复多层感知器(HMR MLP)，所述人体网格恢复多层感知器被配置为将所述特征回归为人体参数；和

神经辐射场多层感知器(NeRF MLP)，所述神经辐射场多层感知器被配置为微调所述MVS-3DCNN并将查询3D射线(3D位置和方向)解码为RGB颜色和衣服到身体位移；和

处理器，所述处理器被配置为处理所述应用。

20、根据条款19所述的装置，其中所述图像集包括大小为N×w×h×c的4D张量，其中N是视图的数量，w是图像的宽度，h是图像的高度，并且c是图像的通道。

21、根据条款20所述的装置，其中所述MVS-3DCNN从所述图像集中选择正面视图作为参考视图，并提取特征体。

22、根据条款21所述的装置，其中所述HMR MLP将所有所述特征体回归为人体姿态、形态、面部表情参数。

23、根据条款22所述的装置，还包括被配置为根据所述参数生成人体赤裸的身体网格的模型。

24、根据条款23所述的装置，其中所述赤裸的身体网格被转换为包围框中的占用场。

25、根据条款24所述的装置，其中对于在所述身体网格附近、与来自每个视图的中心的射线方向相关联的任何3D点，所述NeRF MLP生成所述RGB颜色和指向所述赤裸的身体的表面的3D位移矢量。

26、根据条款25所述的装置，其中通过查询从相机视图的所有像素发射的所有射线来将穿衣服的人体的外观渲染为RGB图像，并且通过使用来自采样的点的所述3D位移矢量使所述赤裸的身体变形来获得穿衣服的身体网格。

已经根据具体实施例说明了本发明，所述具体实施例包含细节以促进理解本发明的结构和操作的原理。本文中对具体实施例及其细节的此类提及不旨在限制所附权利要求书的范围。对本领域技术人员将很明显的是，可以在不脱离如由权利要求书所限定的本发明的精神和范围的情况下在为示例选择的实施例中进行其他各种修改。

Claims

1.一种在设备的非暂时性存储器中编程的方法，所述方法包括：

获取图像集作为输入；和

用神经网络处理所述图像集，其中所述处理包括：

将所述图像集编码为一个或多个特征；

将所述特征回归为人体参数；

微调所述神经网络；和

2.根据权利要求1所述的方法，其中所述图像集包括大小为N×w×h×c的4D张量，其中N是视图的数量，w是图像的宽度，h是图像的高度，并且c是图像的通道。

3.根据权利要求1所述的方法，其中所述神经网络从所述图像集中选择正面视图作为参考视图，并提取特征体。

4.根据权利要求3所述的方法，其中所述神经网络将所有所述特征体回归为人体姿态、形态、面部表情参数。

5.根据权利要求4所述的方法，其中所述神经网络根据所述参数生成人体赤裸的身体网格。

6.根据权利要求5所述的方法，其中所述赤裸的身体网格被转换为包围框中的占用场。

7.根据权利要求6所述的方法，其中对于在所述身体网格附近、与来自每个视图的中心的射线方向相关联的任何3D点，所述神经网络生成所述RGB颜色和指向所述赤裸的身体的表面的3D位移矢量。

8.根据权利要求7所述的方法，其中通过查询从相机视图的所有像素发射的所有射线来将穿衣服的人体的外观渲染为RGB图像，并且通过使用来自采样的点的所述3D位移矢量使所述赤裸的身体变形来获得穿衣服的身体网格。

9.根据权利要求1所述的方法，其中以监督模式或自监督模式来实现所述神经网络。

10.一种装置，所述装置包括：

获取图像集作为输入；和

用神经网络处理所述图像集，其中所述处理包括：

将所述图像集编码为一个或多个特征；

将所述特征回归为人体参数；

微调所述神经网络；和

处理器，所述处理器被配置为处理所述应用。

11.根据权利要求10所述的装置，其中所述图像集包括大小为N×w×h×c的4D张量，其中N是视图的数量，w是图像的宽度，h是图像的高度，并且c是图像的通道。

12.根据权利要求10所述的装置，其中所述神经网络从所述图像集中选择正面视图作为参考视图，并提取特征体。

13.根据权利要求12所述的装置，其中所述神经网络将所有所述特征体回归为人体姿态、形态、面部表情参数。

14.根据权利要求13所述的装置，其中所述神经网络根据所述参数生成人体赤裸的身体网格。

15.根据权利要求14所述的装置，其中所述赤裸的身体网格被转换为包围框中的占用场。

16.根据权利要求15所述的装置，其中对于在所述身体网格附近、与来自每个视图的中心的射线方向相关联的任何3D点，所述神经网络生成所述RGB颜色和指向所述赤裸的身体的表面的3D位移矢量。

17.根据权利要求16所述的装置，其中通过查询从相机视图的所有像素发射的所有射线来将穿衣服的人体的外观渲染为RGB图像，并且通过使用来自采样的点的所述3D位移矢量使所述赤裸的身体变形来获得穿衣服的身体网格。

18.根据权利要求10所述的装置，其中以监督模式或自监督模式来实现所述神经网络。

19.一种装置，所述装置包括：

处理器，所述处理器被配置为处理所述应用。

20.根据权利要求19所述的装置，其中所述图像集包括大小为N×w×h×c的4D张量，其中N是视图的数量，w是图像的宽度，h是图像的高度，并且c是图像的通道。

21.根据权利要求20所述的装置，其中所述MVS-3DCNN从所述图像集中选择正面视图作为参考视图，并提取特征体。

22.根据权利要求21所述的装置，其中所述HMR MLP将所有所述特征体回归为人体姿态、形态、面部表情参数。

23.根据权利要求22所述的装置，还包括被配置为根据所述参数生成人体赤裸的身体网格的模型。

24.根据权利要求23所述的装置，其中所述赤裸的身体网格被转换为包围框中的占用场。

25.根据权利要求24所述的装置，其中对于在所述身体网格附近、与来自每个视图的中心的射线方向相关联的任何3D点，所述NeRF MLP生成所述RGB颜色和指向所述赤裸的身体的表面的3D位移矢量。

26.根据权利要求25所述的装置，其中通过查询从相机视图的所有像素发射的所有射线来将穿衣服的人体的外观渲染为RGB图像，并且通过使用来自采样的点的所述3D位移矢量使所述赤裸的身体变形来获得穿衣服的身体网格。