CN115951784A - 一种基于双神经辐射场的穿衣人体运动捕捉和生成方法 - Google Patents
一种基于双神经辐射场的穿衣人体运动捕捉和生成方法 Download PDFInfo
- Publication number
- CN115951784A CN115951784A CN202310215413.0A CN202310215413A CN115951784A CN 115951784 A CN115951784 A CN 115951784A CN 202310215413 A CN202310215413 A CN 202310215413A CN 115951784 A CN115951784 A CN 115951784A
- Authority
- CN
- China
- Prior art keywords
- human body
- deformation
- clothes
- representing
- color
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000005855 radiation Effects 0.000 title claims abstract description 46
- 210000005036 nerve Anatomy 0.000 title claims abstract description 34
- 238000005070 sampling Methods 0.000 claims abstract description 44
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 8
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 8
- 230000000007 visual effect Effects 0.000 claims abstract description 8
- 238000009877 rendering Methods 0.000 claims abstract description 7
- 239000003086 colorant Substances 0.000 claims abstract description 6
- 238000011084 recovery Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 18
- 238000013519 translation Methods 0.000 claims description 12
- 230000008447 perception Effects 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 11
- 238000004088 simulation Methods 0.000 claims description 10
- 230000001131 transforming effect Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 7
- 230000009977 dual effect Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 5
- 230000001537 neural effect Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 239000000463 material Substances 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000009471 action Effects 0.000 claims description 2
- 238000005452 bending Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 230000000873 masking effect Effects 0.000 claims description 2
- 230000014509 gene expression Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Images
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种基于双神经辐射场的穿衣人体运动捕捉和生成方法,该方法包括建立三维人体的标准模板空间,包括表示人体和衣服的几何模型及表示人体和衣服外观的双神经辐射场;对输入视频的每一帧图像建立变形场,将标准模板空间中的三维人体模板网格变形到观察帧空间;在观察帧空间取采样点,通过逆变形场变换到标准模板空间的对应点的坐标,根据采样点所在方位属于人体还是衣服,输入不同神经辐射场查询颜色,渲染获得人体合成图像;通过多种约束联合优化标准模板空间中的几何模型和双神经辐射场以及变形场,实现三维人体的运动捕捉和动态人体的外观恢复。本发明不仅能实现三维人体的运动捕捉和外观恢复,还能实现新视角图像合成和衣服编辑。
Description
技术领域
本发明属于三维重建领域,涉及一种基于双神经辐射场的穿衣人体运动捕捉和生成方法。
背景技术
穿衣服人体的动作捕捉(Clothed human performance capture and synthesis)在计算机视觉和图形学领域是一个重要的问题,不仅需要捕捉内部人体的动作,也要恢复外部衣服运动,这一工作可以用于很多有前景的应用,如虚拟试穿、视频编辑以及远程呈现等。基于人体的多视角或单目视频,三维人体运动捕捉和生成的目标是重建几何和外观时空一致的动态人体三维模型序列,并从新的视角渲染逼真的人体运动视频。人体存在随机的运动并且伴随着衣服的非刚性运动,而且光照变化、自阴影等因素会导致时序外观的变化。因此,三维人体运动捕捉和生成是一个具有很大挑战性的问题。
先前的系统使用深度传感器或者将个性化的人体适应到观察帧图像来重建穿衣服的人体,只能恢复一体式的几何,其人体和衣服是一个整体,这些系统不能单独追踪衣服和编辑三维人体的衣服,而这是很多VR/AR应用如虚拟试穿的先决条件。相反的,因为这些方法需要从深度扫描中提取衣服和追踪,如果三维信息缺失,此应用将受限。现有的从彩色图像衣服估计方法需要人对着相机并且保持静态姿势;当人体处于运动中并且衣服在变形时,这些方法将不能真实地恢复三维衣服。最近的方法尝试从视频中模拟追踪人体和衣服的运动,但是此类方法需要为每一个表演者重建衣服模板,或者运行效率极低,因为需要在线模拟衣服或者需要算力耗费巨大的优化,这些使这些方法不能发展成广泛使用的日常应用。
神经辐射场(Neural radiance fields,简称NeRF)是一种对三维静态场景连续、隐式的表达方式,其灵活地表示了三维场景的几何和外观,实现了逼真的新视角二维图像合成。近两年NeRF被成功推广到动态场景的图像合成,通过定义一个变形场,变形场通常表示为刚体变形场或位移向量场,将观察帧空间的三维点变换到标准空间,联合优化标准空间NeRF和变形场,实现动态场景NeRF。在不使用运动先验的情况下,同时优化标准空间下的NeRF和变形场是一个欠约束问题,这些方法不适用于运动人体。最近,NerfCap和HumanNeRF分别采用SMPL模型和基于骨架驱动的变形表达动态人体,有效约束了人体变形场的学习,生成了高质量的新视角动态人体视频,但是他们使用一个单独的NeRF表示人体,而没有对衣服建模,因此衣服的运动不能被提取,这限制了其在虚拟显示、增强现实等下游任务上的应用。
发明内容
本发明的目的在于提出一种基于双神经辐射场的穿衣人体运动捕捉和生成方法,该方法通过对运动中的人体和衣服分别重建,不仅能实现三维人体的运动捕捉和外观恢复,还能实现新视角图像合成以及衣服编辑。
本发明为了实现上述目的,采用如下技术方案:
一种基于双神经辐射场的穿衣人体运动捕捉和生成方法,包括如下步骤:
步骤1. 建立三维人体的标准模板空间,包括使用预先建立的三维人体模板网格和衣服模板网格训练的占据网络和带符号距离场,用于表示人体和衣服的几何模型;以及分别用于表示人体和衣服外观的双神经辐射场;
步骤2. 对输入视频的每一帧图像建立变形场,使用骨架驱动的变形以及非刚性变形对人体和衣服变形,同时使用预训练的物理感知模拟网络预测生成逼真的衣服模板网格监督衣服的变形,将标准模板空间中的三维人体模板网格和衣服模板网格变形到观察帧空间;
步骤3. 在观察帧空间取采样点,将采样点的坐标通过逆变形场变换到标准模板空间下对应点的坐标,然后根据转换后的采样点坐标所在位置是衣服还是人体,将该转换后的采样点坐标输入到标准模板空间中的对应神经辐射场查询颜色,渲染获得人体合成图像;
步骤4. 通过多种约束联合优化标准模板空间中的几何模型和双神经辐射场以及变形场,实现三维人体的运动捕捉以及动态人体的外观和恢复;
步骤5. 利用训练好的标准模板空间中的几何模型和双神经辐射场以及变形场,选定新的相机视角进行图像合成,通过更改衣服的几何与颜色模板实现人体变装。
本发明具有如下优点:
如上所述,本发明述及了一种双神经辐射场的穿衣人体运动捕捉和生成方法,该方法通过对运动中的人体和衣服分别重建,不仅能实现三维人体的运动捕捉和外观恢复,还能实现新视角图像合成以及衣服编辑。本发明方法重建的几何精度高、能合成任意视角的逼真图像,且人体与衣服相分离,能够实现对人体的衣服编辑操作,应用场景广泛。
附图说明
图1为本发明实施例中基于双神经辐射场的穿衣人体运动捕捉和生成方法的流程框图。
图2为本发明实施例中基于双神经辐射场的穿衣人体运动捕捉和生成方法的流程示意图。
图3为本发明使用单目相机视频恢复的人体几何模型和新视角生成示意图。
图4为本发明提出的方法的结果和其他方法的比较示意图。
图5为本发明衣服与人体分别渲染的结果与其他方法的比较示意图。
图6为本发明人体换衣结果的示意图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
如图1所示,一种基于双神经辐射场的穿衣人体运动捕捉和生成方法,包括如下步骤:
步骤1. 建立三维人体的标准模板空间,包括:
使用预先建立的三维人体模板网格和衣服模板网格训练的占据网络和带符号距离场,用于表示人体和衣服的几何模型;以及分别用于表示人体和衣服外观的双神经辐射场。
其中,双神经辐射场(NeRF)在后续步骤中逐渐优化。
标准模板空间包括几何模型和颜色模型,且人体和衣服的表示相独立;人体和衣服的几何模型使用占据网络和带符号距离场表示。
标准模板空间的几何模型在时序变化的人体图像合成时保持不变。
人体和衣服的颜色模型使用双神经辐射场表示;在定义标准模板空间的颜色模型时,为人体和衣服分别定义一组隐式外观编码,对应了输入视频的每一帧图像。
在模板空间神经辐射场的颜色模型中融入隐式外观编码,表达并恢复时序变化的外观。
标准模板空间的几何模型在准备阶段使用人体和衣服网格预先训练好,使用占据网络和带符号距离场表示,标准模板空间的占据网络模型由函数Fo定义:o(x)= Fo(γx(x))。
其中,o(x)∈{0, 1}表示占据网络模型输出的在x坐标处的空间是否被占据;x为采样点坐标,γx(x)表示空间坐标x的位置编码,其定义如下:
γx(x)=[sin(x),cos(x),sin(2x),cos(2x),…, sin(2m-1x),cos(2m-1x)]T,m为自然数。
为了处理变化的衣服和人体形状,本发明还使用带符号距离场(Signed DistanceField,SDF)表示人体和衣服的几何,使用多层感知机神经网络S表示。
带符号距离场将三维空间坐标映射到带符号的距离s,即S:p∈R3→s∈R;
S表示带符号距离场模型,p表示三维点坐标;s为带符号的距离,表示三维点与最近物体表面的距离,符号代表所处位置是物体的内外,在内即为负,在外即为正。
使用如下公式对带符号距离场做约束Lsdf:
占据场网络F o 由带符号的距离场网络S监督Locc:
其中,μ 1和μ 2为正则化权重,实际操作中取值均为1.0。
标准模板空间的颜色模型使用神经辐射场表示,对输入视频的每一帧图像定义一个隐式外观编码,则颜色模型由函数Fc定义:ci(x)= Fc(γx(x), rd(d),ψi)。
其中,ci(x)表示颜色模型输出的在x坐标处的颜色,d表示观察x坐标的视角方向,即x坐标所在射线的方向;ψi表示每一帧的隐式外观编码。
使用两个占据网络,两个颜色网络分别表示人体和衣服的几何和颜色。
步骤2. 对输入视频的每一帧图像建立变形场,使用骨架驱动的变形以及非刚性变形对人体和衣服变形,为保证衣服变形的准确性,使用预训练的物理感知模拟网络预测生成逼真的衣服模板网格监督衣服的变形,将标准模板空间中的三维人体模板网格和衣服模板网格变形到观察帧空间。该步骤2具体为:
步骤2.1. 非刚性变形。
首先通过嵌入变形对非刚性变形建模,该嵌入变形基于变形图计算一个弯曲场;一个嵌入变形图G包含K个节点,并且在三维人体模板网格中能够被自动建立。
节点变换由欧拉角A∈Rk×3和平移向量T∈Rk×3参数化。
对于三维人体模板网格的每个顶点v,经过非刚性变形后的新坐标y由下述公式得到:
y=∑k∈N(v)w(v,gk)[R(Ak)(v-gk)+gk+Tk]。
其中,N(v)表示影响到顶点v的邻域顶点集合,k∈N(v);gk表示第k个顶点的坐标;Ak和Tk分别表示第k个邻域顶点变形所需的欧拉角和平移向量;R(·) :R3→SO(3) 将欧拉角转换为旋转矩阵;w(v,gk)是顶点v的第k个邻域顶点的变形权重,w(v,gk)的值由如下公式计算:w(v,gk)=(1-||v-gk||/dmax)2;其中,dmax表示顶点v到k个最近顶点的距离。
非刚性形变中的欧拉角A和平移向量T都使用一个多层感知机模型训练获得,同时多层感知机还反向传播优化一个隐式变形编码w。
对于第i帧非刚性变形的欧拉角Ai,平移向量Ti和隐式变形编码wi,由函数FA,T定义:
FA,T:wi→(Ai, Ti)。
步骤2.2. 估计骨架驱动的变形。
首先对输入视频的每一帧图像估计一个SMPL模型,并从估计的SMPL模型中计算蒙皮权重w(y)j,w(y)j表示顶点y的第j个部分的蒙皮权重。
人体的参数SMPL模型使用85维向量表示Θ=(θ,β)。其中,β∈R10,θ∈R75分别表示人体的形状参数和各个关节的相对角度。
步骤2.3. 使用预训练的物理感知模拟网络监督衣服的变形。
使用物理感知模拟网络学习衣服跟随人体动作所产生的变形,物理感知模拟网络由一个多层感知机模型Dφ定义;首先在Marvelous Designer软件中模拟各种衣服的变形。
对于每种衣服类别,使用25种衣服风格以及8种材质,将Marvelous Designer软件模拟出的衣服形状作为多层感知机模型Dφ的监督,则模拟的衣服模板网格由如下公式定义。
Gs=Dφ(γ,β,τ,θ)。
其中,Gs为模拟的衣服模板网格,γ∈R4表示衣服风格,τ表示衣服的材质。
步骤3. 在观察帧空间取采样点,将采样点的坐标通过逆变形场变换到标准模板空间下对应点的坐标,然后根据转换后的采样点坐标所在位置是衣服还是人体,将转换后的采样点坐标输入到标准模板空间中的对应神经辐射场(ReNF)查询颜色,渲染获得人体合成图像。
该步骤3具体为:
为了获得在输入视频第i帧图像的动态神经辐射场,即人体在不同时刻的颜色和几何,首先使用xcan=Ti(x)将观察帧空间的采样点x转换到标准模板空间的点xcan。
其中,Ti是三维人体模板网格变形场的逆变换。
根据相机位置和拍摄视角,由相机向观察帧空间发射多条射线,每条射线r对应最终人体合成图像上的一个像素,然后在每条射线上采样。
一条射线上的采样点表示为:r(t) = o + td。
其中,o∈R3为射线起点,d∈R3为射线方向,t为采样间隔。
将观察帧空间中的采样点坐标经过逆变形场变换到标准模板空间对应的坐标,然后将坐标输入标准模板空间中分别保存衣服和人体的模型查询几何与颜色。
对于来自像素p的射线r,找到这条射线r与衣服或人体网格相交的三角面。
分别使用以下公式来渲染完整的人体和衣服:
观察帧空间中的采样点逆变形过程为:
对于观察帧空间的一个采样点x,首先搜索与该采样点x距离最近的SMPL模型的顶点v,然后使用逆线性蒙皮变换采样点x的坐标,具体公式如下:
步骤4. 通过多种约束联合优化标准模板空间中的几何模型和双神经辐射场以及变形场,实现三维人体的运动捕捉以及动态人体的外观和恢复。
将观察帧空间下的采样点坐标通过逆变形转换到标准模板空间下的采样点坐标后,将变换后的采样点坐标输入标准模板空间神经辐射场查询该点的颜色和密度。
使用多种约束联合训练标准模板空间中的几何模型和神经辐射场以及变形场。具体为:
用于监督衣服和人体颜色的损失函数Lrgb为:
其中,R为投射的光线集合,Nt为一次训练中选取的像素的数量,Nb为像素中属于人体的像素数量,Ng为像素中属于衣服的像素数量;为神经辐射场预测的颜色,为颜色真值,公式中的上角标b和g分别表示颜色属于人体还是衣服。
使用物理感知模拟网络约束变形的损失,即用于监督衣服变形的损失函数Lsim为:
其中,t为网格G的顶点,|G|表示网格G的顶点数。
用于加强变形表面的局部光滑性的尽可能刚性的损失函数Larap为:
其中,gi表示三维人体模板网格的顶点,gj为gi的邻域网格顶点,N(gi)为gi的邻域顶点集合,gj∈N(gi),w(gi,gj)表示变形权重。
di,j(A,T)= Aj(gi-gj)+ gj+Tj-(gi+ Ti)。
其中,Aj、Tj分别表示第j个邻域顶点变形的欧拉角和平移向量。Ti表示顶点i变形的平移向量。用于让变形后的网格重投影贴合真值mask的mask损失LIoU(T)为:
此处,M,G表示函数Liou的自变量,只笼统表示人体和衣服网格,不具体指哪个网格。
在变形后的网格和模拟的网格上都使用mask损失LIou为:
用于防止衣服模板网格和三维人体模板网格相交叉的损失Linterp(M1,M2)为:
其中,C表示网格M1、M2易发生交叉部位的顶点集合,N1为网格M1的法向量,表示网格M1的第i个顶点,表示网格M1的第j个顶点,表示网格M1第i个顶点的法向量,Nc表示C中顶点的个数;为了保证标准模板空间与观察帧空间的人体与衣服的合理性,同时约束两个空间的三维人体与衣服模板网格,给定如下损失函数Linterp。
综上,总体损失函数L为:L=λ1Lrgb+λ2Larap+λ3Lsim+λ4LIoU+λ5Lattch+λ6Linterp,其中,{λ1,λ2,λ3,λ4,λ5,λ6}为正则化权重,实际操作中取值为{1.0,0.1,0.02,30,0.1,100.0}。
步骤5. 利用训练好的标准模板空间中的几何模型和双神经辐射场以及变形场,选定新的相机视角进行图像合成,通过更改衣服的几何与颜色模板实现人体变装。
具体为:选定新的相机位置和相机视角,由相机向观察帧空间发射射线并在射线上取采样点,并通过逆变形场变换到标准模板空间的对应点的坐标。
将经过变换后的对应点的坐标,根据射线触碰到的标准模板空间中的网格是人体还是衣服,输入不同的NeRF查询密度和颜色,即可合成三维人体的新视角逼真图像。
分别对两个个体训练两个基于双神经辐射场隐式表示,将其中一个个体的衣服的几何与颜色模型替换为另一个个体的,即可实现人体的变装。
通过以上步骤,使得本发明方法能够同时灵活地对人体的几何和外观建模,因此,重建的几何精度更高,且能合成任意视角的逼真图像,具有更广泛的应用场景。
由于本发明方法能够能准确地恢复时序变化地人体几何和外观,因而能够从多视角或单目视频中准确地捕捉三维人体运动,并生成逼真的任意视角人体运动视频。
同时,由于本发明方法能够将人体和衣服分开建模,因此能够实现人体的变装。
图3中给出了本发明方法效果的3组例子,每组例子给出了4个视角,每个视角从左向右分别是真值图像、经过本发明方法恢复的三维人体几何图像以及三维人体合成图像。
图4给出了本发明方法的结果和其他方法的比较,总共两组对比数据。每组数据从左到右为:真值、DeepCap、NerfCap、ICON、BCNet、TailorNet和本发明方法。
在每一个例子中,均展示了通过以上几种方法重建的几何的两个视角图像。
由图4中各幅图对比发现:与本发明方法相比,传统方法在恢复人体的衣服,特别是宽松的裙子时准确度不高,其中DeepCap、NerfCap和ICON不能将人体和衣服分开。
而本发明方法重建的人体表面则能够很好地将人体和衣服分开,对于穿一般衣服(包括宽松衣服)的人体也能重建较大的运动和几何细节,因而,本发明方法具有很强的人体运动表达能力,并且由于本发明方法对于衣服和人体分开建模,能够实现人体的变装。
图5给出了衣服和人体分开渲染的结果和其他方法的对比,在图5中从左到右依次为真值,本发明方法渲染的单独衣服、单独人体和整个人体,Dynamic view synthesisfrom dynamic monocular video方法渲染的单独衣服、单独人体和整个人体。
由图5中两组图对比不难发现:
本发明方法在分离衣服和人体时表现更好,人体上残留的衣服细节更少。
图6为人体换装之后的几何渲染结果的两个例子,每个例子给出了三个不同视角不同姿势的图像。其中,两个人体的衣服相互交换了。
由图6能够看出,本发明方法能够实现人体的变装,且几何精度高。
当然,以上说明仅仅为本发明的较佳实施例,本发明并不限于列举上述实施例,应当说明的是,任何熟悉本领域的技术人员在本说明书的教导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围之内,理应受到本发明的保护。
Claims (7)
1.一种基于双神经辐射场的穿衣人体运动捕捉和生成方法,其特征在于,
包括如下步骤:
步骤1. 建立三维人体的标准模板空间,包括使用预先建立的三维人体模板网格和衣服模板网格训练的占据网络和带符号距离场,用于表示人体和衣服的几何模型;以及分别用于表示人体和衣服外观的双神经辐射场;
步骤2. 对输入视频的每一帧图像建立变形场,使用骨架驱动的变形以及非刚性变形对人体和衣服变形,同时使用预训练的物理感知模拟网络预测生成逼真的衣服模板网格监督衣服的变形,将标准模板空间中的三维人体模板网格和衣服模板网格变形到观察帧空间;
步骤3. 在观察帧空间取采样点,将采样点的坐标通过逆变形场变换到标准模板空间下对应点的坐标,然后根据转换后的采样点坐标所在位置是衣服还是人体,将该转换后的采样点坐标输入到标准模板空间中的对应神经辐射场查询颜色,渲染获得人体合成图像;
步骤4. 通过多种约束联合优化标准模板空间中的几何模型和双神经辐射场以及变形场,实现三维人体的运动捕捉以及动态人体的外观和恢复;
步骤5. 利用训练好的标准模板空间中的几何模型和双神经辐射场以及变形场,选定新的相机视角进行图像合成,通过更改衣服的几何与颜色模板实现人体变装。
2.根据权利要求1所述的穿衣人体运动捕捉和生成方法,其特征在于,
所述步骤1中,标准模板空间包括几何模型和颜色模型,且人体和衣服的表示相独立;人体和衣服的几何模型使用占据网络和带符号距离场表示;
标准模板空间的几何模型在时序变化的人体图像合成时保持不变;
人体和衣服的颜色模型使用双神经辐射场表示;在定义标准模板空间的颜色模型时,为人体和衣服分别定义一组隐式外观编码,对应了输入视频的每一帧图像;
在模板空间神经辐射场的颜色模型中融入隐式外观编码,表达并恢复时序变化的外观。
3.根据权利要求2所述的穿衣人体运动捕捉和生成方法,其特征在于,
所述步骤1具体为:
标准模板空间的几何模型使用占据网络和带符号距离场表示,标准模板空间的占据网络模型由函数Fo定义:o(x)= Fo(γx(x));
其中,o(x)∈{0, 1}表示占据网络模型输出的在x坐标处的空间是否被占据;
γx(x)表示空间坐标的位置编码,其定义如下:
γx(x)=[sin(x),cos(x),sin(2x),cos(2x),…, sin(2m-1x),cos(2 m-1x)]T,m为自然数;
带符号距离场将三维空间坐标映射到带符号的距离s,即S:p∈R 3→s∈R;
其中,S表示带符号距离场模型,p表示三维点坐标;s为带符号的距离,表示三维点与最近物体表面的距离,符号代表所处位置是物体的内外,在内即为负,在外即为正;
标准模板空间的颜色模型使用神经辐射场表示,对输入视频的每一帧图像定义一个隐式外观编码,则颜色模型由函数Fc定义:ci(x)= Fc(γx(x), rd(d),ψi);
其中,ci(x)表示颜色模型输出的在x坐标处的颜色,d表示观察x坐标的视角方向,即x坐标所在射线的方向;ψi表示每一帧的隐式外观编码;
使用两个占据网络,两个颜色网络分别表示人体和衣服的几何和颜色;
4.根据权利要求3所述的穿衣人体运动捕捉和生成方法,其特征在于,
所述步骤2具体为:
步骤2.1. 非刚性变形;
首先通过嵌入变形对非刚性变形建模,该嵌入变形基于变形图计算一个弯曲场;一个嵌入变形图G包含K个节点,并且在三维人体模板网格中能够被自动建立;
节点变换由欧拉角A∈Rk×3和平移向量T∈Rk×3参数化;
对于三维人体模板网格的每个顶点v,经过非刚性变形后的新坐标y由下述公式得到:
y=∑k∈N(v)w(v,gk)[R(Ak)(v-gk)+gk+Tk];
其中,N(v)表示影响到顶点v的邻域顶点集合,k∈N(v);
gk表示第k个顶点的坐标;
Ak和Tk分别表示第k个邻域顶点变形所需的欧拉角和平移向量;
R(·) :R3→SO(3) 将欧拉角转换为旋转矩阵;
w(v,gk)是顶点v的第k个邻域顶点的变形权重,w(v,gk)的值由如下公式计算:
w(v,gk)=(1-||v-gk||/dmax)2;
其中,dmax表示顶点v到k个最近顶点的距离;
非刚性形变中的欧拉角A和平移向量T都使用一个多层感知机模型训练获得,同时多层感知机还反向传播优化一个隐式变形编码w;
对于第i帧非刚性变形的欧拉角Ai,平移向量Ti和隐式变形编码wi,由函数FA,T定义:
FA,T:wi→(Ai, Ti);
步骤2.2. 估计骨架驱动的变形;
首先对输入视频的每一帧图像估计一个SMPL模型,并从估计的SMPL模型中计算蒙皮权重w(y)j,w(y)j表示顶点y的第j个部分的蒙皮权重;
人体的参数SMPL模型使用85维向量表示Θ=(θ,β);
其中,β∈R10,θ∈R75分别表示人体的形状参数和各个关节的相对角度;
其中,J是人体关节的数量;
w(v)j表示顶点v的第j个部分的蒙皮权重,Gj∈SE(3) 表示刚性变换矩阵;
步骤2.3. 使用预训练的物理感知模拟网络监督衣服的变形;
使用物理感知模拟网络学习衣服跟随人体动作所产生的变形,物理感知模拟网络由一个多层感知机模型Dφ定义;首先在Marvelous Designer软件中模拟各种衣服的变形;
对于每种衣服类别,使用25种衣服风格以及8种材质,将Marvelous Designer软件模拟出的衣服形状作为多层感知机模型Dφ的监督,则模拟的衣服模板网格由如下公式定义;
Gs=Dφ(γ,β,τ,θ);
其中,Gs为模拟的衣服模板网格,γ∈R4表示衣服风格,τ表示衣服的材质。
5.根据权利要求4所述的穿衣人体运动捕捉和生成方法,其特征在于,
所述步骤3具体为:
为了获得在输入视频第i帧图像的动态神经辐射场,即人体在不同时刻的颜色和几何,首先使用xcan=Ti(x)将观察帧空间的采样点x转换到标准模板空间的点xcan;
其中,Ti是三维人体模板网格变形场的逆变换;
根据相机位置和拍摄视角,由相机向观察帧空间发射多条射线,每条射线r对应最终人体合成图像上的一个像素,然后在每条射线上采样;
一条射线上的采样点表示为:r(t) = o + td;
其中,o∈R3为射线起点,d∈R3为射线方向,t为采样间隔;
将观察帧空间中的采样点坐标经过逆变形场变换到标准模板空间对应的坐标,然后将坐标输入标准模板空间中分别保存衣服和人体的模型查询几何与颜色;
对于来自像素p的射线r,找到这条射线r与衣服或人体网格相交的三角面;
分别使用以下公式来渲染完整的人体和衣服:
7.根据权利要求6所述的穿衣人体运动捕捉和生成方法,其特征在于,
将观察帧空间下的采样点坐标通过逆变形转换到标准模板空间下的采样点坐标后,将变换后的采样点坐标输入标准模板空间神经辐射场查询该点的颜色和密度;
使用多种约束联合训练标准模板空间中的几何模型和神经辐射场以及变形场;具体为:
用于监督衣服和人体颜色的损失函数Lrgb:
其中,R为投射的光线集合,Nt为一次训练中选取的像素的数量,Nb为像素中属于人体的像素数量,Ng为像素中属于衣服的像素数量;为神经辐射场预测的颜色,为颜色真值,公式中的上角标b和g分别表示颜色属于人体还是衣服;
使用物理感知模拟网络约束变形的损失,即用于监督衣服变形的损失函数Lsim为:
其中,t为网格G的顶点,|G|表示网格G的顶点数;
用于加强变形表面的局部光滑性的尽可能刚性的损失函数Larap为:
其中,gi表示三维人体模板网格的顶点,gj为gi的邻域网格顶点,N(gi)为gi的邻域顶点集合,gj∈N(gi),w(gi,gj)表示变形权重;
di,j(A,T)= Aj(gi-gj)+ gj+Tj-(gi+ Ti);
其中,Aj、Tj分别表示第j个邻域顶点变形的欧拉角和平移向量;Ti表示顶点i变形的平移向量;
用于让变形后的网格重投影贴合真值mask的mask损失LIoU(T)为:
在变形后的网格和模拟的网格上都使用mask损失LIou为:
用于贴合衣服与三维人体模板网格的损失Lattach为:
用于防止衣服模板网格和三维人体模板网格相交叉的损失Linterp(M1,M2)为:
其中,C表示网格M1、M2易发生交叉部位的顶点集合,N1为网格M1的法向量,表示网格M1的第i个顶点,表示网格M1的第j个顶点,表示网格M1第i个顶点的法向量,Nc表示C中顶点的个数;为了保证标准模板空间与观察帧空间的人体与衣服的合理性,同时约束两个空间的三维人体与衣服模板网格,给出如下损失Linterp;
综上,总体损失函数L为:L=λ1Lrgb+λ2Larap+λ3Lsim+λ4LIoU+λ5Lattch+λ6Linterp;
其中,{λ1,λ2,λ3,λ4,λ5,λ6}为正则化权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310215413.0A CN115951784B (zh) | 2023-03-08 | 2023-03-08 | 一种基于双神经辐射场的穿衣人体运动捕捉和生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310215413.0A CN115951784B (zh) | 2023-03-08 | 2023-03-08 | 一种基于双神经辐射场的穿衣人体运动捕捉和生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115951784A true CN115951784A (zh) | 2023-04-11 |
CN115951784B CN115951784B (zh) | 2023-05-12 |
Family
ID=85892953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310215413.0A Active CN115951784B (zh) | 2023-03-08 | 2023-03-08 | 一种基于双神经辐射场的穿衣人体运动捕捉和生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115951784B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116168137A (zh) * | 2023-04-21 | 2023-05-26 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于神经辐射场的新视角合成方法、装置及存储器 |
CN117173368A (zh) * | 2023-10-31 | 2023-12-05 | 杭州新畅元科技有限公司 | 一种人体模板动态表达方法、装置、设备及介质 |
CN117496072A (zh) * | 2023-12-27 | 2024-02-02 | 南京理工大学 | 一种三维数字人生成和交互方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114219001A (zh) * | 2021-11-04 | 2022-03-22 | 华为技术有限公司 | 一种模型融合方法及相关装置 |
CN114863038A (zh) * | 2022-07-07 | 2022-08-05 | 杭州像衍科技有限公司 | 基于显式几何形变的实时动态自由视角合成方法及装置 |
CN114863035A (zh) * | 2022-07-05 | 2022-08-05 | 南京理工大学 | 一种基于隐式表征的三维人体运动捕捉和生成方法 |
US20220319055A1 (en) * | 2021-03-31 | 2022-10-06 | Sony Group Corporation | Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture |
WO2023004559A1 (en) * | 2021-07-26 | 2023-02-02 | Shanghaitech University | Editable free-viewpoint video using a layered neural representation |
-
2023
- 2023-03-08 CN CN202310215413.0A patent/CN115951784B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220319055A1 (en) * | 2021-03-31 | 2022-10-06 | Sony Group Corporation | Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture |
WO2023004559A1 (en) * | 2021-07-26 | 2023-02-02 | Shanghaitech University | Editable free-viewpoint video using a layered neural representation |
CN114219001A (zh) * | 2021-11-04 | 2022-03-22 | 华为技术有限公司 | 一种模型融合方法及相关装置 |
CN114863035A (zh) * | 2022-07-05 | 2022-08-05 | 南京理工大学 | 一种基于隐式表征的三维人体运动捕捉和生成方法 |
CN114863038A (zh) * | 2022-07-07 | 2022-08-05 | 杭州像衍科技有限公司 | 基于显式几何形变的实时动态自由视角合成方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116168137A (zh) * | 2023-04-21 | 2023-05-26 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于神经辐射场的新视角合成方法、装置及存储器 |
CN117173368A (zh) * | 2023-10-31 | 2023-12-05 | 杭州新畅元科技有限公司 | 一种人体模板动态表达方法、装置、设备及介质 |
CN117173368B (zh) * | 2023-10-31 | 2024-01-26 | 杭州新畅元科技有限公司 | 一种人体模板动态表达方法、装置、设备及介质 |
CN117496072A (zh) * | 2023-12-27 | 2024-02-02 | 南京理工大学 | 一种三维数字人生成和交互方法及系统 |
CN117496072B (zh) * | 2023-12-27 | 2024-03-08 | 南京理工大学 | 一种三维数字人生成和交互方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115951784B (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jiang et al. | Selfrecon: Self reconstruction your digital avatar from monocular video | |
CN109584353B (zh) | 一种基于单目视频重建三维人脸表情模型的方法 | |
Cao et al. | 3D shape regression for real-time facial animation | |
CN106023288B (zh) | 一种基于图像的动态替身构造方法 | |
CN115951784B (zh) | 一种基于双神经辐射场的穿衣人体运动捕捉和生成方法 | |
CN114863035B (zh) | 一种基于隐式表征的三维人体运动捕捉和生成方法 | |
CN113421328B (zh) | 一种三维人体虚拟化重建方法及装置 | |
US11928778B2 (en) | Method for human body model reconstruction and reconstruction system | |
Jin et al. | 3d reconstruction using deep learning: a survey | |
Li et al. | Animated 3D human avatars from a single image with GAN-based texture inference | |
US20230126829A1 (en) | Point-based modeling of human clothing | |
Ye et al. | 3d morphable face model for face animation | |
CN117745932A (zh) | 一种基于深度融合约束的神经隐式曲面重建方法 | |
Li et al. | Image-guided human reconstruction via multi-scale graph transformation networks | |
Wang et al. | Clothed human performance capture with a double-layer neural radiance fields | |
Gan et al. | Fine-grained multi-view hand reconstruction using inverse rendering | |
Hilton et al. | Multiple view reconstruction of people | |
Lu et al. | Parametric 3D visualization modeling of the human body based on 2D photos | |
Jian et al. | Realistic face animation generation from videos | |
Lifkooee et al. | Image-based human character modeling and reconstruction for virtual reality exposure therapy | |
Wang et al. | Markerless body motion capturing for 3d character animation based on multi-view cameras | |
Starck et al. | Reconstruction of animated models from images using constrained deformable surfaces | |
Biris et al. | Compression of Probabilistic Volumetric Models using multi-resolution scene flow | |
Ilic et al. | From explicit to implicit surfaces for visualization, animation and modeling | |
Yang et al. | Innovative AI techniques for photorealistic 3D clothed human reconstruction from monocular images or videos: a survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |