CN117557694A - 一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法 - Google Patents
一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法 Download PDFInfo
- Publication number
- CN117557694A CN117557694A CN202311479745.6A CN202311479745A CN117557694A CN 117557694 A CN117557694 A CN 117557694A CN 202311479745 A CN202311479745 A CN 202311479745A CN 117557694 A CN117557694 A CN 117557694A
- Authority
- CN
- China
- Prior art keywords
- sampling point
- encoder
- field
- loss
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000001537 neural effect Effects 0.000 title claims abstract description 26
- 238000005070 sampling Methods 0.000 claims abstract description 80
- 210000005036 nerve Anatomy 0.000 claims abstract description 16
- 238000009877 rendering Methods 0.000 claims abstract description 13
- 238000006243 chemical reaction Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 15
- 230000004580 weight loss Effects 0.000 claims description 15
- 239000000203 mixture Substances 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 210000000988 bone and bone Anatomy 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000013179 statistical model Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 abstract description 4
- 230000005855 radiation Effects 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 abstract description 2
- 238000013519 translation Methods 0.000 abstract description 2
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/08—Volume rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/44—Morphing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,将条件变分自动编码(CVAE)与神经混合权重场融合,以纠正从观察空间到规范空间的翻译偏差。首先,设计了时变残差向量回归模块,将时间戳和观测空间采样点作为编码器的输入,将转换后的残差通过解码器输出,对规范空间中的点进行校正。其次,为了重建高质量的人体,基于适合渲染纹理的体积密度构建神经辐射场。第三,与NeuMan直接利用MLP网络优化不同,我们使用一个轻量级MLP来实现条件变分自编码器的编码器和解码器作为辅助网络。本发明能够准确地纠正标准空间采样点的位置,使得变形场转换具有较高准确性和鲁棒性。
Description
技术领域
本发明属于人体建模技术领域,具体涉及一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法。
背景技术
人体动画是重建可动画化的人体模型,广泛应用于虚拟人物、电子游戏和电影。传统方法的成就主要包括高质量的静态重建和基于骨骼的动画驱动,而手动通常是耗时和不智能的。随着神经辐射场(NeRF)技术的出现,人体重建技术开辟了一个新的方向,它实现了极其逼真的视觉渲染,并提出了一种新颖的视图合成方法,加速了虚拟世界和现实世界之间无缝连接的发展。然而,NeRF只能实现静态三维隐式重建和逼真渲染。有必要进一步实现逼真的人体动画。
将NeRF应用于动态人物小说姿态的合成和自动渲染已成为元宇宙中一个具有挑战性和价值的课题。在最近的工作中,AniNeRF和Neuman建立了基于皮肤多层线性(SMPL)人体模型的变形场,实现了从观测空间样本点到规范空间样本点的映射,在新颖视图和新颖姿态绘制方面表现出令人信服的性能。但是在变形场映射方面还缺乏考虑,在生成高质量的人体动画方面还需要进一步改进。
发明内容
由于观测空间中的点通过神经混合权值场直接变换到正则空间时,重构结果会受到一定的偏置影响。为了克服这一缺点,本发明提供了一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,将条件变分自动编码(CVAE)与神经混合权重场融合,以纠正从观察空间到规范空间的翻译偏差。
为实现上述目的,本发明提供如下技术方案:一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,包括以下步骤:
步骤S1,获取原始人体相关数据,从H36M数据集和ZJU-MoCap中获取多视角图片帧序列以及相应的SMPL数据;
步骤S2,对每一张图片定义一个时间戳,并对图片获取射线,同时在射线上采样,获取观测空间采样点集合;
步骤S3,将获取到的观测空间采样点输入到神经混合权重场,计算出当前人体混合权重的残差,并加上人体初始混合权重,得到当前人体混合权重;
步骤S4:根据线性蒙皮公式的逆推导,结合人体骨架,构造变形场,实现观测空间采样点和标准空间采样点的映射;
步骤S5:将时间戳和观测空间采样点输入到条件变分自动编码器的编码器中,输出中间变量μ和σ,并根据高斯分布从中采样潜在变量,同时结合观测空间采样点输入到解码器,输出标准空间采样点的转换残差;
步骤S6:将上述转换残差加上步骤S4中得到的标准空间采样点,即得到校准后的标准空间采样点,并将其输入到颜色密度场,得到标准空间采样点的颜色和体密度,最终通过经典体积绘制函数计算出每条射线对应的像素值;
步骤S7:将校准后的标准空间采样点输入到残差权重场,得到标准空间混合权重。由于观测空间和标准空间的混合权重损失在转换前后保持一致,故需计算二者的混合权重损失,并联合像素重建损失以优化整个网络。
进一步的,所述步骤S1中,H36M数据集中的图片分辨率为1000*1000,ZJU-MoCap数据集中的图片分辨率为1024*1024。
进一步的,所述步骤S2中,时间戳被定义为每张图片的索引除以总的图片序列数量;射线由每张图片对应的相机位姿及其像素位置确定;以每个像素为原点出发与相机中心位置连成一条直线,直线与相机坐标系z轴的夹角为射线方向;时间戳定义如下:
进一步的,所述步骤S3中,神经混合权重场FΔw是由8个一维卷积层构成的MLP网络,观测空间采样点作为原始输入,在MLP网络的第三层,潜在编码联结中间变量输入到第四层以进一步挖掘图片帧之间的信息;潜在编码从根据训练帧数量生成的潜在嵌入层中获取;
其中ws为根据人体统计模型Si获取的初始人体混合权重,norm表示进行标准化。
进一步的,所述步骤S4中,人体骨架包含24个关键点,分别为'Left_Hip','Right_Hip','Waist','Left_Knee','Right_Knee','Upper_Waist','Left_Ankle','Right_Ankle','Chest','Left_Toe','Right_Toe','Base_Neck','Left_Shoulder','Right_Shoulder','Upper_Neck','Left_Arm','Right_Arm','Left_Elbow','Right_Elbow','Left_Wrist','Right_Wrist','Left_Finger','Right_Finger';变形场Ti定义如下:
其中Gk表示人体骨骼变换矩阵,k为预定义的人体骨骼数量,wo(x)k表示观测空间中人体第k个骨骼的蒙皮权重。
进一步的,所述步骤S5中,变分自动编码器的编码器ε和解码器D均由2层线性层构成,时间戳ti先经过位置编码处理,增强到25维后输入编码器;编码器输出8维的中间变量μ和σ,并根据μ和σ构成的正态分布采样8维的潜在编码z,最后联结观测空间采样点x′i输入到解码器,得到标准空间采样点残差
进一步的,所述步骤S6中,颜色密度场Fc和Fσ的架构依次包括输入层、第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层、输出层;所有卷积层均为一维卷积,其中体密度场的第三卷积层的输出要联结外观编码li和采样点方向输入到第四卷积层,最终输出采样点颜色σi和密度ci;
σi(x),zi(x)←Fσ(γx(x′)) 式六
ci(x)←Fc(zi(x′),γd(d),li) 式七
其中γx和γd分别表示对采样点位置和方向进行位置编码增强。
进一步的,所述步骤S7中,标准空间神经混合权重场的网络结构与观测空间的神经混合权重网络结构一致,同样在MLP的第三层,将观测空间采样点的潜在编码联结中间变量输入到第四层;网络训练采用Adam优化器,设置初始学习率为5e-4。
进一步的,所述步骤S7中,为了训练神经混合权重场、条件变分自动编码器和颜色密度场,分别计算混合权重损失Lnsf、KL损失LKL、像素重建损失Lrec;此外还进一步考虑转换残差损失Lres和蒙版损失Lmask,将所有损失加权相加得到总损失L;
L=λrecLrec+λnsfLnsf+λresLres+λKLLKL+λmaskLmask 式九
其中是渲染像素,Ci(r)是ground truth;
引入了混合权值场之间的一致性损失,以学习正则空间上的神经混合权值场;
其中xi是第i帧的3D人体边界box下的3D采样点集合;基于wnew和式六,产生新人体视角下的变形场Tnew,并计算新的混合权重损失来优化模型;
采样点残差正则化Lres简单地约束每个节点的位置变化以稳定训练;
KL-散度Loss是标准的变分自动编码器VAE的KL散度惩罚;
LKL=∑iKL(N(μi,σi)||N(0,1)) 式十四
人体蒙版损失进一步约束重建区域,强制惩罚蒙版区域以外的射线采样点体密度为0,定义蒙版区域为M(r)=0,背景区域为M(r)=1;
Lmask=σr||1-M(r)|| 式十五
本方法具有的优点:
1)提出了一种新的隐式三维身体重建方法,称为CVRF,它融合了CVAE和神经混合权重场。它可以校正观测空间向规范空间转换过程中的偏差。
2)使用时间戳作为CVAE编码器的输入,充分利用视频序列帧之间的关系,有效地解决了一对一映射的问题,能够更准确地捕捉人体表面的细节。
3)所提出的方法不需要额外训练新的姿态合成渲染模型,只需要训练新视角模型,以在新视角和新姿态合成中实现更好的渲染。
与现有技术相比,本发明的有益效果是:
1)基于条件变分自动编码器设计的时变残差向量回归模块,它们具有较强的残差表示能力,相比较其他对观测空间和标准空间映射欠缺考虑的方法,本方法能够准确地纠正标准空间采样点的位置,使得变形场转换具有较高准确性和鲁棒性;
2)与AniNeRF和Neural body等方法不同,本发明得益于条件变分自动编码器的编码器和解码器作为辅助网络,在新姿势合成方面也具备了一定的泛化能力,无需额外单独训练新姿势合成模型,也能得到良好的渲染效果。
附图说明
图1为本发明的整体框架图;
图2为本发明的人体24关键点拓扑图;
图3为本发明的条件变分自动编码器架构图;
图4为本发明的标准空间采样点的点云图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明技术方案,并不限于本发明。
本发明将条件变分自动编码(CVAE)与神经混合权重场融合,以纠正从观察空间到规范空间的翻译偏差。首先,设计了时变残差向量回归模块,将时间戳和观测空间采样点作为编码器的输入,将转换后的残差通过解码器输出,对规范空间中的点进行校正。其次,为了重建高质量的人体,基于适合渲染纹理的体积密度构建神经辐射场。第三,与NeuMan直接利用MLP网络优化不同,我们使用一个轻量级MLP来实现条件变分自编码器的编码器和解码器作为辅助网络。
具体来说,在推理过程中,将观测空间采样点和图像对应的时间戳输入编码器模块。然后通过中间变量采样将潜码和观测空间样本点反馈给解码器,预测时变残差向量,并对标准空间样本点进行校正。最后,将校正后的采样点位置输入到颜色密度场中,得到相应的颜色密度。射线对应的像素的RGB颜色是用经典的体绘制函数计算的。新的视图和姿态是通过查询来重建的。在H36M和ZJU-MoCap数据集上的大量实验表明,所提出的方法在新颖的人类视角和姿态合成方面优于最先进的方法,并且在合成新姿态时不需要单独的训练,即对新姿势合成具有良好的泛化能力。
一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,整体框架图如图1所示。具体包括以下步骤:
步骤S1,获取原始人体相关数据,从H36M数据集和ZJU-MoCap中获取多视角图片帧序列以及相应的SMPL数据;
步骤S2,对每一张图片定义一个时间戳,并对图片获取射线,同时在射线上采样,获取观测空间采样点集合;
步骤S3,将获取到的观测空间采样点输入到神经混合权重场,计算出当前人体混合权重的残差,并加上人体初始混合权重,得到当前人体混合权重;
步骤S4:根据线性蒙皮公式的逆推导,结合人体骨架,构造变形场,实现观测空间采样点和标准空间采样点的映射;
步骤S5:将时间戳和观测空间采样点输入到条件变分自动编码器的编码器中,输出中间变量μ和σ,并根据高斯分布从中采样潜在变量,同时结合观测空间采样点输入到解码器,输出标准空间采样点的转换残差;
步骤S6:将上述转换残差加上步骤S4中得到的标准空间采样点,即得到校准后的标准空间采样点,并将其输入到颜色密度场,得到标准空间采样点的颜色和体密度,最终通过经典体积绘制函数计算出每条射线对应的像素值;
步骤S7:将校准后的标准空间采样点输入到残差权重场,得到标准空间混合权重。由于观测空间和标准空间的混合权重损失在转换前后保持一致,故需计算二者的混合权重损失,并联合像素重建损失以优化整个网络。
需要说明的是,步骤S1中,H36M数据集中的图片分辨率为1000*1000,ZJU-MoCap数据集中的图片分辨率为1024*1024。
需要说明的是,步骤S2中,时间戳被定义为每张图片的索引除以总的图片序列数量;射线由每张图片对应的相机位姿及其像素位置确定。以每个像素为原点出发与相机中心位置连成一条直线,直线与相机坐标系z轴的夹角为射线方向;时间戳定义如下:
需要说明的是,步骤S3中,神经混合权重场FΔw是由8个一维卷积层构成的MLP网络,观测空间采样点作为原始输入,在MLP网络的第三层,潜在编码联结中间变量输入到第四层以进一步挖掘图片帧之间的信息;潜在编码从根据训练帧数量生成的潜在嵌入层中获取;
其中ws为根据人体统计模型Si获取的初始人体混合权重,norm表示进行标准化。
需要说明的是,步骤S4中,人体骨架包含24个关键点,如图2所示,分别为′Left_Hip′,′Right_Hip′,′Waist′,′Left_Knee′,′Right_Knee′,′Upper_Waist′,′Left_Ankle′,′Right_Ankle′,′Chest′,′Left_Toe′,′Right_Toe′,′Base_Neck′,′Left_Shoulder′,′Right_Shoulder′,′Upper_Neck′,′Left_Arm′,′Right_Arm′,′Left_Elbow′,′Right_Elbow′,′Left_Wrist′,′Right_Wrist′,′Left_Finger′,′Right_Finger′。变形场Ti定义如下:
其中Gk表示人体骨骼变换矩阵,k为预定义的人体骨骼数量,wo(x)k表示观测空间中人体第k个骨骼的蒙皮权重。
需要说明的是,步骤S5中,条件变分自动编码器架构图如图3所示,变分自动编码器的编码器ε和解码器D均由2层线性层构成,时间戳ti需要先经过位置编码处理,增强到25维后输入编码器;编码器输出8维的中间变量μ和σ,并根据μ和σ构成的正态分布采样8维的潜在编码z,最后联结观测空间采样点x′i输入到解码器,得到标准空间采样点残差
需要说明的是,步骤S6中,颜色密度场Fc和Fσ的架构依次包括输入层、第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层、输出层;所有卷积层均为一维卷积,其中体密度场的第三卷积层的输出要联结外观编码li和采样点方向输入到第四卷积层,最终输出采样点颜色σi和密度ci;
σi(x),zi(x)←Fσ(γx(x′)) 式六
ci(x)←Fc(zi(x′),γd(d),li) 式七
其中γx和γd分别表示对采样点位置和方向进行位置编码增强。
需要说明的是,步骤S7中,标准空间神经混合权重场的网络结构与观测空间的神经混合权重网络结构一致,同样在MLP的第三层,将观测空间采样点的潜在编码联结中间变量输入到第四层;网络训练采用Adam优化器,设置初始学习率为5e-4。
需要说明的是,步骤S7中,为了训练神经混合权重场、条件变分自动编码器和颜色密度场,分别需要计算混合权重损失Lnsf、KL损失LKL、像素重建损失Lrec;此外还需进一步考虑转换残差损失Lres和蒙版损失Lmask,将所有损失加权相加得到总损失L;
L=λrecLrec+λnsf Lnsf+λresLres+λKLLKL+λmaskLmask 式九
其中是渲染像素,Ci(r)是ground truth。
由于标准空间和观测空间的两个对应点应该具有相同的混合权值,故引入了混合权值场之间的一致性损失,以学习正则空间上的神经混合权值场;
其中xi是第i帧的3D人体边界box下的3D采样点集合;基于wnew和式六,可以产生新人体视角下的变形场Tnew,并计算新的混合权重损失来优化模型;
采样点残差正则化Lres简单地约束每个节点的位置变化以稳定训练;
KL-散度Loss是标准的变分自动编码器VAE的KL散度惩罚;
LKL=∑iKL(N(μi,σi)||N(0,1)) 式十四
人体蒙版损失进一步约束重建区域,强制惩罚蒙版区域以外的射线采样点体密度为0,定义蒙版区域为M(r)=0,背景区域为M(r)=1;
Lmask=σr||1-M(r)|| 式十五
本发明在H36M数据集上的实验数据如下:
表1:在H36M数据集上进行的新视图合成的PSNR(峰值信噪比)和SSIM(结构相似性)结果。
表2:在H36M数据集上进行的新姿势合成(无需额外训练)的PSNR(峰值信噪比)和SSIM(结构相似性)结果。
以上所述仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,其特征在于:包括以下步骤:
步骤S1,获取原始人体相关数据,从H36M数据集和ZJU-MoCap中获取多视角图片帧序列以及相应的SMPL数据;
步骤S2,对每一张图片定义一个时间戳,并对图片获取射线,同时在射线上采样,获取观测空间采样点集合;
步骤S3,将获取到的观测空间采样点输入到神经混合权重场,计算出当前人体混合权重的残差,并加上人体初始混合权重,得到当前人体混合权重;
步骤S4:根据线性蒙皮公式的逆推导,结合人体骨架,构造变形场,实现观测空间采样点和标准空间采样点的映射;
步骤S5:将时间戳和观测空间采样点输入到条件变分自动编码器的编码器中,输出中间变量μ和σ,并根据高斯分布从中采样潜在变量,同时结合观测空间采样点输入到解码器,输出标准空间采样点的转换残差;
步骤S6:将上述转换残差加上步骤S4中得到的标准空间采样点,即得到校准后的标准空间采样点,并将其输入到颜色密度场,得到标准空间采样点的颜色和体密度,最终通过经典体积绘制函数计算出每条射线对应的像素值;
步骤S7:将校准后的标准空间采样点输入到残差权重场,得到标准空间混合权重;由于观测空间和标准空间的混合权重损失在转换前后保持一致,故需计算二者的混合权重损失,并联合像素重建损失以优化整个网络。
2.根据权利要求1所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,其特征在于:所述步骤S1中,H36M数据集中的图片分辨率为1000*1000,ZJU-MoCap数据集中的图片分辨率为1024*1024。
3.根据权利要求1所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,其特征在于:所述步骤S2中,时间戳被定义为每张图片的索引除以总的图片序列数量;射线由每张图片对应的相机位姿及其像素位置确定;以每个像素为原点出发与相机中心位置连成一条直线,直线与相机坐标系z轴的夹角为射线方向;时间戳定义如下:
4.根据权利要求3所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,其特征在于:所述步骤S3中,神经混合权重场FΔw是由8个一维卷积层构成的MLP网络,观测空间采样点作为原始输入,在MLP网络的第三层,潜在编码联结中间变量输入到第四层以进一步挖掘图片帧之间的信息;潜在编码从根据训练帧数量生成的潜在嵌入层中获取;
其中ws为根据人体统计模型Si获取的初始人体混合权重,norm表示进行标准化。
5.根据权利要求4所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,其特征在于:所述步骤S4中,人体骨架包含24个关键点,分别为'Left_Hip','Right_Hip','Waist','Left_Knee','Right_Knee','Upper_Waist','Left_Ankle','Right_Ankle','Chest','Left_Toe','Right_Toe','Base_Neck','Left_Shoulder','Right_Shoulder','Upper_Neck','Left_Arm','Right_Arm','Left_Elbow','Right_Elbow','Left_Wrist','Right_Wrist','Left_Finger','Right_Finger';变形场Ti定义如下:
其中Gk表示人体骨骼变换矩阵,k为预定义的人体骨骼数量,wo(x)k表示观测空间中人体第k个骨骼的蒙皮权重。
6.根据权利要求5所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,其特征在于:所述步骤S5中,变分自动编码器的编码器ε和解码器D均由2层线性层构成,时间戳ti先经过位置编码处理,增强到25维后输入编码器;编码器输出8维的中间变量μ和σ,并根据μ和σ构成的正态分布采样8维的潜在编码z,最后联结观测空间采样点x′i输入到解码器,得到标准空间采样点残差
7.根据权利要求6所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,其特征在于:所述步骤S6中,颜色密度场Fc和Fσ的架构依次包括输入层、第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层、输出层;所有卷积层均为一维卷积,其中体密度场的第三卷积层的输出要联结外观编码li和采样点方向输入到第四卷积层,最终输出采样点颜色σi和密度ci;
σi(x),zi(x)←Fσ(γx(x′)) 式六
ci(x)←Fc(zi(x′),γd(d),li) 式七
其中γx和γd分别表示对采样点位置和方向进行位置编码增强。
8.根据权利要求7所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,其特征在于:所述步骤S7中,标准空间神经混合权重场的网络结构与观测空间的神经混合权重网络结构一致,同样在MLP的第三层,将观测空间采样点的潜在编码联结中间变量输入到第四层;网络训练采用Adam优化器,设置初始学习率为5e-4。
9.根据权利要求8所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,其特征在于:所述步骤S7中,为了训练神经混合权重场、条件变分自动编码器和颜色密度场,分别计算混合权重损失Lnsf、KL损失LKL、像素重建损失Lrec;此外还进一步考虑转换残差损失Lres和蒙版损失Lmask,将所有损失加权相加得到总损失L;
L=λrecLrec+λnsfLnsf+λresLres+λKLLKL+λmaskLmask 式九
其中是渲染像素,Ci(r)是ground truth;
引入了混合权值场之间的一致性损失,以学习正则空间上的神经混合权值场;
其中xi是第i帧的3D人体边界box下的3D采样点集合;基于wnew和式六,产生新人体视角下的变形场Tnew,并计算新的混合权重损失来优化模型;
采样点残差正则化Lres简单地约束每个节点的位置变化以稳定训练;
KL-散度Loss是标准的变分自动编码器VAE的KL散度惩罚;
LKL=∑iKL(N(μi,σi)||N(0,1)) 式十四
人体蒙版损失进一步约束重建区域,强制惩罚蒙版区域以外的射线采样点体密度为0,定义蒙版区域为M(r)=0,背景区域为M(r)=1;
Lmask=σr||1-M(r)|| 式十五。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311479745.6A CN117557694A (zh) | 2023-11-08 | 2023-11-08 | 一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311479745.6A CN117557694A (zh) | 2023-11-08 | 2023-11-08 | 一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117557694A true CN117557694A (zh) | 2024-02-13 |
Family
ID=89817774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311479745.6A Pending CN117557694A (zh) | 2023-11-08 | 2023-11-08 | 一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117557694A (zh) |
-
2023
- 2023-11-08 CN CN202311479745.6A patent/CN117557694A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111402310B (zh) | 一种基于深度估计网络的单目图像深度估计方法及系统 | |
WO2022267641A1 (zh) | 一种基于循环生成对抗网络的图像去雾方法及系统 | |
CN112465955B (zh) | 一种动态人体三维重建和视角合成方法 | |
CN113112592B (zh) | 一种可驱动的隐式三维人体表示方法 | |
CN109671023A (zh) | 一种人脸图像超分辨率二次重建方法 | |
CN110570377A (zh) | 一种基于组归一化的快速图像风格迁移方法 | |
CN112734890B (zh) | 基于三维重建的人脸替换方法及装置 | |
CN111915693A (zh) | 基于草图的人脸图像生成方法及系统 | |
CN110853119B (zh) | 一种鲁棒的基于参考图片的妆容迁移方法 | |
CN117496072B (zh) | 一种三维数字人生成和交互方法及系统 | |
CN115409937A (zh) | 基于集成神经辐射场的人脸视频表情迁移模型构建方法及表情迁移方法和系统 | |
CN115951784B (zh) | 一种基于双神经辐射场的穿衣人体运动捕捉和生成方法 | |
Li et al. | Uphdr-gan: Generative adversarial network for high dynamic range imaging with unpaired data | |
CN112233012A (zh) | 一种人脸生成系统及方法 | |
Song et al. | Etnet: Error transition network for arbitrary style transfer | |
CN111462274A (zh) | 一种基于smpl模型的人体图像合成方法及系统 | |
US20240046570A1 (en) | Drivable implicit three-dimensional human body representation method | |
CN116416375A (zh) | 一种基于深度学习的三维重建方法和系统 | |
CN108924528A (zh) | 一种基于深度学习的双目风格化实时渲染方法 | |
CN114862697A (zh) | 一种基于三维分解的人脸盲修复方法 | |
CN117422829A (zh) | 一种基于神经辐射场的人脸图像合成优化方法 | |
CN112991484B (zh) | 智能人脸编辑方法、装置、存储介质及设备 | |
Wu et al. | Self-driven dual-path learning for reference-based line art colorization under limited data | |
CN117315069A (zh) | 基于图像特征对齐的人体姿态迁移方法 | |
CN117557694A (zh) | 一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |