CN117557694A - 一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法 - Google Patents

一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法 Download PDF

Info

Publication number
CN117557694A
CN117557694A CN202311479745.6A CN202311479745A CN117557694A CN 117557694 A CN117557694 A CN 117557694A CN 202311479745 A CN202311479745 A CN 202311479745A CN 117557694 A CN117557694 A CN 117557694A
Authority
CN
China
Prior art keywords
sampling point
encoder
field
loss
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311479745.6A
Other languages
English (en)
Inventor
李渭
谢小龙
刘捷
饶泓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang University
Original Assignee
Nanchang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang University filed Critical Nanchang University
Priority to CN202311479745.6A priority Critical patent/CN117557694A/zh
Publication of CN117557694A publication Critical patent/CN117557694A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/08Volume rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/44Morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,将条件变分自动编码(CVAE)与神经混合权重场融合,以纠正从观察空间到规范空间的翻译偏差。首先,设计了时变残差向量回归模块,将时间戳和观测空间采样点作为编码器的输入,将转换后的残差通过解码器输出,对规范空间中的点进行校正。其次,为了重建高质量的人体,基于适合渲染纹理的体积密度构建神经辐射场。第三,与NeuMan直接利用MLP网络优化不同,我们使用一个轻量级MLP来实现条件变分自编码器的编码器和解码器作为辅助网络。本发明能够准确地纠正标准空间采样点的位置,使得变形场转换具有较高准确性和鲁棒性。

Description

一种基于条件变分自动编码器和神经混合权重场的动态人体 建模方法
技术领域
本发明属于人体建模技术领域,具体涉及一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法。
背景技术
人体动画是重建可动画化的人体模型,广泛应用于虚拟人物、电子游戏和电影。传统方法的成就主要包括高质量的静态重建和基于骨骼的动画驱动,而手动通常是耗时和不智能的。随着神经辐射场(NeRF)技术的出现,人体重建技术开辟了一个新的方向,它实现了极其逼真的视觉渲染,并提出了一种新颖的视图合成方法,加速了虚拟世界和现实世界之间无缝连接的发展。然而,NeRF只能实现静态三维隐式重建和逼真渲染。有必要进一步实现逼真的人体动画。
将NeRF应用于动态人物小说姿态的合成和自动渲染已成为元宇宙中一个具有挑战性和价值的课题。在最近的工作中,AniNeRF和Neuman建立了基于皮肤多层线性(SMPL)人体模型的变形场,实现了从观测空间样本点到规范空间样本点的映射,在新颖视图和新颖姿态绘制方面表现出令人信服的性能。但是在变形场映射方面还缺乏考虑,在生成高质量的人体动画方面还需要进一步改进。
发明内容
由于观测空间中的点通过神经混合权值场直接变换到正则空间时,重构结果会受到一定的偏置影响。为了克服这一缺点,本发明提供了一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,将条件变分自动编码(CVAE)与神经混合权重场融合,以纠正从观察空间到规范空间的翻译偏差。
为实现上述目的,本发明提供如下技术方案:一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,包括以下步骤:
步骤S1,获取原始人体相关数据,从H36M数据集和ZJU-MoCap中获取多视角图片帧序列以及相应的SMPL数据;
步骤S2,对每一张图片定义一个时间戳,并对图片获取射线,同时在射线上采样,获取观测空间采样点集合;
步骤S3,将获取到的观测空间采样点输入到神经混合权重场,计算出当前人体混合权重的残差,并加上人体初始混合权重,得到当前人体混合权重;
步骤S4:根据线性蒙皮公式的逆推导,结合人体骨架,构造变形场,实现观测空间采样点和标准空间采样点的映射;
步骤S5:将时间戳和观测空间采样点输入到条件变分自动编码器的编码器中,输出中间变量μ和σ,并根据高斯分布从中采样潜在变量,同时结合观测空间采样点输入到解码器,输出标准空间采样点的转换残差;
步骤S6:将上述转换残差加上步骤S4中得到的标准空间采样点,即得到校准后的标准空间采样点,并将其输入到颜色密度场,得到标准空间采样点的颜色和体密度,最终通过经典体积绘制函数计算出每条射线对应的像素值;
步骤S7:将校准后的标准空间采样点输入到残差权重场,得到标准空间混合权重。由于观测空间和标准空间的混合权重损失在转换前后保持一致,故需计算二者的混合权重损失,并联合像素重建损失以优化整个网络。
进一步的,所述步骤S1中,H36M数据集中的图片分辨率为1000*1000,ZJU-MoCap数据集中的图片分辨率为1024*1024。
进一步的,所述步骤S2中,时间戳被定义为每张图片的索引除以总的图片序列数量;射线由每张图片对应的相机位姿及其像素位置确定;以每个像素为原点出发与相机中心位置连成一条直线,直线与相机坐标系z轴的夹角为射线方向;时间戳定义如下:
进一步的,所述步骤S3中,神经混合权重场FΔw是由8个一维卷积层构成的MLP网络,观测空间采样点作为原始输入,在MLP网络的第三层,潜在编码联结中间变量输入到第四层以进一步挖掘图片帧之间的信息;潜在编码从根据训练帧数量生成的潜在嵌入层中获取;
其中ws为根据人体统计模型Si获取的初始人体混合权重,norm表示进行标准化。
进一步的,所述步骤S4中,人体骨架包含24个关键点,分别为'Left_Hip','Right_Hip','Waist','Left_Knee','Right_Knee','Upper_Waist','Left_Ankle','Right_Ankle','Chest','Left_Toe','Right_Toe','Base_Neck','Left_Shoulder','Right_Shoulder','Upper_Neck','Left_Arm','Right_Arm','Left_Elbow','Right_Elbow','Left_Wrist','Right_Wrist','Left_Finger','Right_Finger';变形场Ti定义如下:
其中Gk表示人体骨骼变换矩阵,k为预定义的人体骨骼数量,wo(x)k表示观测空间中人体第k个骨骼的蒙皮权重。
进一步的,所述步骤S5中,变分自动编码器的编码器ε和解码器D均由2层线性层构成,时间戳ti先经过位置编码处理,增强到25维后输入编码器;编码器输出8维的中间变量μ和σ,并根据μ和σ构成的正态分布采样8维的潜在编码z,最后联结观测空间采样点x′i输入到解码器,得到标准空间采样点残差
进一步的,所述步骤S6中,颜色密度场Fc和Fσ的架构依次包括输入层、第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层、输出层;所有卷积层均为一维卷积,其中体密度场的第三卷积层的输出要联结外观编码li和采样点方向输入到第四卷积层,最终输出采样点颜色σi和密度ci
σi(x),zi(x)←Fσx(x′)) 式六
ci(x)←Fc(zi(x′),γd(d),li) 式七
其中γx和γd分别表示对采样点位置和方向进行位置编码增强。
进一步的,所述步骤S7中,标准空间神经混合权重场的网络结构与观测空间的神经混合权重网络结构一致,同样在MLP的第三层,将观测空间采样点的潜在编码联结中间变量输入到第四层;网络训练采用Adam优化器,设置初始学习率为5e-4。
进一步的,所述步骤S7中,为了训练神经混合权重场、条件变分自动编码器和颜色密度场,分别计算混合权重损失Lnsf、KL损失LKL、像素重建损失Lrec;此外还进一步考虑转换残差损失Lres和蒙版损失Lmask,将所有损失加权相加得到总损失L;
L=λrecLrecnsfLnsfresLresKLLKLmaskLmask 式九
其中是渲染像素,Ci(r)是ground truth;
引入了混合权值场之间的一致性损失,以学习正则空间上的神经混合权值场;
其中xi是第i帧的3D人体边界box下的3D采样点集合;基于wnew和式六,产生新人体视角下的变形场Tnew,并计算新的混合权重损失来优化模型;
采样点残差正则化Lres简单地约束每个节点的位置变化以稳定训练;
KL-散度Loss是标准的变分自动编码器VAE的KL散度惩罚;
LKL=∑iKL(N(μi,σi)||N(0,1)) 式十四
人体蒙版损失进一步约束重建区域,强制惩罚蒙版区域以外的射线采样点体密度为0,定义蒙版区域为M(r)=0,背景区域为M(r)=1;
Lmask=σr||1-M(r)|| 式十五
本方法具有的优点:
1)提出了一种新的隐式三维身体重建方法,称为CVRF,它融合了CVAE和神经混合权重场。它可以校正观测空间向规范空间转换过程中的偏差。
2)使用时间戳作为CVAE编码器的输入,充分利用视频序列帧之间的关系,有效地解决了一对一映射的问题,能够更准确地捕捉人体表面的细节。
3)所提出的方法不需要额外训练新的姿态合成渲染模型,只需要训练新视角模型,以在新视角和新姿态合成中实现更好的渲染。
与现有技术相比,本发明的有益效果是:
1)基于条件变分自动编码器设计的时变残差向量回归模块,它们具有较强的残差表示能力,相比较其他对观测空间和标准空间映射欠缺考虑的方法,本方法能够准确地纠正标准空间采样点的位置,使得变形场转换具有较高准确性和鲁棒性;
2)与AniNeRF和Neural body等方法不同,本发明得益于条件变分自动编码器的编码器和解码器作为辅助网络,在新姿势合成方面也具备了一定的泛化能力,无需额外单独训练新姿势合成模型,也能得到良好的渲染效果。
附图说明
图1为本发明的整体框架图;
图2为本发明的人体24关键点拓扑图;
图3为本发明的条件变分自动编码器架构图;
图4为本发明的标准空间采样点的点云图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明技术方案,并不限于本发明。
本发明将条件变分自动编码(CVAE)与神经混合权重场融合,以纠正从观察空间到规范空间的翻译偏差。首先,设计了时变残差向量回归模块,将时间戳和观测空间采样点作为编码器的输入,将转换后的残差通过解码器输出,对规范空间中的点进行校正。其次,为了重建高质量的人体,基于适合渲染纹理的体积密度构建神经辐射场。第三,与NeuMan直接利用MLP网络优化不同,我们使用一个轻量级MLP来实现条件变分自编码器的编码器和解码器作为辅助网络。
具体来说,在推理过程中,将观测空间采样点和图像对应的时间戳输入编码器模块。然后通过中间变量采样将潜码和观测空间样本点反馈给解码器,预测时变残差向量,并对标准空间样本点进行校正。最后,将校正后的采样点位置输入到颜色密度场中,得到相应的颜色密度。射线对应的像素的RGB颜色是用经典的体绘制函数计算的。新的视图和姿态是通过查询来重建的。在H36M和ZJU-MoCap数据集上的大量实验表明,所提出的方法在新颖的人类视角和姿态合成方面优于最先进的方法,并且在合成新姿态时不需要单独的训练,即对新姿势合成具有良好的泛化能力。
一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,整体框架图如图1所示。具体包括以下步骤:
步骤S1,获取原始人体相关数据,从H36M数据集和ZJU-MoCap中获取多视角图片帧序列以及相应的SMPL数据;
步骤S2,对每一张图片定义一个时间戳,并对图片获取射线,同时在射线上采样,获取观测空间采样点集合;
步骤S3,将获取到的观测空间采样点输入到神经混合权重场,计算出当前人体混合权重的残差,并加上人体初始混合权重,得到当前人体混合权重;
步骤S4:根据线性蒙皮公式的逆推导,结合人体骨架,构造变形场,实现观测空间采样点和标准空间采样点的映射;
步骤S5:将时间戳和观测空间采样点输入到条件变分自动编码器的编码器中,输出中间变量μ和σ,并根据高斯分布从中采样潜在变量,同时结合观测空间采样点输入到解码器,输出标准空间采样点的转换残差;
步骤S6:将上述转换残差加上步骤S4中得到的标准空间采样点,即得到校准后的标准空间采样点,并将其输入到颜色密度场,得到标准空间采样点的颜色和体密度,最终通过经典体积绘制函数计算出每条射线对应的像素值;
步骤S7:将校准后的标准空间采样点输入到残差权重场,得到标准空间混合权重。由于观测空间和标准空间的混合权重损失在转换前后保持一致,故需计算二者的混合权重损失,并联合像素重建损失以优化整个网络。
需要说明的是,步骤S1中,H36M数据集中的图片分辨率为1000*1000,ZJU-MoCap数据集中的图片分辨率为1024*1024。
需要说明的是,步骤S2中,时间戳被定义为每张图片的索引除以总的图片序列数量;射线由每张图片对应的相机位姿及其像素位置确定。以每个像素为原点出发与相机中心位置连成一条直线,直线与相机坐标系z轴的夹角为射线方向;时间戳定义如下:
需要说明的是,步骤S3中,神经混合权重场FΔw是由8个一维卷积层构成的MLP网络,观测空间采样点作为原始输入,在MLP网络的第三层,潜在编码联结中间变量输入到第四层以进一步挖掘图片帧之间的信息;潜在编码从根据训练帧数量生成的潜在嵌入层中获取;
其中ws为根据人体统计模型Si获取的初始人体混合权重,norm表示进行标准化。
需要说明的是,步骤S4中,人体骨架包含24个关键点,如图2所示,分别为′Left_Hip′,′Right_Hip′,′Waist′,′Left_Knee′,′Right_Knee′,′Upper_Waist′,′Left_Ankle′,′Right_Ankle′,′Chest′,′Left_Toe′,′Right_Toe′,′Base_Neck′,′Left_Shoulder′,′Right_Shoulder′,′Upper_Neck′,′Left_Arm′,′Right_Arm′,′Left_Elbow′,′Right_Elbow′,′Left_Wrist′,′Right_Wrist′,′Left_Finger′,′Right_Finger′。变形场Ti定义如下:
其中Gk表示人体骨骼变换矩阵,k为预定义的人体骨骼数量,wo(x)k表示观测空间中人体第k个骨骼的蒙皮权重。
需要说明的是,步骤S5中,条件变分自动编码器架构图如图3所示,变分自动编码器的编码器ε和解码器D均由2层线性层构成,时间戳ti需要先经过位置编码处理,增强到25维后输入编码器;编码器输出8维的中间变量μ和σ,并根据μ和σ构成的正态分布采样8维的潜在编码z,最后联结观测空间采样点x′i输入到解码器,得到标准空间采样点残差
需要说明的是,步骤S6中,颜色密度场Fc和Fσ的架构依次包括输入层、第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层、输出层;所有卷积层均为一维卷积,其中体密度场的第三卷积层的输出要联结外观编码li和采样点方向输入到第四卷积层,最终输出采样点颜色σi和密度ci
σi(x),zi(x)←Fσx(x′)) 式六
ci(x)←Fc(zi(x′),γd(d),li) 式七
其中γx和γd分别表示对采样点位置和方向进行位置编码增强。
需要说明的是,步骤S7中,标准空间神经混合权重场的网络结构与观测空间的神经混合权重网络结构一致,同样在MLP的第三层,将观测空间采样点的潜在编码联结中间变量输入到第四层;网络训练采用Adam优化器,设置初始学习率为5e-4。
需要说明的是,步骤S7中,为了训练神经混合权重场、条件变分自动编码器和颜色密度场,分别需要计算混合权重损失Lnsf、KL损失LKL、像素重建损失Lrec;此外还需进一步考虑转换残差损失Lres和蒙版损失Lmask,将所有损失加权相加得到总损失L;
L=λrecLrecnsf LnsfresLresKLLKLmaskLmask 式九
其中是渲染像素,Ci(r)是ground truth。
由于标准空间和观测空间的两个对应点应该具有相同的混合权值,故引入了混合权值场之间的一致性损失,以学习正则空间上的神经混合权值场;
其中xi是第i帧的3D人体边界box下的3D采样点集合;基于wnew和式六,可以产生新人体视角下的变形场Tnew,并计算新的混合权重损失来优化模型;
采样点残差正则化Lres简单地约束每个节点的位置变化以稳定训练;
KL-散度Loss是标准的变分自动编码器VAE的KL散度惩罚;
LKL=∑iKL(N(μi,σi)||N(0,1)) 式十四
人体蒙版损失进一步约束重建区域,强制惩罚蒙版区域以外的射线采样点体密度为0,定义蒙版区域为M(r)=0,背景区域为M(r)=1;
Lmask=σr||1-M(r)|| 式十五
本发明在H36M数据集上的实验数据如下:
表1:在H36M数据集上进行的新视图合成的PSNR(峰值信噪比)和SSIM(结构相似性)结果。
表2:在H36M数据集上进行的新姿势合成(无需额外训练)的PSNR(峰值信噪比)和SSIM(结构相似性)结果。
以上所述仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,其特征在于:包括以下步骤:
步骤S1,获取原始人体相关数据,从H36M数据集和ZJU-MoCap中获取多视角图片帧序列以及相应的SMPL数据;
步骤S2,对每一张图片定义一个时间戳,并对图片获取射线,同时在射线上采样,获取观测空间采样点集合;
步骤S3,将获取到的观测空间采样点输入到神经混合权重场,计算出当前人体混合权重的残差,并加上人体初始混合权重,得到当前人体混合权重;
步骤S4:根据线性蒙皮公式的逆推导,结合人体骨架,构造变形场,实现观测空间采样点和标准空间采样点的映射;
步骤S5:将时间戳和观测空间采样点输入到条件变分自动编码器的编码器中,输出中间变量μ和σ,并根据高斯分布从中采样潜在变量,同时结合观测空间采样点输入到解码器,输出标准空间采样点的转换残差;
步骤S6:将上述转换残差加上步骤S4中得到的标准空间采样点,即得到校准后的标准空间采样点,并将其输入到颜色密度场,得到标准空间采样点的颜色和体密度,最终通过经典体积绘制函数计算出每条射线对应的像素值;
步骤S7:将校准后的标准空间采样点输入到残差权重场,得到标准空间混合权重;由于观测空间和标准空间的混合权重损失在转换前后保持一致,故需计算二者的混合权重损失,并联合像素重建损失以优化整个网络。
2.根据权利要求1所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,其特征在于:所述步骤S1中,H36M数据集中的图片分辨率为1000*1000,ZJU-MoCap数据集中的图片分辨率为1024*1024。
3.根据权利要求1所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,其特征在于:所述步骤S2中,时间戳被定义为每张图片的索引除以总的图片序列数量;射线由每张图片对应的相机位姿及其像素位置确定;以每个像素为原点出发与相机中心位置连成一条直线,直线与相机坐标系z轴的夹角为射线方向;时间戳定义如下:
4.根据权利要求3所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,其特征在于:所述步骤S3中,神经混合权重场FΔw是由8个一维卷积层构成的MLP网络,观测空间采样点作为原始输入,在MLP网络的第三层,潜在编码联结中间变量输入到第四层以进一步挖掘图片帧之间的信息;潜在编码从根据训练帧数量生成的潜在嵌入层中获取;
其中ws为根据人体统计模型Si获取的初始人体混合权重,norm表示进行标准化。
5.根据权利要求4所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,其特征在于:所述步骤S4中,人体骨架包含24个关键点,分别为'Left_Hip','Right_Hip','Waist','Left_Knee','Right_Knee','Upper_Waist','Left_Ankle','Right_Ankle','Chest','Left_Toe','Right_Toe','Base_Neck','Left_Shoulder','Right_Shoulder','Upper_Neck','Left_Arm','Right_Arm','Left_Elbow','Right_Elbow','Left_Wrist','Right_Wrist','Left_Finger','Right_Finger';变形场Ti定义如下:
其中Gk表示人体骨骼变换矩阵,k为预定义的人体骨骼数量,wo(x)k表示观测空间中人体第k个骨骼的蒙皮权重。
6.根据权利要求5所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,其特征在于:所述步骤S5中,变分自动编码器的编码器ε和解码器D均由2层线性层构成,时间戳ti先经过位置编码处理,增强到25维后输入编码器;编码器输出8维的中间变量μ和σ,并根据μ和σ构成的正态分布采样8维的潜在编码z,最后联结观测空间采样点x′i输入到解码器,得到标准空间采样点残差
7.根据权利要求6所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,其特征在于:所述步骤S6中,颜色密度场Fc和Fσ的架构依次包括输入层、第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层、输出层;所有卷积层均为一维卷积,其中体密度场的第三卷积层的输出要联结外观编码li和采样点方向输入到第四卷积层,最终输出采样点颜色σi和密度ci
σi(x),zi(x)←Fσx(x′)) 式六
ci(x)←Fc(zi(x′),γd(d),li) 式七
其中γx和γd分别表示对采样点位置和方向进行位置编码增强。
8.根据权利要求7所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,其特征在于:所述步骤S7中,标准空间神经混合权重场的网络结构与观测空间的神经混合权重网络结构一致,同样在MLP的第三层,将观测空间采样点的潜在编码联结中间变量输入到第四层;网络训练采用Adam优化器,设置初始学习率为5e-4。
9.根据权利要求8所述的一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法,其特征在于:所述步骤S7中,为了训练神经混合权重场、条件变分自动编码器和颜色密度场,分别计算混合权重损失Lnsf、KL损失LKL、像素重建损失Lrec;此外还进一步考虑转换残差损失Lres和蒙版损失Lmask,将所有损失加权相加得到总损失L;
L=λrecLrecnsfLnsfresLresKLLKLmaskLmask 式九
其中是渲染像素,Ci(r)是ground truth;
引入了混合权值场之间的一致性损失,以学习正则空间上的神经混合权值场;
其中xi是第i帧的3D人体边界box下的3D采样点集合;基于wnew和式六,产生新人体视角下的变形场Tnew,并计算新的混合权重损失来优化模型;
采样点残差正则化Lres简单地约束每个节点的位置变化以稳定训练;
KL-散度Loss是标准的变分自动编码器VAE的KL散度惩罚;
LKL=∑iKL(N(μi,σi)||N(0,1)) 式十四
人体蒙版损失进一步约束重建区域,强制惩罚蒙版区域以外的射线采样点体密度为0,定义蒙版区域为M(r)=0,背景区域为M(r)=1;
Lmask=σr||1-M(r)|| 式十五。
CN202311479745.6A 2023-11-08 2023-11-08 一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法 Pending CN117557694A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311479745.6A CN117557694A (zh) 2023-11-08 2023-11-08 一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311479745.6A CN117557694A (zh) 2023-11-08 2023-11-08 一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法

Publications (1)

Publication Number Publication Date
CN117557694A true CN117557694A (zh) 2024-02-13

Family

ID=89817774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311479745.6A Pending CN117557694A (zh) 2023-11-08 2023-11-08 一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法

Country Status (1)

Country Link
CN (1) CN117557694A (zh)

Similar Documents

Publication Publication Date Title
CN111402310B (zh) 一种基于深度估计网络的单目图像深度估计方法及系统
WO2022267641A1 (zh) 一种基于循环生成对抗网络的图像去雾方法及系统
CN112465955B (zh) 一种动态人体三维重建和视角合成方法
CN113112592B (zh) 一种可驱动的隐式三维人体表示方法
CN110570377A (zh) 一种基于组归一化的快速图像风格迁移方法
CN112734890B (zh) 基于三维重建的人脸替换方法及装置
CN111915693A (zh) 基于草图的人脸图像生成方法及系统
CN110599573A (zh) 一种基于单目相机的人脸实时交互动画的实现方法
CN115951784B (zh) 一种基于双神经辐射场的穿衣人体运动捕捉和生成方法
CN117496072B (zh) 一种三维数字人生成和交互方法及系统
CN115409937A (zh) 基于集成神经辐射场的人脸视频表情迁移模型构建方法及表情迁移方法和系统
Song et al. Etnet: Error transition network for arbitrary style transfer
CN111462274A (zh) 一种基于smpl模型的人体图像合成方法及系统
Li et al. Uphdr-gan: Generative adversarial network for high dynamic range imaging with unpaired data
US20240046570A1 (en) Drivable implicit three-dimensional human body representation method
CN112233012A (zh) 一种人脸生成系统及方法
CN116416375A (zh) 一种基于深度学习的三维重建方法和系统
CN113808047A (zh) 一种人体运动捕捉数据去噪方法
CN117422829A (zh) 一种基于神经辐射场的人脸图像合成优化方法
CN108924528A (zh) 一种基于深度学习的双目风格化实时渲染方法
CN114862697A (zh) 一种基于三维分解的人脸盲修复方法
CN112991484B (zh) 智能人脸编辑方法、装置、存储介质及设备
Wu et al. Self-driven dual-path learning for reference-based line art colorization under limited data
CN117315069A (zh) 基于图像特征对齐的人体姿态迁移方法
CN117557694A (zh) 一种基于条件变分自动编码器和神经混合权重场的动态人体建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination