CN114648613A - 基于可变形神经辐射场的三维头部模型重建方法及装置 - Google Patents

基于可变形神经辐射场的三维头部模型重建方法及装置 Download PDF

Info

Publication number
CN114648613A
CN114648613A CN202210537880.0A CN202210537880A CN114648613A CN 114648613 A CN114648613 A CN 114648613A CN 202210537880 A CN202210537880 A CN 202210537880A CN 114648613 A CN114648613 A CN 114648613A
Authority
CN
China
Prior art keywords
model
estimation model
frame
semantic information
radiation field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210537880.0A
Other languages
English (en)
Other versions
CN114648613B (zh
Inventor
王雪莹
郭玉东
张举勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Xiangyan Technology Co ltd
Original Assignee
Hangzhou Xiangyan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Xiangyan Technology Co ltd filed Critical Hangzhou Xiangyan Technology Co ltd
Priority to CN202210537880.0A priority Critical patent/CN114648613B/zh
Publication of CN114648613A publication Critical patent/CN114648613A/zh
Application granted granted Critical
Publication of CN114648613B publication Critical patent/CN114648613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Generation (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于可变形神经辐射场的三维头部模型重建方法及装置,该方法包括:对输入视频逐帧进行分割和人脸关键点检测,逐帧拟合参数化模型;对输入视频逐帧提取语义信息,主要包括头发标签和脸部标签;在参数化模型和语义信息的引导下,在输入视频上利用可变形神经辐射场渲染的方式对刚性注册编码、非刚性形变编码和纹理编码、形变量估计模型、拓扑估计模型、带符号距离场估计模型、颜色估计模型和语义信息估计模型进行优化,从而得到逐帧高质量的三维头部模型。

Description

基于可变形神经辐射场的三维头部模型重建方法及装置
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于可变形神经辐射场的三维头部模型重建方法及装置。
背景技术
近年来,随着计算机技术和通信技术的发展,基于人工智能的数字人表示越来越多的受到人们的关注,其中逼真的头部表示对虚拟数字人的可信度有着非常重要的作用。更进一步,人的头部作为一个人身体中最具代表性的部分,可以提供丰富的信息,比如:人的性别、年龄、情绪、种族、健康状况和性格等等。高质量三维头部重建一直是计算机视觉和图形学领域的研究热点,它在人体数字化和动画等场景中都具有广泛的应用。因此,研究如何获得高质量的三维头部模型具有重要和现实的研究意义。
在过去,高质量三维头部模型的获取主要有四种渠道:人体扫描,通过借助扫描设备对真实的人进行扫描采集数据,这一方法可以直接获取人的三维信息,但这一类方法所需要的扫描设备价格昂贵,且一般无法对头发进行建模,扫描得到的数据也伴随有缺失和噪声,仍然需要后续的数据处理过程;基于多张图像的重建,从多视角或多光照下采集的图像来进行三维重建,这一方法仍然需要特定的采集设备的搭建,或者是光照条件的设定,在数据采集上仍然具有一定的难度和成本,并且这一方法通常需要复杂的优化过程来保证几何精度;基于单张图像的重建,从采集的单张图像中来进行三维重建,这一方法大大简化了数据采集的过程,使得数据的获取变得方便快捷,但由于单张图像所包含的信息过于单一,所以由单张图像重建出的三维几何可能包含歧义性,仍然不利于投入使用;基于视频序列的重建,从一个人的一段视频中重建出其对应的三维头部模型,随着便携电子设备的采集,一段视频的采集变得越来越快捷,这一方法通常借助于人脸或头部参数化模型,通过拟合每一帧来进行三维重建,这样做的好处是可以得到很好的几何结构信息,但由于受到参数化模型表达能力的限制,这一类方法的几何精度较低,并且无法对头发进行表示。
而隐式神经辐射场一方面通过隐式函数将显示的三维模型表示转换为空间中点的几何性质,一般是带符号距离场,来对三维几何进行表示,一定程度上提高了三维几何的精度,相比较于传统的显示表示方法更加灵活;另一方面,基于神经辐射场的渲染方式将原本的基于显示模型的渲染方式替换为了模拟真实成像的隐式函数,通过沿视线方向估计图片的颜色和密度特征来进行渲染,从而可以得到与原图非常一致的重建结果。但隐式神经辐射场通常只可以应用在静态场景的重建中,所以为了能够从视频序列中进行三维重建,本发明引入变形场。变形场可以将任意帧所对应的空间变形到基准空间下,建立每一帧和基准空间的对应关系,通过对基准空间的进一步建模与渲染就可以得到目标三维模型。
发明内容
本发明的目的是提供一种基于可变形神经辐射场的三维头部模型重建方法及装置,以解决上述传统三维头部模型重建技术中所存在的问题。
本发明的目的是通过以下技术方案实现的:
根据本发明的第一方面,提供一种基于可变形神经辐射场的三维头部模型重建方法,该方法包括以下步骤:
S1:对输入视频逐帧进行头部区域分割和人脸关键点检测,逐帧拟合参数化模型;
S2:对输入视频逐帧进行语义信息提取;
S3:在参数化模型和语义信息的引导下,在输入视频上利用可变形神经辐射场渲染的方式对刚性注册编码、非刚性形变编码和纹理编码、形变量估计模型、拓扑估计模型、带符号距离场估计模型、颜色估计模型和语义信息估计模型进行优化,得到逐帧三维头部模型。
进一步地,步骤S1中,根据头部区域分割结果和人脸关键点,对输入视频逐帧拟合参数化模型,所述参数化模型的系数包括身份、表情、纹理和姿态。
进一步地,步骤S2中,逐帧提取的语义信息包括头发标签和脸部标签,所述脸部标签包括眉毛标签、眼睛标签、鼻子标签、嘴巴标签和其余脸部标签。
进一步地,步骤S3包括:
根据刚性注册编码建立当前帧所对应的空间和基准空间之间的刚性注册关系,得到刚性注册后的三维空间点的位置;
将非刚性形变编码作为条件,利用形变量估计模型学习非刚性偏移量,得到基准空间下点的位置;
将非刚性形变编码作为条件,利用拓扑估计模型学习当前帧所对应的空间到基准空间的拓扑变化特征;
在拓扑变化特征的条件下,利用带符号距离场估计模型学习基准空间下点的带符号距离场和全局几何性质;
以视线方向、全局几何性质和纹理编码作为条件,根据基准空间下点的位置和法向,利用颜色估计模型学习沿视线方向每个采样点的颜色值;
根据每个采样点上的带符号距离值计算得到采样点密度,根据采样点密度和颜色值得到头部区域的渲染结果。
进一步地,利用语义信息进行引导,以全局几何性质作为条件,利用语义信息估计模型学习每个采样点的语义概率,根据语义概率和采样点密度得到头部区域语义信息的分布情况。
进一步地,利用参数化模型进行引导,在参数化模型上进行采样,经过以刚性注册编码为条件的刚性注册和以非刚性形变编码为条件的形变量估计模型后得到基准空间下的采样点;经过以非刚性形变编码为条件的拓扑估计模型后得到拓扑变化特征;以拓扑变化特征作为条件,通过带符号距离场估计模型对基准空间下的采样点估计带符号距离场。
进一步地,根据图像真实度损失函数、语义一致性损失函数和带符号距离正则损失函数,反向传播更新刚性注册编码、非刚性形变编码和纹理编码、形变量估计模型、拓扑估计模型、带符号距离场估计模型、颜色估计模型和语义信息估计模型。
进一步地,根据可变形神经辐射场渲染得到的图像和原图像计算图像真实度损失函数;根据交叉熵函数计算估计出的语义信息与提取出的语义信息的语义一致性损失函数;根据参数化模型的带符号距离场计算带符号距离正则损失函数。
进一步地,所述形变量估计模型、拓扑估计模型、带符号距离场估计模型、颜色估计模型和语义信息估计模型均为神经网络模型,均依次包括输入层、非线性层、全连接层和输出层。
根据本发明的第二方面,提供一种基于可变形神经辐射场的三维头部模型重建装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述基于可变形神经辐射场的三维头部模型重建方法。
本发明的有益效果是:1)刚性注册编码的使用为不同姿态下的空间对齐提出了一种很自然的解决方案,同时形变量估计模型的使用解决了非刚性形变的问题;2)隐式神经辐射场用带符号距离场来表示头部几何,解决了参数化模型表达能力不够丰富的问题,提高了三维头部模型重建的精度,同时基于神经辐射场的渲染方式可以得到与输入图像高度一致的渲染结果;3)参数化模型和语义信息的使用为优化过程提供了一定的引导,为高质量三维头部模型的重建提供了先验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图做简单的介绍,显而易见得,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的基于可变形神经辐射场的三维头部模型重建方法的流程图;
图2为本发明实施例提供的对输入视频进行三维重建的示意图;
图3为本发明实施例提供的基于可变形神经辐射场的三维头部模型重建装置的结构图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域的普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
在三维头部模型重建领域,传统的基于图像的方法或者是需要复杂的采集设备和环境的构建,或者是受限于参数化模型的表达能力,都不能够重建出高质量的三维头部模型;而隐式神经辐射场一方面通过隐式函数来对三维几何进行表示,一定程度上提高了三维几何的精度,另一方面,基于神经辐射场的渲染方式可以得到与原图非常一致的重建结果,但这种方法通常只可以应用在静态场景的重建中。为此,本发明提供了一种基于可变形神经辐射场的高质量三维头部模型重建方法。
本发明实施例中三维头部模型用参数化模型作为先验,参数化模型中的几何和纹理信息表示如下:
Figure 303845DEST_PATH_IMAGE001
其中,S为三维几何信息,
Figure 394554DEST_PATH_IMAGE002
Figure 705449DEST_PATH_IMAGE003
分别为身份和表情系数,
Figure 507183DEST_PATH_IMAGE004
为带有身 份和表情信息的模板几何,
Figure 852714DEST_PATH_IMAGE005
为基于身份信息的回归函数,
Figure 81701DEST_PATH_IMAGE006
为蒙皮权重矩阵,
Figure 879893DEST_PATH_IMAGE007
为标准蒙皮函数;T为纹理信息,
Figure 485318DEST_PATH_IMAGE008
为平均纹理信息,
Figure 685355DEST_PATH_IMAGE009
为纹理的PCA基,
Figure 583779DEST_PATH_IMAGE010
为纹 理系数。
Figure 869266DEST_PATH_IMAGE011
Figure 12803DEST_PATH_IMAGE012
Figure 67347DEST_PATH_IMAGE013
Figure 903715DEST_PATH_IMAGE014
Figure 676499DEST_PATH_IMAGE015
的获取可以用文献【Li, Tianye and Bolkart, Timo and Black, Michael. J. and Li, Hao and Romero, Javier. Learning a model of facial shape and expression from 4D scans. In ACM Transactions on Graphics, (Proc. SIGGRAPH Asia), 36(6), 2017;T. Karras, S. Laine, and T. Aila. A style- based generator architecture for generative adversarial networks, in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2019, pp. 4401–4410】中的FLAME和FFHQ数据集。投影模型用标准透视投影 表示如下:
Figure 358148DEST_PATH_IMAGE016
其中,
Figure 532777DEST_PATH_IMAGE017
Figure 775933DEST_PATH_IMAGE018
分别是点在图像平面和世界坐标系下的坐标,R是由欧拉角pitchyawroll构造的旋转矩阵,t是平移向量,
Figure 36013DEST_PATH_IMAGE019
是从三维到二维的透视投影映射。
本发明实施例提供一种基于可变形神经辐射场的三维头部模型重建方法,方法流程如图1所示,主要包括以下步骤:
步骤1、对输入视频逐帧进行分割,分割后每帧图像Image包括的要素为:头部区域 和除头部外的背景区域,同时对输入视频逐帧提取68个人脸关键点,根据分割结果和人脸 关键点,对输入视频逐帧拟合参数化模型,参数化模型的系数包括身份、表情、纹理和姿态, 表示为
Figure 521352DEST_PATH_IMAGE020
具体地,输入视频为RGB三通道彩色人体视频。
步骤2、对输入视频逐帧进行语义信息提取,提取后每帧图像Image包括的要素为:头发标签和脸部标签,脸部标签又包括眉毛标签、眼睛标签、鼻子标签、嘴巴标签和其余脸部标签。
步骤3、在参数化模型和语义信息的引导下,在输入视频上利用可变形神经辐射场渲染的方式对刚性注册编码、非刚性形变编码和纹理编码、形变量估计模型、拓扑估计模型、带符号距离场估计模型、颜色估计模型和语义信息估计模型进行优化,从而得到逐帧高质量的三维头部模型。以下详细描述优化过程。
步骤3.1、根据刚性注册编码
Figure 550488DEST_PATH_IMAGE021
建立当前帧所对应的空间和基准空间之间的刚 性注册关系f
Figure 728660DEST_PATH_IMAGE022
其中,
Figure 210456DEST_PATH_IMAGE023
为当前帧所对应的空间中的采样点,c为当前帧所对应的相机 位置,v为视线方向,t为沿视线方向v的采样步长,
Figure 499486DEST_PATH_IMAGE024
Figure 383129DEST_PATH_IMAGE025
分别为刚性注册所对应的旋 转矩阵和平移矩阵;由此本发明实施例可以得到刚性注册后的三维空间点的位置
Figure 230737DEST_PATH_IMAGE026
Figure 199830DEST_PATH_IMAGE027
步骤3.2、将非刚性形变编码
Figure 292551DEST_PATH_IMAGE028
作为条件,利用形变量估计模型
Figure 30700DEST_PATH_IMAGE029
学习非刚性 偏移量
Figure 550674DEST_PATH_IMAGE030
Figure 7063DEST_PATH_IMAGE031
进而得到基准空间下点的位置
Figure 637896DEST_PATH_IMAGE032
Figure 230551DEST_PATH_IMAGE033
其中,
Figure 422891DEST_PATH_IMAGE034
表示形变量估计模型中的可学习参数;
本发明实施例中,形变量估计模型
Figure 507522DEST_PATH_IMAGE035
采用神经网络模型,依次包括输入层、非线性 层、全连接层和输出层。
步骤3.3、将非刚性形变编码
Figure 66679DEST_PATH_IMAGE036
作为条件,利用拓扑估计模型
Figure 513841DEST_PATH_IMAGE037
学习当前帧所 对应的空间到基准空间的拓扑变化特征
Figure 110039DEST_PATH_IMAGE038
Figure 541020DEST_PATH_IMAGE039
其中,
Figure 779234DEST_PATH_IMAGE040
表示拓扑估计模型中的可学习参数;
本发明实施例中,拓扑估计模型
Figure 985963DEST_PATH_IMAGE041
采用神经网络模型,依次包括输入层、非线性 层、全连接层和输出层。
步骤3.4、在拓扑变化特征
Figure 877695DEST_PATH_IMAGE042
的条件下,利用带符号距离场估计模型
Figure 936918DEST_PATH_IMAGE043
学习基准 空间下三维点的带符号距离场
Figure 837878DEST_PATH_IMAGE044
和全局几何性质
Figure 400577DEST_PATH_IMAGE045
Figure 604157DEST_PATH_IMAGE046
其中,
Figure 9730DEST_PATH_IMAGE047
表示带符号距离场估计模型中的可学习参数。
本发明实施例中,带符号距离场估计模型
Figure 102931DEST_PATH_IMAGE048
采用神经网络模型,依次包括输入 层、非线性层、全连接层和输出层。
步骤3.5、以视线方向v、全局几何性质
Figure 644771DEST_PATH_IMAGE049
和纹理编码
Figure 284831DEST_PATH_IMAGE050
作为条件,根据基准空间 下点的位置
Figure 646542DEST_PATH_IMAGE051
和法向n,利用颜色估计模型
Figure 30250DEST_PATH_IMAGE052
学习沿视线方向每个采样点的颜色值RGB
Figure 301962DEST_PATH_IMAGE053
其中,v表示由姿态系数计算得到的视线方向,
Figure 971978DEST_PATH_IMAGE054
表示颜色估计模型中的可学习参 数。
本发明实施例中,颜色估计模型
Figure 820985DEST_PATH_IMAGE055
采用神经网络模型,依次包括输入层、非线性 层、全连接层和输出层。
步骤3.6、根据每个采样点上的带符号距离值计算得到对应的密度
Figure 241340DEST_PATH_IMAGE056
Figure 492193DEST_PATH_IMAGE057
其中,t为沿视线方向的采样步长,
Figure 474055DEST_PATH_IMAGE058
为Sigmoid函数,
Figure 951304DEST_PATH_IMAGE059
为基准空间点
Figure 535869DEST_PATH_IMAGE060
的带符号距离值;依据各个采样点的密度,采用如下积分方式即可得到优化后头部区 域的渲染结果
Figure 782174DEST_PATH_IMAGE061
Figure 793992DEST_PATH_IMAGE062
其中,
Figure 994423DEST_PATH_IMAGE063
表示图像像素点坐标,
Figure 382679DEST_PATH_IMAGE064
Figure 483490DEST_PATH_IMAGE065
分别表示沿视线方向的最远和最近采样 步长,
Figure 666210DEST_PATH_IMAGE066
为基准空间点
Figure 118051DEST_PATH_IMAGE067
在视线方向v下的颜色值,
Figure 44419DEST_PATH_IMAGE068
为透明度函数,
Figure 265315DEST_PATH_IMAGE069
步骤3.7、利用语义信息对上述过程进行引导,本发明实施例以全局几何性质
Figure 618936DEST_PATH_IMAGE070
作为条件,利用语义信息估计模型
Figure 791030DEST_PATH_IMAGE071
学习每个采样点的语义概率
Figure 521088DEST_PATH_IMAGE072
Figure 330912DEST_PATH_IMAGE073
采用如下积分方式即可得到头部区域语义信息的分布情况
Figure 386593DEST_PATH_IMAGE074
Figure 281868DEST_PATH_IMAGE075
其中,
Figure 815617DEST_PATH_IMAGE076
为基准空间点
Figure 479948DEST_PATH_IMAGE077
的语义概率;
本发明实施例中,语义信息估计模型
Figure 706530DEST_PATH_IMAGE078
采用神经网络模型,依次包括输入层、非线 性层、全连接层和输出层。
步骤3.8、利用参数化模型对上述过程进行引导,本发明实施例在参数化模型M上 进行采样,得到采样点
Figure 590566DEST_PATH_IMAGE079
,经过以刚性注册编码
Figure 662427DEST_PATH_IMAGE080
为条件的刚性注册
Figure 712423DEST_PATH_IMAGE081
和以非刚性形变 编码
Figure 578747DEST_PATH_IMAGE082
为条件的形变量估计模型
Figure 714194DEST_PATH_IMAGE083
后得到基准空间下的采样点
Figure 324167DEST_PATH_IMAGE084
;同时,经过以非刚 性形变编码
Figure 494248DEST_PATH_IMAGE085
为条件的拓扑估计模型
Figure 265895DEST_PATH_IMAGE086
后得到拓扑变化特征
Figure 387172DEST_PATH_IMAGE087
。此时,以拓扑变化 特征
Figure 941782DEST_PATH_IMAGE088
作为条件,通过带符号距离场估计模型
Figure 825424DEST_PATH_IMAGE089
对基准空间下的采样点
Figure 33551DEST_PATH_IMAGE090
估计带符号距 离场
Figure 878011DEST_PATH_IMAGE091
和全局几何性质
Figure 829786DEST_PATH_IMAGE092
Figure 708880DEST_PATH_IMAGE093
步骤3.9、经过上述可变形神经辐射场渲染得到的图像
Figure 87909DEST_PATH_IMAGE094
和原图像
Figure 186709DEST_PATH_IMAGE095
一起计算图像 真实度损失函数
Figure 676596DEST_PATH_IMAGE096
Figure 410196DEST_PATH_IMAGE097
其中,WH分别表示输入图像的宽和高;经过交叉熵函数计算估计出的语义信息
Figure 225706DEST_PATH_IMAGE098
与提取出的语义信息L的语义一致性损失函数
Figure 44757DEST_PATH_IMAGE099
Figure 338335DEST_PATH_IMAGE100
其中,
Figure 192022DEST_PATH_IMAGE101
表示交叉熵函数,
Figure 552334DEST_PATH_IMAGE102
为像素点
Figure 983315DEST_PATH_IMAGE103
处提取出的语义信息;经过参 数化模型的带符号距离场计算带符号距离正则损失函数
Figure 955950DEST_PATH_IMAGE104
Figure 523198DEST_PATH_IMAGE105
其中,M表示从原图像中拟合出的参数化模型,
Figure 555876DEST_PATH_IMAGE106
M上的采样点。
根据图像真实度损失函数
Figure 474153DEST_PATH_IMAGE107
、语义一致性损失函数
Figure 984900DEST_PATH_IMAGE108
和带符号距离正则损失 函数
Figure 672234DEST_PATH_IMAGE109
,反向传播更新刚性注册编码
Figure 365559DEST_PATH_IMAGE110
、非刚性形变编码
Figure 771133DEST_PATH_IMAGE111
和纹理编码
Figure 85570DEST_PATH_IMAGE112
、形变量 估计模型
Figure 892989DEST_PATH_IMAGE113
、拓扑估计模型
Figure 267470DEST_PATH_IMAGE114
、带符号距离场估计模型
Figure 894760DEST_PATH_IMAGE115
、颜色估计模型
Figure 747310DEST_PATH_IMAGE116
和语义信息估计 模型
Figure 409235DEST_PATH_IMAGE117
相比于传统的三维头部模型重建方法,本发明具有以下优点:
1)刚性注册编码的使用为不同姿态下的空间对齐提出了一种很自然的解决方案,同时形变量估计模型的使用解决了非刚性形变的问题;
2)用带符号距离场来表示头部几何,解决了参数化模型表达能力不够丰富的问题,提高了三维头部模型重建的精度;
3)基于神经辐射场的渲染方式可以得到与输入图像高度一致的渲染结果;
4)参数化模型和语义信息的使用为优化过程提供了一定的引导,为高质量三维头部模型的重建提供了先验。
与前述基于可变形神经辐射场的三维头部模型重建方法的实施例相对应,本发明还提供了基于可变形神经辐射场的三维头部模型重建装置的实施例。
参见图3,本发明实施例提供的基于可变形神经辐射场的三维头部模型重建装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述实施例中的基于可变形神经辐射场的三维头部模型重建方法。
本发明基于可变形神经辐射场的三维头部模型重建装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本发明基于可变形神经辐射场的三维头部模型重建装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于可变形神经辐射场的三维头部模型重建方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

Claims (10)

1.一种基于可变形神经辐射场的三维头部模型重建方法,其特征在于,包括以下步骤:
S1:对输入视频逐帧进行头部区域分割和人脸关键点检测,逐帧拟合参数化模型;
S2:对输入视频逐帧进行语义信息提取;
S3:在参数化模型和语义信息的引导下,在输入视频上利用可变形神经辐射场渲染的方式对刚性注册编码、非刚性形变编码和纹理编码、形变量估计模型、拓扑估计模型、带符号距离场估计模型、颜色估计模型和语义信息估计模型进行优化,得到逐帧三维头部模型。
2.根据权利要求1所述的基于可变形神经辐射场的三维头部模型重建方法,其特征在于,步骤S1中,根据头部区域分割结果和人脸关键点,对输入视频逐帧拟合参数化模型,所述参数化模型的系数包括身份、表情、纹理和姿态。
3.根据权利要求1所述的基于可变形神经辐射场的三维头部模型重建方法,其特征在于,步骤S2中,逐帧提取的语义信息包括头发标签和脸部标签,所述脸部标签包括眉毛标签、眼睛标签、鼻子标签、嘴巴标签和其余脸部标签。
4.根据权利要求1所述的基于可变形神经辐射场的三维头部模型重建方法,其特征在于,步骤S3包括:
根据刚性注册编码建立当前帧所对应的空间和基准空间之间的刚性注册关系,得到刚性注册后的三维空间点的位置;
将非刚性形变编码作为条件,利用形变量估计模型学习非刚性偏移量,得到基准空间下点的位置;
将非刚性形变编码作为条件,利用拓扑估计模型学习当前帧所对应的空间到基准空间的拓扑变化特征;
在拓扑变化特征的条件下,利用带符号距离场估计模型学习基准空间下点的带符号距离场和全局几何性质;
以视线方向、全局几何性质和纹理编码作为条件,根据基准空间下点的位置和法向,利用颜色估计模型学习沿视线方向每个采样点的颜色值;
根据每个采样点上的带符号距离值计算得到采样点密度,根据采样点密度和颜色值得到头部区域的渲染结果。
5.根据权利要求4所述的基于可变形神经辐射场的三维头部模型重建方法,其特征在于,利用语义信息进行引导,以全局几何性质作为条件,利用语义信息估计模型学习每个采样点的语义概率,根据语义概率和采样点密度得到头部区域语义信息的分布情况。
6.根据权利要求5所述的基于可变形神经辐射场的三维头部模型重建方法,其特征在于,利用参数化模型进行引导,在参数化模型上进行采样,经过以刚性注册编码为条件的刚性注册和以非刚性形变编码为条件的形变量估计模型后得到基准空间下的采样点;经过以非刚性形变编码为条件的拓扑估计模型后得到拓扑变化特征;以拓扑变化特征作为条件,通过带符号距离场估计模型对基准空间下的采样点估计带符号距离场。
7.根据权利要求6所述的基于可变形神经辐射场的三维头部模型重建方法,其特征在于,根据图像真实度损失函数、语义一致性损失函数和带符号距离正则损失函数,反向传播更新刚性注册编码、非刚性形变编码和纹理编码、形变量估计模型、拓扑估计模型、带符号距离场估计模型、颜色估计模型和语义信息估计模型。
8.根据权利要求7所述的基于可变形神经辐射场的三维头部模型重建方法,其特征在于,根据可变形神经辐射场渲染得到的图像和原图像计算图像真实度损失函数;根据交叉熵函数计算估计出的语义信息与提取出的语义信息的语义一致性损失函数;根据参数化模型的带符号距离场计算带符号距离正则损失函数。
9.根据权利要求1所述的基于可变形神经辐射场的三维头部模型重建方法,其特征在于,所述形变量估计模型、拓扑估计模型、带符号距离场估计模型、颜色估计模型和语义信息估计模型均为神经网络模型,均依次包括输入层、非线性层、全连接层和输出层。
10.一种基于可变形神经辐射场的三维头部模型重建装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,用于实现如权利要求1-9中任一项所述的基于可变形神经辐射场的三维头部模型重建方法。
CN202210537880.0A 2022-05-18 2022-05-18 基于可变形神经辐射场的三维头部模型重建方法及装置 Active CN114648613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210537880.0A CN114648613B (zh) 2022-05-18 2022-05-18 基于可变形神经辐射场的三维头部模型重建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210537880.0A CN114648613B (zh) 2022-05-18 2022-05-18 基于可变形神经辐射场的三维头部模型重建方法及装置

Publications (2)

Publication Number Publication Date
CN114648613A true CN114648613A (zh) 2022-06-21
CN114648613B CN114648613B (zh) 2022-08-23

Family

ID=81997108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210537880.0A Active CN114648613B (zh) 2022-05-18 2022-05-18 基于可变形神经辐射场的三维头部模型重建方法及装置

Country Status (1)

Country Link
CN (1) CN114648613B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863037A (zh) * 2022-07-06 2022-08-05 杭州像衍科技有限公司 基于单手机的人体三维建模数据采集与重建方法及系统
CN115049016A (zh) * 2022-07-20 2022-09-13 聚好看科技股份有限公司 基于情绪识别的模型驱动方法及设备
CN115909015A (zh) * 2023-02-15 2023-04-04 苏州浪潮智能科技有限公司 一种可形变神经辐射场网络的构建方法和装置
CN116309983A (zh) * 2023-01-09 2023-06-23 北京百度网讯科技有限公司 虚拟人物模型的训练方法、生成方法、装置和电子设备
CN117011493A (zh) * 2023-10-07 2023-11-07 天度(厦门)科技股份有限公司 基于符号距离函数表示的三维人脸重建方法、装置及设备

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663820A (zh) * 2012-04-28 2012-09-12 清华大学 三维头部模型重建方法
US20140168204A1 (en) * 2012-12-13 2014-06-19 Microsoft Corporation Model based video projection
CN108711185A (zh) * 2018-05-15 2018-10-26 清华大学 联合刚性运动和非刚性形变的三维重建方法及装置
WO2020165557A1 (en) * 2019-02-14 2020-08-20 Huawei Technologies Co., Ltd. 3d face reconstruction system and method
CN112887698A (zh) * 2021-02-04 2021-06-01 中国科学技术大学 基于神经辐射场的高质量人脸语音驱动方法
CN113096144A (zh) * 2021-03-23 2021-07-09 清华大学 基于神经网络的动态人体自由视点视频的生成方法和装置
CN113112592A (zh) * 2021-04-19 2021-07-13 浙江大学 一种可驱动的隐式三维人体表示方法
US20210225073A1 (en) * 2016-04-21 2021-07-22 Alcatel Lucent Method and device for determining a 3d model
US20210248763A1 (en) * 2019-03-26 2021-08-12 Tencent Technology (Shenzhen) Company Limited Three-dimensional object reconstruction method and apparatus
CN113269872A (zh) * 2021-06-01 2021-08-17 广东工业大学 基于三维人脸重构和视频关键帧优化的合成视频生成方法
CN113538659A (zh) * 2021-07-05 2021-10-22 广州虎牙科技有限公司 一种图像生成方法、装置、存储介质及设备
CN113538682A (zh) * 2021-07-19 2021-10-22 北京的卢深视科技有限公司 模型训练、头部重建方法、电子设备及存储介质
CN113592991A (zh) * 2021-08-03 2021-11-02 北京奇艺世纪科技有限公司 一种基于神经辐射场的图像渲染方法、装置及电子设备
CN113628327A (zh) * 2021-08-12 2021-11-09 聚好看科技股份有限公司 一种头部三维重建方法及设备
CN113689540A (zh) * 2021-07-22 2021-11-23 清华大学 基于rgb视频的物体重建方法和装置
CN113744129A (zh) * 2021-09-08 2021-12-03 深圳龙岗智能视听研究院 一种基于语义神经渲染的人脸图像生成方法及系统
US20210390761A1 (en) * 2020-06-15 2021-12-16 Microsoft Technology Licensing, Llc Computing images of dynamic scenes
CN113822969A (zh) * 2021-09-15 2021-12-21 宿迁硅基智能科技有限公司 训练神经辐射场模型和人脸生成方法、装置及服务器
US20220036635A1 (en) * 2020-07-31 2022-02-03 Nvidia Corporation Three-dimensional object reconstruction from a video
CN114332321A (zh) * 2021-11-19 2022-04-12 清华大学 一种基于神经纹理的动态人脸重建方法和装置
WO2022095721A1 (zh) * 2020-11-03 2022-05-12 百果园技术(新加坡)有限公司 参数估算模型的训练方法、装置、设备和存储介质

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663820A (zh) * 2012-04-28 2012-09-12 清华大学 三维头部模型重建方法
US20140168204A1 (en) * 2012-12-13 2014-06-19 Microsoft Corporation Model based video projection
US20210225073A1 (en) * 2016-04-21 2021-07-22 Alcatel Lucent Method and device for determining a 3d model
CN108711185A (zh) * 2018-05-15 2018-10-26 清华大学 联合刚性运动和非刚性形变的三维重建方法及装置
WO2020165557A1 (en) * 2019-02-14 2020-08-20 Huawei Technologies Co., Ltd. 3d face reconstruction system and method
US20210248763A1 (en) * 2019-03-26 2021-08-12 Tencent Technology (Shenzhen) Company Limited Three-dimensional object reconstruction method and apparatus
US20210390761A1 (en) * 2020-06-15 2021-12-16 Microsoft Technology Licensing, Llc Computing images of dynamic scenes
US20220036635A1 (en) * 2020-07-31 2022-02-03 Nvidia Corporation Three-dimensional object reconstruction from a video
WO2022095721A1 (zh) * 2020-11-03 2022-05-12 百果园技术(新加坡)有限公司 参数估算模型的训练方法、装置、设备和存储介质
CN112887698A (zh) * 2021-02-04 2021-06-01 中国科学技术大学 基于神经辐射场的高质量人脸语音驱动方法
CN113096144A (zh) * 2021-03-23 2021-07-09 清华大学 基于神经网络的动态人体自由视点视频的生成方法和装置
CN113112592A (zh) * 2021-04-19 2021-07-13 浙江大学 一种可驱动的隐式三维人体表示方法
CN113269872A (zh) * 2021-06-01 2021-08-17 广东工业大学 基于三维人脸重构和视频关键帧优化的合成视频生成方法
CN113538659A (zh) * 2021-07-05 2021-10-22 广州虎牙科技有限公司 一种图像生成方法、装置、存储介质及设备
CN113538682A (zh) * 2021-07-19 2021-10-22 北京的卢深视科技有限公司 模型训练、头部重建方法、电子设备及存储介质
CN113689540A (zh) * 2021-07-22 2021-11-23 清华大学 基于rgb视频的物体重建方法和装置
CN113592991A (zh) * 2021-08-03 2021-11-02 北京奇艺世纪科技有限公司 一种基于神经辐射场的图像渲染方法、装置及电子设备
CN113628327A (zh) * 2021-08-12 2021-11-09 聚好看科技股份有限公司 一种头部三维重建方法及设备
CN113744129A (zh) * 2021-09-08 2021-12-03 深圳龙岗智能视听研究院 一种基于语义神经渲染的人脸图像生成方法及系统
CN113822969A (zh) * 2021-09-15 2021-12-21 宿迁硅基智能科技有限公司 训练神经辐射场模型和人脸生成方法、装置及服务器
CN114332321A (zh) * 2021-11-19 2022-04-12 清华大学 一种基于神经纹理的动态人脸重建方法和装置

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
KARRAS, T等: "A Style-Based Generator Architecture for Generative Adversarial Networks", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
LI, TIANYE等: "Learning a model of facial shape and expression from 4D scans", 《ACM TRANSACTIONS ON GRAPHICS》 *
PARK, KEUNHONG等: "HyperNeRF: A Higher-Dimensional Representation for Topologically Varying Neural Radiance Fields", 《ACM TRANSACTIONS ON GRAPHICS》 *
PUMAROLA, A等: "D-NeRF: Neural Radiance Fields for Dynamic Scenes", 《2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
YUDONG GUO等: "AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis", 《2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
李明豪: "基于图像的自由视点合成方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
田艳花等: "三维动态模型的非刚性注册技术综述", 《计算机时代》 *
蔡麟等: "基于多视角的高精度三维人脸重建", 《计算机辅助设计与图形学学报》 *
郭玉东: "三维人脸重建及其应用", 《中国博士学位论文全文数据库 (基础科学辑)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863037A (zh) * 2022-07-06 2022-08-05 杭州像衍科技有限公司 基于单手机的人体三维建模数据采集与重建方法及系统
WO2024007478A1 (zh) * 2022-07-06 2024-01-11 杭州像衍科技有限公司 基于单手机的人体三维建模数据采集与重建方法及系统
US12014463B2 (en) 2022-07-06 2024-06-18 Image Derivative Inc. Data acquisition and reconstruction method and system for human body three-dimensional modeling based on single mobile phone
CN115049016A (zh) * 2022-07-20 2022-09-13 聚好看科技股份有限公司 基于情绪识别的模型驱动方法及设备
CN116309983A (zh) * 2023-01-09 2023-06-23 北京百度网讯科技有限公司 虚拟人物模型的训练方法、生成方法、装置和电子设备
CN116309983B (zh) * 2023-01-09 2024-04-09 北京百度网讯科技有限公司 虚拟人物模型的训练方法、生成方法、装置和电子设备
CN115909015A (zh) * 2023-02-15 2023-04-04 苏州浪潮智能科技有限公司 一种可形变神经辐射场网络的构建方法和装置
CN115909015B (zh) * 2023-02-15 2023-05-30 苏州浪潮智能科技有限公司 一种可形变神经辐射场网络的构建方法和装置
CN117011493A (zh) * 2023-10-07 2023-11-07 天度(厦门)科技股份有限公司 基于符号距离函数表示的三维人脸重建方法、装置及设备
CN117011493B (zh) * 2023-10-07 2024-01-16 天度(厦门)科技股份有限公司 基于符号距离函数表示的三维人脸重建方法、装置及设备

Also Published As

Publication number Publication date
CN114648613B (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
CN114648613B (zh) 基于可变形神经辐射场的三维头部模型重建方法及装置
CN111354079B (zh) 三维人脸重建网络训练及虚拟人脸形象生成方法和装置
CN111598998B (zh) 三维虚拟模型重建方法、装置、计算机设备和存储介质
US10679046B1 (en) Machine learning systems and methods of estimating body shape from images
CN111488865B (zh) 图像优化方法、装置、计算机存储介质以及电子设备
CN111325851A (zh) 图像处理方法及装置、电子设备和计算机可读存储介质
Zhong et al. Towards practical sketch-based 3d shape generation: The role of professional sketches
US20230081982A1 (en) Image processing method and apparatus, computer device, storage medium, and computer program product
CN112530019A (zh) 三维人体重建方法、装置、计算机设备和存储介质
WO2023020358A1 (zh) 面部图像处理方法、面部图像处理模型的训练方法、装置、设备、存储介质及程序产品
KR20220117324A (ko) 다양한 초상화들로부터 학습 조명
Li et al. Detailed 3D human body reconstruction from multi-view images combining voxel super-resolution and learned implicit representation
CN115880415A (zh) 三维重建方法、装置、电子设备及存储介质
CN111754622B (zh) 脸部三维图像生成方法及相关设备
CN111402403B (zh) 高精度三维人脸重建方法
CN111553838A (zh) 模型参数的更新方法、装置、设备及存储介质
US11961266B2 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
CN117218246A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
Zhang et al. Deep learning-based real-time 3D human pose estimation
CN117635897B (zh) 三维对象的姿态补全方法、装置、设备、存储介质及产品
WO2022208440A1 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
Hu et al. Face reenactment via generative landmark guidance
Manfredi et al. Treesketchnet: From sketch to 3d tree parameters generation
Purps et al. Reconstructing facial expressions of hmd users for avatars in vr
CN114049678B (zh) 一种基于深度学习的面部动作捕捉方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant