CN116071494A - 基于隐式神经函数的高保真三维人脸重建与生成方法 - Google Patents
基于隐式神经函数的高保真三维人脸重建与生成方法 Download PDFInfo
- Publication number
- CN116071494A CN116071494A CN202211666157.9A CN202211666157A CN116071494A CN 116071494 A CN116071494 A CN 116071494A CN 202211666157 A CN202211666157 A CN 202211666157A CN 116071494 A CN116071494 A CN 116071494A
- Authority
- CN
- China
- Prior art keywords
- face
- semantic
- training
- loss
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/60—Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种基于隐式神经函数的高保真三维人脸重建与生成方法,该方法提出一种可语义解耦编辑的高保真参数化人脸模型,同时引入新的身份、表情表示及语义分割网络。该方法借助隐式神经表示,可以对人脸细节、困难表情和大角度相机位姿进行高保真重建和合成,从而使得生成的人脸图片拥有很好的真实感和清晰度。
Description
技术领域
本发明涉及三维人脸重建与生成技术,尤其涉及一种基于隐式神经函数的高保真三维人脸重建与生成方法。
背景技术
随着数字人时代的到来,人们渴望在社交平台、线上虚拟平台等拥有自己的数字人分身。高保真的人脸重建和生成由此应运而生。人们希望自己的人脸重建具有高保真、高真实感和高清晰度,同时可以对人脸各个属性进行解耦地编辑。此外,生成的人脸需要可以在各个相机位姿下保持视角一致性,同时不会在视角变换时出现毛发粘连现象。
近年来,以英伟达为代表的科研组织提出了具有高清晰度生成质量的人脸生成模型,任给随机数种子,这些模型生成的人脸具有较好的真实感和视角一致性。然而,这些模型的可语义编辑性较弱,只能简单地变换相机位姿,而无法对身份、光照等人脸属性进行解耦编辑。同时,当输入单张人脸图片并借助这些模型进行GAN逆向变换,从而进行人脸重建时,重建出的人脸不能很好地学出身份和表情,清晰度不够理想,同时生成的人脸在变换相机位姿时也无法很好地保持视角一致性,人脸的身份和表情会随视角变换而变化。
最近,具有代表性的人脸重建模型为HeadNeRF,它主要由体渲染模块和2D神经渲染上采样模块构成。HeadNeRF具有一定的语义可编辑性,但重建出的人脸图片清晰度和真实感较差,有图片泛白、头发、眼部和牙齿模糊等现象,同时对困难表情的重建及大角度相机位姿的新视角重建效果都较为不理想。这是因为HeadNeRF的上采样结构设计不够合理,网络中包含明显的走样信息干扰,同时不能保持网络的平移和旋转不变性。同时,由于HeadNeRF直接采用3DMM的身份和表情向量作为身份和表情的隐码输入,而3DMM对身份和表情的表达能力不够理想,在多身份、多表情的训练数据下,无法很好地对人脸细节和困难表情高保真地重建。
此外,人脸生成和人脸重建模型生成的人脸,在改变相机位姿时,都会有毛发和牙齿闪烁的问题,即毛发粘连问题。这影响了生成人脸的真实感,也是困扰人脸生成领域的现象。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于隐式神经函数的高保真三维人脸重建与生成方法。本发明设计了一种可语义解耦编辑的高保真参数化人脸模型,通过引入一种新的人脸身份和表情表示,具有旋转和平移不变性的上采样模块以及语义分割网络,本发明生成的人脸可以避免毛发粘连问题,具有很好的真实感和清晰度,同时本发明可以对人脸细节、困难表情进行高保真重建,同时清晰地合成大角度新视角人脸。
本发明的目的是通过以下技术方案实现的:一种基于隐式神经函数的高保真三维人脸重建与生成方法,该方法包括以下步骤:
S1,根据人脸单目视频数据集和单张人脸数据集构建训练集,对训练集中的训练数据进行预处理;
S2,对训练集中任意人脸图片,将其输入可语义编辑的参数化人脸模型中,生成对应的渲染RGB图像和渲染语义分割图;
所述参数化人脸模型由RGB网络和语义网络组成;所述RGB网络和语义网络均包括体渲染模块和上采样模块;
所述体渲染模块中,给定带有关键点标注的单张人脸图片或单目视频序列,沿着相机光线采样,对采样点进行位置编码,将采样点位置编码以及输入人脸语义隐码作为基于多层感知器的隐式神经函数的输入,输出密度值及一个高维特征,借助体渲染生成特征图;所述语义隐码包括身份隐码、表情隐码、纹理隐码和光照隐码;
所述RGB网络的上采样模块Θ中,将特征图作为上采样模块Θ的输入,同时将语义隐码输入基于多层感知器的映射网络,将映射网络的输出作为风格隐码输入上采样模块Θ的每一层子网络,输出RGB图像;
所述语义网络的上采样模块Ψ中,将特征图输入基于HeadNeRF的2D神经渲染模块得到的上采样模块Ψ,输出语义分割图;
S3,利用训练集训练参数化人脸模型,所述参数化人脸模型的模型参数和语义隐码均参与优化;
S4,利用训练好的参数化人脸模型对测试图片进行新视角合成、可解耦语义编辑、表情迁移应用。
进一步地,步骤S1中,采用关键点标注算法InsightFace对训练数据中的人脸进行关键点标注;采用一欧元滤波算法减轻单目视频帧间的标注抖动。
进一步地,所述体渲染模块中,利用人脸追踪算法并基于三维可变形人脸模型3DMM来逆向优化出输入人脸的3DMM信息,提取出其中的纹理向量和光照向量分别作为纹理隐码和光照隐码的初始化;基于MagFace预训练一个人脸识别网络,推断出身份特征作为身份隐码。
进一步地,所述体渲染模块中,利用人脸的语义隐码和标注的k点关键点生成对应的人脸网格,抽取出基准空间的k×3维3D关键点,对3D关键点进行标准化,并将其作为新的表情表示。
进一步地,所述体渲染模块中,将身份隐码、表情隐码和采样点位置编码一起输入隐式神经函数,同时,将身份隐码再一次输入2n层多层感知器的第n+1层全连接层;利用身份隐码、表情隐码和采样点位置编码预测出采样点的密度值和一个中间特征;纹理隐码和光照隐码将在此基础上预测出一个高维特征,继而借助体渲染生成特征图。
进一步地,所述语义网络的上采样模块Ψ中,对HeadNeRF的2D神经渲染模块加入降噪滤波层,降噪滤波层采用RDN网络,用于有效滤除人脸上的噪点。
进一步地,所述参数化人脸模型的损失函数包括像素损失、解耦损失、感知损失、语义损失和分布损失;
进一步地,所述参数化人脸模型的训练过程中,先用Ψ代替Θ,并且用训练集中随机选取地部分人脸图片来预训练替换后的参数化人脸模型,接着,将RGB网络中的Ψ替换为Θ;
将正式的训练分为三个阶段,在第一阶段,将随机的傅里叶特征输入Θ,同时,用均方误差来约束和之间的分布差异;在第二阶段,用替换并且将前者输入Θ中;在训练的前两阶段,固定预训练的Θ的模型参数,避免其被训练中相对大的噪声干扰,在第三阶段,让上采样模块Θ的模型参数开始自由变化,使得参数化人脸模型能够有效学习人脸的细节和困难表情。
进一步地,在训练的第一阶段,将分布损失的权重调得相对较大,并将分布损失作为损失函数的主体,而在接下来的两个训练阶段,降低分布损失的权重并让参数化人脸模型的注意力集中在学习输入图片的人脸信息上。
由上述本发明提供的技术方案可以看出,本发明的有益效果是:
1)通过提出一种可语义解耦编辑的参数化人脸模型,引入新的身份和表情表示以及语义分割网络,可以对人脸细节、困难表情进行高保真重建,清晰地合成大角度新视角人脸。
2)通过本发明设计的新的可编辑参数化人脸模型,可以解耦地对生成的人脸进行属性编辑,使得模型在人脸表情迁移、人脸风格化中都有丰富的应用。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种可编辑参数化人脸模型的网络结构图;
图2为本发明实施例提供的模型所生成人脸图片视角一致性示例图;
图3、图4、图5、图6为本发明实施例提供的模型所生成人脸图片可语义解耦编辑示例图;
图7为本发明实施例提供的模型进行大角度相机位姿合成定性对比示意图;
图8为本发明实施例提供的模型和HeadNeRF重建结果定性对比示意图;
图9为本发明实施例提供的模型和目前最佳的人脸生成模型重建结果定性对比示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种基于隐式神经函数的高保真三维人脸重建与生成方法,包括以下步骤:
步骤1、根据收集的高清人脸单目视频数据集和高清单张人脸数据集构建训练集,对训练集中的训练数据进行预处理。
本发明实施例采用关键点标注算法InsightFace对训练数据中的人脸进行关键点标注。此外,由于现有算法对单目视频的标注会出现明显的帧间抖动现象,因此本发明实施例采用一欧元滤波算法,有限减轻了帧间的标注抖动,保证训练的稳定性。
步骤2、如图1所示,对训练集中任意人脸图片,将其输入可语义编辑的参数化人脸模型中,生成对应的渲染RGB图像和渲染语义分割图。本步骤具体的网络结构和模型表示如下:
将本发明设计的可语义编辑的参数化人脸模型记为HeadNeRF V2,它由两个平行的网络组成,分别为RGB网络记为RGBNet和语义网络记为SemanticNet。
其中,θ代表网络参数,z*代表输入人脸的语义隐码:身份隐码zid,表情隐码zlm,纹理隐码zalb和光照隐码zill,记z=(zid,zlm,zalb,zill),其中括号表示向量的拼接。本实施例中,
利用人脸追踪算法并基于三维可变形人脸模型3DMM来逆向优化出输入人脸的3DMM信息,提取出其中的纹理和光照向量作为zalb和zill的初始化。在体渲染模块的语义隐码输入初始化阶段,为了弥补3DMM的身份向量对人脸身份表达能力不足的问题,即该向量无法表达人脸的牙齿和头发等细节,本实施例基于MagFace预训练了一个人脸识别网络,推断出一个128维的身份特征作为zid,增强了可学习隐码对大量身份的表达能力。
如步骤1中所述,为了在训练阶段使用大量数据,增加模型的可泛化性,本发明不采用人工标注的关键点数据作为训练集。取而代之,利用目前最佳的关键点标注算法InsghtFace对单目视频和单张人脸图片进行关键点标注。接着,利用人脸的语义隐码和标注的k点关键点生成对应的人脸网格,抽取出基准空间的k×3维3D关键点,本实施例中k取68。特别地,本发明在3D关键点参与相机参数变换前将其抽出,从而保证其不包含相机参数的信息,使得其与相机参数自然地解耦。本发明对3D关键点进行标准化,并将其作为新的表情表示,即
此外,对于体渲染模块,本发明将zid和zlm与γ(x)一起输入hθ。同时,将zid再一次输入2n层多层感知器的第n+1层全连接层(对于八层多层感知器,输入第五层全连接层),使得模型可以更好地学到身份信息。接着,利用zid,zlm和γ(x)预测出x的密度值σ和一个中间特征。zalb和zill将在此基础上预测出一个高维特征F(x)。继而借助体渲染生成特征图其中,r(t)代表从相机中心射出的一条光线。为了区分RGBNet和SemanticNet中的体渲染模块,分别用Φi,i∈{1,2}来表示它们,即Φ1表示RGBNet的体渲染模块,Φ2表示SemanticNet的体渲染模块,并用表示对应的特征图。
接着,介绍RGBNet的上采样模块Θ。将特征图作为上采样模块Θ的输入,同时将z输入基于多层感知器的映射网络M并将其映射到512维,记为w。接着将w作为风格隐码输入上采样模块Θ的每一层子网络,引导参数化人脸模型HeadNeRF V2去有效学习人脸细节信息。在图像信号经过上采样模块Θ之后,特征图被转换为了分辨率为1024的RGB图像,记为I1。
对于SemanticNet,由于相对于RGB图片,语义分割图不包含太多的高频信息,因此不需要像RGBNet的上采样模块Θ这样精细的结构。取而代之,在得到特征图后,将其输入到基于HeadNeRF的2D神经渲染模块得到的上采样模块Ψ中,得到相应的分辨率为1024的语义分割图I2。优选地,对HeadNeRF的2D神经渲染模块加入降噪滤波层,降噪滤波层采用RDN网络,可以将人脸上的噪点有效滤除。SemanticNet的加入不仅增强了参数化人脸模型HeadNeRF V2对人脸语义信息的学习,也纠正了I1和真实RGB图片之间的误差,加速了模型的学习。
此外,由于输入参数化人脸模型的语义隐码z是可学习的,因此它作为RGBNet和SemanticNet之间的桥梁来传递网络之间的人脸信息。
步骤3、本发明实施例中,参数化人脸模型HeadNeRF V2的模型参数和语义隐码zid,zlm,zalb,zill都参与优化。本发明精心设计了有利于HeadNeRF V2训练的损失函数,并将其叙述如下:
(1)像素损失:
本发明实施例的像素损失可以用公式表达为:
(2)解耦损失:
本发明实施例的解耦损失可以帮助语义隐码,即身份、表情、纹理和光照进行良好地解耦。本发明实施例的解耦损失可以用公式表达为:
(3)感知损失:
(4)语义损失:
本发明实施例的语义损失可以优化可学习的隐码z,而z的变化将会调节RGB图像I1,从而帮助RGBNet学习人脸语义信息以及细微表情,加速模型的训练。本发明实施例的语义损失可以用公式表达为:
(5)分布损失:
本发明实施例的分布损失对上采样模块Θ的训练十分关键。只有使RGBNet的体渲染模块生成的特征图的分布学到预训练的上采样模块Θ的输入分布上采样模块Θ才能避免信号干扰,发挥其强大的生成能力。本发明实施例的分布损失可以用公式表达为:
其中,是正确的上采样模块Θ的输入分布。本发明将正式的训练分为三个阶段,在阶段一,将分布损失的权重wdist调得相对较大,并将分布损失作为损失函数的主体,而在接下来的两个训练阶段,降低权重wdist并让参数化人脸模型HeadNeRF V2的注意力集中在学习输入图片的人脸信息上。将在步骤4中具体描述上述三个训练阶段。
(6)总体损失:
实验表明,本发明实施例的最优损失函数组合为:
其中,w*代表平衡各项损失的权重,而将wsem调得适当小使得模型可以更集中于学习RGB图像的高频信息。
参数化人脸模型HeadNeRF V2的损失函数设计很好地保证了其对困难表情、人脸细节和可编辑语义属性的学习。
步骤4、本发明实施例中,RGBNet的上采样模块Θ在预训练时的输入分布服从一个特定的分布,例如可以服从傅里叶分布,从而保证网络的平移和旋转不变性。然而,和的分布差异很大,因此直接用前者代替后者输入上采样模块只能生成充满噪声块的图片。因此,本发明精心地设计训练策略来使上采样模块可以发挥其优势。
本发明先用Ψ代替Θ,并且用训练集中随机选取地部分人脸图片来预训练替换后的参数化人脸模型,这样Φi,i∈{1,2}可以学到神经辐射场的特征分布。接着,将RGBNet中的Ψ替换为Θ。
本发明将正式的训练分为三个阶段。在第一阶段,将随机的傅里叶特征输入Θ,而不是直接将输入其中,同时,用均方误差来约束和之间的分布差异。在第二阶段,用替换并且将前者输入Θ中。本发明用特殊的替换方法来保证训练的稳定性。在这一阶段,由于的引导,参数化人脸模型HeadNeRF V2可以学得控制相机位姿和人脸语义属性的能力。
在训练的前两阶段,固定预训练的Θ的模型参数,避免其被训练中相对大的噪声干扰。而在第三阶段,让上采样模块Θ的模型参数开始自由变化,使得参数化人脸模型HeadNeRF V2可以有效学习人脸的细节和困难表情。
得益于预训练的Θ和输入Θ的语义隐码z中蕴含的先验人脸信息的帮助,参数化人脸模型HeadNeRF V2生成的人脸图片具有很高的真实感和清晰度。
步骤5、本发明实施例在参数化人脸模型HeadNeRF V2训练完成后,可以对测试图片进行新视角合成、可解耦语义编辑以及表情迁移应用。
如附图2所示,我们展示HeadNeRF V2对相机位姿的解耦控制及合成的新视角图片的视角一致性。借助预训练的HeadNeRF V2,我们对输入的测试图片进行重建,并且通过改变相机位姿生成新视角的图片。从图中可以看出,我们的新视角图片在各个相机位姿下都有很好的视角一致性。同时,我们的相机位姿编辑不会影响身份、表情等人脸属性,说明前者和人脸属性可以很好地解耦。
如附图3所示,我们首先对两侧的人脸进行重建,接着对他们的身份隐码进行插值,中间的生成结果则是我们连续变换身份隐码并输入HeadNeRF V2后得到的新身份人脸图片。
如附图4、5、6所示,最左侧的人脸为我们随机输入HeadNeRF V2的测试图片重建得到的结果,我们分别任意给定一个目标纹理、表情、光照隐码,类似地,借助预训练的HeadNeRF V2,我们可以对重建的人脸进行连续的纹理、表情和光照编辑。我们对身份、表情等属性的单独编辑不会改变人脸的其它属性,这展示了HeadNeRF V2语义编辑的良好解耦性。
如附图7所示,我们对比了HeadNeRF V2和目前最佳的人脸生成模型对大角度相机位姿人脸的合成结果,可以看到GAN-Control生成的人脸会有面部轮廓黑线、悬浮镜框等不自然的人脸细节,而HeadNeRF V2则可以自然地合成大角度新视角人脸,验证了模型的稳定性。
如附图8所示,我们任意输入测试图片并和HeadNeRF对比重建结果,可以看到HeadNeRF重建的人脸模糊且有泛白现象,同时无法对细微表情和眼镜等很好地进行还原,而HeadNeRF V2的重建结果则清晰而高保真。
如附图9所示,我们和目前最佳的几个人脸生成模型进行了人脸重建结果的对比。可以看到,EG3D等模型重建的结果在视角一致性和困难表情的重建上效果不够理想,改变相机位姿会影响身份,而HeadNeRF V2则可以高保真地重建人脸并保持视角一致性。
我们定量地将HeadNeRF V2生成图片的FID值与目前最佳的人脸重建和人脸生成模型进行对比,如表1所示,可以看到,我们的结果仅次于EF3D。但后者无法进行语义编辑,只能较小角度地调节相机位姿且训练数据分布稳定,而我们在计算HeadNeRF V2的FID值时出于公平起见进行了简单的双线性下采样,这导致了图像信息的损失从而造成FID值比真实值高。
表1HeadNeRF V2和其他人脸生成及重建模型的重建结果定量对比表
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (9)
1.一种基于隐式神经函数的高保真三维人脸重建与生成方法,其特征在于,包括以下步骤:
S1,根据人脸单目视频数据集和单张人脸数据集构建训练集,对训练集中的训练数据进行预处理;
S2,对训练集中任意人脸图片,将其输入可语义编辑的参数化人脸模型中,生成对应的渲染RGB图像和渲染语义分割图;
所述参数化人脸模型由RGB网络和语义网络组成;所述RGB网络和语义网络均包括体渲染模块和上采样模块;
所述体渲染模块中,给定带有关键点标注的单张人脸图片或单目视频序列,沿着相机光线采样,对采样点进行位置编码,将采样点位置编码以及输入人脸语义隐码作为基于多层感知器的隐式神经函数的输入,输出密度值及一个高维特征,借助体渲染生成特征图;所述语义隐码包括身份隐码、表情隐码、纹理隐码和光照隐码;
所述RGB网络的上采样模块Θ中,将特征图作为上采样模块Θ的输入,同时将语义隐码输入基于多层感知器的映射网络,将映射网络的输出作为风格隐码输入上采样模块Θ的每一层子网络,输出RGB图像;
所述语义网络的上采样模块Ψ中,将特征图输入基于HeadNeRF的2D神经渲染模块得到的上采样模块Ψ,输出语义分割图;
S3,利用训练集训练参数化人脸模型,所述参数化人脸模型的模型参数和语义隐码均参与优化;
S4,利用训练好的参数化人脸模型对测试图片进行新视角合成、可解耦语义编辑、表情迁移应用。
2.根据权利要求1所述的一种基于隐式神经函数的高保真三维人脸重建与生成方法,其特征在于,步骤S1中,采用关键点标注算法InsightFace对训练数据中的人脸进行关键点标注;采用一欧元滤波算法减轻单目视频帧间的标注抖动。
3.根据权利要求1所述的一种基于隐式神经函数的高保真三维人脸重建与生成方法,其特征在于,所述体渲染模块中,利用人脸追踪算法并基于三维可变形人脸模型3DMM来逆向优化出输入人脸的3DMM信息,提取出其中的纹理向量和光照向量分别作为纹理隐码和光照隐码的初始化;基于MagFace预训练一个人脸识别网络,推断出身份特征作为身份隐码。
4.根据权利要求1所述的一种基于隐式神经函数的高保真三维人脸重建与生成方法,其特征在于,所述体渲染模块中,利用人脸的语义隐码和标注的k点关键点生成对应的人脸网格,抽取出基准空间的k×3维3D关键点,对3D关键点进行标准化,并将其作为新的表情表示。
5.根据权利要求1所述的一种基于隐式神经函数的高保真三维人脸重建与生成方法,其特征在于,所述体渲染模块中,将身份隐码、表情隐码和采样点位置编码一起输入隐式神经函数,同时,将身份隐码再一次输入2n层多层感知器的第n+1层全连接层;利用身份隐码、表情隐码和采样点位置编码预测出采样点的密度值和一个中间特征;纹理隐码和光照隐码将在此基础上预测出一个高维特征,继而借助体渲染生成特征图。
6.根据权利要求1所述的一种基于隐式神经函数的高保真三维人脸重建与生成方法,其特征在于,所述语义网络的上采样模块Ψ中,对HeadNeRF的2D神经渲染模块加入降噪滤波层,降噪滤波层采用RDN网络,用于有效滤除人脸上的噪点。
9.根据权利要求8所述的一种基于隐式神经函数的高保真三维人脸重建与生成方法,其特征在于,在训练的第一阶段,将分布损失的权重调得相对较大,并将分布损失作为损失函数的主体,而在接下来的两个训练阶段,降低分布损失的权重并让参数化人脸模型的注意力集中在学习输入图片的人脸信息上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211666157.9A CN116071494A (zh) | 2022-12-23 | 2022-12-23 | 基于隐式神经函数的高保真三维人脸重建与生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211666157.9A CN116071494A (zh) | 2022-12-23 | 2022-12-23 | 基于隐式神经函数的高保真三维人脸重建与生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116071494A true CN116071494A (zh) | 2023-05-05 |
Family
ID=86183082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211666157.9A Pending CN116071494A (zh) | 2022-12-23 | 2022-12-23 | 基于隐式神经函数的高保真三维人脸重建与生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116071494A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117011493A (zh) * | 2023-10-07 | 2023-11-07 | 天度(厦门)科技股份有限公司 | 基于符号距离函数表示的三维人脸重建方法、装置及设备 |
CN117218499A (zh) * | 2023-09-29 | 2023-12-12 | 北京百度网讯科技有限公司 | 面部表情捕捉模型的训练方法、面部表情驱动方法和装置 |
CN117422829A (zh) * | 2023-10-24 | 2024-01-19 | 南京航空航天大学 | 一种基于神经辐射场的人脸图像合成优化方法 |
CN117853638A (zh) * | 2024-03-07 | 2024-04-09 | 厦门大学 | 基于文本驱动的端到端的3d人脸快速生成与编辑方法 |
-
2022
- 2022-12-23 CN CN202211666157.9A patent/CN116071494A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117218499A (zh) * | 2023-09-29 | 2023-12-12 | 北京百度网讯科技有限公司 | 面部表情捕捉模型的训练方法、面部表情驱动方法和装置 |
CN117011493A (zh) * | 2023-10-07 | 2023-11-07 | 天度(厦门)科技股份有限公司 | 基于符号距离函数表示的三维人脸重建方法、装置及设备 |
CN117011493B (zh) * | 2023-10-07 | 2024-01-16 | 天度(厦门)科技股份有限公司 | 基于符号距离函数表示的三维人脸重建方法、装置及设备 |
CN117422829A (zh) * | 2023-10-24 | 2024-01-19 | 南京航空航天大学 | 一种基于神经辐射场的人脸图像合成优化方法 |
CN117853638A (zh) * | 2024-03-07 | 2024-04-09 | 厦门大学 | 基于文本驱动的端到端的3d人脸快速生成与编辑方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116071494A (zh) | 基于隐式神经函数的高保真三维人脸重建与生成方法 | |
US11087521B1 (en) | Systems and methods for rendering avatars with deep appearance models | |
Xiao et al. | Deepfocus: Learned image synthesis for computational display | |
CN113240792B (zh) | 一种基于人脸重建的图像融合生成式换脸方法 | |
CN110728219A (zh) | 基于多列多尺度图卷积神经网络的3d人脸生成方法 | |
CN111783658B (zh) | 基于双生成对抗网络的两阶段表情动画生成方法 | |
CN110570377A (zh) | 一种基于组归一化的快速图像风格迁移方法 | |
Panetta et al. | Tmo-net: A parameter-free tone mapping operator using generative adversarial network, and performance benchmarking on large scale hdr dataset | |
CN115170559A (zh) | 基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法 | |
CN115409937A (zh) | 基于集成神经辐射场的人脸视频表情迁移模型构建方法及表情迁移方法和系统 | |
CN108924528B (zh) | 一种基于深度学习的双目风格化实时渲染方法 | |
DE102021109050A1 (de) | Durch ein neuronales generative adversarial netzwerk unterstützte videokompression und -übertragung | |
CN115393480A (zh) | 基于动态神经纹理的说话人合成方法、装置和存储介质 | |
Liu et al. | Facial image inpainting using multi-level generative network | |
CN112991484B (zh) | 智能人脸编辑方法、装置、存储介质及设备 | |
CN114862697A (zh) | 一种基于三维分解的人脸盲修复方法 | |
CN117689592A (zh) | 一种基于级联自适应网络的水下图像增强方法 | |
CN116825127A (zh) | 基于神经场的语音驱动数字人生成方法 | |
US20230319223A1 (en) | Method and system for deep learning based face swapping with multiple encoders | |
DE102021109501A1 (de) | Durch erzeugendes gegnerisches neuronales netzwerk unterstützte videorekonstruktion | |
US20230316587A1 (en) | Method and system for latent-space facial feature editing in deep learning based face swapping | |
CN116958451B (zh) | 模型处理、图像生成方法、装置、计算机设备和存储介质 | |
CN115994966B (zh) | 多视角图像生成方法、装置、可读存储介质及电子设备 | |
Wang et al. | Uncouple generative adversarial networks for transferring stylized portraits to realistic faces | |
CN117152825B (zh) | 基于单张图片人脸重建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |