CN114782610A - 一种结合神经纹理的可操控3d人脸重建方法及系统 - Google Patents
一种结合神经纹理的可操控3d人脸重建方法及系统 Download PDFInfo
- Publication number
- CN114782610A CN114782610A CN202210440730.8A CN202210440730A CN114782610A CN 114782610 A CN114782610 A CN 114782610A CN 202210440730 A CN202210440730 A CN 202210440730A CN 114782610 A CN114782610 A CN 114782610A
- Authority
- CN
- China
- Prior art keywords
- human face
- model
- face
- linear
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/04—Texture mapping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种结合神经纹理的可操控3D人脸重建方法及系统,采集用户面部视频,所述视频包含自然的头部运动和面部表情变化,对所述视频进行抽帧获取多张图片,构建训练集;将获取的多张图片输入至预先构建的深度神经网络模型对模型进行训练,并利用训练后的深度神经网络模型预测得到线性人脸模型参数,所述线性人脸模型参数包括3D人脸几何形状参数和3D人脸贴图参数;将得到的线性人脸模型参数输入至预先构建的人脸线性参数化模型,所述人脸线性参数化模型包括3D人脸几何形状和3D人脸贴图,得到重建的人脸3D几何形状模型以及对应的人脸贴图。其结果可以被主流渲染引擎兼容、并且通过引入神经纹理,使得渲染结果更加逼真。
Description
技术领域
本发明涉及3D人脸重建技术领域,具体涉及一种结合神经纹理的可操控 3D人脸重建方法及系统。
背景技术
3D人脸重建是一个非常重要的计算机视觉任务,得到了广泛研究和应用。 数字化身生成包含众多技术环节,包括人脸重建、身体重建、声音重建等等, 其中人脸重建的发展较为成熟,人脸重建任务的重点,除了制作外形逼真的 3D模型之外,还包括非刚性运动的参数化建模,以控制和模拟面部的复杂表 情。市面已有的方法包括,借助采集系统(包括单目相机、深度相机、相机阵 列等)完成3D人脸模型的自动化、半自动化重建,但需要人工介入进行所谓 的RIG操作,也即骨骼/控制点绑定,以便于在后续的3D处理和渲染软件中 通过线性蒙皮算法(简称LBS),进行参数化控制,整个过程还无法实现全自 动化,因而限制了该服务的产能;还有一些基于统计的AI模型,例如BFM、 FLAME、FaceScape等,通过构建大规模人脸3D扫描数据,训练了可用的 3DMM模型,可以通过单张或多张图片进行参数估计,可以实现人脸的自动 化3D建模,但是一方面,重建后渲染输出的逼真度有限,另一方面,这些AI化的参数与主流的渲染引擎,例如U3D、UE4无法实现兼容,难以被程序 化自动操控。
发明内容
为此,本发明提供一种结合神经纹理的可操控3D人脸重建方法及系统, 以解决现有3D人脸重建存在的无法与主流的渲染引擎兼容、渲染输出的逼真 度有限、无法实现全自动化的问题。
为了实现上述目的,本发明提供如下技术方案:
根据本发明实施例的第一方面,提出了一种结合神经纹理的可操控3D人 脸重建方法,所述方法包括:
采集用户面部视频,所述视频包含自然的头部运动和面部表情变化,对所 述视频进行抽帧获取多张图片,构建训练集;
将获取的多张图片输入至预先构建的深度神经网络模型对模型进行训练, 并利用训练后的深度神经网络模型预测得到线性人脸模型参数,所述线性人脸 模型参数包括3D人脸几何形状参数和3D人脸贴图参数;
将得到的线性人脸模型参数输入至预先构建的人脸线性参数化模型,所述 人脸线性参数化模型包括3D人脸几何形状和3D人脸贴图,得到重建的人脸 3D几何形状模型以及对应的人脸贴图。
进一步地,所述方法还包括:基于人脸线性参数化表示,将人脸的形状、 表情、外观分别表示为100维、50维、50维子空间,构建人脸线性参数化模 型:
分别用S和A表示人脸的3D几何形状和外观:
进一步地,所述方法还包括:构建深度神经网络模型,具体为:
所述深度神经网络模型包括第一编码器、解码器、神经纹理编码器以及渲 染器;
所述第一编码器的输入为图像{Ii,i=1~N},N为抽帧的图像数,输出为线 性人脸模型参数{βi,i=1~100}、{δi,i=1~50}、{αi,i=1~50};
所述解码器包括第一解码器和第二解码器,所述第一解码器的输入为参数βi,i=1~100}、{δi,i=1~50},输出为3D人脸几何形状S,第二解码器的输入为参 数{αi,i=1~50},输出为3D人脸贴图A;
所述神经纹理编码器输入为3D人脸贴图A,输出为神经纹理{Ti,i=1~M}, 共计M个神经纹理;
进一步地,所述方法还包括:
定义目标损失函数如下:
L=L1+εL2
根据所述目标损失函数对深度神经网络模型进行训练直至模型收敛。
进一步地,所述方法还包括:
制作中性表情模型M0,对应δi,i=1~50=0;选择Mi,i=1~15,对应δi,i=1~15= 4;以及Mi,i=16~30,对应δi,i=1~15=-4;将M1~M30共计30个3D模型,通过 FBX SDK分别绑定到M0的30个变形通道上,输出为FBX文件,其中表情模 型M是对S和A中的权重系数取特定的值,将贴图A绑定到顶点S上后获得 的一个3D模型。
根据本发明实施例的第二方面,提出了一种结合神经纹理的可操控3D人 脸重建系统,所述系统包括:
图片获取模块,用于采集用户面部视频,所述视频包含自然的头部运动和 面部表情变化,对所述视频进行抽帧获取多张图片;
人脸重建模块,用于将获取的多张图片输入至预先构建的深度神经网络模 型对模型进行训练,并利用训练后的深度神经网络模型预测得到线性人脸模型 参数,所述线性人脸模型参数包括3D人脸几何形状参数和3D人脸贴图参数;
将得到的线性人脸模型参数输入至预先构建的人脸线性参数化模型,所述 人脸线性参数化模型包括3D人脸几何形状和3D人脸贴图,得到重建的人脸 3D模型以及对应的人脸贴图。
本发明具有如下优点:
本发明提出的一种结合神经纹理的可操控3D人脸重建方法及系统,采集 用户面部视频,所述视频包含自然的头部运动和面部表情变化,对所述视频进 行抽帧获取多张图片,构建训练集;将获取的多张图片输入至预先构建的深度 神经网络模型对模型进行训练,并利用训练后的深度神经网络模型预测得到线 性人脸模型参数,所述线性人脸模型参数包括3D人脸几何形状参数和3D人 脸贴图参数;将得到的线性人脸模型参数输入至预先构建的人脸线性参数化模 型,所述人脸线性参数化模型包括3D人脸几何形状和3D人脸贴图,得到重 建的人脸3D几何形状模型以及对应的人脸贴图。其结果可以被主流渲染引擎兼容、并且通过引入神经纹理,使得渲染结果更加逼真。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对 实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下 面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创 造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例1提供的一种结合神经纹理的可操控3D人脸重建方 法的流程示意图;
图2为本发明实施例1提供的一种结合神经纹理的可操控3D人脸重建方 法中深度卷积神经网络模型的结构示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由 本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的 实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例, 本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。
实施例1
如图1所示,本实施例提出了一种结合神经纹理的可操控3D人脸重建方 法,该方法包括:
S100、采集用户面部视频,所述视频包含自然的头部运动和面部表情变化, 对所述视频进行抽帧获取多张图片,构建训练集;
S200、将获取的多张图片输入至预先构建的深度神经网络模型对模型进行 训练,并利用训练后的深度神经网络模型预测得到线性人脸模型参数,所述线 性人脸模型参数包括3D人脸几何形状参数和3D人脸贴图参数;
S300、将得到的线性人脸模型参数输入至预先构建的人脸线性参数化模型, 所述人脸线性参数化模型包括3D人脸几何形状和3D人脸贴图,得到重建的 人脸3D几何形状模型以及对应的人脸贴图。
本实施例提出的通过多张图片实现自动化3D人脸重建的方法,其结果可 以被主流渲染引擎兼容、并且通过引入神经纹理,使得渲染结果更加逼真,具 体实施步骤如下:
1、通过任意录像设备(例如手机)采集一段时长大概5s的用户面部的视 频;该视频包含自然的头部运动和面部表情变化;通过抽帧获得N张图片作 为系统的输入。
2、基于人脸线性参数化表示(例如采用FLAME模型),将人脸的形状、 表情、外观分别表示为100维、50维、50维子空间,记作:
S和A分别表示人脸的3D几何形状和外观(Albedo贴图);
其中,S代表目标3D人脸的顶点位置,对应3DMM(例如采用FLAME 模型)数据集计算得到的顶点位置的平均值;Si、Ei、分别代表通过PCA算法 得到的个体和表情的主分量;βi、δi分别代表Si和Ei的权重;
3、构建一个神经网络,如图2所示,由四部分组成,分别是编码器Encoder、 解码器Decoder、神经纹理编码器NTexture、渲染器NRender。
编码器Encoder的输入是图像{Ii,i=1~N},输出包含步骤(2)中的线性人 脸模型参数{βi,i=1~100}、{δi,i=1~50}、{αi,i=1~50};
解码器包含两部分,Decoder-1的输入为{βi,i=1~100}、{δi,i=1~50},输出为 3D模型S;Decoder-2的输入为{αi,i=1~50},输出为A;
神经纹理编码器的输入是A,输出是神经纹理{Ti,i=1~M},共计M个神经 纹理,存储在G-Buffer中;简单情况下M=3(如果考虑到光照,则M可以扩 展,以包含光照信息);
渲染器也包含两部分,NRender-1的输入为T,输出为神经渲 染器NRender-1采用U-Net网络结构,将G-Buffer中的神经纹理通过 Image-to-image的方式输出成RGB图像;NRender-2的输入为S和A,输出为 NRender-2采用可微分渲染器,例如PyTorch3D。
4、定义目标损失函数如下:
L=L1+εL2
根据上述网络结构和损失函数的定义,在训练数据集上进行模型训练,得 到优化的深度神经网络模型Model。该Model的输入为多张图像,预测得到线 性人脸模型参数{βi,i=1~100}、{δi,i=1~50}、{αi,i=1~50},通过(2)中的定义, 即可获得重建人脸3D模型,以及对应的贴图。
5、为了使步骤(4)中得到的模型和贴图兼容于主流的渲染引擎,制作中 性表情模型M0,对应δi,i=1~50=0,中性表情即没有表情;并选择对应的δi在预设取值区间的n个表情模型M1~Mn,取值区间使其涵盖足够自然表情。 本实施例中,选择Mi,i=1~15,对应δi,i=1~15=4;以及Mi,i=16~30,对应δi,i=1~15= -4。实践中我们只选取最“重要”的前15个模型。可以理解为矩阵PCA分 解后,特征值最大的前15个基向量。一半对应正偏置,一半对应负偏置,因 此共计30个表情,(-4,4)区间是经验值,可以涵盖足够自然的表情,例如咧 嘴表情,如果对应参数值过大,即为过于夸张、不自然的表情。将M1~M30共 计30个3D模型,通过FBX SDK分别绑定到M0的30个变形通道(变形通道 是3D制作软件Maya等中的一个特定称谓,代表3D对象的某种形变控制器 属性)上,输出为FBX文件。该FBX文件带有30个Blendshapes(BlendShapes是一种图形学技术,用一种简化而有效的方法处理非刚性变形,即用一组指定 形状的加权组合来表带任意复杂的形状,而不必对每个顶点进行变形处理), 可以被U3D、UE4等主流渲染引擎支持,从而实现了自动RIG。
实施例2
与上述实施例1相对应的,本实施例提出了一种结合神经纹理的可操控 3D人脸重建系统,所述系统包括:
图片获取模块,用于采集用户面部视频,所述视频包含自然的头部运动和 面部表情变化,对所述视频进行抽帧获取多张图片,构建训练集;
人脸重建模块,用于将获取的多张图片输入至预先构建的深度神经网络模 型对模型进行训练,并利用训练后的深度神经网络模型预测得到线性人脸模型 参数,所述线性人脸模型参数包括3D人脸几何形状参数和3D人脸贴图参数;
将得到的线性人脸模型参数输入至预先构建的人脸线性参数化模型,所述 人脸线性参数化模型包括3D人脸几何形状和3D人脸贴图,得到重建的人脸 3D模型以及对应的人脸贴图。
本发明实施例提供的一种结合神经纹理的可操控3D人脸重建系统中各部 件所执行的功能均已在上述实施例1中做了详细介绍,因此这里不做过多赘述。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述, 但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是 显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均 属于本发明要求保护的范围。
Claims (6)
1.一种结合神经纹理的可操控3D人脸重建方法,其特征在于,所述方法包括:
采集用户面部视频,所述视频包含自然的头部运动和面部表情变化,对所述视频进行抽帧获取多张图片,构建训练集;
将获取的多张图片输入至预先构建的深度神经网络模型对模型进行训练,并利用训练后的深度神经网络模型预测得到线性人脸模型参数,所述线性人脸模型参数包括3D人脸几何形状参数和3D人脸贴图参数;
将得到的线性人脸模型参数输入至预先构建的人脸线性参数化模型,所述人脸线性参数化模型包括3D人脸几何形状和3D人脸贴图,得到重建的人脸3D几何形状模型以及对应的人脸贴图。
3.根据权利要求1所述的一种结合神经纹理的可操控3D人脸重建方法,其特征在于,所述方法还包括:构建深度神经网络模型,具体为:
所述深度神经网络模型包括第一编码器、解码器、神经纹理编码器以及渲染器;
所述第一编码器的输入为图像{Ii,i=1~N},N为抽帧的图像数,输出为线性人脸模型参数{βi,i=1~100}、{δi,i=1~50}、{αi,i=1~50};
所述解码器包括第一解码器和第二解码器,所述第一解码器的输入为参数{βi,i=1~100}、{δi,i=1~50},输出为3D人脸几何形状S,第二解码器的输入为参数{αi,i=1~50},输出为3D人脸贴图A;
所述神经纹理编码器输入为3D人脸贴图A,输出为神经纹理{Ti,i=1~M},共计M个神经纹理;
5.根据权利要求3所述的一种结合神经纹理的可操控3D人脸重建方法,其特征在于,所述方法还包括:
制作中性表情模型M0,对应δi,i=1~50=0,并选择对应的δi在预设取值区间的n个表情模型M1~Mn,取值区间使其涵盖足够自然表情;将M1~Mn共计n个3D模型,通过FBX SDK分别绑定到M0的n个变形通道上,输出为FBX文件,其中表情模型M是对S和A中的权重系数取特定的值,将贴图A绑定到顶点S上后获得的3D模型。
6.一种结合神经纹理的可操控3D人脸重建系统,其特征在于,所述系统包括:
图片获取模块,用于采集用户面部视频,所述视频包含自然的头部运动和面部表情变化,对所述视频进行抽帧获取多张图片,构建训练集;
人脸重建模块,用于将获取的多张图片输入至预先构建的深度神经网络模型对模型进行训练,并利用训练后的深度神经网络模型预测得到线性人脸模型参数,所述线性人脸模型参数包括3D人脸几何形状参数和3D人脸贴图参数;
将得到的线性人脸模型参数输入至预先构建的人脸线性参数化模型,所述人脸线性参数化模型包括3D人脸几何形状和3D人脸贴图,得到重建的人脸3D模型以及对应的人脸贴图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210440730.8A CN114782610A (zh) | 2022-04-25 | 2022-04-25 | 一种结合神经纹理的可操控3d人脸重建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210440730.8A CN114782610A (zh) | 2022-04-25 | 2022-04-25 | 一种结合神经纹理的可操控3d人脸重建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114782610A true CN114782610A (zh) | 2022-07-22 |
Family
ID=82434001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210440730.8A Pending CN114782610A (zh) | 2022-04-25 | 2022-04-25 | 一种结合神经纹理的可操控3d人脸重建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114782610A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115482557A (zh) * | 2022-10-09 | 2022-12-16 | 中国电信股份有限公司 | 人体图像生成方法、系统、设备及存储介质 |
CN117593442A (zh) * | 2023-11-28 | 2024-02-23 | 拓元(广州)智慧科技有限公司 | 一种基于多阶段细粒度渲染的人像生成方法 |
-
2022
- 2022-04-25 CN CN202210440730.8A patent/CN114782610A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115482557A (zh) * | 2022-10-09 | 2022-12-16 | 中国电信股份有限公司 | 人体图像生成方法、系统、设备及存储介质 |
CN115482557B (zh) * | 2022-10-09 | 2023-11-17 | 中国电信股份有限公司 | 人体图像生成方法、系统、设备及存储介质 |
CN117593442A (zh) * | 2023-11-28 | 2024-02-23 | 拓元(广州)智慧科技有限公司 | 一种基于多阶段细粒度渲染的人像生成方法 |
CN117593442B (zh) * | 2023-11-28 | 2024-05-03 | 拓元(广州)智慧科技有限公司 | 一种基于多阶段细粒度渲染的人像生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255831B (zh) | 基于多任务学习的单视图人脸三维重建及纹理生成的方法 | |
WO2021184933A1 (zh) | 一种人体三维模型重建方法 | |
CN110428493B (zh) | 基于网格形变的单图像人体三维重建方法及系统 | |
CN111028330B (zh) | 三维表情基的生成方法、装置、设备及存储介质 | |
US20210358197A1 (en) | Textured neural avatars | |
CN114782610A (zh) | 一种结合神经纹理的可操控3d人脸重建方法及系统 | |
CN113269872A (zh) | 基于三维人脸重构和视频关键帧优化的合成视频生成方法 | |
CN111542861A (zh) | 利用深度外观模型渲染化身的系统和方法 | |
CN112465955A (zh) | 一种动态人体三维重建和视角合成方法 | |
CN111783658B (zh) | 基于双生成对抗网络的两阶段表情动画生成方法 | |
CN107657664B (zh) | 人脸表情合成后的图像优化方法、装置、存储介质和计算机设备 | |
CN110796593A (zh) | 基于人工智能的图像处理方法、装置、介质及电子设备 | |
CN110942512B (zh) | 基于元学习的室内场景重建方法 | |
US11443473B2 (en) | Systems and methods for generating a skull surface for computer animation | |
CN115170559A (zh) | 基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法 | |
Wan et al. | Data-driven facial expression synthesis via Laplacian deformation | |
CN113362422A (zh) | 一种阴影鲁棒的基于解耦表示的妆容迁移系统及方法 | |
CN112967373A (zh) | 一种基于非线性3dmm的人脸图像特征编码方法 | |
CN113077545A (zh) | 一种基于图卷积的从图像中重建着装人体模型的方法 | |
CN117496072B (zh) | 一种三维数字人生成和交互方法及系统 | |
CN115393480A (zh) | 基于动态神经纹理的说话人合成方法、装置和存储介质 | |
KR20230110787A (ko) | 개인화된 3d 머리 및 얼굴 모델들을 형성하기 위한 방법들 및 시스템들 | |
CN117218300B (zh) | 三维模型的构建方法、三维构建模型的训练方法及装置 | |
CN116704084B (zh) | 人脸动画生成网络的训练方法、人脸动画生成方法及装置 | |
CN116664726B (zh) | 视频获取方法、装置和存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |