CN117853638A - 基于文本驱动的端到端的3d人脸快速生成与编辑方法 - Google Patents

基于文本驱动的端到端的3d人脸快速生成与编辑方法 Download PDF

Info

Publication number
CN117853638A
CN117853638A CN202410257189.6A CN202410257189A CN117853638A CN 117853638 A CN117853638 A CN 117853638A CN 202410257189 A CN202410257189 A CN 202410257189A CN 117853638 A CN117853638 A CN 117853638A
Authority
CN
China
Prior art keywords
text
face
editing
representing
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410257189.6A
Other languages
English (en)
Inventor
纪荣嵘
张金璐
孙晓帅
周奕毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202410257189.6A priority Critical patent/CN117853638A/zh
Publication of CN117853638A publication Critical patent/CN117853638A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明基于文本驱动的端到端的3D人脸快速生成与编辑方法,在3D人脸生成过程中采用文本到视觉的直接映射,将映射后的文本特征与噪声相加后,得到具有文本信息的风格隐码,该风格隐码同时调控负责三维特征建模的NeRF块和二维特征上采样的卷积层,从而将文本控制条件加入到整个3D人脸的生成过程中。为了提高生成人脸与文本的匹配一致性,本发明设计了风格隐码增强器,利用文本局部特征与当前的视觉特征进行融合,在不同的生成阶段对风格隐码进行调控。模型训练时在3D空间中引入几何正则项,在3D空间对生成的人脸进行低级几何属性和高级几何特征的约束,减少了视角信息缺失导致遮挡异物的出现。

Description

基于文本驱动的端到端的3D人脸快速生成与编辑方法
技术领域
本发明属于图像生成技术领域,尤其是涉及一种基于文本驱动的端到端的3D人脸快速生成与编辑方法。
背景技术
相比于成熟的二维人脸生成模型,文本到三维人脸的生成面临着更多的挑战,因为它不仅需要捕捉到人脸不同部分的复杂细节,还需要对不同视角下的人脸三维形状与人脸属性的位置进行建模,此外,跨模态和多视角生成之间语义一致性的保持也是文本驱动三维人脸生成面临的主要挑战。
为了解决这些问题,现有的模型大多采用多阶段的生成网络来进行高质量的文本到三维人脸的生成。例如Describe3D提出使用两个独立的网络来分别生成人脸mesh网络和纹理图,然后通过渲染器得到最后的三维人脸。3D-CLFusion则需要借助扩散模型首先生成文本对应的隐码,然后将其输入到预训练好的无条件生成器中。上述模型都需要在2D的图像空间进行额外的优化微调操作,训练成本高,推理速度慢。
发明内容
为了解决上述存在的技术问题,本发明提供一种基于文本驱动的端到端的3D人脸快速生成与编辑方法,通过构建可以实现端到端的文本到3D人脸的生成与编辑模型-Face,快速生成更多的真实、高质量的3D人脸。
本发明基于文本驱动的端到端的3D人脸快速生成与编辑方法,包括3D人脸快速生成与编辑模型的构建、训练和评测步骤:
步骤1、输入一段文本描述、一个随机噪声/>和相机参数/>
步骤2、提取所述文本描述的文本全局特征/>和文本局部特征/>
步骤3、将文本全局特征映射到与随机噪声/>维度大小相同的空间,利用映射后的文本特征和随机噪声/>逐元素相加后得到更新后的噪声/>
步骤4、将更新后的噪声输入到映射网络中得到风格隐码/>
步骤5、根据相机参数采样出3D空间中每一个点对应的傅里叶特征;
步骤6、利用风格隐码对神经辐射场NeRF和上采样块中的权重进行调制,得到加入文本信息后的权重;
步骤7、根据神经辐射场NeRF输出的密度值,结合估计出人脸的深度信息,利用该深度信息计算3D空间中每个点的位置/>
步骤8、根据图像每个像素的3D空间点的位置/>,计算出每个点的虚拟法线向量/>
步骤9、对图像像素点对应3D空间中的位置坐标和点对应的虚拟法线向量做平滑,计算出几何正则化损失;
步骤10、将神经辐射场NeRF输出的特征提前聚合到2D空间中,得到低分辨率的2D特征;
步骤11、将该低分辨率的2D特征输入若干层上采样块,上一层上采样块输出的2D特征是下一层上采样块输入的2D特征,结合风格隐码增强器SCE输出的风格隐码的偏移值,实现语义一致性调控,其中,在输入每一个上采样块之前,先将文本局部特征/>和第/>层上采样块输入的2D特征/>作为风格隐码增强器SCE的输入,利用风格隐码增强器SCE计算得到风格隐码的偏移值/>
在生成3D人脸后,再输入人脸编辑指令,利用新的文本特征,对风格隐码的偏移值再次计算得到用于编辑3D人脸的风格隐码的偏移值,实现对生成3D人脸的编辑;
步骤12、所述上采样块最终输出的图像特征映射到RGB空间生成3D人脸,得到渲染出的不同视角下的人脸图像;
步骤13、设置用于判断训练阶段生成图像的真假以及生成图像和文本描述的匹配程度的判别器和模型训练参数和训练数据,将训练集中的真实图像、本文描述与构建的3D人脸快速生成与编辑模型所生成的不同视角下的人脸图像、所对应的文本描述分别输入到判别器中,计算对抗损失,即模型的损失函数,最后,利用损失函数的梯度反向传播来更新模型训练参数,最终完成整个模型的训练;
步骤14、模型训练完成后对3D人脸快速生成和编辑模型生成的3D人脸进行质量评测,以及和输入文本之间的一致性评价;
步骤15、将输入的一段语言描述经过训练完毕的3D人脸快速生成和编辑模型生成3D人脸;在生成一张3D人脸后,输入编辑指令,将之前输入的语言描述经过编辑后,经过训练完毕的3D人脸快速生成和编辑模型输出相对应的编辑结果,即生成编辑后的3D人脸。
所述步骤7中人脸的深度信息指的是光线经过2D图像的像素点到相机的深度值
其中,,/>和/>表示3D空间的每一个被积分的点,是光线/>的参数,/>是神经辐射场NeRF输出的密度值,/>和/>分别表示积分的上下限,即预先定义的光线积分范围,结合深度值/>,计算得到像素/>在3D空间中的对应的位置坐标为:
其中,为相机在3D空间中的坐标,/>表示通过像素点/>的光线,通过采样的相机参数/>获得像素点/>的光线方向/>
所述几何正则化损失计算如下:
其中,表示像素的坐标,/>和/>是取值/>的整数,/>表示/>对应像素的相邻像素的坐标;/>表示像素在3D空间坐标的平滑的损失函数,/>表示点的虚拟法线向量/>的平滑损失函数,/>表示最终的几何正则化损失;
是每个像素点的虚拟法线向量:
其中,是像素/>对应的点在3D空间中位置坐标,/>和/>是像素/>临近的另外两个点在3D空间中位置坐标。
所述步骤10中得到低分辨率的2D特征的过程为:
其中,表示神经网络层的级联,/>为光线/>经过的像素点的颜色,/>为线性层,负责对得到的NeRF特征预测出像素的颜色;/>表示预测NeRF特征的网络,上标*表示网络层数,/>和/>分别是产生颜色和密度值特征的网络层,/>表示预测NeRF特征网络中的第/>层,/>表示预测NeRF特征网络中的第/>层,/>表示预测NeRF特征网络的第/>层到/>层;/>是当前光线的角度;/>是由风格隐码/>调制的MLP层,负责根据点的坐标预测三维特征,上标*表示MLP网络的层数,/>表示预测三维特征的第/>个MLP,表示预测三维特征的第/>个MLP;/>是可以快速计算的积分项,其中,,/>和/>表示3D空间的每一个被积分的点,是光线/>的参数,/>是神经辐射场NeRF输出的密度值,/>和/>分别表示积分的上下限,即预先定义的光线积分范围。
所述步骤11中风格隐码增强器SCE的调控过程为:
步骤11-1、文本局部特征和第i层上采样块输入的2D特征/>输入到风格隐码增强器之后,将文本信息和当前的2D特征使用交叉注意力机制进行融合更新:
其中,,/>,/>,/>表示第/>个模块中可学习的查询的映射矩阵,/>表示第/>个模块中可学习的键的映射矩阵和/>表示第/>个模块中可学习的值的映射矩阵,/>是/>的转置矩阵,/>是特征维度;
步骤11-2、利用融合更新的2D特征,用一个1x1的卷积块和MLP网络预测出第/>层上采样块的风格隐码的偏移值/>,作为风格隐码增强器的输出,最终修正后的风格隐码
其中,是第/>层上采样块所属风格隐码增强器输出的风格隐码的偏移值,/>是最终风修正后的风格隐码。
所述步骤13模型的训练过程为:
步骤13-1、在训练过程中,设置学习率和超参数、/>
步骤13-2、采用基于CNN的编码器作为判别器D,计算输入图像为真的得分和与文本/>匹配为真的得分/>,该分值用于判别器损失函数/>的计算:
其中,是训练集真实的图像,/>是训练集的分布,/>是3D人脸快速生成和编辑模型输出的生成图像,/>是生成图像的分布,/>是文本描述,/>表示梯度信息,是R1正则化损失,/>表示输入图像为真的得分,/>表示输入图像与文本/>匹配为真的得分;
步骤13-3、根据判别器D的得分计算3D人脸快速生成和编辑模型的损失函数,该损失函数包括对抗损失函数、3D空间的几何正则项损失函数、风格隐码的偏移值的正则项损失函数、CLIP的对比损失函数和NeRF路径正则项损失函数:
其中,是对抗损失函数:
是3D空间的几何正则项损失函数:
表示像素在3D空间坐标的平滑的损失函数,/>表示点的虚拟法线向量的平滑损失函数;
是风格隐码的偏移值的正则项损失函数:
其中,是每一个风格隐码增强器输出的风格隐码偏移量,/>是输出的风格隐码偏移量的下标;
是CLIP的对比损失函数:
其中,表示基于CLIP的文本编码器,/>表示基于CLIP的图像编码器,/>表示一个训练批次的生成样本数,/>表示样本内第*个生成样本,/>是每个生成样本对应的文本输入;
是关于NeRF路径正则项的损失函数:
其中,代表随机采样的像素的集合,/>是像素点的坐标,/>表示风格隐码,和/>分别表示通过该像素点输入和输出的光线,/>和/>分别表示模型输出的生成图像和NeRF渲染的低分辨率图像。
所述训练数据选择公开的2D数据集MM-CelebA。
所述步骤14质量评测和一致性评价,具体过程如下:
步骤14-1、单视角的质量评测:使用 InceptionV3分别提取真实图像和生成图像的特征的均值和方差,然后计算两者的均值和方差的差异,得到FID和KID,所述FID和KID是T2I中广泛使用的两个指标,用于评估合成图像的清晰度和多样性;
步骤14-2、多视角一致性评测:对生成的3D人脸渲染出5个不同视角下的生成图像,使用 ArcFace分别提取同张3D人脸在若干个不同视角下渲染生成图像的人脸特征,计算两两之间的余弦相似度,最后计算所有3D人脸的特征相似度,作为多视角人脸一致性的评测指标;
步骤14-3、语义一致匹配评价:使用CLIP模型分别提取文本描述和生成图像/>的全局特征,衡量两者的余弦相似度来定义两者之间的相关性,最终得到文本图像一致性的评价。
一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的基于文本驱动的端到端的3D人脸快速生成与编辑方法。
一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述的基于文本驱动的端到端的3D人脸快速生成与编辑方法。
采用上述方案后,本发明的有益效果是:
(1)本发明构建一种快速的端到端的文本到3D人脸快速生成与编辑模型,直接将输入的文本描述映射成3D人脸,根据输入的相机参数快速得到对应视角下的人脸图片,解决了现有模型训练成本高、推理时间长的问题。
(2)本发明设计的风格隐码增强器,可以进一步提高生成人脸与文本的匹配一致性,并且实现了文本驱动的快速3D人脸编辑的功能,在保证已有人脸的无关属性不变的条件下,修改编辑文本对应的人脸属性,实现高质量、高保真性的3D人脸编辑任务。
(3)本发明设计的模型训练的几何正则化函数,从3D空间中对生成人脸的低级几何属性(点的坐标)和高级的几何特征(点的法线)进行平滑约束,解决了训练数据多视角信息缺失导致的伪影生成的问题,进一步提高了3D人脸生成的质量。
附图说明
图1是本发明3D人脸生成和编辑网络模型-Face的架构图;
图2是本发明电子设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明,本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或方案不应被解释为比其它实施例或方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
实施例一
如图1所示,本发明实施例一,提供一种基于文本驱动的端到端的3D人脸快速生成与编辑方法,包括3D人脸快速生成与编辑模型的构建、训练和评测步骤:
步骤1、输入一段文本描述、一个随机噪声/>和相机参数/>
所述随机噪声是从高斯空间中采样得到的,维度设为512,所述相机参数/>是根据预定义好的相机分布采样得到的;
步骤2、提取所述文本描述的文本全局特征/>和文本局部特征/>
利用预训练好的基于CLIP模型的文本编码器,提取文本描述的文本全局特征/>和文本局部特征/>,其中,文本全局特征/>是基于CLIP模型的文本编码器的输出,是特征维度;文本局部特征/>是所述文本编码器最后一层隐状态,/>是文本序列的长度,/>是特征维度;
步骤3、将文本全局特征映射到与随机噪声/>维度大小相同的空间,利用映射后的文本特征和随机噪声/>逐元素相加后得到更新后的噪声/>
利用一个线性层将文本全局特征映射到与随机噪声/>维度大小相同的空间/>中,/>,其中/>是随机噪声/>的维度,利用映射后的文本特征将随机噪声/>更新为噪声/>,/>,其中/>是逐元素的矩阵加法;
步骤4、将更新后的噪声输入到映射网络中得到风格隐码/>
所述映射网络是具有8层的MLP网络;
步骤5、根据相机参数采样出3D空间中每一个点对应的傅里叶特征:
所述3D空间中每一个点通过位置编码映射到更高维的位置特征,得到对应的傅里叶特征/>
其中,L表示编码的频率,是一个可调整的超参数;
步骤6、利用风格隐码对神经辐射场NeRF和上采样块中的权重进行调制,得到加入文本信息后的权重:
所述神经辐射场NeRF和上采样块中调制后的权重通过以下方法获得:
其中,是原来的权重,先利用风格隐码/>进行调整,得到新的权重/>,然后再对权重/>进行归一化,得到最终调制的权重/>,为了保证除数不为0,在对/>进行归一化的时候,分母会加上一个不为0且足够小的正数/>
步骤7、根据神经辐射场NeRF输出的密度值,估计出人脸的深度信息,利用该深度信息计算3D空间中每个点的位置/>
所述人脸的深度信息指的是光线经过2D图像的像素点到相机的深度值/>
其中,,/>和/>表示3D空间的每一个被积分的点,是光线/>的参数,/>是神经辐射场NeRF输出的密度值,/>和/>分别表示积分的上下限,即预先定义的光线积分范围,结合深度值/>,计算得到像素/>在3D空间中的对应的位置坐标为:
其中,为相机在3D空间中的坐标,/>表示通过像素点/>的光线,通过采样的相机参数/>获得像素点/>的光线方向/>
步骤8、根据图像每个像素的3D空间点的位置/>,计算出每个点的虚拟法线向量/>
其中,是像素/>对应的点在3D空间中位置坐标,/>和/>是像素/>临近的另外两个点在3D空间中位置坐标。
步骤9、对像素点在3D空间中的坐标和点对应的虚拟法线向量/>做平滑,计算出几何正则化损失:
其中,表示像素的坐标,/>和/>是取值/>的整数,/>表示/>对应像素的相邻像素的坐标;/>表示像素在3D空间坐标的平滑的损失函数,/>表示点的虚拟法线向量/>的平滑损失函数,/>表示最终的几何正则化损失;
步骤10、将神经辐射场NeRF输出的特征提前聚合到2D空间中,得到低分辨率的2D特征:
所述得到低分辨率的2D特征的过程为:
其中,表示神经网络层的级联,/>为光线/>经过的像素点的颜色,/>为线性层,负责对得到的NeRF特征预测出像素的颜色;/>表示预测NeRF特征的网络,上标*表示网络层数,/>和/>分别是产生颜色和密度值特征的网络层,/>表示预测NeRF特征网络中的第/>层,/>表示预测NeRF特征网络中的第/>层,/>表示预测NeRF特征网络的第/>层到/>层;/>是当前光线的角度;/>是由风格隐码/>调制的MLP层,负责根据点的坐标预测三维特征,上标*表示MLP网络的层数,/>表示预测三维特征的第/>个MLP,表示预测三维特征的第/>个MLP;/>是可以快速计算的积分项,其中,,/>是NeRF输出的密度值。
步骤11、将该低分辨率的2D特征输入若干层上采样块,上一层上采样块输出的2D特征是下一层上采样块输入的2D特征,结合风格隐码增强器SCE输出的风格隐码的偏移值,实现语义一致性调控,其中,在输入每一个上采样块之前,先将文本局部特征/>和第/>层上采样块输入的2D特征/>作为风格隐码增强器SCE的输入,利用风格隐码增强器SCE计算得到风格隐码的偏移值/>,所述风格隐码增强器SCE的调控过程为:
步骤11-1、文本局部特征和第i层上采样块输入的2D特征/>输入到风格隐码增强器之后,将文本信息和当前的2D特征使用交叉注意力机制进行融合更新:
其中,,/>,/>,/>表示第/>个模块中可学习的查询的映射矩阵,/>表示第/>个模块中可学习的键的映射矩阵和/>表示第/>个模块中可学习的值的映射矩阵,/>是/>的转置矩阵,/>是特征维度;
步骤11-2、利用融合更新的2D特征,用一个1x1的卷积块和MLP网络预测出第/>层上采样块的风格隐码的偏移值/>,作为风格隐码增强器的输出,最终修正后的风格隐码
其中,是第/>层上采样块所属风格隐码增强器输出的风格隐码的偏移值,/>是最终修正后的风格隐码;
在生成3D人脸之后,为了能够对人脸进行进一步的编辑和修改,可以对风格隐码的偏移值进行修改。具体的,给定人脸的生成文本及对应的偏移值/>,再输入人脸编辑指令,利用新的文本特征/>,结合通过上式得到新的偏移值/>,利用插值公式得到用于编辑3D人脸的风格隐码的偏移值/>,其中/>是一个[0,1]的值,表示属性编辑的强度:
步骤12、所述上采样块最终输出的图像特征经过To RGB层映射到RGB空间生成3D人脸,得到渲染出的不同视角下的人脸图像;
步骤13、设置用于判断训练阶段生成图像的真假以及生成图像和文本描述的匹配程度的判别器和模型训练参数,所述训练数据选择公开的2D数据集MM-CelebA,将训练集中的真实图像和本文描述与构建的3D人脸快速生成与编辑模型所生成的不同视角下的人脸图像,与所对应的文本描述分别输入到判别器中,计算对抗损失,即模型的损失函数,最后,利用损失函数的梯度反向传播来更新模型训练参数,最终完成整个模型的训练,具体过程为:
步骤13-1、在训练过程中,使用Adam优化器,并设置学习率为0.00025,超参数为、/>
步骤13-2、采用基于CNN的编码器作为判别器D,计算输入图像为真和与文本匹配为真的得分/>和/>,该分值用于判别器损失函数/>的计算:
其中,是训练集真实的图像,/>是训练集的分布,/>是3D人脸快速生成和编辑模型输出的生成图像,/>是生成图像的分布,/>是文本描述,/>表示梯度信息,是R1正则化损失,/>表示输入图像为真的得分,/>表示输入图像与文本/>匹配为真的得分;
步骤13-3、根据判别器D的得分计算3D人脸快速生成和编辑模型的损失函数,该损失函数包括对抗损失函数、3D空间的几何正则项损失函数、风格隐码的偏移值的正则项损失函数、CLIP的对比损失函数和NeRF路径正则项损失函数:
其中,是对抗损失函数:
是3D空间的几何正则项损失函数:/>
表示像素在3D空间坐标的平滑的损失函数,/>表示点的虚拟法线向量的平滑损失函数;
是风格隐码的偏移值的正则项损失函数:
其中,是每一个风格隐码增强器输出的风格隐码偏移量,/>是输出的风格隐码偏移量的下标;
是CLIP的对比损失函数:
其中,表示基于CLIP的文本编码器和/>表示基于CLIP的图像编码器,/>表示一个训练批次的生成样本数,/>表示样本内第*个生成样本,/>是每个生成样本对应的文本输入;
是关于NeRF路径正则项的损失函数:
其中,代表随机采样的像素的集合,/>是像素点的坐标,/>表示风格隐码,和/>表示通过该像素点输入和输出的光线,/>和/>分别表示模型输出的生成图像和NeRF渲染的低分辨率图像。
步骤14、训练完成后对3D人脸快速生成和编辑模型生成的3D人脸进行质量评测,以及和输入文本之间的一致性评价,具体过程如下:
步骤14-1、单视角的质量评测:使用 InceptionV3分别提取真实图像和生成图像的特征的均值和方差,然后计算两者的均值和方差的差异,得到FID和KID,所述FID和KID是T2I中广泛使用的两个指标,都旨在评估合成图像的清晰度和多样性,这两个指标的公式如下:
/>
其中,和/>分别是真实图像和生成图像的均值,/>和/>分别是真实图像和生成图像的协方差矩阵;/>是用于计算KID的真实图像数量,/>是用于计算KID的生成图像数量,和/>分别是真实图像和生成图像,/>是InceptionnetV3网络,用来提取图像的特征,d是特征的维度,FID和KID越低,生成图像与真实图像在特征层的距离越近;
步骤14-2、多视角一致性评测:对生成的3D人脸渲染出5个不同视角下的生成图像,使用 ArcFace分别提取同张3D人脸在五个不同视角下渲染生成图像的人脸特征,计算两两之间的余弦相似度,最后计算所有3D人脸的特征相似度,作为多视角人脸一致性的评测指标;
步骤14-3、语义一致匹配评价:使用CLIP模型分别提取文本描述和生成图像/>的全局特征,衡量两者的余弦相似度来定义两者之间的相关性,最终得到文本图像一致性的评价(CLIP_Score);
使用CLIP模型提取输入的文本描述与输出图像之间的相关性,用余弦相似度来定义:
其中,是文本特征,/>是图像特征,/>是参与计算CLIP_Score的图像的总数;
本发明在3D人脸生成过程中采用文本到视觉的直接映射,将映射后的文本特征与噪声相加后,得到具有文本的信息的风格隐码,该风格隐码同时调控负责三维特征建模的NeRF块和二维特征上采样的卷积层,从而将文本控制条件加入到整个3D人脸的生成过程中。为了提高生成人脸与文本的匹配一致性,本发明设计了风格隐码增强器,利用文本局部特征与当前的视觉特征进行融合,在不同的生成阶段对风格隐码进行调控。为了解决直接的文本-视觉映射和2D图像作为训练数据带来的多视角信息缺失问题,本发明在模型训练时在3D空间中引入几何正则项,在3D空间对生成的人脸进行低级几何属性和高级几何特征的约束,让模型生成更好质量的3D几何轮廓,减少了视角信息缺失导致遮挡异物的出现。-Face采用对抗训练的范式,在公开的2D数据集MM-CelebA上训练,在完成训练后可以实现快速的文本到3D人脸生成和编辑,相较于现有模型,在提升生成人脸质量的同时,极大加速了推理的速度。
实施例二
专业人员应该还可以进一步意识到,结合本发明中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
具体地,本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成,结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。可选地,软件模块可以位于随机存储器,闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
本发明实施例二提供一种电子设备,如图2示,该电子设备700可包括:存储器710和处理器720,该存储器710用于存储计算机程序,并将该程序代码传输给该处理器720。换言之,该处理器720可以从存储器710中调用并运行计算机程序,以实现本申请实施例中的方法。例如,该处理器720可用于根据该计算机程序中的指令执行上述方法实施例。
在本申请的一些实施例中,该处理器720可以包括但不限于:
通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。
在本申请的一些实施例中,该存储器710包括但不限于:易失性存储器和/或非易失性存储器。其中,非易失性存储器可以是只读存储器 (Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。
在本申请的一些实施例中,该计算机程序可以被分割成一个或多个模块,该一个或者多个模块被存储在该存储器710中,并由该处理器720执行,以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述该计算机程序在该电子设备700的执行过程。
如图2示,该电子设备还可包括:收发器730,该收发器730可连接至该处理器720或存储器710。其中,处理器720可以控制该收发器730与其他设备进行通信,具体地,可以向其他设备发送信息或数据,或接收其他设备发送的信息或数据。收发器730可以包括发射机和接收机。收发器730还可以进一步包括天线,天线的数量可以为一个或多个。
应当理解,该电子设备700中的各个组件通过总线系统相连,其中,总线系统除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。
实施例三
本发明实施例三还提供一种计算机存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。
当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于文本驱动的端到端的3D人脸快速生成与编辑方法,其特征在于:包括3D人脸快速生成与编辑模型的构建、训练和评测步骤:
步骤1、输入一段文本描述、一个随机噪声/>和相机参数/>
步骤2、提取所述文本描述的文本全局特征/>和文本局部特征/>
步骤3、将文本全局特征映射到与随机噪声/>维度大小相同的空间,利用映射后的文本特征和随机噪声/>逐元素相加后得到更新后的噪声/>
步骤4、将更新后的噪声输入到映射网络中得到风格隐码/>
步骤5、根据相机参数采样出3D空间中每一个点对应的傅里叶特征;
步骤6、利用风格隐码对神经辐射场NeRF和上采样块中的权重进行调制,得到加入文本信息后的权重;
步骤7、根据神经辐射场NeRF输出的密度值,结合估计出人脸的深度信息,利用该深度信息计算3D空间中每个点的位置/>
步骤8、根据图像每个像素点的3D空间的位置/>,计算出每个点的虚拟法线向量/>
步骤9、对图像像素对应3D空间中的位置坐标和对应的虚拟法线向量/>做平滑,计算出几何正则化损失;
步骤10、将神经辐射场NeRF输出的特征提前聚合到2D空间中,得到低分辨率的2D特征;
步骤11、将该低分辨率的2D特征输入若干层上采样块,上一层上采样块输出的2D特征是下一层上采样块输入的2D特征,结合风格隐码增强器SCE输出的风格隐码的偏移值,实现语义一致性调控,其中,在输入每一个上采样块之前,先将文本局部特征/>和第/>层上采样块输入的2D特征/>作为风格隐码增强器SCE的输入,利用风格隐码增强器SCE计算得到风格隐码的偏移值/>
在生成3D人脸后,再输入人脸编辑指令,利用新的文本特征,对风格隐码的偏移值再次计算得到用于编辑3D人脸的风格隐码的偏移值,实现对生成3D人脸的编辑;
步骤12、所述上采样块最终输出的图像特征映射到RGB空间生成3D人脸,得到渲染出的不同视角下的人脸图像;
步骤13、设置用于判断训练阶段生成图像的真假以及生成图像和文本描述的匹配程度的判别器和模型训练参数和训练数据,将训练集中的真实图像、本文描述与构建的3D人脸快速生成与编辑模型所生成的不同视角下的人脸图像、所对应的文本描述分别输入到判别器中,计算对抗损失,即模型的损失函数,最后,利用损失函数的梯度反向传播来更新模型训练参数,最终完成整个模型的训练;
步骤14、模型训练完成后对3D人脸快速生成和编辑模型生成的3D人脸进行质量评测,以及和输入文本之间的一致性评价;
步骤15、将输入的一段语言描述经过训练完毕的3D人脸快速生成和编辑模型生成3D人脸;在生成一张3D人脸后,输入编辑指令,将之前输入的语言描述经过编辑后,经过训练完毕的3D人脸快速生成和编辑模型输出相对应的编辑结果,即生成编辑后的3D人脸。
2.根据权利要求1所述的基于文本驱动的端到端的3D人脸快速生成与编辑方法,其特征在于,所述步骤7中人脸的深度信息指的是光线经过2D图像的像素点到相机的深度值
其中,,/>和/>表示3D空间的每一个被积分的点,是光线/>的参数,/>是神经辐射场NeRF输出的密度值,/>和/>分别表示积分的上下限,即预先定义的光线积分范围,结合深度值/>,计算得到像素/>在3D空间中的对应的位置坐标/>为:
其中,为相机在3D空间中的坐标,/>表示通过像素点/>的光线,通过采样的相机参数/>获得像素点/>的光线方向/>
3.根据权利要求1所述的基于文本驱动的端到端的3D人脸快速生成与编辑方法,其特征在于,所述几何正则化损失计算如下:
其中,表示像素的坐标,/>和/>是取值/>的整数,/>表示/>对应像素的相邻像素的坐标;/> 表示像素在3D空间坐标的平滑的损失函数,/> 表示点的虚拟法线向量/>的平滑损失函数,/>表示最终的几何正则化损失;
是每个像素点的虚拟法线向量:
其中, 是像素/>对应的点在3D空间中位置坐标,/>和/>是像素/>临近的另外两个点在3D空间中位置坐标。
4.根据权利要求1所述的基于文本驱动的端到端的3D人脸快速生成与编辑方法,其特征在于,所述步骤10中得到低分辨率的2D特征的过程为:
其中,表示神经网络层的级联,/>为光线/>经过的像素点的颜色,/>为线性层,负责对得到的NeRF特征预测出像素的颜色;/>表示预测NeRF特征的网络,上标*表示网络层数,/>和/>分别是产生颜色和密度值特征的网络层,/>表示预测NeRF特征网络中的第层,/>表示预测NeRF特征网络中的第/>层,/> 表示预测NeRF特征网络的第/>层到/>层;/>是当前光线的角度;/>是由风格隐码/>调制的MLP层,负责根据点的坐标预测三维特征,上标*表示MLP网络的层数,/>表示预测三维特征的第/>个MLP,/>表示预测三维特征的第/>个MLP;/>是可以快速计算的积分项,其中,,/>和/>表示3D空间的每一个被积分的点,是光线/>的参数,/>是神经辐射场NeRF输出的密度值,/>和/>分别表示积分的上下限,即预先定义的光线积分范围。
5.根据权利要求1所述的基于文本驱动的端到端的3D人脸快速生成与编辑方法,其特征在于,所述步骤11中风格隐码增强器SCE的调控过程为:
步骤11-1、文本局部特征 和第i层上采样块输入的2D特征/> 输入到风格隐码增强器之后,将文本信息和当前的2D特征使用交叉注意力机制进行融合更新:
其中,,/>, />,/>表示第/>个模块中可学习的查询的映射矩阵,/>表示第/>个模块中可学习的键的映射矩阵和/>表示第/>个模块中可学习的值的映射矩阵,/>是/> 的转置矩阵,/>是特征维度;
步骤11-2、利用融合更新的2D特征,用一个1x1的卷积块和MLP网络预测出第/>层上采样块的风格隐码的偏移值/>,作为风格隐码增强器的输出,最终修正后的风格隐码/>
其中,是第/>层上采样块所属风格隐码增强器输出的风格隐码的偏移值,/>是最终风修正后的风格隐码。
6.根据权利要求1所述的基于文本驱动的端到端的3D人脸快速生成与编辑方法,其特征在于,所述步骤13模型的训练过程为:
步骤13-1、在训练过程中,设置学习率和超参数、/>
步骤13-2、采用基于CNN的编码器作为判别器D,计算输入图像为真的得分和与文本/>匹配为真的得分/>,该分值用于判别器损失函数/>的计算:
其中,是训练集真实的图像,/>是训练集的分布,/>是3D人脸快速生成和编辑模型输出的生成图像,/>是生成图像的分布,/>是文本描述,/>表示梯度信息,是R1正则化损失,/>表示输入图像为真的得分,/>表示输入图像与文本/>匹配为真的得分;
步骤13-3、根据判别器D的得分计算3D人脸快速生成和编辑模型的损失函数,该损失函数包括对抗损失函数、3D空间的几何正则项损失函数、风格隐码的偏移值的正则项损失函数、CLIP的对比损失函数和NeRF路径正则项损失函数:
其中,是对抗损失函数:
是3D空间的几何正则项损失函数:
表示像素在3D空间坐标的平滑的损失函数,/> 表示点的虚拟法线向量/>的平滑损失函数;
是风格隐码的偏移值的正则项损失函数:
其中,是每一个风格隐码增强器输出的风格隐码偏移量,/>是输出的风格隐码偏移量的下标;
是CLIP的对比损失函数:
其中,表示基于CLIP的文本编码器,/>表示基于CLIP的图像编码器,/>表示一个训练批次的生成样本数,/>表示样本内第*个生成样本,/>是每个生成样本对应的文本输入;
是关于NeRF路径正则项的损失函数:
其中,代表随机采样的像素的集合,/>是像素点的坐标,/>表示风格隐码,/> 分别表示通过该像素点输入和输出的光线,/>和/> 分别表示模型输出的生成图像和NeRF渲染的低分辨率图像。
7.根据权利要求1所述的基于文本驱动的端到端的3D人脸快速生成与编辑方法,其特征在于,所述训练数据选择公开的2D数据集MM-CelebA。
8.根据权利要求1所述的基于文本驱动的端到端的3D人脸快速生成与编辑方法,其特征在于,所述步骤14质量评测和一致性评价,具体过程如下:
步骤14-1、单视角的质量评测:使用 InceptionV3分别提取真实图像和生成图像的特征的均值和方差,然后计算两者的均值和方差的差异,得到FID和KID,所述FID和KID是T2I中广泛使用的两个指标,用于评估合成图像的清晰度和多样性;
步骤14-2、多视角一致性评测:对生成的3D人脸渲染出5个不同视角下的生成图像,使用 ArcFace分别提取同张3D人脸在若干个不同视角下渲染生成图像的人脸特征,计算两两之间的余弦相似度,最后计算所有3D人脸的特征相似度,作为多视角人脸一致性的评测指标;
步骤14-3、语义一致匹配评价:使用CLIP模型分别提取文本描述和生成图像/>的全局特征,衡量两者的余弦相似度来定义两者之间的相关性,最终得到文本图像一致性的评价。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一项所述的基于文本驱动的端到端的3D人脸快速生成与编辑方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一项所述的基于文本驱动的端到端的3D人脸快速生成与编辑方法。
CN202410257189.6A 2024-03-07 2024-03-07 基于文本驱动的端到端的3d人脸快速生成与编辑方法 Pending CN117853638A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410257189.6A CN117853638A (zh) 2024-03-07 2024-03-07 基于文本驱动的端到端的3d人脸快速生成与编辑方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410257189.6A CN117853638A (zh) 2024-03-07 2024-03-07 基于文本驱动的端到端的3d人脸快速生成与编辑方法

Publications (1)

Publication Number Publication Date
CN117853638A true CN117853638A (zh) 2024-04-09

Family

ID=90530618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410257189.6A Pending CN117853638A (zh) 2024-03-07 2024-03-07 基于文本驱动的端到端的3d人脸快速生成与编辑方法

Country Status (1)

Country Link
CN (1) CN117853638A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021254499A1 (zh) * 2020-06-19 2021-12-23 北京灵汐科技有限公司 编辑模型生成、人脸图像编辑方法、装置、设备及介质
CN115984485A (zh) * 2023-02-17 2023-04-18 南京大学 一种基于自然文本描述的高保真三维人脸模型生成方法
CN116071494A (zh) * 2022-12-23 2023-05-05 杭州像衍科技有限公司 基于隐式神经函数的高保真三维人脸重建与生成方法
CN116385827A (zh) * 2023-03-27 2023-07-04 中国科学技术大学 参数化人脸重建模型训练方法及关键点标签数据生成方法
CN116721176A (zh) * 2023-08-10 2023-09-08 南强优视(厦门)科技有限公司 一种基于clip监督的文本到人脸图像生成方法及装置
WO2023245927A1 (zh) * 2022-06-23 2023-12-28 中国科学院自动化研究所 图像生成器的训练方法、装置、电子设备和可读存储介质
CN117522697A (zh) * 2023-10-11 2024-02-06 东南大学 一种人脸图像生成方法、系统及模型训练方法
CN117557683A (zh) * 2023-09-19 2024-02-13 厦门大学 一种新型的文本和语义分割图共同驱动的图像生成方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021254499A1 (zh) * 2020-06-19 2021-12-23 北京灵汐科技有限公司 编辑模型生成、人脸图像编辑方法、装置、设备及介质
WO2023245927A1 (zh) * 2022-06-23 2023-12-28 中国科学院自动化研究所 图像生成器的训练方法、装置、电子设备和可读存储介质
CN116071494A (zh) * 2022-12-23 2023-05-05 杭州像衍科技有限公司 基于隐式神经函数的高保真三维人脸重建与生成方法
CN115984485A (zh) * 2023-02-17 2023-04-18 南京大学 一种基于自然文本描述的高保真三维人脸模型生成方法
CN116385827A (zh) * 2023-03-27 2023-07-04 中国科学技术大学 参数化人脸重建模型训练方法及关键点标签数据生成方法
CN116721176A (zh) * 2023-08-10 2023-09-08 南强优视(厦门)科技有限公司 一种基于clip监督的文本到人脸图像生成方法及装置
CN117557683A (zh) * 2023-09-19 2024-02-13 厦门大学 一种新型的文本和语义分割图共同驱动的图像生成方法
CN117522697A (zh) * 2023-10-11 2024-02-06 东南大学 一种人脸图像生成方法、系统及模型训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘全明;辛阳阳;: "端到端的低质人脸图像表情识别", 小型微型计算机系统, no. 03, 15 March 2020 (2020-03-15) *

Similar Documents

Publication Publication Date Title
CN111724478B (zh) 一种基于深度学习的点云上采样方法
CN108986050B (zh) 一种基于多分支卷积神经网络的图像和视频增强方法
CN111739078B (zh) 一种基于上下文注意力机制的单目无监督深度估计方法
CN109859147B (zh) 一种基于生成对抗网络噪声建模的真实图像去噪方法
CN109544662B (zh) 一种基于SRUnet的动漫风格线稿上色方法及系统
CN110598806A (zh) 一种基于参数优化生成对抗网络的手写数字生成方法
CN109214989A (zh) 基于多方向特征预测先验的单幅图像超分辨率重建方法
CN112614070B (zh) 一种基于DefogNet的单幅图像去雾方法
CN116402679B (zh) 一种轻量级红外超分辨率自适应重建方法
Izumi et al. Super-resolution of sea surface temperature with convolutional neural network-and generative adversarial network-based methods
KR20210116922A (ko) 초해상도 모델의 메타 러닝을 통한 빠른 적응 방법 및 장치
CN111768326A (zh) 一种基于gan扩增图像前景物体的高容量数据保护方法
CN109345604A (zh) 图片处理方法、计算机设备和存储介质
KR20210019835A (ko) 방향 적응형 병렬 신경망을 이용한 초해상도 영상 생성 장치 및 방법
CN112381845B (zh) 岩心图像生成方法、模型训练方法及装置
CN116503508B (zh) 一种个性化模型构建方法、系统、计算机及可读存储介质
CN117593275A (zh) 一种医学图像分割系统
CN117036901A (zh) 一种基于视觉自注意力模型的小样本微调方法
CN117853638A (zh) 基于文本驱动的端到端的3d人脸快速生成与编辑方法
CN113761797B (zh) 一种基于计算机视觉的无线信道路径损耗模型预测方法
CN115049558A (zh) 模型训练、人脸图像处理方法及装置、电子设备及可读存储介质
CN114049939A (zh) 一种基于UNet-GAN网络的肺炎CT图像生成方法
CN116228994B (zh) 三维模型获取方法、装置、设备及存储介质
US20240161362A1 (en) Target-augmented material maps
EP4376399A1 (en) Latent representation of color space and its transformation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination