CN116503526A - 一种视频驱动的三维人脸表情动画生成方法 - Google Patents
一种视频驱动的三维人脸表情动画生成方法 Download PDFInfo
- Publication number
- CN116503526A CN116503526A CN202310462995.2A CN202310462995A CN116503526A CN 116503526 A CN116503526 A CN 116503526A CN 202310462995 A CN202310462995 A CN 202310462995A CN 116503526 A CN116503526 A CN 116503526A
- Authority
- CN
- China
- Prior art keywords
- texture
- image
- vector
- facial
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008921 facial expression Effects 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000001815 facial effect Effects 0.000 claims abstract description 48
- 238000009877 rendering Methods 0.000 claims abstract description 37
- 230000014509 gene expression Effects 0.000 claims description 25
- 238000005286 illumination Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000004424 eye movement Effects 0.000 claims description 6
- 210000004709 eyebrow Anatomy 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 210000005069 ears Anatomy 0.000 claims description 3
- 210000004209 hair Anatomy 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明一种视频驱动的三维人脸表情动画生成方法,逐帧将输入的源图像和驱动视频送入编码器并将得到的源图像向量与驱动视频帧向量混合,使用混合向量生成驱动网格和线性纹理贴图,完成人脸模型驱动;使用线性纹理贴图和驱动网格进行渲染得到线性纹理渲染图;将源图像展开到UV空间得到源纹理贴图,源纹理贴图和驱动网格进行渲染得到源纹理渲染图;从线性纹理渲染图中提取面部语义图;将源图像、源纹理渲染图和面部语义图作为输入条件送入纹理生成模块得到生成的面部图像并将其展开至UV空间,得到UV纹理贴图;使用UV纹理贴图和驱动网格进行渲染得到动画帧;串联所有动画帧输出三维人脸表情动画。提高了面部纹理质量,生成更高逼真度的人脸动画。
Description
技术领域
本发明涉及计算机视觉和计算机图形学领域,具体为一种视频驱动的三维人脸表情动画生成方法。
背景技术
人脸表情动画生成技术是一种将人脸图像或视频转换成逼真的三维动态人脸表情动画的技术。现有的人脸表情动画生成技术主要存在以下四个方面的缺点和不足:
缺乏真实性:现有技术使用的纹理贴图和模型通常是以平均面孔为基础,难以捕捉到个体面部特征的细节,缺乏真实感。
局限性:现有技术大多只能生成受限制的、静态的表情,无法根据实时视频输入生成连续的、自然的表情变化。
计算复杂度高:现有技术需要进行复杂的数据处理和计算,需要较长时间才能生成一个人脸表情动画,且计算复杂度随着动画长度和质量的提高而增加。
对数据依赖性强:现有技术需要大量的已标注或未标注的训练数据,对数据的质量和数量要求较高。
发明内容
本发明基于3DMM技术和人脸图像生成技术的视频驱动的三维人脸表情动画生成方法,引入了实时视频输入来捕捉人脸的细节和动态表情,生成更加逼真的面部纹理贴图,同时也能够实现连续的、自然的表情变化;同时,该方法还可有效减少计算复杂度和对数据的依赖性,提高了生成的动画效果的逼真度和速度。从而克服了现有技术的缺点和不足。
本发明为解决其技术问题所采用的技术方案是:
一种视频驱动的三维人脸表情动画生成方法,步骤包括:
S1:输入一张人脸源图像和一个驱动视频;
S2:逐帧将源图像和驱动视频送入编码器,得到源图像的向量和驱动视频帧的向量;
S3:将源图像的向量与驱动视频帧的向量混合得到混合向量,然后使用混合向量生成驱动网格和线性纹理贴图,完成人脸模型驱动;
S4:使用线性纹理贴图和驱动网格进行渲染,得到线性纹理渲染图;
S5:将源图像展开到UV空间得到源纹理贴图,然后使用源纹理贴图和驱动网格进行渲染,得到源纹理渲染图;
S6:从线性纹理渲染图中提取面部语义图;
S7:将源图像、源纹理渲染图和面部语义图作为输入条件送入纹理生成模块,得到生成的面部图像;
S8:将生成的面部图像展开至UV空间,得到UV纹理贴图;
S9:使用得到的UV纹理贴图和驱动网格进行渲染,得到动画帧;
S10:串联所有动画帧,输出三维人脸表情动画。
进一步的,步骤S2中所述的编码器采用ResNet-50结构,含有一个236维的预测头,并且输出236维向量,该向量由身份参数β、表情参数θ、位姿参数ψ、纹理参数γ、光照参数l、相机参数c拼接而成,其中身份参数β、表情参数θ、位姿参数ψ为3DMM模型参数;该编码器采用端到端的无监督训练方式。
进一步的,步骤S3中所述将源图像的向量与驱动视频帧的向量混合得到混合向量,具体为:将源图像的向量中的身份参数、纹理参数与驱动视频帧的向量中的表情参数、位姿参数、光照参数和相机参数进行混合,通过在3DMM模型的参数空间保持所述身份参数,转移所述表情参数和所述位姿参数来完成人脸模型驱动。
进一步的,步骤S5中所述将源图像展开到UV空间得到源纹理贴图,具体步骤包括:
S51:使用编码器获得源图像的向量,并进行重建得到人脸网格;
S52:将人脸网格的3D顶点投影到所述源图像,使其每个3D顶点的投影都能对应所述源图像的一个像素;
S53:根据3D顶点投影与源图像像素的对应关系将源图像的像素映射到每个3D顶点所对应的UV空间坐标上,得到所述源纹理贴图。
进一步的,步骤S6中所述面部语义图的语义部分包括面部皮肤、眉毛、眼睛、鼻子、嘴、上嘴唇、下嘴唇、部分头发的语义信息,不包括耳朵、背景、脖子的语义信息。
进一步的,步骤S7中所述的纹理生成模块采用编码器-解码器结构,解码器中包含SPADE块,以融合面部语义信息;该纹理生成模块采用源图像、源纹理渲染图和面部语义图作为其输入条件;该纹理生成模块输出的图像具有所述源图像的身份特征和所述面部语义图的表情特征;该纹理生成模块采用监督学习进行训练,并且使用对抗损失、特征匹配损失、面部语义损失、眼动一致性损失。
进一步的,所述眼动一致性损失,采用相应的眼部遮罩划分出眼周区域,来单独计算眼周区域的像素损失,计算公式如下:
Leyes=||mask⊙(Ireal-Iout)||1
其中mask是眼周区域遮罩,Ireal和Iout分别表示真实图像和生成图像。
本发明的有益效果包括:
本专利涉及的技术是一种视频驱动的三维人脸表情动画生成方法,旨在克服现有技术的局限性,提供更高质量和更逼真的面部纹理合成。该技术基于3DMM(三维形状和纹理模型)技术和人脸图像生成技术,实现了以下功能:
首先,该技术使用源纹理渲染图作为纹理生成的条件,提供了大部分源图像的纹理信息,以最大程度地保持纹理相似性。这样可以使网络专注于细节的合成,从而生成更逼真的面部纹理。
其次,该技术通过融合面部语义信息作为表情控制条件,提供更明确的指导,使得生成的人脸图像质量更高。具体而言,面部语义信息包括眉毛、眼睛、嘴巴等区域的特征点位置和运动轨迹,这些信息可以帮助生成更准确的面部表情。
另外,该技术在3DMM空间进行表情的转移,以最大程度地保持身份不变性。这意味着生成的动画可以保持原始面部结构和形态的一致性,同时仍然能够呈现出各种表情。
总之,视频驱动的三维人脸表情动画生成方法是一种创新的技术,该技术能够生成更高质量和更逼真的三维人脸表情动画,具有广泛的应用前景,例如在游戏、虚拟现实、电影等领域中可以提供更加真实的角色表现,为人脸表情动画的应用提供了更加可靠和高质量的解决方案。
附图说明
图1是本发明方法的流程图;
图2是本发明方法中编码器的训练流程图;
图3是本发明方法中人脸模型驱动流程图;
图4是本发明方法的纹理生成模块结构图;
图5是本发明方法的整体网络结构图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
一种视频驱动的三维人脸表情动画生成方法,步骤包括:
S1:输入一张人脸源图像和一个驱动视频;
S2:逐帧将源图像和驱动视频送入编码器,得到源图像的向量和驱动视频帧的向量;
所述的编码器具有以下特征:
采用ResNet-50结构,含有一个236维的预测头,并且输出236维向量,该向量由身份参数β、表情参数θ、位姿参数ψ、纹理参数γ、光照参数l、相机参数c拼接而成,其中身份参数β、表情参数θ、位姿参数ψ为3DMM模型参数;
采用端到端的无监督训练方式,端到端的无监督训练从未标记的数据中学习有用的特征表示。将原始输入数据作为模型的输入,并使用自编码器等方法学习数据的压缩表示,然后重构出与原始数据相似度高的输出。这些经过训练的特征表示可以用于解决各种任务,如分类、聚类、生成等。相比于有监督学习需要大量标注数据的缺点,无监督学习可以利用更丰富的未标记数据来提升模型性能。同时,端到端的无监督训练方式还可以减少特征工程的需求,使得模型设计更加简单和灵活。
S3:将源图像的向量与驱动视频帧的向量混合得到混合向量,然后使用混合向量生成驱动网格和线性纹理贴图,完成人脸模型驱动;
所述将源图像的向量与驱动视频帧的向量混合得到混合向量,具体为:将源图像的向量中的身份参数、纹理参数与驱动视频帧的向量中的表情参数、位姿参数、光照参数和相机参数进行混合,通过在3DMM模型的参数空间保持所述身份参数,转移所述表情参数和所述位姿参数来完成人脸模型驱动。输出驱动网格,驱动网格具有所述源图像的身份信息和所述驱动视频帧的表情姿势信息。
S4:使用线性纹理贴图和驱动网格进行渲染,得到线性纹理渲染图;
S5:将源图像展开到UV空间得到源纹理贴图,然后使用源纹理贴图和驱动网格进行渲染,得到源纹理渲染图;
所述将源图像展开到UV空间得到源纹理贴图,具体步骤包括:
首先使用编码器获得源图像的向量,并进行重建得到人脸网格;
其次将人脸网格的3D顶点投影到所述源图像,使其每个3D顶点的投影都能对应所述源图像的一个像素;
最后根据3D顶点投影与源图像像素的对应关系将源图像的像素映射到每个3D顶点所对应的UV空间坐标上,得到所述源纹理贴图。
S6:从线性纹理渲染图中提取面部语义图;
所述面部语义图的语义部分包括面部皮肤、眉毛、眼睛、鼻子、嘴、上嘴唇、下嘴唇、部分头发的语义信息,不包括耳朵、背景、脖子的语义信息。
S7:将源图像、源纹理渲染图和面部语义图作为输入条件送入纹理生成模块,得到生成的面部图像;
所述的纹理生成模块具有以下特征:
采用编码器-解码器结构,解码器中包含SPADE块,以融合面部语义信息;
采用源图像、源纹理渲染图和面部语义图作为其输入条件;
输出的图像具有所述源图像的身份特征和所述面部语义图的表情特征;
采用监督学习进行训练,并且使用对抗损失、特征匹配损失、面部语义损失、以及本发明特有的眼动一致性损失。
所述眼动一致性损失,采用相应的眼部遮罩划分出眼周区域,来单独计算眼周区域的像素损失,计算公式如下:
Leyes=||mask⊙(Ireal-Iout)||1
其中mask是眼周区域遮罩,Ireal和Iout分别表示真实图像和生成图像。
S8:将生成的面部图像展开至UV空间,得到UV纹理贴图;
S9:使用得到的UV纹理贴图和驱动网格进行渲染,得到动画帧;
S10:串联所有动画帧,输出三维人脸表情动画,如图1所示。
实施例2
本实施例给出实施例1步骤S2中编码器的具体实施方案:
该网络使用ResNet-50结构,从256×256分辨率的人脸源图像中提取特征信息,并通过236维预测头得到236维人脸向量;
通过得到的人脸向量构建人脸网格和纹理贴图,并进行渲染,得到输出图像;
计算输出图像与输入图像的损失,调整编码器参数权重,如图2所示。
实施例3
本实施例给出实施例1步骤S3中人脸模型驱动的具体实施方案:
输入源图像与驱动图像,使用训练好的编码器回归人脸向量,源图像向量为向量1,驱动图像向量为向量2;
将向量1的身份参数和纹理参数与向量2的表情参数、姿势参数、相机参数和光照参数混合,组成混合向量;
使用混合向量构建驱动网格与线性纹理贴图;
使用驱动网格与线性纹理贴图进行渲染,获得线性纹理渲染图,如图3所示。
实施例4
本实施例给出实施例1步骤S7中纹理生成模块的具体实施方案:
该模块采用编码器-解码器结构,并且解码器中包含SPADE块,可以融合面部语义信息;
输入源图像和源纹理渲染图,然后通过SPADE块送入面部语义图,获得生成纹理;
通过将生成纹理展开至UV空间,获得UV纹理贴图,如图4所示。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (7)
1.一种视频驱动的三维人脸表情动画生成方法,其特征步骤包括:
S1:输入一张人脸源图像和一个驱动视频;
S2:逐帧将源图像和驱动视频送入编码器,得到源图像的向量和驱动视频帧的向量;
S3:将源图像的向量与驱动视频帧的向量混合得到混合向量,然后使用混合向量生成驱动网格和线性纹理贴图,完成人脸模型驱动;
S4:使用线性纹理贴图和驱动网格进行渲染,得到线性纹理渲染图;
S5:将源图像展开到UV空间得到源纹理贴图,然后使用源纹理贴图和驱动网格进行渲染,得到源纹理渲染图;
S6:从线性纹理渲染图中提取面部语义图;
S7:将源图像、源纹理渲染图和面部语义图作为输入条件送入纹理生成模块,得到生成的面部图像;
S8:将生成的面部图像展开至UV空间,得到UV纹理贴图;
S9:使用得到的UV纹理贴图和驱动网格进行渲染,得到动画帧;
S10:串联所有动画帧,输出三维人脸表情动画。
2.根据权利要求1所述的一种视频驱动的三维人脸表情动画生成方法,其特征在于,步骤S2中所述的编码器采用ResNet-50结构,含有一个236维的预测头,并且输出236维向量,该向量由身份参数β、表情参数θ、位姿参数ψ、纹理参数γ、光照参数l、相机参数c拼接而成,其中身份参数β、表情参数θ、位姿参数ψ为3DMM模型参数;该编码器采用端到端的无监督训练方式。
3.根据权利要求2所述的一种视频驱动的三维人脸表情动画生成方法,其特征在于,步骤S3中所述将源图像的向量与驱动视频帧的向量混合得到混合向量,具体为:将源图像的向量中的身份参数、纹理参数与驱动视频帧的向量中的表情参数、位姿参数、光照参数和相机参数进行混合,通过在3DMM模型的参数空间保持所述身份参数,转移所述表情参数和所述位姿参数来完成人脸模型驱动。
4.根据权利要求2所述的一种视频驱动的三维人脸表情动画生成方法,其特征在于,步骤S5中所述将源图像展开到UV空间得到源纹理贴图,具体步骤包括:
S51:使用编码器获得源图像的向量,并进行重建得到人脸网格;
S52:将人脸网格的3D顶点投影到所述源图像,使其每个3D顶点的投影都能对应所述源图像的一个像素;
S53:根据3D顶点投影与源图像像素的对应关系将源图像的像素映射到每个3D顶点所对应的UV空间坐标上,得到所述源纹理贴图。
5.根据权利要求1所述的一种视频驱动的三维人脸表情动画生成方法,其特征在于,步骤S6中所述面部语义图的语义部分包括面部皮肤、眉毛、眼睛、鼻子、嘴、上嘴唇、下嘴唇、部分头发的语义信息,不包括耳朵、背景、脖子的语义信息。
6.根据权利要求1所述的一种视频驱动的三维人脸表情动画生成方法,其特征在于,步骤S7中所述的纹理生成模块采用编码器-解码器结构,解码器中包含SPADE块,以融合面部语义信息;该纹理生成模块采用源图像、源纹理渲染图和面部语义图作为其输入条件;该纹理生成模块输出的图像具有所述源图像的身份特征和所述面部语义图的表情特征;该纹理生成模块采用监督学习进行训练,并且使用对抗损失、特征匹配损失、面部语义损失、眼动一致性损失。
7.根据权利要求6所述的一种视频驱动的三维人脸表情动画生成方法,其特征在于,所述眼动一致性损失,采用相应的眼部遮罩划分出眼周区域,来单独计算眼周区域的像素损失,计算公式如下:
Leyes=||mask⊙(Ireal-Iout)||1
其中mask是眼周区域遮罩,Ireal和Iout分别表示真实图像和生成图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310462995.2A CN116503526A (zh) | 2023-04-26 | 2023-04-26 | 一种视频驱动的三维人脸表情动画生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310462995.2A CN116503526A (zh) | 2023-04-26 | 2023-04-26 | 一种视频驱动的三维人脸表情动画生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116503526A true CN116503526A (zh) | 2023-07-28 |
Family
ID=87329746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310462995.2A Pending CN116503526A (zh) | 2023-04-26 | 2023-04-26 | 一种视频驱动的三维人脸表情动画生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116503526A (zh) |
-
2023
- 2023-04-26 CN CN202310462995.2A patent/CN116503526A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112887698B (zh) | 基于神经辐射场的高质量人脸语音驱动方法 | |
CN106023288B (zh) | 一种基于图像的动态替身构造方法 | |
CN113744374B (zh) | 一种基于表情驱动的3d虚拟形象生成方法 | |
US9196074B1 (en) | Refining facial animation models | |
CN113807265B (zh) | 一种多样化的人脸图像合成方法及系统 | |
US11403800B1 (en) | Image generation from 3D model using neural network | |
CN110796593A (zh) | 基于人工智能的图像处理方法、装置、介质及电子设备 | |
JP2009104570A (ja) | 画像の形成用のデータ構造及び画像の形成方法 | |
CN115914505B (zh) | 基于语音驱动数字人模型的视频生成方法及系统 | |
CN117496072B (zh) | 一种三维数字人生成和交互方法及系统 | |
Zhao et al. | Havatar: High-fidelity head avatar via facial model conditioned neural radiance field | |
JP2024506170A (ja) | 個人化された3d頭部モデルおよび顔モデルを形成するための方法、電子装置、およびプログラム | |
CN112634456B (zh) | 基于深度学习的复杂三维模型的实时高真实感绘制方法 | |
CN116863044A (zh) | 人脸模型的生成方法、装置、电子设备及可读存储介质 | |
CN116503526A (zh) | 一种视频驱动的三维人脸表情动画生成方法 | |
CN116310146A (zh) | 人脸图像重演方法、系统、电子设备、存储介质 | |
CN116524087A (zh) | 融合神经辐射场的音频驱动的说话人视频合成方法及系统 | |
Bouzid et al. | Synthesizing facial expressions for signing avatars using MPEG4 feature points | |
Wang et al. | Expression-aware neural radiance fields for high-fidelity talking portrait synthesis | |
Tian et al. | Augmented Reality Animation Image Information Extraction and Modeling Based on Generative Adversarial Network | |
Zeng et al. | Virtual Face Animation Generation Based on Conditional Generative Adversarial Networks | |
Wang et al. | Embedded Representation Learning Network for Animating Styled Video Portrait | |
CN101593363B (zh) | 虚拟人脸部颜色变化控制方法 | |
CN117152825B (zh) | 基于单张图片人脸重建方法及系统 | |
Li et al. | Improved radial basis function based parameterization for facial expression animation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |