CN117593442B

CN117593442B - 一种基于多阶段细粒度渲染的人像生成方法

Info

Publication number: CN117593442B
Application number: CN202311600566.3A
Authority: CN
Inventors: 李豪杰; 付晖; 龚科
Original assignee: Guangzhou Wisdom Technology Guangzhou Co ltd
Current assignee: Guangzhou Wisdom Technology Guangzhou Co ltd
Priority date: 2023-11-28
Filing date: 2023-11-28
Publication date: 2024-05-03
Anticipated expiration: 2043-11-28
Also published as: CN117593442A

Abstract

本发明属于视频处理领域，公开了一种基于多阶段细粒度渲染的人像生成方法，包括S1，获取训练好的第一神经网络生成器、第二神经网络生成器和第三神经网络生成器；S2，基于训练好的第二神经网络生成器获取第一2D嘴部序列；S3，基于训练好的第一神经网络生成器获取第一伪2D人脸视频；S4，将第一2D嘴部序列和第一伪2D人脸视频输入到训练好的第三神经网络生成器中，得到渲染好的人脸视频。本发明可以精确地捕捉嘴部的形态变化，使生成的人像在嘴部动作方面更加逼真。

Description

一种基于多阶段细粒度渲染的人像生成方法

技术领域

本发明涉及视频处理领域，尤其涉及一种基于多阶段细粒度渲染的人像生成方法。

背景技术

随着图像及视频处理技术的发展，可以基于3D可变形人脸模型(3DMM)渲染生成2D人像视频，在保证目标身份不变的前提下，保持3D和2D人脸序列嘴型以及面部表情的一致性，以及生成人像的真实性。现有技术中，借助深度神经网络，以目标人像的单张或多张人脸图像(即视频)作为输入源，通过3DMM系数直接在隐空间中控制目标人像序列的渲染生成。然而，此类方案存在嘴部区域生成模糊的质量问题。

发明内容

本发明的目的在于公开一种基于多阶段细粒度渲染的人像生成方法，解决背景技术中提出的问题。

为了达到上述目的，本发明提供如下技术方案：

本发明提供了一种基于多阶段细粒度渲染的人像生成方法，包括：

S1，获取训练好的第一神经网络生成器、第二神经网络生成器和第三神经网络生成器；

S2，基于训练好的第二神经网络生成器获取第一2D嘴部序列；

S3，基于训练好的第一神经网络生成器获取第一伪2D人脸视频；

S4，将第一2D嘴部序列和第一伪2D人脸视频输入到训练好的第三神经网络生成器中，得到渲染好的人脸视频。

优选地，获取训练好的第一神经网络生成器，包括：

获取第一3DMM系数；

对第一3DMM系数进行可微分渲染，得到第一3D人脸视频；

获取用于训练的第一2D人脸视频；

基于第一2D人脸视频生成第一2D人脸背景视频；

将第一3D人脸视频和第一2D人脸背景视频输入到第一神经网络生成器中，渲染得到第一视频；

将第一视频输入到第一神经网络判别器中，采用生成对抗方式对第一神经网络生成器进行训练，得到训练好的第一神经网络生成器。

优选地，获取训练好的第二神经网络生成器，包括：

获取第一3DMM系数；

对第一3DMM系数进行可微分渲染，得到第一3D人脸视频；

将第一3D人脸视频输入到第二神经网络生成器中，生成第二2D嘴部序列；

将第二2D嘴部序列输入到第二神经网络判别器中，采用生成对抗方式对第二神经网络生成器进行训练，得到训练好的第二神经网络生成器。

优选地，获取训练好的第三神经网络生成器，包括：

获取第一3DMM系数；

基于第一3DMM系数和训练好的第二神经网络生成器生成第三2D嘴部序列；

基于第一3DMM系数和训练好的第一神经网络生成器生成第二伪2D人脸视频；

将第三2D嘴部序列和第二伪2D人脸视频输入到第三神经网络生成器中，得到第二视频；

将第二视频输入到第三神经网络判别器中，采用生成对抗方式对第三神经网络生成器进行训练，得到训练好的第三神经网络生成器。

优选地，获取第一3DMM系数，包括：

对用于训练的第一2D人脸视频输入到预先训练完成的特征提取器模型中，输出第一2D人脸视频的人脸特征向量；

将所述人脸图像输入预先训练完成的回归器模型中，输出第一2D人脸视频所对应的第一3DMM系数。

优选地，基于第一3DMM系数和训练好的第二神经网络生成器生成第三2D嘴部序列，包括：

对第一3DMM系数进行可微分渲染，得到第一3D人脸视频；

将第一3D人脸视频输入到训练好的第二神经网络生成器中，生成第三2D嘴部序列。

优选地，基于第一3DMM系数和训练好的第一神经网络生成器生成第二伪2D人脸视频，包括：

基于第一3DMM系数构造第一伪3DMM系数；

对第一伪3DMM系数进行可微分渲染，得到第一伪3D人脸视频；

获取用于训练的第一2D人脸视频；

基于第一2D人脸视频生成第一2D人脸背景视频；

将第一伪3D人脸视频和第一2D人脸背景视频输入到训练好的第一神经网络生成器中，渲染得到第二伪2D人脸视频。

优选地，基于第一3DMM系数构造第一伪3DMM系数，包括：

将用于构造第一伪3DMM系数的第一3DMM系数表示为A；

在包含多个用于训练的第一2D人脸视频的训练集中随机选取一个第一2D人脸视频，对选取的第一2D人脸视频获取对应的第一3DMM系数，将得到的第一3DMM系数表示为B；

用B的人脸表情参数以及控制嘴部张合的人脸姿态参数替换A的人脸表情参数以及控制嘴部张合的人脸姿态参数，得到第一伪3DMM系数。

有益效果：

(1)高保真人像生成：传统的人像生成方法可能无法捕捉到人脸的细微特征和表情变化，导致生成的人像缺乏真实感。本发明的多阶段细粒度渲染方法允许生成高度逼真的人像，准确呈现人脸的皱纹、细节和色彩变化，从而在人像生成领域实现了质的飞跃。

(2)准确的嘴型和面部细节：由于嘴部是表情和语音交流的重要组成部分，本发明特别注重嘴型的生成准确性。通过将嘴部区域单独提取出来，然后采用3D可变形人脸模型(3DMM)结合多阶段渲染，本发明可以精确地捕捉嘴部的形态变化，使生成的人像在嘴部动作和面部细节方面更加逼真。

(3)创造性的技术进步：本发明在人像生成领域引入了多阶段细粒度渲染方法，填补了现有方法在细节保真度方面的空白。通过将3DMM与渲染技术相结合，本发明创造性地解决了传统方法中存在的细节模糊和真实感不足的问题，从而在技术上取得了重大突破。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于多阶段细粒度渲染的人像生成方法的一种示意图。

图2为本发明获取训练好的第一神经网络生成器的过程的一种示意图。

图3为本发明获取训练好的第二神经网络生成器的过程的一种示意图。

图4为本发明获取第二伪2D人脸视频的过程的一种示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示的一种实施例，本发明提供了一种基于多阶段细粒度渲染的人像生成方法，包括：

S2，基于训练好的第二神经网络生成器获取第一2D嘴部序列；

上述实施方式具有如下的进步：

高保真人像生成：传统的人像生成方法可能无法捕捉到人脸的细微特征和表情变化，导致生成的人像缺乏真实感。本发明的多阶段细粒度渲染方法允许生成高度逼真的人像，准确呈现人脸的皱纹、细节和色彩变化，从而在人像生成领域实现了质的飞跃。

准确的嘴型和面部细节：由于嘴部是表情和语音交流的重要组成部分，本发明特别注重嘴型的生成准确性。采用3D可变形人脸模型(3DMM)结合多阶段渲染，本发明可以精确地捕捉嘴部的形态变化，使生成的人像在嘴部动作和面部细节方面更加逼真。

创造性的技术进步：本发明在人像生成领域引入了多阶段细粒度渲染方法，填补了现有方法在细节保真度方面的空白。通过将3DMM与渲染技术相结合，本发明创造性地解决了传统方法中存在的细节模糊和真实感不足的问题，从而在技术上取得了重大突破。

提升社交媒体和虚拟交互体验：随着社交媒体和虚拟交互的普及，人们越来越需要逼真的人像生成技术来创造更加引人入胜的内容。本发明提供的高保真人像生成方法将显著提升用户在社交媒体平台上的内容创作体验，同时在虚拟交互中创造更加身临其境的沉浸式体验。

经济效益：本发明的多阶段细粒度渲染方法可以显著降低人工制作逼真人像所需的时间和成本。相较于传统的手工绘制或复杂的图像编辑软件，本发明能够在短时间内生成高质量的人像，从而为创作者和生产者节省了大量资源。

总体上，本发明的多阶段细粒度渲染人像生成方法引入了创新性的技术解决方案，显著提升了人像生成的质量和效率。通过捕捉细微的面部特征和嘴部动作，本发明为社交媒体、虚拟交互和其他领域带来了丰富的应用前景，同时也为技术发展和经济增长作出了积极的贡献。

优选地，如图2所示，获取训练好的第一神经网络生成器，包括：

获取第一3DMM系数；

对第一3DMM系数进行可微分渲染，得到第一3D人脸视频；

获取用于训练的第一2D人脸视频；

基于第一2D人脸视频生成第一2D人脸背景视频；

具体的，基于第一2D人脸视频生成第一2D人脸背景视频，包括：

采用人脸检测器对第一2D人脸视频进行关键点检测，获得第一2D人脸视频中的人脸关键点；

基于人脸关键点获取第一2D人脸视频中的嘴部区域；

抠除第一2D人脸视频中的嘴部区域，得到第一2D人脸背景视频。

具体的，人脸检测器采用现有的RetinaFace模型。

具体的，采用生成对抗方式对第一神经网络生成器进行训练，包括：

计算获得的第一视频与用于训练的第一2D人脸视频的L₁损失和感知损失；

L₁损失表示为：其中/>和y表示渲染重建得到的第一视频中的人脸和用于训练的第一2D人脸视频中的人脸，感知损失表示为/> 其中φ()表示多层神经网络VGG19，用于图像的特征提取。

基于L₁损失和感知损失对第一神经网络生成器的参数进行优化，直至到第一神经网络生成器的参数收敛。

优选地，如图3所示，获取训练好的第二神经网络生成器，包括：

获取第一3DMM系数；

对第一3DMM系数进行可微分渲染，得到第一3D人脸视频；

具体的，将第一3D人脸视频输入到第二神经网络生成器中，生成第二2D嘴部序列，包括：

对第一3D人脸视频进行正面截取，获得第一3D人脸视频中的每一帧的正面人脸图像；

采用人脸检测器对正面人脸图像进行关键点检测，获得正面人脸图像中的人脸关键点；

基于人脸关键点获取正面人脸图像中的嘴部区域；

抠除正面人脸图像中的嘴部区域，得到第二2D嘴部图像；

由所有的第二2D嘴部图像组成第二2D嘴部序列。

具体的，采用生成对抗方式对第二神经网络生成器进行训练，包括：

计算获得的第二2D嘴部序列与第一3D人脸视频中的图像帧中的嘴部的L₁损失和感知损失；计算的过程与对第一神经网络生成器进行训练时的计算过程相同，只需要把相应的参数进行替换即可；

基于L₁损失和感知损失对第二神经网络生成器的参数进行优化，直至到第二神经网络生成器的参数收敛。

优选地，获取训练好的第三神经网络生成器，包括：

获取第一3DMM系数；

优选地，获取第一3DMM系数，包括：

在另一种实施方式中，可以通过单目3D人脸重建方法DECA获取第一2D人脸视频的第一3DMM系数。

对第一3DMM系数进行可微分渲染，得到第一3D人脸视频；

优选地，如图4所示，基于第一3DMM系数和训练好的第一神经网络生成器生成第二伪2D人脸视频，包括：

基于第一3DMM系数构造第一伪3DMM系数；

对第一伪3DMM系数进行可微分渲染，得到第一伪3D人脸视频；

获取用于训练的第一2D人脸视频；

基于第一2D人脸视频生成第一2D人脸背景视频；

具体的，采用生成对抗方式对第三神经网络生成器进行训练，包括：

计算获得的第二视频与用于训练的第一2D人脸视频的的L₁损失和感知损失；计算的过程与对第一神经网络生成器进行训练时的计算过程相同，只需要把相应的参数进行替换即可；

基于L₁损失和感知损失对第三神经网络生成器的参数进行优化，直至到第三神经网络生成器的参数收敛。

优选地，基于第一3DMM系数构造第一伪3DMM系数，包括：

将用于构造第一伪3DMM系数的第一3DMM系数表示为A；

具体的，基于训练好的第二神经网络生成器获取第一2D嘴部序列，包括：

获取需要进行三维重建的人脸视频；

获取需要进行三维重建的人脸视频所对应的第二3DMM系数；

对第二3DMM系数进行可微分渲染，得到第二3D人脸视频；

将第二3D人脸视频输入到训练好的第二神经网络生成器中，生成第一2D嘴部序列。

具体的，基于训练好的第一神经网络生成器获取第一伪2D人脸视频，包括：

获取需要进行三维重建的人脸视频；

获取需要进行三维重建的人脸视频所对应的第二3DMM系数；

基于第二3DMM系数构造第二伪3DMM系数；

对第二伪3DMM系数进行可微分渲染，得到第二伪3D人脸视频；

基于需要进行三维重建的人脸视频生成第二2D人脸背景视频；

将第二伪3D人脸视频和第二2D人脸背景视频输入到训练好的第一神经网络生成器中，渲染得到第一伪2D人脸视频。

优选地，特征提取器模型为FaceNet模型。

优选地，回归器模型为卷积神经网络。

优选地，第一神经网络生成器、第二神经网络生成器和第三神经网络生成器均为UNet网络。

优选地，第一神经网络生成器、第二神经网络生成器和第三神经网络生成器还可以是与UNet网络的结构类似的其它神经网络。

优选地，第一神经网络判别器、第二神经网络判别器、第三神经网络判别器均为PatchGAN网络。

优选地，第一神经网络判别器、第二神经网络判别器、第三神经网络判别器还可以是与PatchGAN网络的结构类似的其它神经网络。

优选地，三维可变形人脸模型(3DMM)采用FLAME模型，其表达式为：

其中S表示3D人脸，表示平均人脸，s_α，s_β和s_γ分别表示人脸形状、人脸表情和人脸姿态；α_i、β_i、γ_i分别表示s_α、s_β、s_γ的权重；m、n、l分别表示人脸形状、人脸表情和人脸姿态的总数。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于多阶段细粒度渲染的人像生成方法，其特征在于，包括：

S2，基于训练好的第二神经网络生成器获取第一2D嘴部序列；

S4，将第一2D嘴部序列和第一伪2D人脸视频输入到训练好的第三神经网络生成器中，得到渲染好的人脸视频；

获取训练好的第一神经网络生成器，包括：

获取第一3DMM系数；

对第一3DMM系数进行可微分渲染，得到第一3D人脸视频；

获取用于训练的第一2D人脸视频；

基于第一2D人脸视频生成第一2D人脸背景视频；

将第一视频输入到第一神经网络判别器中，采用生成对抗方式对第一神经网络生成器进行训练，得到训练好的第一神经网络生成器；

获取训练好的第二神经网络生成器，包括：

获取第一3DMM系数；

对第一3DMM系数进行可微分渲染，得到第一3D人脸视频；

将第二2D嘴部序列输入到第二神经网络判别器中，采用生成对抗方式对第二神经网络生成器进行训练，得到训练好的第二神经网络生成器；

获取训练好的第三神经网络生成器，包括：

获取第一3DMM系数；

将第二视频输入到第三神经网络判别器中，采用生成对抗方式对第三神经网络生成器进行训练，得到训练好的第三神经网络生成器；

基于第一3DMM系数和训练好的第二神经网络生成器生成第三2D嘴部序列，包括：

对第一3DMM系数进行可微分渲染，得到第一3D人脸视频；

将第一3D人脸视频输入到训练好的第二神经网络生成器中，生成第三2D嘴部序列；

基于第一3DMM系数和训练好的第一神经网络生成器生成第二伪2D人脸视频，包括：

基于第一3DMM系数构造第一伪3DMM系数；

对第一伪3DMM系数进行可微分渲染，得到第一伪3D人脸视频；

获取用于训练的第一2D人脸视频；

基于第一2D人脸视频生成第一2D人脸背景视频；

将第一伪3D人脸视频和第一2D人脸背景视频输入到训练好的第一神经网络生成器中，渲染得到第二伪2D人脸视频；

基于第一3DMM系数构造第一伪3DMM系数，包括：

将用于构造第一伪3DMM系数的第一3DMM系数表示为A；

2.根据权利要求1项所述的一种基于多阶段细粒度渲染的人像生成方法，其特征在于，获取第一3DMM系数，包括：