CN115578298A

CN115578298A - 一种基于内容感知的深度肖像视频合成方法

Info

Publication number: CN115578298A
Application number: CN202211064320.4A
Authority: CN
Inventors: 杨志景; 郑斯; 陈俊彬
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2023-01-06

Abstract

本发明涉及人脸图像与视频合成技术领域，公开了一种基于内容感知的深度肖像视频合成方法，通过运动估计模块对肖像区域的运动进行了充分的建模，并通过背景估计模块来提取目标参考图片的背景，从而获得充分的全内容肖像视频网络输入内容，以最大限度地提高肩部和背景等区域的确定性，全内容肖像视频网络对肖像条件和背景条件进行细化和融合，并与先前生成的帧合成视频，全内容肖像视频网络只需学习对内容进行细化和融合，而不需要修复缺失的内容，从而确保合成视频中的确定性和稳定性。

Description

一种基于内容感知的深度肖像视频合成方法

技术领域

本发明涉及人脸图像与视频的合成技术领域，特别是涉及一种基于内容感知的深度肖像视频合成方法。

背景技术

人脸作为身份认证信息的特殊属性，是众多计算机领域的研究对象。除人脸检测、识别以及活性检测等方向外，人脸合成领域同样具有很高的活跃度，且伴随着近年来深度学习技术的突破性进展，这一类技术也经历着飞速的发展，在隐私保护、影视动画、娱乐商用等各个领域得到了广泛的应用。相较于人脸检测与识别，人脸合成是一个更加开放的领域。这一领域不仅涉及到如建模、形变与渲染等诸多图形学技术，还涉及到深度学习中关于图像生成的革新技术。不同的人脸合成方法虽然可能具有类似的框架与技术路线，但在具体细节以及实现方法上可能千差万别。因此，人脸合成领域的研究与探索也在为技术本身的发展开拓空间。另外，利用人脸合成技术制作的图像或视频是多媒体篡改取证领域的重点关注对象。推动人脸合成技术发展，对数字取证领域的进步也将产生积极的推动作用。人脸重演技术，能够利用源人脸的动作来操纵目标人脸，使其做出相应的面部动作，实现实时操纵或者驱动动画角色的面部表情。基于内容感知的深度肖像视频合成方法能够将驱动人物动作完整地迁移到目标人物上，合成流畅且细节丰富的视频。

人脸合成是目前深度学习中神经网络应用在人脸视频合成方面的关键问题，对话式头部视频重演旨在将整个头部运动从源身份转移到目标身份，并完全控制目标演员，在计算机视觉和机器学习研究中越来越受欢迎，并有望在电影后期制作、视觉配音和社交媒体等多种应用中得到应用。它可以分为主题不可知的方法和主题特定的方法。主题特定和主题不特定的区别在于目标演员是特定的人物还是非特定人物，也就是训练好的模型只能用于同一个人来进行视频重演和训练好的模型其他人都能用来进行视频重演的区别。受只使用目标演员的一幅或几幅图像的限制，不可知论方法通常难以合成高保真视频。相反，通常使用特定于主题的方法训练目标人物的视频。训练后，可以合成一段高质量的人物视频。

虽然对话式头部视频重演已经取得了令人印象深刻的结果，但要生成具有良好时间连贯性和泛化性的对话视频仍然是一个具有挑战性的问题。现有的大多数方法都使用参数化人脸模式或人脸标志来传递运动，然后通过神经网络将人脸标志或参数化人脸模型的合成渲染转化为真实的视频帧。由于参数化人脸模型和人脸标志只对人脸区域进行建模，因此用于合成最终图像的神经网络输入仅包含人脸区域。在合成图像中，除人脸区域外的其他区域都是通过神经网络进行修复的，具有较大的不确定性。因此，合成视频通常是不稳定的。此外，对于需要修复的区域，神经网络可能会过度适应训练集，无法合成训练集中未出现的姿势，这可能会导致严重的伪影。

现有技术公开了一种基于三维人脸重构和视频关键帧优化的合成视频生成方法，包括以下步骤：采用卷积神经网络对输入的人脸图像优化拟合三维人脸形变模型的各个参数；利用目标视频和人脸模型的参数训练语音到表情和头部姿势映射网络利用训练好的语音到表情和头部姿势映射网络从输入的音频中获取面部表情和头部姿势参数；合成人脸并对合成人脸进行渲染生成逼真人脸视频帧；利用参数化的人脸图像和视频帧中的人脸图像训练基于生成对抗网络的渲染网络，所述渲染网络用于为每一帧的人脸图像生成背景；基于视频关键帧优化进行人脸背景渲染和视频合成。该专利在合成图像中，除人脸区域外的其他区域都是通过神经网络进行修复的，具有较大的不确定性。因此，合成视频通常是不稳定的。此外，对于需要修复的区域，神经网络可能会过度适应训练集，无法合成训练集中未出现的姿势，这可能会导致严重的伪影，导致合成视频不流畅且细节有瑕疵。

发明内容

本发明的目的是提供一种视频流畅且细节更丰富的基于内容感知的深度肖像视频合成方法。

为了实现上述目的，本发明提供了一种基于内容感知的深度肖像视频合成方法，包括：

S1、获取原始目标视频数据集，所述原始目标视频数据集的每个视频中的角色都不同于其他视频；

S2、对原始目标视频数据集进行预处理，将每个视频的帧分割为训练集和测试集；

S3、构建肖像视频合成模型，肖像视频合成模型包括外貌特征捕捉模块、运动估计模块、背景估计模块和全内容肖像视频网络，外貌特征捕捉模块与运动估计模块连接，运动估计模块和背景估计模块分别与全内容肖像视频网络相连接；外貌特征捕捉模块用于从给定肖像图像中提取外貌相关特征；运动估计模块用于根据提取的外貌特征预测给定肖像图像的每个部分的运动，生成肖像条件；背景估计模块用于捕捉背景信息，生成背景条件；全内容肖像视频网络用于将肖像条件和背景条件进行融合细化，并根据先前生成的帧合成视频；

S4、利用训练集对外貌特征捕捉模块、运动估计模块、背景估计模块和全内容肖像视频网络分别进行训练，利用测试集测试肖像视频合成模型的有效性，得到训练好的肖像视频合成模型；

S5、获取待合成的目标参考照片和驱动源视频，目标参考照片为给定目标演员的肖像，驱动源视频为源演员的动作视频；将目标参考照片和驱动源视频输入训练好的目标检测模型，输出给定目标演员的驱动视频，该视频模仿源演员的动作，同时保留目标演员的身份、外观和背景变化。

作为优选方案，运动估计模块生成肖像条件包括：

外貌特征捕捉模块从目标参考图片中提取外貌相关特征；

利用运动估计模块计算目标参考图片与驱动视频帧之间的运动，该运动包括脸部、肩部在内的各部分动作的映射；

运动估计模块将估计到的运动作用于外貌相关特征中，得到扭曲后的外貌相关特征，并根据扭曲后的外貌相关特征生成一张迁移动作后的图片。

作为优选方案，在步骤S4中，对于运动估计模块的训练，在训练时，目标参考图片与驱动视频帧来自于同一段视频的不同帧，以一种自我重演的方式训练。

作为优选方案，在步骤S4中，对于运动估计模块的训练，在测试时，有标准和相对两种模式迁移动作：

在标准模式下，计算目标参考图片与驱动视频帧之间的运动，并作用到目标参考图片上，合成迁移动作后的图片；

在相对运动迁移模式下，需要从源视频中提取一张姿势与目标参考图片相似的参照图片，提取参照图片与驱动视频帧之间的运动并作用到目标参考图片上，得到迁移动作后的图片。

作为优选方案，外貌特征捕捉模块为编码器，运动估计模块包括依次连接的无监督深度学习网络和解码器。

作为优选方案，背景估计模块生成背景条件包括：

利用图像分割技术处理目标参考图片，得到覆盖人像区域的人像掩膜；

使用覆盖背景区域的反向肖像掩膜提取右侧背景图像；

使用覆盖背景区域的反向肖像掩膜提取左侧背景图像；

根据右侧背景图像与目标参考图片的背景之间的仿射变换扭曲右侧背景图像；

根据左侧背景图像与目标参考图片的背景之间的仿射变换扭曲左侧背景图像，

将扭曲后的右侧背景图像和扭曲后的左侧背景图像进行融合，输入融合后的背景图像。

作为优选方案，提取的右侧背景图像和左侧背景图像的区域面积大于目标参考图片面积的一半。

作为优选方案，背景估计模块包括两个编码器网络和一个背景融合网络，两个编码器网络分别与背景融合网络连接，两个编码器网络分别用于处理左右侧背景。

作为优选方案，在步骤S4中，背景估计模块以自我监督的方式进行训练。

作为优选方案，全内容肖像视频网络接收肖像条件、背景条件和先前生成的帧这三种类型的内容作为条件输入，通过不同的分支对这些条件进行下采样，并获得高级特征，将得到的高级特征融合并上采样为真实图像，生成视频的新一帧。

与现有技术相比，本发明的有益效果在于：

本发明通过运动估计模块对肖像区域的运动进行了充分的建模，并通过背景估计模块来提取目标参考图片的背景，从而获得充分的全内容肖像视频网络输入内容，以最大限度地提高肩部和背景等区域的确定性，全内容肖像视频网络对肖像条件和背景条件进行细化和融合，并与先前生成的帧合成视频，全内容肖像视频网络只需学习对内容进行细化和融合，而不需要修复缺失的内容，从而确保合成视频中的确定性和稳定性。

附图说明

图1是本发明实施例的基于内容感知的深度肖像视频合成方法的流程图。

图2是本发明实施例的基于内容感知的深度肖像视频合成方法的示意图。

图3是本发明实施例的左侧背景和右侧背景的提取过程示意图。

图4是本发明实施例的背景估计模块的框架图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例一

如图1至图4所示，本发明优选实施例的一种基于内容感知的深度肖像视频合成方法，包括：

本实施例通过运动估计模块对肖像区域的运动进行了充分的建模，并通过背景估计模块来提取目标参考图片的背景，从而获得充分的全内容肖像视频网络输入内容，以最大限度地提高肩部和背景等区域的确定性，全内容肖像视频网络对肖像条件和背景条件进行细化和融合，并与先前生成的帧合成视频，全内容肖像视频网络只需学习对内容进行细化和融合，而不需要修复缺失的内容，从而确保合成视频中的确定性和稳定性。

具体来说，将肖像图像分为背景区域和肖像区域，并分别对背景区域和肖像区域进行建模，将背景条件和肖像条件输入全内容肖像视频网络进行细化和融合，生成新的视频帧。

在本实施例中，全内容肖像视频网络是基于GAN(深度学习生成对抗网络)的神经网络。

实施例二

本实施例与实施例一的区别在于，在实施例一的基础上，本实施例对步骤S1和S2作进一步的说明。

本实施例的数据集为Head2head++发布的数据集。此数据集由八个至少10分钟长的原始目标视频组成。每个视频中的角色都不同于其他视频。使用与Head2head++中相同的方法对原始视频进行预处理，然后裁剪每个视频的空间分辨率并将其调整为256×256像素。最后，将每个视频的帧分割为训练集和测试集。为了便于比较，训练集和测试集的划分与Head2head++相同。

本实施例的模型训练是一台NVIDIA TITAN RTX上进行的，所有网络都是在PyTorch中实现的，并使用默认设置的Adam进行优化。培训过程需要60个阶段，批量大小为5。背景估计模块的学习率设置为0.00001，FC2PV网络设置为0.00015。

本实施例的其他步骤与实施例一相同，此处不再赘述。

实施例三

本实施例与实施例二的区别在于，在实施例二的基础上，本实施例对运动估计模块和运动估计模块的训练作进一步的说明。

运动估计模块生成肖像条件包括：

外貌特征捕捉模块从目标参考图片中提取外貌相关特征；

本实施例的外貌特征捕捉模块为编码器，运动估计模块包括依次连接的无监督深度学习网络和解码器。

运动估计模块的训练如下：

获取给定目标视频

和任意源视频

训练时从源视频中选取一帧作为目标参考图片I_t，测试时从目标视频中选取一帧作为驱动视频帧I_t，而

为源视频的第i帧(i＝1,2,..,M)。

先使用一个编码

器从目标参考图片I_t中提取外貌相关特征

然后利用运动估计模块的无监督深度学习网络去计算I_t与驱动视频帧

之间的运动p，具体来说，该运动p为驱动视频帧

到目标参考图片I_t包括脸部、肩部在内的各部分动作的映射，驱动视频帧肖像的运动由一组关键点及其局部仿射变换表示，用一个光流表示关键点信息和局部仿射变换的参数信息，这些参数使得关键点附近的姿态信息可以通过仿射变换得到。此外，运动估计模块的无监督深度学习网络同时估计了一个遮挡图O。遮挡图用于指示出扭曲后缺失的区域。接着，将估计到的运动作用于

中，得到扭曲后的外貌特征

式中w(·,·)表示扭曲操作，⊙表示哈达玛积。最后将扭曲后的特征通过解码器D生成一张迁移动作后的图片

本实施例在步骤S4中，对于运动估计模块的训练，在训练时，目标参考图片与驱动视频帧来自于同一段视频的不同帧，以一种自我重演的方式训练。自我重演对于训练和评估模型非常有用，可以定量评估模型的重建能力，在自我重演过程中，源演员与目标演员相同，实现人物自己控制自己的效果，训练过程如上述公式描述，函数约束合成的图片需要与驱动视频帧保持一致。为了能由参考目标图片提取的特征重构出驱动视频帧，运动估计模块必须具备充分建模图片中各部分区域运动的能力。因此，训练完成后，运动估计模块能充分地建模并迁移包括肩膀在内各部分动作。这相对于人工标注的面部关键点或一些参数化人脸模型在动作迁移能力上都具有更大优势。在人像视频数据集训练完成后，模型可以应用于不同身份的人像图片。

在测试时，有标准和相对两种模式迁移动作。在标准模式下，计算驱动视频帧

与目标参考图片I_t之间的运动，并作用到目标参考图片I_t上，合成迁移动作后的图片

在相对运动迁移模式下，需要从源视频V_d中提取一张姿势与目标参考图片I_t相似的参照图片I′_d，提取参照图片I′_d与驱动视频帧

之间的运动并作用到目标参考图片I_t上，得到图片

以这种方式，可以将V_d的动作迁移到目标人物上从而得到一个与驱动人物动作一致的粗糙目标视频：

本实施例在提取外貌特征时，先提取目标参考图片的外貌相关特征，再用运动估计模块去计算参考图片和驱动视频帧，驱动视频帧肖像的运动由一组关键点及其局部仿射变换表示，这些关键点是以无监督的方式学习的，包括连脸部、肩部、脖子、上胸这些区域的人物的姿势动作。外貌特征就是人物的表情，比如说眼睛耳朵嘴巴这些。总体来说这里的做法就是保留目标参考图片的表情，将驱动视频帧的姿势动作迁移到目标参考图片中。

本实施例将肖像图片(即目标参考图片)分为背景区域和肖像区域，并分别对背景区域和肖像区域进行建模。肖像区域的运动由一组关键点及其局部仿射变换表示，利用无监督运动模型。与一些带注释的面部标志不同，这些关键点是以无监督的方式学习的，其中一些可能落在面部以外的区域，例如肩部。因此，整个上身的运动可以建模，并从源视频传输到目标演员。

另外，本实施例是通过FOMM(First Order Motion Model for Image Animation)将源演员的运动传递给目标演员。因此，在跨角色再现过程中，首先需要获得一幅姿态和表情与目标参考帧相似的源参考图像。实验中，根据选定的参考目标帧从源视频中提取参考源帧。对于具有运动背景的目标视频，可以控制背景估计模块的输入，使合成视频中的背景固定或变化与原始目标视频一致。具体地，如果背景估计模块的输入目标帧是固定的，则背景将是固定的。相反，如果将目标视频序列逐帧馈入背景估计模块，则背景将与输入的目标视频一致。

本实施例的其他步骤与实施例二相同，此处不再赘述。

实施例四

本实施例与实施例三的区别在于，在实施例三的基础上，本实施例对背景估计模块和背景估计模块的训练作进一步的说明。

背景估计模块生成背景条件包括：

使用覆盖背景区域的反向肖像掩膜提取右侧背景图像；

使用覆盖背景区域的反向肖像掩膜提取左侧背景图像；

进一步地，提取的右侧背景图像和左侧背景图像的区域面积大于目标参考图片面积的一半。即在提取右侧背景图像或左侧背景图像时，提取了一半以上的区域，可以确保更完整的背景信息。

如图3所示，选择图像P_left，其肖像位于目标视频序列的最左侧，这意味着右侧的背景在该图像中可见。P_left可以通过目标检测技术或人类注释进行定位。利用图像分割技术，可以得到覆盖人像区域的人像掩膜。然后，使用覆盖背景区域的反向肖像掩膜提取右侧背景图像BR，以避免使用背景估计模块对肖像区域进行建模。最后，我们从BR中提取正确的部分，以获得视频序列的正确参考背景BR_ref。

背景估计模块包括两个编码器网络(e_L,e_R)和一个背景融合网络(H)，两个编码器网络(e_L,e_R)分别与背景融合网络(H)连接，两个编码器网络(e_L,e_R)分别用于处理左右侧背景。

将参考背景BX_ref和当前目标帧

作为输入，其中X为L或R，并预测六个实值

为BX_ref和

之间的仿射背景转换，因此：

然后根据

扭曲BX_ref，可以获得扭曲的背景

和

作为背景条件。

和

应相互匹配，并与

中的背景相对应。因此：

然后，设计了一个由一系列2D卷积块组成的背景融合网络H，该网络不需要任何上采样或下采样操作，以融合

和

H取

和

作为输入，输出背景图像

大小为H×W×3，其中H和W是视频帧的宽度和高度

在本实施例中，对于背景区域，我们假设背景的运动是刚性的。在训练时，通过背景估计模块提取各目标帧的背景。首先，从目标视频中提取左右参考背景。两个编码器网络预测每个目标帧和参考背景之间的运动，该运动由仿射变换的参数表示。然后将运动应用于左右参考背景，并通过背景融合网络，输出相应目标帧的最终背景。在测试时，我们重用从训练集中提取的背景作为神经网络的条件输入。因此，可以根据条件输入。最后，训练神经网络对条件内容进行细化和融合。

进一步地，在步骤S4中，背景估计模块以自我监督的方式进行训练，可避免手动注释。

在运动估计模块和背景估计模块中，本实施例都采用自我再现。因为地面真值框架是可用的。在自我再现过程中，源演员与目标演员相同，但测试集和训练集是同一视频的两部分，它们是不同的。因此，在训练过程中未看到测试期间使用的源驱动视频序列。为了验证背景估计模块的有效性，对于具有运动背景的视频，本实施例在测试期间将测试源帧输入到背景估计模块中。

本实施例的其他步骤与实施例三相同。

实施例五

本实施例与实施例四的区别在于，在实施例四的基础上，本实施例对全内容肖像视频网络作进一步的说明。

全内容肖像视频网络接收肖像条件、背景条件和先前生成的帧这三种类型的内容作为条件输入，通过不同的分支对这些条件进行下采样，并获得高级特征，将得到的高级特征融合并上采样为真实图像，生成视频的新一帧。全内容肖像视频网络用于人像视频翻译。

具体地，全内容肖像视频网络接收三种类型的内容作为条件输入，即：肖像条件

背景条件

和先前生成的帧y^i-2:i-1,通过不同的分支对这些条件进行下采样，并获得高级特征。将得到的高级特征融合并上采样为真实图像yⁱ。因此：

训练时，源视频和目标视频是相同的片段。也就是说，在合成视频中，每个帧yⁱ应该是原始目标视频中对应帧

的复制，该帧用作地面真实值。

测试时，肖像部分(包括肩部)中生成目标的运动将基于

的运动。对于背景，选择训练集生成的背景视频作为背景条件输入，也选择其中一帧作为背景条件输入，生成的视频背景将是静态的。

本实施例的其他步骤与实施例四相同，此处不再赘述。

综上，本发明实施例提供一种基于内容感知的深度肖像视频合成方法，其通过运动估计模块对肖像区域的运动进行了充分的建模，并通过背景估计模块来提取目标参考图片的背景，从而获得充分的全内容肖像视频网络输入内容，以最大限度地提高肩部和背景等区域的确定性，全内容肖像视频网络对肖像条件和背景条件进行细化和融合，并与先前生成的帧合成视频，全内容肖像视频网络只需学习对内容进行细化和融合，而不需要修复缺失的内容，从而确保合成视频中的确定性和稳定性。本发明是采用一种无递归的方法来合成一个完整的真实肖像视频，避免了累积误差，并允许并行计算，它将目标演员的身份和源演员的运动相结合。该方法对人像视频帧中的各个部分进行充分建模，将基于GAN的全条件输入到精心设计的人像视频翻译网络中。通过该网络，可以将条件输入转换为逼真且时间平滑的视频帧。该方法合成的视频质量比很多基于递归的方法好，同时证明了不重用前一帧的方法也可以合成逼真的人像视频。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种基于内容感知的深度肖像视频合成方法，其特征在于，包括：

2.根据权利要求1所述的基于内容感知的深度肖像视频合成方法，其特征在于，运动估计模块生成肖像条件包括：

外貌特征捕捉模块从目标参考图片中提取外貌相关特征；

3.根据权利要求2所述的基于内容感知的深度肖像视频合成方法，其特征在于，在步骤S4中，对于运动估计模块的训练，在训练时，目标参考图片与驱动视频帧来自于同一段视频的不同帧，以一种自我重演的方式训练。

4.根据权利要求3所述的基于内容感知的深度肖像视频合成方法，其特征在于，在步骤S4中，对于运动估计模块的训练，在测试时，有标准和相对两种模式迁移动作：

5.根据权利要求1所述的基于内容感知的深度肖像视频合成方法，其特征在于，外貌特征捕捉模块为编码器，运动估计模块包括依次连接的无监督深度学习网络和解码器。

6.根据权利要求1所述的基于内容感知的深度肖像视频合成方法，其特征在于，背景估计模块生成背景条件包括：

使用覆盖背景区域的反向肖像掩膜提取右侧背景图像；

使用覆盖背景区域的反向肖像掩膜提取左侧背景图像；

7.根据权利要求6所述的基于内容感知的深度肖像视频合成方法，其特征在于，提取的右侧背景图像和左侧背景图像的区域面积大于目标参考图片面积的一半。

8.根据权利要求6所述的基于内容感知的深度肖像视频合成方法，其特征在于，背景估计模块包括两个编码器网络和一个背景融合网络，两个编码器网络分别与背景融合网络连接，两个编码器网络分别用于处理左右侧背景。

9.根据权利要求1所述的基于内容感知的深度肖像视频合成方法，其特征在于，在步骤S4中，背景估计模块以自我监督的方式进行训练。

10.根据权利要求1所述的基于内容感知的深度肖像视频合成方法，其特征在于，全内容肖像视频网络接收肖像条件、背景条件和先前生成的帧这三种类型的内容作为条件输入，通过不同的分支对这些条件进行下采样，并获得高级特征，将得到的高级特征融合并上采样为真实图像，生成视频的新一帧。