CN112446364A

CN112446364A - 高清人脸替换视频生成方法及系统

Info

Publication number: CN112446364A
Application number: CN202110127788.2A
Authority: CN
Inventors: 李琦; 孙哲南; 朱宇豪
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-03-05
Anticipated expiration: 2041-01-29
Also published as: US20230112462A1; WO2022160657A1; US11776576B2; CN112446364B

Abstract

本发明涉及一种高清人脸替换视频生成方法及系统，所述视频生成方法包括：获取目标人脸图像以及源人脸图像；通过人脸特征编码器分别对源人脸图像及目标人脸图像进行特征提取，得到对应的源特征编码及目标特征编码；通过人脸特征交换器，根据源特征编码及目标特征编码，生成替换人脸特征编码；通过人脸生成器，根据替换人脸特征编码，生成初始替换人脸图像；通过人脸融合器，将初始替换人脸图像与目标人脸图像进行融合，得到终极替换人脸图像。本发明通过人脸特征编码器将人脸特征进行层级编码，最大可能的保留人脸语义细节，而人脸特征交换器则在层级编码的基础上进一步处理，得到具备语义细节的替换人脸特征层级编码，可得到高清人脸替换视频。

Description

高清人脸替换视频生成方法及系统

技术领域

本发明涉及图像处理技术领域，特别涉及一种目标无关的高清人脸替换视频生成方法及系统。

背景技术

合成替换后的人脸是计算机视觉领域图像及视频生成问题的重要分支，其旨在将源人脸替换到目标人脸上，同时保持源人脸所代表的身份信息和目标人脸姿态、表情等细节信息。

随着深度学习理论的广泛应用，尤其是对抗生成网络（Generative AdversarialNetworks，GANs）的快速发展，现有的人脸替换技术大多使用基于GANs的模型合成逼真的替换。但目前的所有已知的目标无关的人脸替换框架仅能处理256×256分辨率下的人脸替换任务，其原因主要有以下三点：

人脸特征编码存在信息丢失；

对抗生成网络训练的不稳定性；

硬件约束，主要是显卡内存的不足。

以上三点或导致算法无法进行优化，或导致对抗生成网络的训练崩溃，抑或导致生成的人脸不具备足够的细节，与256×256分辨率下生成的替换人脸无有区别，致使图像换脸不够真实。

发明内容

为了解决现有技术中的上述问题，即为了得到高清换脸视频，本发明的目的在于提供一种高清人脸替换视频生成方法及系统。

为解决上述技术问题，本发明提供了如下方案：

一种高清人脸替换视频生成方法，所述视频生成方法包括：

获取待处理视频中的目标人脸图像以及对应的源人脸图像；

通过人脸特征编码器分别对所述源人脸图像及目标人脸图像进行特征提取，得到对应的源特征编码及目标特征编码；

通过人脸特征交换器，根据源特征编码及目标特征编码，生成替换人脸特征编码；

通过人脸生成器，根据所述替换人脸特征编码，生成初始替换人脸图像；

通过基于人脸语义分割的人脸融合器，将初始替换人脸图像与目标人脸图像进行融合，得到终极替换人脸图像。

可选地，所述视频生成方法还包括：

根据多个历史真实人脸图像，确定关于所述人脸特征编码器的第一损失函数；

根据所述第一损失函数，采用梯度反向传播算法迭代调整所述人脸特征编码器的权值，直至所述第一损失函数收敛，以得到调整后的人脸特征编码器。

可选地，所述根据多个历史真实人脸图像，确定所述人脸特征编码器的第一损失函数，具体包括：

针对每一历史真实人脸图像，通过当前的人脸特征编码器对所述历史真实人脸图像进行特征提取，得到真实特征编码；

通过人脸生成器，根据所述真实特征编码，得到重建后的虚拟人脸图像；

根据各对历史真实人脸图像及虚拟人脸图像，确定所述第一损失函数。

可选地，根据以下公式确定第一损失函数

其中，第一人脸重建损失函数

第一人脸感知损失函数

第一人脸身份损失函数

第一人脸关键点损失函数

其中，

表示历史真实人脸图像，

表示虚拟人脸图像，

表示计算欧氏距离，

表示人脸特征提取函数，

表示人脸识别特征提取函数，

表示计算余弦相似度，

表示人脸关键点提取函数；

分别是第一损失函数的权重。

可选地，所述视频生成方法还包括：

根据多组历史真实人脸图像及对应的历史目标人脸图像，确定关于所述人脸特征交换器的第二损失函数；

根据所述第二损失函数，采用梯度反向传播算法迭代调整所述人脸特征交换器的权值，直至所述第二损失函数收敛，以得到调整后的人脸特征交换器。

可选地，所述根据多个历史真实人脸图像及对应的历史目标人脸图像，确定关于所述人脸特征交换器的第二损失函数，具体包括：

针对每组历史真实人脸图像及历史目标人脸图像，

通过当前的人脸特征编码器分别对所述历史真实人脸图像及历史目标人脸图像进行特征提取，得到对应的真实特征编码及历史目标编码特征；

通过人脸生成器，分别根据所述真实特征编码及历史目标编码特征，得到重建后的对应的历史虚拟人脸图像及历史虚拟目标人脸图像；

通过人脸特征交换器，根据真实特征编码及历史目标编码特征，生成历史替换人脸特征编码；

通过人脸生成器，根据所述历史替换人脸特征编码，得到历史替换人脸图像；

根据各组历史真实人脸图像、历史目标人脸图像、历史虚拟人脸图像、历史虚拟目标人脸图像及历史替换人脸图像，确定所述第二损失函数。

可选地，根据以下公式确定第二损失函数

其中，第二人脸重建损失函数

第二人脸感知损失函数

第二人脸身份损失函数

第二人脸关键点损失函数

正则项：

其中，

表示历史真实人脸图像，

表示历史虚拟人脸图像，

表示历史目标人脸图像，

表示历史虚拟目标人脸图像，

表示历史替换人脸图像，

表示历史真实人脸图像的高层语义表达，

表示历史替换人脸图像的高层语义表达，

表示计算欧氏距离，

表示人脸特征提取函数，

表示人脸识别特征提取函数，

表示计算余弦相似度，

表示人脸关键点提取函数；

分别是第二损失函数的权重。

为解决上述技术问题，本发明还提供了如下方案：

一种高清人脸替换视频生成系统，所述视频生成系统包括：

图像获取器，用于获取待处理视频中的目标人脸图像以及对应的源人脸图像；

人脸特征编码器，用于分别对所述源人脸图像及目标人脸图像进行特征提取，得到对应的源特征编码及目标特征编码；

人脸特征交换器，用于根据源特征编码及目标特征编码，生成替换人脸特征编码；

人脸生成器，用于根据所述替换人脸特征编码，生成初始替换人脸图像；

人脸融合器，用于将初始替换人脸图像与目标人脸图像进行融合，得到终极替换人脸图像。

为解决上述技术问题，本发明还提供了如下方案：

一种高清人脸替换视频生成系统，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

获取待处理视频中的目标人脸图像以及对应的源人脸图像；

为解决上述技术问题，本发明还提供了如下方案：

一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

获取待处理视频中的目标人脸图像以及对应的源人脸图像；

根据本发明的实施例，本发明公开了以下技术效果：

本发明通过人脸特征编码器将人脸特征进行层级编码，最大可能的保留人脸语义细节，而人脸特征交换器则在层级编码的基础上进一步处理，得到具备语义细节的替换人脸特征层级编码，用于使人脸生成器生成初始替换人脸图像，进而通过人脸融合器，将初始替换人脸图像与目标人脸图像进行融合，得到终极替换人脸图像，形成高清人脸替换视频。

附图说明

图1是本发明高清人脸替换视频生成方法的流程图；

图2是本发明高清人脸替换视频生成方法的具体实施流程图；

图3是本发明高清人脸替换视频生成系统的模块结构示意图。

符号说明：

图像获取器—1，人脸特征编码器—2，人脸特征交换器—3，人脸生成器—4，人脸融合器—5。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明的目的是提供一种高清人脸替换视频生成方法，通过人脸特征编码器将人脸特征进行层级编码，最大可能的保留人脸语义细节，而人脸特征交换器则在层级编码的基础上进一步处理，得到具备语义细节的替换人脸特征层级编码，用于使人脸生成器生成初始替换人脸图像，进而通过人脸融合器，将初始替换人脸图像与目标人脸图像进行融合，得到终极替换人脸图像，形成高清人脸替换视频。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明高清人脸替换视频生成方法包括：

步骤100：获取待处理视频中的目标人脸图像以及对应的源人脸图像。

步骤200：通过人脸特征编码器分别对所述源人脸图像及目标人脸图像进行特征提取，得到对应的源特征编码及目标特征编码。

步骤300：通过人脸特征交换器，根据源特征编码及目标特征编码，生成替换人脸特征编码。

本发明通过多段非线性优化的人脸特征交换器，通过操控人脸的全局特征编码得到替换人脸特征编码，以避免生成人脸的局部失真。

步骤400：通过人脸生成器，根据所述替换人脸特征编码，生成初始替换人脸图像。

步骤500：通过基于人脸语义分割的人脸融合器，将初始替换人脸图像与目标人脸图像进行融合，得到终极替换人脸图像。

优选地，在执行步骤100之前，可先优化人脸特征编码器。具体地，本发明高清人脸替换视频生成方法还包括：

步骤A1：根据多个历史真实人脸图像，确定关于所述人脸特征编码器的第一损失函数。

A2：根据所述第一损失函数，采用梯度反向传播算法迭代调整所述人脸特征编码器的权值，直至所述第一损失函数收敛，以得到调整后的人脸特征编码器。

进一步地，在步骤A1中，所述根据多个历史真实人脸图像，确定所述人脸特征编码器的第一损失函数，具体包括：

步骤A11：针对每一历史真实人脸图像，通过当前的人脸特征编码器对所述历史真实人脸图像进行特征提取，得到真实特征编码[,,]，其中，表示人脸特征的基本信息表达，底层语义表达和高层语义表达；

步骤A12：通过人脸生成器，根据所述真实特征编码，得到重建后的虚拟人脸图像；

步骤A13：根据各对历史真实人脸图像及虚拟人脸图像，确定所述第一损失函数。

具体可根据以下公式确定第一损失函数

其中，第一人脸重建损失函数

第一人脸感知损失函数

第一人脸身份损失函数

第一人脸关键点损失函数

其中，

表示历史真实人脸图像，

表示虚拟人脸图像，

表示计算欧氏距离，

表示人脸特征提取函数，

表示人脸识别特征提取函数，

表示计算余弦相似度，

表示人脸关键点提取函数；

分别是第一损失函数的权重。

进一步地，在执行步骤A1优化人脸特征编码器之后、执行步骤100之前，进一步优化人脸特征交换器。具体地，本发明高清人脸替换视频生成方法还包括：

步骤B1：根据多组历史真实人脸图像及对应的历史目标人脸图像，确定关于所述人脸特征交换器的第二损失函数；

步骤B2：根据所述第二损失函数，采用梯度反向传播算法迭代调整所述人脸特征交换器的权值，直至所述第二损失函数收敛，以得到调整后的人脸特征交换器。

进一步地，在步骤B1中，所述根据多个历史真实人脸图像及对应的历史目标人脸图像，确定关于所述人脸特征交换器的第二损失函数，具体包括：

步骤B11：针对每组历史真实人脸图像及历史目标人脸图像，通过当前的人脸特征编码器分别对所述历史真实人脸图像及历史目标人脸图像进行特征提取，得到对应的真实特征编码及历史目标编码特征；

步骤B12：通过人脸生成器，分别根据所述真实特征编码及历史目标编码特征，得到重建后的对应的历史虚拟人脸图像及历史虚拟目标人脸图像；

步骤B13：通过人脸特征交换器，根据真实特征编码及历史目标编码特征，生成历史替换人脸特征编码；

步骤B14：通过人脸生成器，根据所述历史替换人脸特征编码，得到历史替换人脸图像；

步骤B15：根据各组历史真实人脸图像、历史目标人脸图像、历史虚拟人脸图像、历史虚拟目标人脸图像及历史替换人脸图像，确定所述第二损失函数。

具体可根据以下公式确定第二损失函数

其中，第二人脸重建损失函数

第二人脸感知损失函数

第二人脸身份损失函数

第二人脸关键点损失函数

正则项：

其中，

表示历史真实人脸图像，

表示历史虚拟人脸图像，

表示历史目标人脸图像，

表示历史虚拟目标人脸图像，

表示历史替换人脸图像，

表示历史真实人脸图像的高层语义表达，

表示历史替换人脸图像的高层语义表达，

表示计算欧氏距离，

表示人脸特征提取函数，

表示人脸识别特征提取函数，

表示计算余弦相似度，

表示人脸关键点提取函数；

分别是第二损失函数的权重。

其中，历史虚拟人脸图像

、历史虚拟目标人脸图像

的获取与前述步骤A11-步骤A13的处理步骤相同，再次不再赘述。

本发明基于预训练的人脸生成器及人脸融合器，并使用分段式训练策略以减少对硬件的依赖。

在步骤500中，基于人脸融合器，将替换人脸图像与目标人脸图像中人脸所处的背景进行融合，从而得到终极替换人脸图像，由各帧终极替换人脸图像形成高清人脸替换视频。

本发明使用了分阶段的模型设计实现了百万像素级的高清视频人脸替换，该模型主要包括四个部分：利用层级编码的人脸特征编码器，利用多段非线性优化的人脸特征交换器，基于StyleGAN（v1或v2）的人脸生成器和基于人脸语义分割的人脸融合器。其中人脸特征编码器以人脸图像为输入，得到该人脸的层级特征表达；人脸特征交换器对源人脸和目标人脸的层级特征表达进行特征交换，得到替换后的人脸层级特征表达；人脸生成器以替换后的人脸层级特征表达为输入，得到替换后的人脸；最后在视频处理中，人脸融合器将替换后的人脸和目标人脸所处的背景融合，得到当前替换后的人脸帧。

为了使得该模型具备良好的训练稳定性和减少对硬件的苛刻需求，本发明采用分阶段的训练方式，即在预训练好的人脸生成器和人脸融合器的基础上，先训练人脸特征编码器，再训练人脸交换器。

为了监督该模型的训练过程，本发明采用了人脸重建损失、人脸感知损失、人脸身份损失和人脸关键点损失对人脸特征编码器进行约束；采用了人脸重建损失值、人脸感知损失值、人脸身份损失值，人脸关键点损失值和正则项对人脸特征交换器进行约束。具体而言，人脸特征编码器负责将人脸特征进行层级编码，最大可能的保留人脸语义细节，而人脸特征交换器则在层级编码的基础上对操控，得到具备语义细节的替换人脸特征层级编码，用于使人脸生成器生成替换获得人脸。

下面以具体实施例详细说明本发明（如图2所示）：

步骤S1，将历史真实人脸图像进行重建。所述步骤S1具体包括如下步骤：

步骤S11，将历史真实人脸图像进行特征抽取，得到历史真实人脸的人脸层级编码

（即真实特征编码）。

步骤S12，将人脸层级编码输入人脸生成器，得到重建后的虚拟人脸图像。

步骤S2，根据真实人脸图像与虚拟人脸图像计算第一人脸重建损失、第一人脸感知损失、第一人脸身份损失和第一人脸关键点损，失利用损失梯度反向传播算法迭代调整人脸特征编码器的权值直到收敛。

所述步骤S2具体包括以下步骤：

步骤S21，基于步骤S12中得到的虚拟人脸图像，将其与真实人脸图像确定第一损失函数。所述第一损失函数分为四部分：第一人脸重建损失函数、第一人脸感知损失函数、第一人脸身份损失函数和第一人脸关键点损失函数。

步骤S22，基于第一人脸重建损失函数、第一人脸感知损失函数、第一人脸身份损失函数和第一人脸关键点损失函数的损失值，利用梯度反向传播算法迭代调整人脸特征编码器的权值直到收敛。

步骤S3，将源人脸图像替换至目标人脸图像上。所述步骤S3具体包括如下步骤：

步骤S31，对源人脸图像和目标人脸图像分别进行特征抽取，得到其层级编码。

步骤S32，将源人脸层级编码和目标人脸层级编码输入人脸交换器，得到替换人脸层级编码。

步骤S33，将替换人脸层级编码输入人脸生成器，得到替换人脸图像。

步骤S34，将替换人脸图像和目标人脸图像融入人脸融合器，将替换人脸图像的人脸部分和目标人脸图像的背景部分进行融合，得到最终的替换人脸图像。

在每次得到替换的人脸图像后，均可根据当前得到的替换的人脸图像及源人脸图像、目标人脸图像进一步优化人脸特征交换器。具体地：

步骤S4，根据替换后的人脸图像及源人脸图像、目标人脸图像确定第二人脸重建损失函数、第二人脸感知损失函数、第二人脸身份损失函数，第二人脸关键点损失函数和正则项，利用损失梯度反向传播算法迭代调整人脸特征交换器的权值直到收敛。

所述步骤S4具体包括以下步骤：

步骤S41，基于步骤S33中得到的替换人脸图像，将其与源人脸图像和目标人脸图像确定第二损失函数，第二所述损失函数分为五部分：第二人脸感知损失函数、第二人脸身份损失函数，第二人脸关键点损失函数和正则项。

步骤S42，基于第二人脸感知损失函数、第二人脸身份损失函数，第二人脸关键点损失函数和正则项，利用梯度反向传播算法迭代调整人脸特征交换器的权值直到收敛。

本发明通过分段式的人脸特征编码器、人脸特征交换器、人脸生成器及人脸融合器实现了百万像素级的目标无关人脸替换能力。具体而言，人脸特征编码器使用层级编码得到人脸的完整特征表达，人脸特征交换器利用多段非线性优化得到替换人脸的完整特征表达，人脸生成器利用替换人脸的完整特征表达生成在1024×1024分别率下具有丰富细节的替换人脸，最后人脸融合器将替换人脸和目标人脸所处的背景进行融合。

此外，本发明还提供一种高清人脸替换视频生成系统，可得到高清换脸视频。

如图3所示，本发明高清人脸替换视频生成系统包括图像获取器1、人脸特征编码器2、人脸特征交换器3、人脸生成器4及人脸融合器5。

其中，所述图像获取器1用于获取待处理视频中的目标人脸图像以及对应的源人脸图像；

所述人脸特征编码器2用于分别对所述源人脸图像及目标人脸图像进行特征提取，得到对应的源特征编码及目标特征编码；

所述人脸特征交换器3用于根据源特征编码及目标特征编码，生成替换人脸特征编码；

所述人脸生成器4用于根据所述替换人脸特征编码，生成初始替换人脸图像；

所述人脸融合器5用于将初始替换人脸图像与目标人脸图像进行融合，得到终极替换人脸图像。

此外，本发明还提供了如下方案：

一种高清人脸替换视频生成系统，包括：

处理器；以及

获取待处理视频中的目标人脸图像以及对应的源人脸图像；

为解决上述技术问题，本发明还提供了如下方案：

获取待处理视频中的目标人脸图像以及对应的源人脸图像；

相对于现有技术，本发明高清人脸替换视频生成系统、计算机可读存储介质与上述高清人脸替换视频生成方法的有益效果相同，在此不再赘述。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。