CN114943912A

CN114943912A - 视频换脸方法、装置及存储介质

Info

Publication number: CN114943912A
Application number: CN202210373752.7A
Authority: CN
Inventors: 纪昱锋; 张�杰; 山世光
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-08-26

Abstract

本申请提供了视频换脸模型的训练方法及视频换脸方法。首先在图像数据集上利用判别器对视频换脸模型中外观编码器和生成器进行对抗式训练直到判别器无法判断生成器的输出结果的真实性；接着视频数据集上通过光流场判别器继续对该视频换脸模型中外观编码器和生成器进行对抗式训练直到光流场判别器无法判断来自生成器的相邻两帧图像之间的光流场的真实性。这样，通过采用这种面向视频的光流场判别器在视频数据集上进一步训练换脸模型，加速了模型收敛，使得在少量人脸图像样本集上训练的生成器能生成逼真和更加稳定的图像，减少了合成后视频中的抖动、伪影和闪烁等现象，同时也摆脱了对大量高质量样本数据的依赖。

Description

视频换脸方法、装置及存储介质

技术领域

本发明涉及计算机视觉与深度学习，尤其涉及用于视频中人脸替换的方法、装置及存储介质。

背景技术

人脸替换(可简称为换脸)通常是将源人脸融合到目标人脸图像，获得具有源人脸身份信息并保持目标人脸表情、姿态、光照等属性信息的合成人脸的过程。人脸替换对保护个人隐私安全、推动影视行业发展具有重要意义。随着人工智能(AI)技术的发展，通过AI换脸技术生成的图像真实程度越来越高。然而，现有的AI换脸技术需要大量的高清人脸样本对复杂的模型进行训练才能得到较好的换脸效果。但大量高质量的样本比较难以获取，且复杂的模型使得换脸模型训练缓慢，计算成本很高。并且当人脸在视频中移动时，通过这种基于静态人脸图像训练的换脸模型生成的换脸后的视频中普遍存在抖动、伪影和闪烁等问题。

发明内容

本发明的目的是提供一种新的视频换脸方法、装置及存储介质，能快速构建稳定的换脸模型而不需要依赖大量的高清人脸图像，并消除了换脸后的视频中的抖动、伪影和闪烁等现象。

上述目的是通过以下技术方案实现的：

根据本发明实施例的第一方面，提供了一种用于训练换脸模型的方法，其中所述换脸模型包括外观编码器、生成器、判别器、光流场编码器、光流场判别器以及预先训练好的人脸识别器；其中光流场编码器用于提取输入的两帧图像之间的光流场；所述光流场判别器用于判断从光流场编码器接收的光流场的真实性；所述方法包括：步骤S1)基于视频数据集预先训练光流场编码器，所述光流场编码器以一个人的视频序列中相邻两帧图像作为输入，其输出这相邻两帧图像之间的光流场，所述视频数据集包括对多个人分别采集的视频序列；步骤S2)从包含多个人脸图像的图像数据集提取的多个样本对来训练外观编码器、生成器和判别器；其中每个样本对由源人脸图像和目标人脸图像构成，所述生成器用于根据经由人脸识别器从源人脸图像中提取的身份特征和经由外观编码器从目标人脸图像中提取的外观特征来生成换脸图像，所述判别器用于判断所述生成器所生成的换脸图像的真实性；步骤S3)从视频数据集中两个不同人的视频序列分别提取相邻两帧图像，由此构成两个相邻的样本对，并通过所述生成器对于这两个相邻的样本对生成两个相邻的换脸图像；步骤S4)利用该光流场编码器提取来自生成器的两个相邻的换脸图像之间的光流场，并利用光流场判别器判断所述光流场的真实性，根据光流场判别器的判断结果调整外观编码器和生成器的参数；重复上述步骤S3)和步骤S4，直到光流场判别器无法判断来自生成器的两个相邻的换脸图像之间的光流场的真实性为止。

在一些实施例中，所述生成器采用由若干卷积层、归一化层、全连接层和上采样层构成的网络结构。

在一些实施例中，该方法还可包括在生成器中对所接收的来自源人脸图像的身份特征和来自目标人脸图像的外观特征进行融合；以及在生成器的一个或多个层处将其中间特征分别与身份特征进行融合。

在一些实施例中，该方法还可包括将所述外观编码器中间层级的特征和身份特征进行融合，并将融合后的特征进一步提供至生成器以与生成器的中间层级的特征进行融合。

根据本发明实施例的第二方面，提供了一种视频换脸方法，包括：将源人脸图像输入到人脸识别器中提取身份特征；将目标人脸图像输入到外观编码器中提取外观特征；以及将所述身份特征和所述外观特征输入至生成器中以生成相应的换脸图像。其中所述人脸识别器、外观编码器和生成器来自于根据本发明实施例的第一方面所述的方法构建的换脸模型。

在一些实施例中，该视频换脸方法还可包括：利用预先训练的防伪模型为所述换脸图像生成防伪噪声，并将该防伪噪声叠加在所述换脸图像中。

在一些实施例中，该视频换脸方法还可包括：利用预先训练的防伪模型识别待检测的人脸图像中是否包含相应的防伪噪声，以验证该人脸图像是否是利用所述方法生成的换脸图像。

在一些实施例中，所述防伪模型包括可训练的噪声特征图、噪声判别器和预先训练好的特征对齐网络；其中噪声判别器用于判断输入的图像是否有噪声；所述特征对齐网络用于使加噪声的图像与未加噪声的原图像尽可能相同；所述防伪模型是基于所述图像数据集通过噪声判别器和特征对齐网络进行对抗学习训练得到的，将收敛后的噪声特征图与输入的图像叠加后得到的图像通过肉眼无法分辨，仅通过噪声判别器才能进行区分。

根据本发明实施例的第三方面，提供了一种视频换脸装置，包括处理器和存储器，其中存储器用于存储可执行指令；所述处理器被配置为经由执行所述可执行指令来执行如上述实施例第二方面所述的视频换脸方法。

根据本发明实施例的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被执行时实现如上述实施例第一方面和/或第二方面所述的方法。

与现有的AI换脸技术相比，本申请在基于人脸图像训练换脸模型的基础上，进一步引入视频人脸数据集，利用相邻帧的人脸光流场编码器和光流场判别器进一步加速换脸模型的收敛，从而在不需要大量高清样本的情况下快速地获取稳定的换脸模型，使得换脸后的视频中人脸更加真实稳定，减少了抖动、伪影和闪烁等现象的出现。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了示出了根据本发明一个实施例的用于进行视频换脸的换脸模型的训练方法流程示意图。

图2示出了根据本发明一个实施例的视频换脸模型的部分结构模块示意图。

图3示出了根据本发明一个实施例的视频换脸模型的训练流程示意图。

图4示出了根据本发明一个实施例的防伪标签模型训练流程示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动下获得的所有其他实施例，都属于本发明保护的范围。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在介绍本发明的实施例之前，首先对生成式对抗模型(Generative adversarialnetwork,GAN)的原理进行简单介绍。生成对抗网络GAN通常由一个生成网络(Generator,也称为生成器)与一个判别网络(Discriminator，也称为判别器)组成。生成网络用于生成尽量模仿训练集中真实样本的假样本。判别网络的输入则为真实样本或生成网络的输出，其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。在样本集上生成器G和判别器D进行的是对抗式训练过程，二者相互对抗、不断调整参数，最终目的是使判别网络无法判断生成网络的输出结果是否真实。这样，生成器G和判别器D构成了一个动态的“博弈过程”最后博弈的结果是，G可以生成足以“以假乱真”的图片使得D难以判定G生成的图片究竟是不是真实的。训练好的生成器G可以用来生成图片。G和D不一定是神经网络，只要是能拟合相应生成和判别的函数即可。但优选地使用深度神经网络作为G和D。应指出，上述仅是对于GAN架构简单介绍，如果要将GAN应用到具体技术领域得到性能较好的模型，则需要有良好的训练方法。基于不同的训练样本的选择，采用不同的训练方法所得到的GAN模型的性能差别很大。

现有的AI换脸方法中的换脸模型大多采用在大量人脸图像样本对基础上训练的生成式对抗模型。每个样本对包含两个不同的人脸图像，其中一个作为源人脸图像，而另一个作为目标人脸图像。该换脸模型通常包括生成器、判别器、用于从人脸图像中提取外观特征的外观编码器和用于从人脸图像中提取身份特征的人脸识别器。人脸识别器所提取的身份特征包含了人脸的基本属性，例如五官位置、形状、脸型等等。外观编码器所提取的外观特征例如为姿态、标签、光照和非人脸区域的图像信息等等。人脸识别器是预先训练好的，可以利用现有的很多深度学习模型来从人脸图像中识别并提取人脸所对应的身份特征，在此不再赘述。在训练过程中利用由源人脸图像和目标人脸图像构成的样本对进行训练的是生成器、判别器、外观编码器的参数。在训练过程中，将利用预先训练好的人脸识别器从源人脸图像中提取的身份特征以及利用外观编码器从目标人脸图像中提取的外观特征一起作为输入提供给生成器，生成器生成具有源人脸身份特征并保持目标人脸外观特征的换脸图像，判别器用于判断生成器所生成的换脸图像的真假。利用从人脸图像的数据集提取的多个样本对不断进行对抗学习训练，直到判别器无法判断生成器的输出结果是否真实(例如识别率为50％)。训练完成后就可以利用经训练得到的外观编码器和生成器以及预先训练的人脸识别器来进行换脸。

正如上文提到的，这样的换脸方法依赖于大量高质量的人脸图像和复杂的深度神经网络结构，计算成本高昂；而且稳定性和真实性较差，在视频中换脸会出现抖动和伪影等现象，换脸痕迹很明显。

在本发明的实施例中提供了一种新的视频换脸模型的训练方法。在训练过程除了以静态人脸图像作为样本之外，考虑了人脸在视频中移动时在相邻帧之间产生的光流场。在该方法中，用于训练的样本不仅来自于由多个人脸图像组成的图像数据集，还来自于由多个人的视频序列组成的视频数据集。该视频换脸模型中不仅包括生成器、判别器、用于从人脸图像中提取外观特征的外观编码器和用于从人脸图像中提取身份特征的人脸识别器，还包括光流场编码器和光流场判别器。其中光流场编码器是以从视频数据集中每个人的视频序列提取的相邻两帧图像作为样本，预先训练好的用于提取相邻两帧图像之间的光流场的编码器。光流场判别器用于识别来自生成器生成的相邻两帧图像之间的光流场的真假。该模型的训练过程分为两个阶段：第一阶段，在图像数据集上利用判别器对该视频换脸模型中外观编码器和生成器进行初步对抗式训练直到判别器无法判断生成器的输出结果的真假；第二阶段，在视频数据集上通过光流场编码器继续对该视频换脸模型中外观编码器和生成器以及光流场判别器进行进一步对抗式训练直到光流场判别器无法判断来自生成器的相邻两帧图像之间的光流场的真假。这样，通过采用这种面向视频的光流场判别器在视频数据集上进一步训练换脸模型，加速了模型收敛，使得在少量人脸图像样本集上训练的生成器能生成逼真和更加稳定的图像，减少了合成后视频中的抖动、伪影和闪烁等现象，同时也摆脱了对大量高质量样本数据的依赖。

图1给出了根据本发明一个实施例的训练换脸模型的方法的流程示意图。在步骤S1，基于视频数据集预先训练光流场编码器，所述光流场编码器以一个人的视频序列中相邻两帧图像作为输入，其输出这相邻两帧图像之间的光流场。如上文提到的，视频数据集中包含对不同人分别采集的视频序列。具体训练过程如下：以从一个人的视频序列中采样的时序上相邻的两帧图像(I_t-1,I_t)作为输入，利用光流场编码器F来计算该相邻的两帧图像之间的光流场I_f；利用光流场I_f提供的位置信息，通过局部插值的方式将样本中在先图像I_t-1变换得到图像

计算经变换得到图像

与样本中在后图像I_t之间的差异，并基于该差异来进一步更新光流场编码器F的相关参数，以使得光流场编码器F能学习到正确的光流场，该训练过程直至光流场编码器F收敛为止。在该实施例中，光流场编码器F可以采用U型网络结构，例如U-Net。在又一些实施例中，包含降采样、上采样的网络结构也可以作为光流场编码器，例如FlowNet等。应理解，上述训练过程和光流场编码器的网络结构仅是举例说明，而非进行任何限制。

在步骤S2，从由多个人脸图像组成的图像数据集提取多个样本对来训练外观编码器、人脸生成器和判别器。其中每个样本对包含两个不同的人脸图像，其中一个作为源人脸图像，而另一个作为目标人脸图像。上文提到的，通过预先训练好的人脸识别器从源人脸图像中提取身份特征；通过外观编码器从目标人脸图像中提取外观特征；生成器用于根据从源人脸图像中提取的身份特征和从目标人脸图像中提取的外观特征生成换脸图像；判别器用于判断人脸生成器所生成的换脸图像的真假。在一个实施例中，利用现有技术来完成在多个样本对上进行的编码器、生成器和判别器的对抗式训练过程。

在又一个实施例中，生成器采用了仅包含若干卷积层、归一化层、全连接层和上采样层的简单网络结构。这种简单的生成器结构简化了模型训练的过程，并且该生成器仅涉及卷积操作和上采样操作，简化了计算过程。在又一个实施例中，为了进一步提高生成器所生成的换脸图像的质量，该生成器除了将接收到的从源人脸图像中提取的身份特征和从目标人脸图像中提取的外观特征进行融合之外，还可以将该生成器的不同层级的特征进一步与身份特征进行融合。例如，可以通过诸如自适应融合方法AdaIN(其出自Xun Huang,SergeBelongie.Arbitrary Style Transfer in Real-time with Adaptive InstanceNormalization.In ICCV,2017)之类的特征融合算法对相应特征进行融合，融合以后通过卷积和上采样来提高分辨率，最终输出的还是原始分辨率的换脸图像。这样，可以使得生成器在较少的参数量的情况下也能生成逼真的图像，达到和复杂模型相媲美的效果。在又一个实施例中，不仅可以对于生成器的中间层级的特征和身份特征进行融合，还可以将外观编码器的中间层级的特征与身份特征进行融合，然后将该融合后的特征进一步与生成器的中间层级的特征进行融合，由此进一步改善生成器生成图像的质量。

继续参考图1，在步骤S3，从视频数据集中两个不同人的视频序列分别提取相邻两帧图像，其中一人的图像作为源人脸图像，另一个人的图像作为目标人脸图像，由此可以构成两个相邻的样本对。每个样本对与上文训练编码器和生成器的样本对相同，由源人脸图像和目标人脸图像构成。这样，通过经上述步骤S2训练的生成器对于这两个相邻的样本对分别生成两个相邻的换脸图像。例如，从视频数据集中随机选择两个人的视频序列(S_i,S_j)，其中选择S_i作为源人脸图像的来源，从中提取相邻的两帧图像

选择S_j作为目标人脸图像的来源，从中提取相邻的两帧图像

这样可以形成两个相邻的样本对

和

通过上文训练的模型可以对于这两个样本对分别生成两个换脸图像

和

接着在步骤S4，可以将这两个换脸图像看作相邻的两帧图像

使用在步骤S1预先训练好的光流场编码器提取二者之间的光流场，并利用光流场判别器判断来自生成器的两个相邻的两帧图像之间的光流场的真实性，根据光流场判别器的判断结果调整外观编码器和生成器的参数；重复上述步骤S3)和步骤S4，直到光流场判别器无法判断来自生成器的两个相邻的换脸图像之间的光流场的真实性为止。本质上，外观编码器、生成器和光流场判别器之间也是对抗式训练的过程。该训练过程与现有技术中外观编码器、生成器和判别器的对抗训练过程类似，只是以光流场判别器作为判别器来进行上述对抗式学习，所采用的样本和损失计算的参数有所差异。例如，在训练光流场识别器时，通过光流场编码器提取相邻的两帧源人脸图像

之间的光流场I_real，并提取来自生成器生成的两个换脸图像

之间的光流场I_fake。令样本I_real的标签为真，样本I_fake的标签为假，使用二分类交叉熵损失，产生的梯度仅作用于光流场判别器，以此进行反复训练直至收敛，使得光流场识别器具有判别光流场的真假的能力。在对抗训练外观编码器和生成器时，令I_fake的标签为真，梯度作用于外观编码器和生成器，以提高I_fake的真实性，从而使得换脸模型生成的图像在时域上具有更加稳定的特征，减少换脸后视频中相邻两帧

的抖动和伪影等现象。应理解，上述的光流程编码器和光流场判别器仅用于换脸模型的训练和/或测试过程。而在训练完成后，仅利用训练得到的外观编码器、生成器和人脸识别器就可以对输入的源人脸图像和目标人脸图像完成换脸操作。

下面以一个具体示例对换脸模型的训练过程进行更详细的说明。

1、数据准备阶段

在训练过程中所有样本来自于图像数据集D_I和视频数据集D_v。图像数据集来自于CelebA-HQ和FFHQ数据集(Terro Karas,Samuli Laine,Timo Aila.A Style-BasedGenerator Architecture for Generative Adversarial Networks.In CVPR,2019)。这两个数据集提供了超过10万张分辨率为1024的高清人脸图像。使用DLIB人脸库(http://dlib.net/)计算每个样本的5个关键点，并对其到预定义好的关键点模板上，得到分辨率为256的训练图像I。对于每个样本，使用DLIB人脸库和人脸解析网络(https://github.com/zllrunning/face-parsing.PyTorch)计算其关键点P和面部区域掩码M。在一些示例中，还可以对M进行扩充和收缩操作，得到面部内侧区域M_inner和外侧区域M_outer。这些形成的用于训练的图像数据集记为

视频数据集来自于数据集300VW，其包含228个人的视频序列，一共超过20万张图像。以视频序列为基本单位，每间隔5帧采样一次，并使用DLIB和人脸解析网络对采样的图像提取关键点和面部区域掩码图像，该过程和图像数据集一致。最终得到的用于训练的视频数据集记为

在模型训练过程中，会同时使用到两个数据集。在外观编码器和生成器的初步训练中使用的是图像数据集D_I，D_v用于光流场编码器和光流场判别器的训练，并且在光流场编码器收敛以后，还进一步使用D_v来训练外观编码器和生成器。

2.模型训练阶段

该换脸模型主要包括预先训练的人脸识别器I，外观编码器E,生成器G,判别器D,光流场编码器F,光流场判别器D_f。人脸识别器提取源人脸图像(也可以成为参考人脸图像)的身份特征，例如人脸的基本属性，比如五官位置、形状和脸型等。外观编码器E用于提取目标人脸图像的外观特征，比如姿态、表情、光照和非人脸区域的图像信息等。生成器G用于将I和E提取的特征进行融合，并进行上采样，生成与原始分辨率一致的换脸图像。

在训练过程中，首先使用视频数据集D_v来训练光流场编码器F。该阶段每次从区间[1,5]之间随机选择一个数T，以此为间隔从一个人的视频序列中采样相邻的两帧图像(I_t-1,I_t)，并用光流场编码器F来计算该样本对之间的光流场I_f。接着利用光流场I_f提供的位置信息，将I_t-1变换到I′_t，并通过计算I′_t和I_t之间的差异来更新F，使得F学习到正确的光流场。

进而，固定F，在图像数据集和视频数据集上训练换脸模型，并基于生成的相邻样本对和真实相邻样本对来训练光流场判别器。该阶段主要包含下面两个部分的训练：

(1)使用图像数据集D_I来训练换脸模型中的外观编码器E、生成器G和判别器D。如图2所示，该阶段每次采样一批参考人脸图像和目标人脸图像(I_i,I_j)，使用人脸识别器I提取参考人脸图像I_i的身份特征F_id，使用E提取目标图像I_j的外观特征F_attr，并利用AdaIN算法进行特征融合后提供给生成器G。生成器G仅包含若干卷积层、归一化层、全连接层和上采样操作，并可以在不同的层级进一步使用AdaIN算法来融合中间层特征与ID特征，提高生成的换脸图像I_ij和I_j的相似度。例如，在图2中将外部编码器E的中间层特征与身份特征利用AdaIN算法进行特征融合，并且融合后的特征可以进一步在生成器G中借助于面部区域掩码M和生成器的中间特征进行融合。当然如果要降低模型的计算量，可以在上采样的过程中仅对其中一个层级使用AdaIN融合策略。

(2)在上述仅使用D_I训练的模型在时序上提取的特征不够稳定，因此生成的换脸图像会存在抖动、伪影等现象。故而，如图3所示，需要进一步使用视频数据集D_v来训练外观编码器E,生成器G和光流场判别器D_f。从D_v中随机选择两个人的序列(S_i,S_j)，并使用与训练光流场编码器F时同样的方式分别采样相邻的两帧图像

首先使用人脸识别器I,外观编码器E,生成器G模型生成两个相邻的换脸图像

然后使用预先训练好的光流场编码器提取

的光流场I_real，提取

的光流场I_fake，使用I_real与I_fake来训练光流场判别器D_f。这是一个对抗训练的过程。在训练D_f时，令I_fake的标签为假，使用二分类交叉熵损失，产生的梯度仅作用于D_f，使得D_f具有判别光流场的真假的能力；在对抗训练E,G时，令I_fake的标签为真，梯度作用于E,G，提高I_fake的真实性，从而使得换脸模型生成的图像在时域上具有更加稳定的特征，减少

的抖动和伪影等现象。

在本发明的一个实施例中，提供了一种视频换脸方法，其包括：将源人脸图像输入到人脸识别器中提取身份特征；将目标人脸图像输入到外观编码器中提取外观特征；将所述身份特征和所述外观特征输入至生成器中以生成相应的换脸图像。其中人脸识别器、外观编码器和生成器来自于根据上文介绍的实施例的训练换脸模型的方法训练后得到的换脸模型。

在又一些实施例中，该视频换脸方法还可以包括利用预先训练的防伪模型为所述换脸图像生成防伪噪声；将该防伪噪声叠加在所述换脸图像中。这样相当于为利用本发明实施例的方法所生成的换脸图像打上了防伪标签，，但该防伪标签应保证加噪声后的图像在视觉效果上和未加噪声的原图像相同。在又一些实施例中，该视频换脸方法还可以包括：利用预先训练的防伪模型识别待检测的人脸图像中是否包含相应的防伪噪声，以验证该人脸图像是否是利用所述方法生成的换脸图像。在该实施例中提供了简单可靠的防伪方式，既能在不影响视觉真实性的条件下为生成的换脸图像添加噪声，又能通过检测噪声来方便地判断图像是否是根据本发明实施例的视频换脸方法制作的换脸图像。

其中防伪模型包括可训练的噪声特征图或噪声矩阵、噪声判别器和预先训练好的特征对齐网络。噪声判别器用于判断输入的图像是否有噪声；特征对齐网络用于使加噪声的图像与未加噪声的原图像尽可能相同。该防伪模型是基于前述的图像数据集通过噪声判别器和特征对齐网络进行对抗学习训练得到的，将收敛后的噪声特征图与输入的图像叠加后得到的图像在视觉上完全相同，仅通过噪声判别器才能进行区分。

图4给出了一个示例的防伪模型的训练流程示意。如图4所示，在训练过程中，通过高斯分布初始化一个可训练的噪声特征图I_n，每次训练迭代时，将噪声特征图I_n和来自从图像数据集D_I的样本图像相加得到图像I_add送入到噪声判别器D_n和预先训练的特征对齐网络E_n进行学习。噪声判别器D_n的输出用于判断输入图像的真假，定义原始图像为真，加噪声的图像为假。通过噪声判别器D_n的产生的梯度来保证图像在施加噪声后分布会发生较大的变化；同时使用特征对齐网络E_n来约束的加噪的图像和原始图像的感知相似性，使得人眼无法分辨噪声对图像产生的直观影响，从而达到伪造标签的效果。在本质上，噪声特征图I_n和噪声判别器D_n也是一个对抗式学习和训练的过程。例如，噪声判别器D_n可以是一个二分类网络，输出结果采样二分类交叉熵来计算损失，噪声判别器D_n和噪声特征图I_n均会得到梯度更新。在训练初期，I_add和输入的原图像有较大的差异，故而噪声判别器D_n能轻易地分开输入的原图像和加噪声后的图像I_add。噪声判别器D_n反馈的梯度作用于噪声特征图I_n会增强其对输入的原图像的作用，使得加噪声后的图像I_add和原图像之间的差异进一步扩大。但同时，预先训练好的特征对齐网络E_n分别使用原图像和加噪声后的图像I_add作为输入，提取该网络不同层级的特征图，使用这些特征图之间差异的二范数作为损失，所产生的梯度也作用于噪声特征图I_n，而来自特征对齐网络E_n反馈的梯度又使得噪声特征图I_n减弱其对输入的原图像的作用，从而约束加噪声后的图像I_add和原图像尽可能相同。最后，噪声特征图I_n在经由噪声判别器D_n和特征对齐网络E_n的对抗学习后，收敛到一个稳定的数值，使得噪声特征图I_n与输入的图像相加后，只有噪声判别器D_n可以识别出该图像是否加了噪声，而人眼在视觉上无法区分加噪声图像和原图像。

在本发明的又一个实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序或可执行指令，当所述计算机程序或可执行指令被执行时实现如前述实施例中所述的技术方案，其实现原理类似，此处不再赘述。在本发明的实施例中，计算机可读存储介质可以是任何能够存储数据且可以被计算装置读取的有形介质。计算机可读存储介质的实例包括硬盘驱动器、网络附加存储器(NAS)、只读存储器、随机存取存储器、CD-ROM、CD-R、CD-RW、磁带以及其它光学或非光学数据存储装置。计算机可读存储介质也可以包括分布在网络耦合计算机系统上的计算机可读介质，以便可以分布式地存储和执行计算机程序或指令。

在本发明的又一个实施例中，还提供了一种视频换脸装置，包括处理器和存储器，其中所述存储器用于存储可由处理器执行的可执行指令，其中所述处理器被配置为执行存储器上存储的可执行指令，所述可执行指令被执行时实现前述任一实施例中介绍的视频换脸方法，其实现原理类似，此处不再赘述。

本说明书中针对“各个实施例”、“一些实施例”、“一个实施例”、或“实施例”等的参考指代的是结合所述实施例所描述的特定特征、结构、或性质包括在至少一个实施例中。因此，短语“在各个实施例中”、“在一些实施例中”、“在一个实施例中”、或“在实施例中”等在整个说明书中各地方的出现并非必须指代相同的实施例。此外，特定特征、结构、或性质可以在一个或多个实施例中以任何合适方式组合。因此，结合一个实施例中所示出或描述的特定特征、结构或性质可以整体地或部分地与一个或多个其他实施例的特征、结构、或性质无限制地组合，只要该组合不是非逻辑性的或不能工作。

本说明书中“包括”和“具有”以及类似含义的术语表达，意图在于覆盖不排他的包含，例如包含了一系列步骤或单元的过程、方法、系统、产品或设备并不限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。“一”或“一个”也不排除多个的情况。另外，本申请附图中的各个元素仅仅为了示意说明，并非按比例绘制。

虽然本发明已经通过上述实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。

Claims

1.一种用于训练换脸模型的方法，其中所述换脸模型包括外观编码器、生成器、判别器、光流场编码器、光流场判别器以及预先训练好的人脸识别器；其中光流场编码器用于提取输入的两帧图像之间的光流场；所述光流场判别器用于判断从光流场编码器接收的光流场的真实性；所述方法包括：

步骤S1)基于视频数据集预先训练光流场编码器，所述光流场编码器以一个人的视频序列中相邻两帧图像作为输入，其输出这相邻两帧图像之间的光流场，所述视频数据集包括对多个人分别采集的视频序列；

步骤S2)从包含多个人脸图像的图像数据集提取的多个样本对来训练外观编码器、生成器和判别器；其中每个样本对由源人脸图像和目标人脸图像构成，所述生成器用于根据经由人脸识别器从源人脸图像中提取的身份特征和经由外观编码器从目标人脸图像中提取的外观特征来生成换脸图像，所述判别器用于判断所述生成器所生成的换脸图像的真实性；

步骤S3)从视频数据集中两个不同人的视频序列分别提取相邻两帧图像，由此构成两个相邻的样本对，并通过所述生成器对于这两个相邻的样本对生成两个相邻的换脸图像；

步骤S4)利用该光流场编码器提取来自生成器的两个相邻的换脸图像之间的光流场，并利用光流场判别器判断所述光流场的真实性，根据光流场判别器的判断结果调整外观编码器和生成器的参数；

重复上述步骤S3)和步骤S4，直到光流场判别器无法判断来自生成器的两个相邻的换脸图像之间的光流场的真实性为止。

2.根据权利要求1所述的方法，其中所述生成器采用由若干卷积层、归一化层、全连接层和上采样层构成的网络结构。

3.根据权利要求1所述的方法，还包括在生成器中对所接收的来自源人脸图像的身份特征和来自目标人脸图像的外观特征进行融合；以及在生成器的一个或多个层处将其中间特征分别与身份特征进行融合。

4.根据权利要求1所述的方法，还包括将所述外观编码器中间层级的特征和身份特征进行融合，并将融合后的特征进一步提供至生成器以与生成器的中间层级的特征进行融合。

5.一种视频换脸方法，包括：

将源人脸图像输入到人脸识别器中提取身份特征；

将目标人脸图像输入到外观编码器中提取外观特征；

将所述身份特征和所述外观特征输入至生成器中以生成相应的换脸图像；

其中所述人脸识别器、外观编码器和生成器来自于根据权利要求1-4中任一项所述的方法构建的换脸模型。

6.根据权利要求5所述的方法，还包括：

利用预先训练的防伪模型为所述换脸图像生成防伪噪声；将该防伪噪声叠加在所述换脸图像中。

7.根据权利要求6所述的方法，还包括：

利用预先训练的防伪模型识别待检测的人脸图像中是否包含相应的防伪噪声，以验证该人脸图像是否是利用所述方法生成的换脸图像。

8.根据权利要求5或6所述的方法，其中所述防伪模型包括可训练的噪声特征图、噪声判别器和预先训练好的特征对齐网络；其中噪声判别器用于判断输入的图像是否有噪声；所述特征对齐网络用于使加噪声的图像与未加噪声的原图像尽可能相同；所述防伪模型是基于所述图像数据集通过噪声判别器和特征对齐网络进行对抗学习训练得到的，将收敛后的噪声特征图与输入的图像叠加后得到的图像通过肉眼无法分辨，仅通过噪声判别器才能进行区分。

9.一种视频换脸装置，包括处理器和存储器，其中存储器用于存储可执行指令；所述处理器被配置为经由执行所述可执行指令来执行权利要求5-8中任一项所述的视频换脸方法。

10.一种计算机存储介质，其上存储有计算机程序，所述程序被执行时实现权利要求1-8中任一项所述的方法。