CN112990078B

CN112990078B - 一种基于生成式对抗网络的人脸表情生成方法

Info

Publication number: CN112990078B
Application number: CN202110361039.6A
Authority: CN
Inventors: 王蕊; 施璠; 曲强; 姜青山
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2022-05-10
Anticipated expiration: 2041-04-02
Also published as: CN112990078A

Abstract

本发明公开了一种基于生成式对抗网络的人脸表情生成方法。该方法包括：构建深度学习网络模型，其包括循环神经网络、生成器、图像判别器、第一视频判别器和第二视频判别器，其中循环神经网络针对输入图像产生时间相关的运动向量，生成器以运动向量和输入图像作为输入，输出相应的视频帧，图像判别器用于判断各视频帧的真伪，第一视频判别器判断视频的真伪并进行分类，第二视频判别器控制生成视频变化的真实性和平滑性；利用包含不同表情类别的样本图像作为输入，训练所述深度学习网络模型；利用经训练的生成器实时生成人脸视频。本发明在生成表情的同时保留人脸特征、所生成视频保持了连续性和真实性、对不同的人脸有泛化能力。

Description

一种基于生成式对抗网络的人脸表情生成方法

技术领域

本发明涉及计算机视觉技术领域，更具体地，涉及一种基于生成式对抗网络的人脸表情生成方法。

背景技术

在人脸生成方面，3DMM(人脸3D形变统计模型)通过改变形状、纹理、姿态、光照等参数生成人脸。DRAW(深度递归书写器)用循环神经网络(RNN)实现图像生成，Pixel CNN用卷积神经网络(CNN)代替RNN，实现逐像素的图像生成。

生成式对抗网络(GAN)出现之后被广泛应用于图像生成方面，越来越多基于GAN的模型被应用于人脸表情转换。例如，ExprGAN(基于强度可控的表情编辑)将条件生成对抗网络和对抗自动译码器相结合，实现人脸表情的转换。又如，Facelet-Bank在固定解码器和译码器的基础上，根据目标输入域和输出域训练出表示两个域差值的网络，以此实现人脸图像编辑。

目前，用图像生成视频的主要方法之一是运动序列预测。例如，ConvLSTM(卷积长短时记忆网络)通过循环神经网络和卷积神经网络相结合的方法预测未来的视频帧；VGAN(Vondrick C等)在实现表情视频识别之外，用GAN实现了视频的生成；TGAN(基于图灵测试的生成对抗模型)指出视频可以由时间生成器和图像生成器共同生成，即生成一组与时间相关的序列帧，此外，TGAN使用WGAN(Wasserstein GAN)结构使训练更稳定；HP(Villegas R等)将视频的生成分为两个独立的步骤，第一步用循环神经网络对关键点进行预测，第二步根据预测出的关键点的位置实现视频的逐帧生成。

另一种实现从图像到视频生成的方法是视频的逐帧生成。这种方式不再需要另外考虑前后视频帧之间的关系，即将视频生成的问题转换为更为简单的图像生成问题，通过系数控制每一帧的变化程度。ExprGAN在人脸表情编辑实验中可以控制表情程度，通过设置连续增大的表情程度，可生成表情视频。Image2video(图片转视频)将基础编码器和剩余编码器相结合，通过改变剩余编码器得到的特征图的系数大小，即表示变化程度变量，实现视频的逐帧生成。

经分析，在现有的基于深度学习生成表情视频的方案中，通常是根据噪声生成视频，但因为表情数据库较小等原因导致生成的人脸较为单一，并且无法指定人脸；而从图像生成视频的模型在人脸表情方面效果较差。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种基于生成式对抗网络的人脸表情生成方法，所生成视频保持了连续性和真实性。

本发明的技术方案是：提供一种基于生成式对抗网络的人脸表情生成方法，该方法包括以下步骤：

构建深度学习网络模型，该深度学习网络模型包括循环神经网络、生成器、图像判别器、第一视频判别器和第二视频判别器，其中循环神经网络针对输入图像产生时间相关的运动向量；生成器用于将循环神经网络产生的运动向量和输入图像作为输入，输出相应的视频帧；图像判别器用于判断各视频帧的真伪；第一视频判别器用于判断视频真伪并对视频进行分类；第二视频判别器辅助第一视频判别器用于控制生成视频变化的真实性和平滑性；

利用包含不同表情类别的样本图像作为输入，以设定的目标函数为优化目标训练所述深度学习网络模型；

利用经训练的生成器实时生成人脸视频。

与现有技术相比，本发明的优点在于，通过改进生成器的结构，可以较好地实现从人脸图像到表情视频的生成；通过引入局部视频判别器和条件图像判别器，重新定义了目标函数，更适用于从人脸图像到表情视频的生成，在生成表情的同时保留了人脸特征，并且所生成视频保持了连续性和真实性，对不同的人脸有泛化能力。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明一个实施例的基于生成式对抗网络的人脸表情生成方法的流程图；

图2是根据本发明一个实施例的深度学习网络模型的总体结构示意图；

图3是根据本发明一个实施例的生成器网络结构示意图；

图4是根据本发明一个实施例的不同人做“高兴”表情的效果图；

图5是根据本发明一个实施例的同一个人做高兴、悲伤、惊讶三种表情的效果图；

图6是根据本发明一个实施例的视频变化曲线示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

参见图1所示，本发明所提供的基于生成式对抗网络的人脸表情生成方法包括：步骤S110，构建深度学习网络模型，该深度学习网络模型包括循环神经网络、生成器、图像判别器、第一视频判别器和第二视频判别器，其中循环神经网络针对输入图像产生时间相关的运动向量；生成器用于将循环神经网络产生的运动向量和输入图像在通道层进行拼接作为输入，输出相应的视频帧；图像判别器针对每一个视频帧进行判断；第一视频判别器用于判断视频是否真实并用于分类；第二视频判别器辅助第一视频判别器用于控制生成视频变化的真实性和平滑性；步骤S120，利用包含不同表情类别的样本图像作为输入，以设定的目标函数为优化目标训练所述深度学习网络模型；步骤S130，利用经训练的生成器实时生成人脸视频。

在下文中，将以对MoCoGAN框架(Motion and Content Decomposed GAN)进行改进为例进行说明。MoCoGAN基于循环神经网络和infoGAN(信息生成对抗网络)实现从噪声到视频的生成。本发明在此基础上修改了生成器的结构，使之可以较好地实现从人脸图像到表情视频的生成，并新增了一个局部视频判别器和一个条件图像判别器，重新定义了目标函数，使之适应从人脸图像到表情视频的生成问题。

图2是所构建的深度学习网络模型的总体结构，其主体部分包括一个循环神经网络(以含有多个门控循环单元为例，标记为GRU cell)，一个生成器(标记为G)，三个判别器。循环神经网络用于产生时间相关的运动序列；输入图像和得到的运动序列作为生成器的输入，从而得到视频帧；图像判别器(标记为D_img)对每一个视频帧进行判断；第一个视频判别器(标记为D_V或D_V/Q)用于判断视频是否真实并用于分类，另一个视频判别器(标记为D_patch，也称为局部视频判别器)辅助第一个判别器用于控制生成视频变化的真实性和平滑性。

以下将介绍图2涉及的循环神经网络、生成器及各判别器的具体实施例。

1)循环神经网络

视频的生成主要由内容和运动控制，在一小段视频片段中，当时间足够短的时候，可以看作视频的内容不变(即视频中画面没有切换，画面中的人、物、景没有发生改变)，运动序列的变化造成了视频的动态变化(如画面中的人、物、景的移动和形变)。在生成式对抗网络中，每次生成需要随机噪声来产生不一样的输出，在本实施例中，视频内容由输入图像控制，所产生的变化由表示运动的向量控制。

用同一个生成器来生成视频的不同帧时，需要保证同一视频不同帧的内容相同而运动向量发生变化。视频帧之间内容相同由输入同一张图像来保证，此时如果运动向量是完全随机的，那么每次生成的视频帧也会将内容映射到一个随机的分布，既无法保证视频是连续的，更无法保证其在现实中是有意义的。为了确保这些视频帧之间的连续性和生成的视频是有意义的，不同帧之间的运动序列需要是相关的。

在一个实施例中，采用循环神经网络(Recurrent Neural Network，RNN)来处理序列数据，用来解决上下文相关或者在时间范畴相关的问题。循环神经网络具有记忆性，上一次的状态信息会被记住并传递下去，从而影响下一次的输出，即每一次输出是由上一步的状态和当前的输入共同决定。一个循环神经网络由多个细胞(cell)构成，每个细胞权值共享，并且只与前后的细胞相连，相连的细胞之间按方向传递隐藏状态。在视频生成问题中，循环神经网络可以用来生成运动状态序列，从而控制生成视频时序上的相关性，保证视频的连续变化。门控循环单元(Gated Recurrent Unit，GRU)是RNN的变体之一，解决了因序列较长网络导致梯度消失、遗忘信息的问题，在保留网络短期记忆和长期记忆相结合的特性的基础上简化了网络结构。

在该实施例中，用门控循环神经网络将类别标签和t个独立同分布的噪声映射为t个表示运动关系的序列，用于控制视频中的表情变化。

h(k+1)＝GRUcell(h(k),[z[k],c])k＝0,1,…,t-1 (1)

其中h(k+1)表示第k帧的运动向量，也是传递到下一帧的隐藏状态，h(0)为随机初始状态，z[k]为服从N(0,1)分布的随机噪声，c为类别标签，GRU cell为门控循环单元，z[k]和c拼接成为第k个门控循环单元的当前输入。

2)生成器

在一个实施例中，对输入图像进行编码和解码的生成器基于U-net结构，如图3所示，生成器将运动向量和输入图像在通道层进行拼接作为输入，输出相应的视频帧。例如，生成器包括七层卷积实现下采样和与之对应的七层反卷积用于实现上采样。

生成器每次输出一张图像，生成视频的每一帧共享一个生成器。对于一个视频，视频中的内容x是相同的，每次只需改变运动向量h(k)即可得到不同的视频帧，而视频帧的连续性是由运动序列h控制的，同一视频运动序列的相关性由循环神经网络保证，即h＝R(z,c)，其中R为循环神经网络，c为类别标签(例如包括高兴、惊讶、悲伤三种表情)，z为随机噪声。生成的视频

如果将循环神经网络也看作生成器的一部分，则有

在视频生成中，输入中立表情的人脸图像，输出视频将在此基础上进行变化，即通过重构将它作为视频的第一帧。除了下文将提到的对抗损失函数外，这里用像素级别重构误差作为目标函数，使得输出视频的第一帧与输入图像一致，损失函数用L1范数(误差绝对值之和)。根据经验，L2范数(误差平方和的平方根)用于重构图像比L1范数更容易产生模糊。

例如，生成器的重构损失函数表示为：

其中

表示生成视频的第一帧，x为输入的人脸图像，P(.)表示对应的分布。

在该实施例中，生成器采用U-net结构，有利于使编码器每一层提取的特征除了向下一层传递外，还直接将重要信息传递给与之对应的译码器层，避免了在下采样中丢失部分信息，从而能很好地保留浅层和深层的特征。

3)图像判别器

传统的生成式对抗网络实现的是从噪声生成目标输出，而这并不能有效地控制输出的类型或者实现图像的编辑。在此基础上，条件生成式对抗网络(ConditionalGenerative Adversarial Networks，CGAN)提出半监督学习方式，除了输入随机噪声，新增了条件作为约束，并将这个条件用于判别器的判断中。这里的条件可以是类别标签，特征向量，甚至图像。CGAN的目标函数为：

其中P_data(x)为输入数据所属域的真实分布，P_z(z)为随机噪声的分布，P_y(y)为条件的分布，G为生成器，G(z,y)为输入噪声和特定条件得到的生成数据，D为判别器，用于判断数据和标签是否真实。

在本发明一个实施例中，图像判别器采用CGAN的结构，将数据集中视频的第一帧作为条件，生成视频时的输入作为目标条件。图像判别器对输出视频的每一帧单独进行约束，不考虑前后视频帧之间的关系。将训练数据中视频的第一帧和中间的任意一帧拼接作为真实样本，将生成器的输入图像和输出视频中的任意一帧作为伪造的样本，训练图像判别器。图像判别器不仅可以判断视频帧是否为真实图像，而且可以约束生成的视频帧和输入图像之间的关系。

例如，图像判别器D_img的损失函数表示为：

其中P_video(v)为真实视频的分布，v[0]表示视频v的第一帧，v[t]表示视频的第(t+1)帧，P_z(z)为随机噪声，c为目标类别，G为生成器，D_img为图像判别器。

4)视频判别器D_V

在第一视频判别器D_V中，输入不再是二维图像，而是增加了时间的维度，即一个由视频片段的多个视频帧拼接而成的三维数据。传统判别器中的二维卷积结构不再适用，需要通过三维卷积来处理时空相关的问题。三维卷积的思想与二维卷积一致，滤波器通过三维的卷积核、步长、填充控制，滑动全局得到特征图。

视频判别器D_V在判断真伪的同时对视频进行分类。在一个实施例中，没有采用CGAN的结构，而是采用了在infoGAN中增加分类器的思想，从而可以通过改变分类误差在目标函数中的比重来对网络进行调优。分类器与视频判别器共享权值，只在输出增加通道数，用于表示类别，简化了网络模型。infoGAN判别器输入不再需要标签，只需要真实的数据和生成的数据，视频判别器的输出除了判断真伪还要对输入进行分类。为了计算交叉熵损失函数，类别标签例如采用独热(one-hot)编码，即将N个类别标签映射到N维的0-1向量，在计算损失函数时，独热编码可以消除类别编号的影响，有利于度量不同类别之间的距离。

在训练视频判别器过程中，一方面需要区分出视频的真伪，视频判别器D_V的对抗损失函数表示为：

另一方面需要对视频进行分类，即训练视频分类器。训练集中的视频都是有类别标签的，对训练集中的视频进行分类，对于经过分类器得到的预测类别与实际类别计算交叉熵作为损失函数，通过降低分类的错误率，优化分类器。在生成结果中，计算经过分类器得到的预测类别和目标类别的交叉熵作为损失函数，使得生成器可以生成指定类别的表情，达到优化生成器的目的。

在一个实施例中，训练分类器Q的目标函数表示为：

训练生成器G的分类损失函数表示为：

其中P_video(v,c)为真实视频和其标签的分布，Q为分类网络，P_z(z)为随机噪声，c为目标类别，G为生成器。

5)局部视频判别器

除了整体的判别器外，引入一个判断局部区域的视频判别器D_{patc h}，此时的判别器不再需要处理分类任务，局部视频判别器D_patch用于保证视频变化的平滑性和视频帧的真实性，结构更为简单，更容易训练。引入局部视频判别器能够使生成器和视频判别器D_V的训练趋于平衡，给生成器提供可优化的空间。防止在训练初期视频判别器D_V训练得过好，即视频判别器D_V可以准确分离正确和错误样本导致生成器难以训练。

在一个实施例中，局部视频判别器D_{patc h}的对抗损失函数表示为：

在一个实施例中，所提供的深度学习网络模型的整体目标函数表示为：

其中D包括图像判别器D_img、视频判别器D_V、局部视频判别器D_patch，G包括生成器和循环神经网络两部分，λ₁、λ₂、λ₃、λ₄为自定义的参数，可根据经验或仿真确定。

在训练上述深度学习网络模型时，利用包含不同表情类别的样本图像作为训练集。例如，选取正面人脸，用自动剪裁工具将数据库的图片裁剪成128*128像素大小，人脸居中占整张图片的80％；训练过程中批大小取16，视频长度取8，输入图像尺寸取128*128像素；对于目标函数中的超参数，取λ₁＝1、λ₂＝1、λ₃＝10、λ₄＝10；选用Adam优化器，学习率设为0.0002，β₁＝0.5,β₂＝0.999，权重衰减设为0.00001。对于具体训练过程，本发明不再进行赘述。

为验证本发明的效果，首先进行了定性分析。从CelebA数据库中选取部分正面可识别的人脸作为测试集，经过剪裁后作为输入。分别对不同人做“高兴”表情(如图4所示)和同一个人做高兴、悲伤、惊讶三种表情(如图5所示)进行可视化。实验结果表明，从人脸图像到人脸表情视频的生成是可以通过不同表情标签控制实现的，生成的视频变化连续、清晰、表情明显。

进一步地，进行了定量分析。为了判断视频的变化是否平滑，即时间连续性，引入标志点偏移距离作为度量标准。具体做法是：基于人脸检测dlib库，对于视频中的每一帧检测面部68个关键点的位置，计算每一帧的关键点位置和第一帧的关键点的位置的L1范数作为距离，以时间(即帧数)为横坐标，以距离(lanmark距离)为纵坐标，绘制如图6所示的曲线。

在训练数据中，分别对CK+(表情数据库)的前8帧和MMI的前8帧的标志点偏移距离进行计算，可以发现它们都是呈平缓上升状态，表明一个人从中立表情到表情的峰值状态时，标志点的偏移是连续变化且逐渐变大的。CK+的变化量超出MMI的两倍，这是因为在数据提取时，CK+的帧更为稀疏，而MMI更为稠密，即单位时间内提取的帧的数量不同造成了标志点偏移距离的不同。用训练好的模型对CK+进行验证，会发现它的变化没有训练集明显。在CelebA测试时，发现它的变化总体与MMI训练集和CK+验证时的变化水平一致，说明生成的视频的变化是平缓而连续的，不存在突变、画面不连续等情况。

综上所述，本发明通过设计包含循环神经网络、生成器和三个判别器的深度学习网络模型，使所生成的视频变化连续、清晰、表情明显，不存在突变、画面不连续等情况；通过设计生成器的重构损失函数、图像判别器D_img的损失函数、视频判别器D_V的对抗损失函数、分类器Q的目标函数、生成器G的分类损失函数、局部视频判别器D_patch的对抗损失函数以及整体的目标函数，提升了人脸表情生成的精确度；此外，通过设计基于U-net的生成器，能很好地保留浅层和深层的特征，进一步提升了生成视频的清晰度。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种基于生成式对抗网络的人脸表情生成方法，包括以下步骤：

利用包含不同表情类别的样本图像作为输入，以设定的目标函数为优化目标，训练所述深度学习网络模型；

利用经训练的生成器实时生成人脸视频；

其中，所述目标函数设置为：

其中D包括图像判别器、第一视频判别器和第二视频判别器，G是生成器，λ₁、λ₂、λ₃、λ₄是超参数，l_{img_adv}是图像判别器的损失函数，l_{vid_adv}是第一视频判别器的对抗损失函数，l_{patch_adv}是第二视频判别器的对抗损失函数，l_cat是生成器的分类损失函数，l_rec是生成器的重构损失函数；

其中，所述图像判别器的损失函数表示为：

其中P_video(v)是真实视频的分布，v[0]表示视频v的第一帧，v[t]表示视频的第(t+1)帧，c是目标类别，D_img表示图像判别器，P_data(x)、P_z(z)和P_c(c)分别表示x、z和c的分布，x为输入的人脸图像，z为随机噪声。

2.根据权利要求1所述的方法，其中，所述生成器基于U-net结构构建，包括用于下采样的多层卷积层，以及与所述多层卷积层对应的多层反卷积用于实现上采样。

3.根据权利要求1所述的方法，其中，所述第一视频判别器D_V的对抗损失函数表示为：

其中，c是目标类别，P_z(z)是随机噪声的分布，x为输入的人脸图像，v表示视频，P_video(v)表示真实视频的分布，P_data(x)、P_z(z)和P_c(c)分别表示x、z和c的分布。

4.根据权利要求1所述的方法，其中，所述第二视频判别器D_patch的对抗损失函数表示为：

其中，c是目标类别，是z为随机噪声，x为输入的人脸图像，P_video(v)表示真实视频的分布，P_data(x)、P_z(z)和P_c(c)分别表示x、z和c的分布。

5.根据权利要求1所述的方法，其中，所述生成器的分类损失函数表示为：

其中，Q是分类网络，c为目标类别，z为随机噪声，x为输入的人脸图像，P_data(x)、P_z(z)和P_c(c)分别表示x、z和c的分布，函数P表示对应项的分布。

6.根据权利要求1所述的方法，其中，所述生成器的重构损失函数表示为：

其中

表示生成视频的第一帧，x为输入的人脸图像，

表示生成的视频，

表示

的分布，P_x(x)表示x的分布。

7.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至6中任一项所述方法的步骤。

8.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至6中任一项所述的方法的步骤。