CN113326821B

CN113326821B - 一种视频帧图像的人脸驱动方法及装置

Info

Publication number: CN113326821B
Application number: CN202110883411.XA
Authority: CN
Inventors: 郑义
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-10-01
Anticipated expiration: 2041-08-03
Also published as: CN113326821A

Abstract

本发明实施例提供了一种视频帧图像的人脸驱动方法及装置，应用于视频处理技术领域，上述方法包括：获得目标视频的当前视频帧图像，并获得上一帧已驱动视频帧图像，其中，所述上一帧已驱动视频帧图像为：所述当前视频帧图像的上一帧进行人脸驱动后生成的视频帧图像；提取所述当前视频帧图像中待驱动人脸的当前表情姿态特征信息；提取所述上一帧已驱动视频帧图像的当前身份特征信息；基于所述当前表情姿态特征信息和当前身份特征信息，对所述当前视频帧图像进行特征融合，生成与当前表情姿态特征信息及当前身份特征信息均一致的当前已驱动视频帧图像。应用本发明实施例提供的方案对视频帧图像的人脸进行驱动时，能够提高视频播放的稳定性。

Description

一种视频帧图像的人脸驱动方法及装置

技术领域

本发明涉及视频处理技术领域，特别是涉及一种视频帧图像的人脸驱动方法及装置。

背景技术

视频帧图像的人脸驱动是指驱动视频帧图像中的人脸，使得图像中所包含人脸发生变化。通常可以基于驱动源图像，对视频帧图像中的人脸进行驱动。然而，在对视频中各视频帧图像的人脸进行驱动时，生成的各视频帧图像差异大，使得在播放各视频帧图像时发生视频抖动的问题，导致视频播放的稳定性不够高。

发明内容

本发明实施例的目的在于提供一种视频帧图像的人脸驱动方法及装置，以提高视频播放的稳定性。具体技术方案如下：

第一方面，本发明实施例提供了一种视频帧图像的人脸驱动方法，所述方法包括：

获得目标视频的当前视频帧图像，并获得上一帧已驱动视频帧图像，其中，所述上一帧已驱动视频帧图像为：所述当前视频帧图像的上一帧进行人脸驱动后生成的视频帧图像；

提取所述当前视频帧图像中待驱动人脸的当前表情姿态特征信息；

提取所述上一帧已驱动视频帧图像的当前身份特征信息；

基于所述当前表情姿态特征信息和当前身份特征信息，对所述当前视频帧图像进行特征融合，生成与当前表情姿态特征信息及当前身份特征信息均一致的当前已驱动视频帧图像；

其中，第一帧已驱动视频帧图像，是基于所述目标视频中的第一帧图像中待驱动人脸的第一帧表情姿态特征信息和驱动源图像的源身份特征信息生成的。

本发明的一个实施例中，上述提取所述当前视频帧图像中待驱动人脸的当前表情姿态特征信息，包括：

将所述当前视频帧图像输入预先训练好的五官定位模型，获得五官定位模型输出的五官定位图像，作为当前表情姿态特征信息。

本发明的一个实施例中，上述提取所述上一帧已驱动视频帧图像的当前身份特征信息，包括：

将所述上一帧已驱动视频帧图像输入预先训练好的视频帧图像驱动模型中的编码器，获得编码器输出的图像编码，作为当前身份特征信息；

所述视频帧图像驱动模型，还包括生成器；

所述基于所述当前表情姿态特征信息和当前身份特征信息，对所述当前视频帧图像进行特征融合，生成与当前身份特征信息一致的当前已驱动视频帧图像的步骤，包括：

将所述当前表情姿态特征信息和当前身份特征信息输入所述生成器，获得所述生成器基于所述当前表情姿态特征信息和当前身份特征信息，对所述当前视频帧图像进行特征融合，生成与当前表情姿态特征信息及当前身份特征信息均一致的当前已驱动视频帧图像。

本发明的一个实施例中，上述第一帧已驱动视频帧图像，采用如下步骤生成：

提取所述目标视频中的第一帧图像中待驱动人脸的第一帧表情姿态特征信息；

将驱动源图像输入所述编码器，获得所述编码器输出的图像编码，作为驱动源图像的源身份特征信息；

将所述第一帧表情姿态特征信息和源身份特征信息输入所述生成器，获得所述生成器基于所述第一帧表情姿态特征信息和源身份特征信息，对所述第一帧图像进行特征融合，生成与第一帧表情姿态特征信息以及源身份特征信息一致的第一帧已驱动视频帧图像。

本发明的一个实施例中，上述视频帧图像驱动模型，采用如下步骤训练获得：

确定视频帧图像驱动模型对应的训练模型；所述训练模型，包括：编码器、生成器和判别器；

从指定的样本视频中获得样本驱动源图像和样本目标视频帧图像；

提取所述样本目标视频帧图像中样本人脸的第一样本表情姿态特征信息，并提取所述样本驱动源图像的第二样本表情姿态特征信息；

将所述样本驱动源图像输入所述训练模型的编码器，获得所述训练模型的编码器输出的图像编码，作为样本源身份特征信息；

将所述样本源身份特征信息以及所述第一样本表情姿态特征信息输入所述训练模型的生成器，获得所述训练模型的生成器基于所述样本源身份特征信息以及所述第一样本表情姿态特征信息，对所述样本目标视频帧图像进行特征融合，生成第一次样本已驱动视频帧图像；

将所述第一次样本已驱动视频帧图像输入所述训练模型的编码器，获得所述训练模型的编码器输出的图像编码，作为当前样本身份特征信息；

将所述当前样本身份特征信息以及所述第二样本表情姿态特征信息输入所述训练模型的生成器，获得所述训练模型的生成器基于所述当前样本身份特征信息以及所述第二样本表情姿态特征信息，对所述样本驱动源图像进行特征融合，生成第二次样本已驱动视频帧图像；

将所述第二次样本已驱动视频帧图像和所述样本驱动源图像输入所述训练模型的判别器，获得所述训练模型的判别器基于预设的损失函数计算所述第二次样本已驱动视频帧图像与所述样本驱动源图像之间的损失值；

若基于损失值确定训练模型不收敛，则调整所述编码器、生成器和判别器的模型参数，继续训练；

若基于损失值确定训练模型收敛，则训练完成，将训练模型中的判别器去除，得到训练完成的视频图像驱动模型。

本发明的一个实施例中，上述预设的损失函数

为：

其中，

表示第二次样本已驱动视频帧图像，

表示样本驱动源图像。

第二方面，本发明实施例提供了一种视频帧图像的人脸驱动装置，所述装置包括：

图像获得模块，用于获得目标视频的当前视频帧图像，并获得上一帧已驱动视频帧图像，其中，所述上一帧已驱动视频帧图像为：所述当前视频帧图像的上一帧进行人脸驱动后生成的视频帧图像；

第一信息提取模块，用于提取所述当前视频帧图像中待驱动人脸的当前表情姿态特征信息；

第二信息提取模块，用于提取所述上一帧已驱动视频帧图像的当前身份特征信息；

第一图像生成模块，用于基于所述当前表情姿态特征信息和当前身份特征信息，对所述当前视频帧图像进行特征融合，生成与当前表情姿态特征信息及当前身份特征信息均一致的当前已驱动视频帧图像；

本发明的一个实施例中，上述第一信息提取模块，具体用于将所述当前视频帧图像输入预先训练好的五官定位模型，获得五官定位模型输出的五官定位图像，作为当前表情姿态特征信息。

本发明的一个实施例中，上述第一信息提取模块，具体用于将所述上一帧已驱动视频帧图像输入预先训练好的视频帧图像驱动模型中的编码器，获得编码器输出的图像编码，作为当前身份特征信息；

所述视频帧图像驱动模型，还包括生成器；

所述第二信息提取模块，具体用于将所述当前表情姿态特征信息和当前身份特征信息输入所述生成器，获得所述生成器基于所述当前表情姿态特征信息和当前身份特征信息，对所述当前视频帧图像进行特征融合，生成与当前表情姿态特征信息及当前身份特征信息均一致的当前已驱动视频帧图像。

本发明的一个实施例中，上述装置还包括：第二图像生成模块，

所述第二图像生成模块，包括：

第一信息提取子模块，用于提取所述目标视频中的第一帧图像中待驱动人脸的第一帧表情姿态特征信息；

第一信息确定子模块，用于将驱动源图像输入所述编码器，获得所述编码器输出的图像编码，作为驱动源图像的源身份特征信息；

第一图像生成子模块，用于将所述第一帧表情姿态特征信息和源身份特征信息输入所述生成器，获得所述生成器基于所述第一帧表情姿态特征信息和源身份特征信息，对所述第一帧图像进行特征融合，生成与第一帧表情姿态特征信息以及源身份特征信息一致的第一帧已驱动视频帧图像。

本发明的一个实施例中，上述装置还包括：模型训练模块，所述模型训练模块用于训练获得所述视频帧图像驱动模型，

所述模型训练模块，包括：

训练模型确定子模块，用于确定视频帧图像驱动模型对应的训练模型；所述训练模型，包括：编码器、生成器和判别器；

样本图像获得子模块，用于从指定的样本视频中获得样本驱动源图像和样本目标视频帧图像；

第二信息提取子模块，用于提取所述样本目标视频帧图像中样本人脸的第一样本表情姿态特征信息，并提取所述样本驱动源图像的第二样本表情姿态特征信息；

第二信息确定子模块，用于将所述样本驱动源图像输入所述训练模型的编码器，获得所述训练模型的编码器输出的图像编码，作为样本源身份特征信息；

第二图像生成子模块，用于将所述样本源身份特征信息以及所述第一样本表情姿态特征信息输入所述训练模型的生成器，获得所述训练模型的生成器基于所述样本源身份特征信息以及所述第一样本表情姿态特征信息，对所述样本目标视频帧图像进行特征融合，生成第一次样本已驱动视频帧图像；

第三信息确定子模块，用于将所述第一次样本已驱动视频帧图像输入所述训练模型的编码器，获得所述训练模型的编码器输出的图像编码，作为当前样本身份特征信息；

第三图像生成子模块，用于将所述当前样本身份特征信息以及所述第二样本表情姿态特征信息输入所述训练模型的生成器，获得所述训练模型的生成器基于所述当前样本身份特征信息以及所述第二样本表情姿态特征信息，对所述样本驱动源图像进行特征融合，生成第二次样本已驱动视频帧图像；

损失值获得子模块，用于将所述第二次样本已驱动视频帧图像和所述样本驱动源图像输入所述训练模型的判别器，获得所述训练模型的判别器基于预设的损失函数计算所述第二次样本已驱动视频帧图像与所述样本驱动源图像之间的损失值；

参数调整子模块，用于若基于损失值确定训练模型不收敛，则调整所述编码器、生成器和判别器的模型参数，继续训练；

驱动模型确定子模块，用于若基于损失值确定训练模型收敛，则训练完成，将训练模型中的判别器去除，得到训练完成的视频图像驱动模型。

本发明的一个实施例中，上述预设的损失函数

为：

其中，

表示第二次样本已驱动视频帧图像，

表示样本驱动源图像。

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面所述的方法步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法步骤。

由以上可见，应用本发明实施例提供的方案对视频帧图像进行人脸驱动时，所生成的当前已驱动视频帧图像与当前表情姿态特征信息及当前身份特征信息均一致，由于上述当前身份特征信息是上一帧已驱动视频帧图像的身份特征信息，所以当前已驱动视频帧图像的身份特征信息是与上一帧已驱动视频帧图像的身份特征信息一致；又由于第一帧已驱动视频帧图像是基于第一帧表情姿态特征信息和驱动源图像的源身份特征信息生成的，第一帧已驱动视频帧图像的身份特征信息与上述驱动源图像的源身份特征信息的关联度高，那么各已驱动视频帧图像的身份特征信息与驱动源图像的源身份特征信息的关联度高，各已驱动视频帧图像的身份特征信息具有统一性。按照这样的方式生成的各已驱动视频帧图像，相邻两个已驱动视频帧图像之间的关联度高，且各已驱动视频帧图像的源身份特征信息具有统一性，在播放各已驱动视频帧图像时，缓解了视频抖动问题，提高了视频播放的稳定性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的第一种视频帧图像的人脸驱动方法的流程示意图；

图2为本发明实施例提供的一种五官定位图像的示意图；

图3a为本发明实施例提供的第一种图像的示意图；

图3b为本发明实施例提供的第二种图像的示意图；

图3c为本发明实施例提供的第三种图像的示意图；

图4a为本发明实施例提供的第二种视频帧图像的人脸驱动方法的流程示意图；

图4b为本发明实施例提供的一种第一帧已驱动视频帧图像的生成方法的流程示意图；

图5a为本发明实施例提供的一种应用视频帧图像驱动模型生成图像的流程示意图；

图5b为本发明实施例提供的另一种应用视频帧图像驱动模型生成图像的流程示意图；

图6为本发明实施例提供的一种视频帧图像驱动模型的训练方法示意图；

图7为本发明实施例提供的一种训练模型的训练方法的流程示意图；

图8为本发明实施例提供的一种训练模型的完整训练方法的流程示意图；

图9为本发明实施例提供的一种视频帧图像的人脸驱动装置的结构示意图；

图10为本发明实施例提供的一种图像生成模块的结构示意图；

图11为本发明实施例提供的一种模型训练模块的结构示意图；

图12为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于现有技术中对视频帧图像的人脸驱动时，会出现视频抖动现象，导致播放人脸驱动后得到的视频时稳定性不够高，为解决这一技术问题，本发明实施例提供了一种视频帧图像的人脸驱动方法及装置。

本发明的一个实施例中，提供了一种视频帧图像的人脸驱动方法，该方法包括：

获得目标视频的当前视频帧图像，并获得上一帧已驱动视频帧图像，其中，上一帧已驱动视频帧图像为：当前视频帧图像的上一帧进行人脸驱动后生成的视频帧图像；

提取当前视频帧图像中待驱动人脸的当前表情姿态特征信息；

提取上一帧已驱动视频帧图像的当前身份特征信息；

基于当前表情姿态特征信息和当前身份特征信息，对当前视频帧图像进行特征融合，生成与当前表情姿态特征信息及当前身份特征信息均一致的当前已驱动视频帧图像；

其中，第一帧已驱动视频帧图像，是基于目标视频中的第一帧图像中待驱动人脸的第一帧表情姿态特征信息和驱动源图像的源身份特征信息生成的。

由以上可见，应用本实施例提供的方案对视频帧图像进行人脸驱动时，所生成的当前已驱动视频帧图像与当前表情姿态特征信息及当前身份特征信息均一致，由于上述当前身份特征信息是上一帧已驱动视频帧图像的身份特征信息，所以当前已驱动视频帧图像的身份特征信息是与上一帧已驱动视频帧图像的身份特征信息一致；又由于第一帧已驱动视频帧图像是基于第一帧表情姿态特征信息和驱动源图像的源身份特征信息生成的，第一帧已驱动视频帧图像的身份特征信息与上述驱动源图像的源身份特征信息的关联度高，那么各已驱动视频帧图像的身份特征信息与驱动源图像的源身份特征信息的关联度高，各已驱动视频帧图像的身份特征信息具有统一性。按照这样的方式生成的各已驱动视频帧图像，相邻两个已驱动视频帧图像之间的关联度高，且各已驱动视频帧图像的源身份特征信息具有统一性，在播放各已驱动视频帧图像时，缓解了视频抖动问题，提高了视频播放的稳定性。

在对本发明实施例提供的人脸驱动方法进行具体说明之前，首先，对本发明实施例涉及的概念进行解释。

1.人脸

人脸是指图像中包括的人脸，上述人脸是一个泛指的概念，具体可以包括：真实人类的人脸、动画人物脸以及动物脸等。

2.驱动源图像

驱动源图像是指：进行人脸驱动时使用的身份特征信息所来源的图像。

例如：假设目标视频的各待进行人脸驱动的视频帧图像中人脸为人脸A，人脸驱动时需要将上述人脸A替换为动画人物脸B，包含动画人物脸B的图像可以实现人脸驱动，上述包含动画人脸B的图像为驱动源图像。

其次，对本发明实施例的应用场景进行说明。

本发明实施例的应用场景可以为：对视频的视频帧图像中人脸进行人脸驱动的应用场景。上述视频可以为实时直播的视频，如游戏直播、视频会议等；上述视频还可以为预先录制的视频，如电视剧、电影、动画、纪录片等。

参见图1，图1为本发明实施例提供的第一种视频帧图像的人脸驱动方法的流程示意图，上述方法包括以下步骤S101-S104。

步骤S101：获得目标视频的当前视频帧图像，并获得上一帧已驱动视频帧图像。

当前视频帧图像是指：当前待进行人脸驱动的视频帧图像。

具体的，目标视频中各视频帧图像可以均为待进行人脸驱动的视频帧图像。还可以是目标视频中部分视频帧图像为待进行人脸驱动的视频帧图像，上述部分视频帧图像可以是连续播放的视频帧图像，还可以是非连续播放的视频帧图像。

在本发明实施例进行人脸驱动时，按照各待进行人脸驱动的视频帧图像的播放时间顺序，对每一待进行人脸驱动的视频帧图像中人脸进行驱动。基于此，上述上一帧已驱动视频帧图像为：当前视频帧图像的上一帧进行人脸驱动后生成的视频帧图像。

当前视频帧图像的上一帧是指：待进行人脸驱动的视频帧图像中播放时间位于当前视频帧图像之前、且与当前视频帧图像相邻的视频帧图像。

例如：假设待进行人脸驱动的视频帧图像按照播放时间排列依次为：视频帧图像P1、视频帧图像P2、视频帧图像P3、视频帧图像P4，其中，视频帧图像P4为当前视频帧图像，视频帧图像P4的上一帧为视频帧图像P3，所以，视频帧图像P3为当前视频帧图像的上一帧，视频帧图像P3进行人脸驱动后生成的视频帧图像为上述上一帧已驱动视频帧图像。

具体的，可以获得目标视频的各待进行人脸驱动的视频帧图像，按照上述各视频帧图像的播放时间顺序，依次对上述每一视频帧图像进行人脸驱动，并在对除了第一帧图像进行人脸驱动之外，在每一次人脸驱动时，可以获得上一次进行人脸驱动时生成的已驱动视频帧图像，作为上一帧已驱动视频帧图像。

步骤S102：提取当前视频帧图像中待驱动人脸的当前表情姿态特征信息。

上述当前表情姿态特征信息反映当前视频帧图像中待驱动人脸的表情、姿态。待驱动人脸的表情可以包括高兴、悲伤、惊讶、愤怒、厌恶、恐惧等，待驱动人脸的姿态可以包括向左旋转、向右旋转、抬头、低头等。

一种实施方式中，可以对当前视频帧图像进行人脸识别，得到当前视频帧图像中待驱动人脸所在的区域，并提取上述区域中待驱动人脸的指定人脸关键点，基于提取到的人脸关键点确定当前表情姿态特征信息。

具体的，可以基于提取到的人脸关键点，对人脸进行表情分类，基于表情分类结果，可以确定上述待驱动人脸的表情信息；并且，还可以计算人脸在各基准方向上的偏移角度，基于各基准方向上的偏移角，确定待驱动人脸的姿态特征信息。基于所确定的表情信息和姿态特征信息，确定当前视频帧图像中待驱动人脸的当前表情姿态特征信息。

除了采用上述提取关键点的方式提取表情姿态特征信息，还可以采用神经网络模型的方式提取表情姿态特征信息。本发明的一个实施例中，可以将当前视频帧图像输入预先训练好的五官定位模型，获得五官定位模型输出的五官定位图像，作为当前表情姿态特征信息。

上述五官定位模型用于对图像中的人脸进行五官定位，得到五官定位图像。

以图2为例，图2为一种五官定位图像的示意图。五官定位图像能够反映人脸的五官信息，而人脸的表情姿态特征信息与人脸的五官信息具有关联关系，所以五官定位图像能够较为准确地反映人脸的表情姿态特征信息。

步骤S103：提取上一帧已驱动视频帧图像的当前身份特征信息。

上述当前身份特征信息表征上述上一帧已驱动视频帧图像中人脸的人脸特征信息。

具体的，可以对上述上一帧已驱动视频帧图像进行图像编码，获得反映上述图像的身份特征信息的编码结果，作为当前身份特征信息。

步骤S104：基于当前表情姿态特征信息和当前身份特征信息，对当前视频帧图像进行特征融合，生成与当前表情姿态特征信息及当前身份特征信息均一致的当前已驱动视频帧图像。

上述生成得到的当前已驱动视频帧图像中人脸的表情姿态与当前视频帧图像中待驱动人脸的当前表情姿态特征信息一致，且上述当前已驱动视频帧图像的身份特征信息与上一帧已驱动视频帧图像的当前身份特征信息一致。

以图3a、图3b以及图3c为例，图3a所示的图像为当前视频帧图像，图3b所示的图像为上一帧已驱动视频帧图像，图3c所示的图像为：基于图3a所示的图像中动物脸的当前表情姿态特征信息以及图3b所示的图像的当前身份特征信息、对图3a所示的图像进行特征融合生成的视频帧图像。

从图3c可以看到，图3c所示的图像中动物脸的表情姿态与图3a中动物脸的当前表情姿态一致，且图3c所示的图像的身份特征信息与图3b的身份特征信息一致。

由于当前已驱动视频帧图像的身份特征信息与上一帧已驱动视频帧图像的当前身份特征信息一致，当前已驱动视频帧图像与上一帧已驱动视频帧图像之间的关联度较高，在播放各已驱动视频帧图像时，缓解了视频抖动问题。

并且，可以将利用上一帧已驱动视频帧图像生成当前已驱动视频帧图像的方式称为循环时序一致性策略，通过这一策略，提高了视频播放的稳定性。

具体的，可以将当前视频帧图像的身份特征信息更新为上述当前身份特征信息，并将更新后的当前视频帧图像的身份特征信息与当前表情姿态特征信息进行特征融合，得到当前已驱动视频帧图像。

在进行特征融合时，可以对当前视频帧图像的身份特征信息以及当前表情姿态特征信息进行卷积处理，将卷积处理后的图像作为当前已驱动表情帧图像。

在所得到的各已驱动视频帧图像中，第一帧已驱动视频帧图像，是基于目标视频中的第一帧图像中待驱动人脸的第一帧表情姿态特征信息和驱动源图像的源身份特征信息生成的。上述第一帧已驱动视频帧图像与第一帧表情资源特征信息以及源身份特征信息均一致。

上述第一帧图像是目标视频中待进行人脸驱动的各视频帧图像中播放时间最早的视频帧图像。当目标视频中各视频帧均为待进行人脸驱动的视频帧图像时，上述第一帧图像为目标视频中播放时间最早的视频帧图像。

上述驱动源图像可以是用户选中的图像，也可以是预先设定的图像。

具体的，可以基于上述第一帧图像中待驱动人脸的第一帧表情姿态特征信息和驱动源图像的源身份特征信息，对第一帧图像进行特征融合，生成与上述第一帧表情姿态及上述源身份特征信息均一致的第一帧已驱动视频帧图像。具体生成第一帧已驱动视频帧图像的过程可以参见后续图6对应的实施例。

另外，利用上一帧已驱动视频帧图像生成当前已驱动视频帧图像，使得所生成的各已驱动视频帧图像间一致，将这种图像生成策略称为循环时序一致性策略，利用这一策略，提高了视频播放的稳定性。

本发明实施例，可以采用预先训练好的视频帧图像驱动模型实现，上述视频帧图像驱动模型包括编码器和生成器。

参见图4a，图4a为本发明实施例提供的第二种视频帧图像的人脸驱动方法的流程示意图。上述步骤S103，可以按照步骤S1031实现。

步骤S1031: 将上一帧已驱动视频帧图像输入预先训练好的视频帧图像驱动模型中的编码器，获得编码器输出的图像编码，作为当前身份特征信息。

具体的，编码器可以基于上述上一帧已驱动视频帧图像的身份特征信息对上述图像进行图像编码，得到反映上述身份特征信息的编码结果，作为当前身份特征信息。

上述步骤S104，可以按照步骤S1041实现。

步骤S1041：将当前表情姿态特征信息和当前身份特征信息输入生成器，获得生成器基于当前表情姿态特征信息和当前身份特征信息，对当前视频帧图像进行特征融合，生成与当前表情姿态特征信息及当前身份特征信息均一致的当前已驱动视频帧图像。

具体的，生成器可以对当前表情姿态特征信息和当前身份特征信息进行卷积处理，基于当前视频帧图像和卷积处理后的信息，生成与当前表情姿态特征信息及当前身份特征信息均一致的当前已驱动视频帧图像。

这样，由于是采用预先训练好的视频帧图像驱动模型中的编码器确定当前身份特征信息，并采用上述模型中的生成器生成已驱动视频帧图像，又由于视频帧图像驱动模型是预先训练好的，上述模型学习到了提取视频帧图像的身份特征信息以及生成已驱动视频帧图像的规律，那么利用上述模型能够更加准确提取得到当前身份特征信息以及生成已驱动视频帧图像。

以下结合图4b对采用上述视频帧图像驱动模型生成第一帧已驱动视频帧图像的过程进行说明。

图4b为本发明实施例提供的一种第一帧已驱动视频帧图像的生成方法的流程示意图。上述方法包括以下步骤S401-步骤S403。

步骤S401：提取目标视频中的第一帧图像中待驱动人脸的第一帧表情姿态特征信息。

具体的，可以采用上述步骤S102中相同的方式提取第一帧图像中待驱动人脸的第一帧表情姿态特征信息。

步骤S402：将驱动源图像输入编码器，获得编码器输出的图像编码，作为驱动源图像的源身份特征信息。

具体的，编码器可以基于上述驱动源图像的身份特征信息对驱动源图像进行图像编码，得到反映上述身份特征信息的图像编码结果，作为驱动源图像的源身份特征信息。

步骤S403：将第一帧表情姿态特征信息和源身份特征信息输入生成器，获得生成器基于第一帧表情姿态特征信息和源身份特征信息，对第一帧图像进行特征融合，生成与第一帧表情姿态特征信息以及源身份特征信息一致的第一帧已驱动视频帧图像。

具体的，生成器可以对第一帧表情姿态特征信息和源身份特征信息进行卷积处理，基于第一帧图像和卷积处理后的信息，生成与第一帧表情姿态特征信息以及源身份特征信息均一致的第一帧已驱动视频帧图像。

以下结合具体流程示意图对上述实施例的人脸驱动方法进行具体说明。

参见图5a，图5a为本发明实施例提供的一种应用视频帧图像驱动模型生成图像的流程示意图。

假设当前视频帧图像为第t+1帧视频帧图像，上一帧已驱动视频帧图像为第t帧视频帧图像进行人脸驱动后生成的视频帧图像，为方便说明，将上述上一帧已驱动视频帧图像称为生成的第t帧图像。

在图5a中，生成的第t帧图像输入至编码器，编码器基于第t帧图像的身份特征信息进行图像编码，得到反映身份特征信息的图像编码结果，编码器将上述图像编码结果输入至生成器；

上述生成器除了获得上述图像编码结果，还获得第t+1帧视频帧图像中待驱动人脸的当前表情姿态特征信息，生成器基于上述图像编码结果以及上述当前表情姿态特征信息，对第t+1帧视频帧图像进行特征融合，得到第t+1帧视频帧图像对应的已驱动视频帧图像。

另外，生成器还可以将生成的第t+1帧视频帧图像对应的已驱动视频帧图像输入至编码器中，继续对第t+2帧视频帧图像的人脸进行驱动，直至对最后一帧视频帧图像的人脸驱动完毕，得到各已驱动的视频帧图像。

以下结合图5b，对上述应用视频帧图像驱动模型生成第一帧已驱动视频帧图像的过程进行说明。

在图5b中，驱动源图像输入编码器，编码器基于上述驱动源图像的身份特征信息进行图像编码，得到反映身份特征信息的图像编码结果，编码器将上述图像编码结果输入至生成器；

上述生成器除了获得上述图像编码结果，还获得第一帧图像中待驱动人脸的第一帧表情姿态特征信息，生成器基于上述图像编码结果以及上述第一帧表情姿态特征信息，对第一帧图像进行特征融合，得到第一帧已驱动视频帧图像。

以下对本发明实施例提供的视频帧图像驱动模型的训练过程进行说明。

参见图6，图6为本发明实施例提供的一种视频帧图像驱动模型的训练方法示意图，上述方法包括以下步骤S601-S610。

步骤S601：确定视频帧图像驱动模型对应的训练模型。

上述训练模型包括：编码器、生成器和判别器。上述判别器可以是对抗网络模型，用于判断生成器生成的图像是否准确，并基于判断结果调整训练模型的模型参数。

步骤S602：从指定的样本视频中获得样本驱动源图像和样本目标视频帧图像。

上述指定的样本视频可以是工作人员从视频库中选择得到的。

上述样本驱动源图像和样本目标视频帧图像间的帧间隔数量可以为预设间隔数量，上述预设间隔数量可以为2、3、4或5等。

上述样本驱动源图像和样本目标视频帧图像作为图像对，上述图像对的数量可以为1个，也可以为多个。

步骤S603：提取样本目标视频帧图像中样本人脸的第一样本表情姿态特征信息，并提取样本驱动源图像的第二样本表情姿态特征信息。

可以利用预先训练好的五官定位模型，提取得到第一样本表情姿态特征信息以及第二样本表情姿态特征信息。

具体的，可以将上述样本目标视频帧图像输入预先训练好的五官定位模型，获得五官定位模型输出的五官定位图像，作为上述第一样本表情姿态特征信息。并将上述样本驱动源图像输入预先训练好的五官定位模型，获得五官定位模型输出的五官定位图像，作为上述样本表情姿态特征信息。

步骤S604：将样本驱动源图像输入训练模型的编码器，获得训练模型的编码器输出的图像编码，作为样本源身份特征信息。

上述编码器可以基于样本驱动源图像的身份特征信息对上述样本驱动源图像进行图像编码，得到表征样本驱动源图像的身份特征信息的图像编码结果，作为样本源身份特征信息。

具体的，编码器用于对样本驱动源图像进行卷积处理，得到上述样本驱动源图像对应的矢量值，将得到的矢量值作为图像编码结果。

步骤S605：将样本源身份特征信息以及第一样本表情姿态特征信息输入训练模型的生成器，获得训练模型的生成器基于样本源身份特征信息以及第一样本表情姿态特征信息，对样本目标视频帧图像进行特征融合，生成第一次样本已驱动视频帧图像。

上述生成器可以对样本源身份特征以及第一样本表情姿态特征信息进行卷积处理，基于样本目标视频帧图像和卷积处理后的信息，生成第一次样本已驱动视频帧图像。

具体的，生成器可以基于得到的矢量值对第一样本表情姿态特征信息进行卷积扩大处理，生成多通道的图像，作为第一次样本已驱动视频帧图像。

步骤S606：将第一次样本已驱动视频帧图像输入训练模型的编码器，获得训练模型的编码器输出的图像编码，作为当前样本身份特征信息。

步骤S607：将当前样本身份特征信息以及第二样本表情姿态特征信息输入训练模型的生成器，获得训练模型的生成器基于当前样本身份特征信息以及第二样本表情姿态特征信息，对样本驱动源图像进行特征融合，生成第二次样本已驱动视频帧图像。

步骤S608：将第二次样本已驱动视频帧图像和样本驱动源图像输入训练模型的判别器，获得训练模型的判别器基于预设的损失函数计算第二次样本已驱动视频帧图像与样本驱动源图像之间的损失值。

本发明的一个实施例中，上述预设的损失函数

为：

其中，

表示当前样本已驱动视频帧图像，

表示样本驱动源图像。

表示计算[

]的一阶范数。

步骤S609：若基于损失值确定训练模型不收敛，则调整编码器、生成器和判别器的模型参数，继续训练。

具体的，可以将计算得到的损失值与上一次训练时计算得到的损失值进行比较，当二者损失值之间的差异超过预设差异阈值，朝着上一次训练时调整模型参数的方向相反方向调整模型参数；当二者损失值之间的差异未超过预设差异阈值，朝着上一次训练时调整模型参数的方向相同方向调整模型参数。

步骤S610：若基于损失值确定训练模型收敛，则训练完成，将训练模型中的判别器去除，得到训练完成的视频帧图像驱动模型。

这样，由于生成器在生成第二次样本已驱动视频帧图像时，基于第一次样本已驱动视频帧图像的当前身份特征信息与样本驱动源的表情姿态特征信息生成的，并且生成第一次样本已驱动视频帧图像后，编码器还需要获得上述图像，并输出上述图像的图像编码，在训练过程中，能够使得编码器学习到基于生成器输出的已驱动图像进行图像编码的规律，并且能够使得生成器学习到基于编码器输出的图像编码结果对视频帧图像进行人脸驱动的规律，从而使得训练完成的视频帧图像驱动模型能够准确地对视频帧图像进行人脸驱动。

以下结合图7，对训练上述训练模型的过程进行说明。

从样本视频中选择间隔两个视频帧图像的视频帧图像，其中一帧作为样本驱动源图像，另一帧作为样本目标视频帧图像。

在图7中，首先采用编码器和生成器生成第一次样本已驱动视频帧图像，具体过程如下所示：

编码器，获得样本驱动源图像，对样本驱动源图像进行图像编码，输出样本驱动源图像的图像编码，作为样本源身份特征信息，并将图像编码输入生成器；

生成器，获得样本目标视频帧图像的第一样本表情姿态特征信息，基于样本源身份特征信息以及第一样本表情姿态特征信息，对样本目标视频帧图像进行特征融合，生成第一次样本已驱动视频帧图像，并将第一次样本已驱动视频帧图像输入编码器；

在生成第二次样本已驱动视频帧图像时仍然采用编码器和生成器生成，具体过程如下所示：

编码器，进一步的，对第一次样本已驱动视频帧图像进行图像编码，输出第一次样本已驱动视频帧图像的图像编码，作为当前样本身份特征信息，并将图像编码输入生成器；

生成器，进一步的，获得样本驱动源图像的第二样本表情姿态特征信息，基于当前样本身份特征信息以及第二样本表情姿态特征信息，对样本驱动源图像进行特征融合，生成第二次样本已驱动视频帧图像，并将第二次样本已驱动视频帧图像输入判别器；

生成器生成第二次样本已驱动视频帧图像后，将上述图像输入至判别器，判别器基于上述图像对模型的参数进行调整，具体过程如下所示：

判别器，基于预设的损失函数计算第二次样本已驱动视频帧图像与样本驱动源图像之间的损失值，若基于损失值确定训练模型不收敛，则调整编码器、生成器和判别器的模型参数，继续训练；若基于损失值确定训练模型收敛，则训练完成，将训练模型中的判别器去除，得到训练完成的视频图像驱动模型。

以下结合具体实施例以及图8对上述训练模型的完整训练过程进行说明。

从样本视频中选择包含同一人脸的两个视频帧，其中一帧作为样本驱动源图像，另一帧作为样本目标视频帧图像，具体的，可以选择两帧间隔较近的视频帧，例如：可以选择两帧间隔为两帧、三帧、四帧或五帧的视频帧。

在图8中，按照箭头指向的顺序，首先，将样本驱动源图像输入编码器，编码器对样本驱动源图像进行图像编码，得到反映源身份特征信息的图像编码结果，编码器将上述图像编码结果输入至生成器；

然后，生成器获得图像编码结果以及样本目标视频帧图像中人脸的第一样本表情姿态特征信息，生成器基于上述图像编码结果以及第一样本表情姿态特征信息，对样本目标视频帧图像进行特征融合，生成第一次样本已驱动视频帧图像，生成器将上述第一次样本已驱动视频帧图像输入至编码器；

其次，编码器对第一次样本已驱动视频帧图像进行图像编码，得到反映当前身份特征信息的图像编码结果，编码器将上述图像编码结果输入至生成器；

然后，生成器获得上述图像编码结果以及样本驱动源图像中人脸的第二样本表情姿态特征信息，生成器基于上述图像编码结果以及第二样本表情姿态特征信息，对样本驱动源图像进行特征融合，生成第二次样本已驱动视频帧图像，生成器将上述第二次样本已驱动视频帧图像输入至判别器；

最后，判别器基于预设的损失函数计算第二次样本已驱动视频帧图像与样本驱动源图像之间的损失值；若基于损失值确定训练模型不收敛，则调整编码器、生成器和判别器的模型参数，继续训练；若基于损失值确定训练模型收敛，则训练完成，将训练模型中的判别器去除，得到训练完成的视频图像驱动模型。

与上述视频帧图像的人脸驱动方法相对应，本发明实施例还提供了一种视频帧图像的人脸驱动装置。

参见图9，图9为本发明实施例提供的一种视频帧图像的人脸驱动装置的结构示意图，上述装置包括以下模块901-904。

图像获得模块901，用于获得目标视频的当前视频帧图像，并获得上一帧已驱动视频帧图像，其中，所述上一帧已驱动视频帧图像为：所述当前视频帧图像的上一帧进行人脸驱动后生成的视频帧图像；

第一信息提取模块902，用于提取所述当前视频帧图像中待驱动人脸的当前表情姿态特征信息；

第二信息提取模块903，用于提取所述上一帧已驱动视频帧图像的当前身份特征信息；

第一图像生成模块904，用于基于所述当前表情姿态特征信息和当前身份特征信息，对所述当前视频帧图像进行特征融合，生成与当前表情姿态特征信息及当前身份特征信息均一致的当前已驱动视频帧图像；

本发明的一个实施例中，上述第一信息提取模块902，具体用于将所述当前视频帧图像输入预先训练好的五官定位模型，获得五官定位模型输出的五官定位图像，作为当前表情姿态特征信息。

五官定位图像能够反映人脸的五官信息，而人脸的表情姿态特征信息与人脸的五官信息具有关联关系，所以五官定位图像能够较为准确地反映人脸的表情姿态特征信息。

本发明的一个实施例中，上述第一信息提取模块902，具体用于将所述上一帧已驱动视频帧图像输入预先训练好的视频帧图像驱动模型中的编码器，获得编码器输出的图像编码，作为当前身份特征信息；

所述视频帧图像驱动模型，还包括生成器；

本发明的一个实施例中，上述第二信息提取模块903，具体用于将所述当前表情姿态特征信息和当前身份特征信息输入所述生成器，获得所述生成器基于所述当前表情姿态特征信息和当前身份特征信息，对所述当前视频帧图像进行特征融合，生成与当前表情姿态特征信息及当前身份特征信息均一致的当前已驱动视频帧图像。

参见图10，图10为本发明实施例提供的一种图像生成模块的结构示意图，上述装置还包括：第二图像生成模块，

上述第二图像生成模块，包括以下子模块1001-1003。

第一信息提取子模块1001，用于提取所述目标视频中的第一帧图像中待驱动人脸的第一帧表情姿态特征信息；

第一信息确定子模块1002，用于将驱动源图像输入所述编码器，获得所述编码器输出的图像编码，作为驱动源图像的源身份特征信息；

第一图像生成子模块1003，用于将所述第一帧表情姿态特征信息和源身份特征信息输入所述生成器，获得所述生成器基于所述第一帧表情姿态特征信息和源身份特征信息，对所述第一帧图像进行特征融合，生成与第一帧表情姿态特征信息以及源身份特征信息一致的第一帧已驱动视频帧图像。

参见图11，图11为本发明实施例提供的一种模型训练模块的结构示意图，上述模型训练模块用于训练获得所述视频帧图像驱动模型，

上述模型训练模块，包括以下子模块1101-1110。

训练模型确定子模块1101，用于确定视频帧图像驱动模型对应的训练模型；所述训练模型，包括：编码器、生成器和判别器；

样本图像获得子模块1102，用于从指定的样本视频中获得样本驱动源图像和样本目标视频帧图像；

第二信息提取子模块1103，用于提取所述样本目标视频帧图像中样本人脸的第一样本表情姿态特征信息，并提取所述样本驱动源图像的第二样本表情姿态特征信息；

第二信息确定子模块1104，用于将所述样本驱动源图像输入所述训练模型的编码器，获得所述训练模型的编码器输出的图像编码，作为样本源身份特征信息；

第二图像生成子模块1105，用于将所述样本源身份特征信息以及所述第一样本表情姿态特征信息输入所述训练模型的生成器，获得所述训练模型的生成器基于所述样本源身份特征信息以及所述第一样本表情姿态特征信息，对所述样本目标视频帧图像进行特征融合，生成第一次样本已驱动视频帧图像；

第三信息确定子模块1106，用于将所述第一次样本已驱动视频帧图像输入所述训练模型的编码器，获得所述训练模型的编码器输出的图像编码，作为当前样本身份特征信息；

第三图像生成子模块1107，用于将所述当前样本身份特征信息以及所述第二样本表情姿态特征信息输入所述训练模型的生成器，获得所述训练模型的生成器基于所述当前样本身份特征信息以及所述第二样本表情姿态特征信息，对所述样本驱动源图像进行特征融合，生成第二次样本已驱动视频帧图像；

损失值获得子模块1108，用于将所述第二次样本已驱动视频帧图像和所述样本驱动源图像输入所述训练模型的判别器，获得所述训练模型的判别器基于预设的损失函数计算所述第二次样本已驱动视频帧图像与所述样本驱动源图像之间的损失值；

参数调整子模块1109，用于若基于损失值确定训练模型不收敛，则调整所述编码器、生成器和判别器的模型参数，继续训练；

驱动模型确定子模块1110，用于若基于损失值确定训练模型收敛，则训练完成，将训练模型中的判别器去除，得到训练完成的视频图像驱动模型。

本发明的一个实施例中，上述预设的损失函数

为：

其中，

表示第二次样本已驱动视频帧图像，

表示样本驱动源图像。

与上述视频帧图像的人脸驱动方法相对应，本发明实施例还提供了一种电子设备。

本发明实施例还提供了一种电子设备，如图12所示，图12为本发明实施例提供的一种电子设备的结构示意图，包括处理器1201、通信接口1202、存储器1203和通信总线1204，其中，处理器1201，通信接口1202，存储器1203通过通信总线1204完成相互间的通信，

存储器1203，用于存放计算机程序；

处理器1201，用于执行存储器1203上所存放的程序时，实现本发明实施例提供的视频帧图像的人脸驱动方法。

上述电子设备提到的通信总线可以是外设部件互连标准（Peripheral ComponentInterconnect，PCI）总线或扩展工业标准结构（Extended Industry StandardArchitecture，EISA）总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器（Random Access Memory，RAM），也可以包括非易失性存储器（Non-Volatile Memory，NVM），例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）等；还可以是数字信号处理器（Digital SignalProcessor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例提供的视频帧图像的人脸驱动方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行时实现本发明实施例提供的视频帧图像的人脸驱动方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质（例如固态硬盘Solid State Disk (SSD)）等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。