CN114429611B

CN114429611B - 视频合成方法、装置、电子设备及存储介质

Info

Publication number: CN114429611B
Application number: CN202210353924.4A
Authority: CN
Inventors: 李志航
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-07-08
Anticipated expiration: 2042-04-06
Also published as: CN114429611A

Abstract

本公开关于一种视频合成方法、装置、电子设备及存储介质，所述方法包括：获取表情类别标签和人脸图像；对所述人脸图像进行编码处理，得到所述人脸图像对应的特征隐码信息；所述特征隐码信息用于表征所述人脸图像的脸部特征；将所述表情类别标签和所述特征隐码信息输入训练完成的预测模型，得到预测隐码序列；所述预测隐码序列中包括多个表情隐码信息；对各所述表情隐码信息进行解码处理，得到各所述表情隐码信息对应的表情图像；基于各所述表情图像，得到表情视频；所述表情视频为所述人脸图像中的人脸作出所述表情类别标签所对应表情的合成视频。该方法可以基于人脸图像和表情类别标签合成自然且连续的表情视频。

Description

视频合成方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种视频合成方法、装置、电子设备、存储介质及程序产品。

背景技术

人脸表情合成是指在保留人脸身份信息的前提下，对人脸表情进行重建，合成新的表情，该技术在人脸识别、影视动画、人机交互等方面具有广泛的应用。目前提出的一些研究工作已经能够生成高质量的表情图像。

然而，目前大部分的研究主要关注于单张图像的合成，而人脸表情是个动态的过程，如何合成一段连续自然的人脸表情视频仍然是一个挑战性问题。

发明内容

本公开提供一种视频合成方法、装置、电子设备、存储介质及程序产品，以至少解决相关技术中难以合成连续自然的人脸表情视频的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频合成方法，包括：

获取表情类别标签和人脸图像；

对所述人脸图像进行编码处理，得到所述人脸图像对应的特征隐码信息；所述特征隐码信息用于表征所述人脸图像的脸部特征；

将所述表情类别标签和所述特征隐码信息输入训练完成的预测模型，得到预测隐码序列；所述预测隐码序列中包括多个表情隐码信息，所述表情隐码信息用于表征所述人脸图像中的人脸作出所述表情类别标签所对应表情的脸部特征；

对各所述表情隐码信息进行解码处理，得到各所述表情隐码信息对应的表情图像；

基于各所述表情图像，得到表情视频；所述表情视频为所述人脸图像中的人脸作出所述表情类别标签所对应表情的合成视频。

在一示例性实施例中，所述将所述表情类别标签和所述特征隐码信息输入训练完成的预测模型，得到预测隐码序列，包括：

通过所述训练完成的预测模型，对所述表情类别标签和所述特征隐码信息进行预测，得到对应的表情隐码信息，作为当前表情隐码信息；

通过所述训练完成的预测模型，对所述表情类别标签和所述当前表情隐码信息进行预测，得到新的表情隐码信息；

将所述当前表情隐码信息更新为所述新的表情隐码信息，并跳转至对所述表情类别标签和所述当前表情隐码信息进行预测，得到新的表情隐码信息的步骤，直到预测得到的表情隐码信息达到预设个数，基于所述特征隐码信息和预测得到的各个表情隐码信息，得到所述预测隐码序列。

在一示例性实施例中，所述基于各所述表情图像，得到表情视频，包括：

获取各所述表情图像所对应的表情隐码信息的预测顺序；所述预测顺序表示各所述表情隐码信息被预测出的顺序；

按照所述预测顺序，将各所述表情图像进行组合，得到所述表情视频。

在一示例性实施例中，所述预测模型通过下述方式训练得到：

获取样本视频对应的样本帧图像集合；所述样本帧图像集合中的每个样本帧图像携带有相同的样本表情类别标签；

通过待训练的预测模型，对所述每个样本帧图像的表情隐码信息和所述样本表情类别标签进行处理，得到所述每个样本帧图像的下一个样本帧图像的预测表情隐码信息；

基于所述下一个样本帧图像的预测表情隐码信息和所述下一个样本帧图像的实际表情隐码信息之间的损失值，对所述待训练的预测模型进行训练，得到所述训练完成的预测模型。

在一示例性实施例中，所述对所述每个样本帧图像的表情隐码信息和所述样本表情类别标签进行处理，得到所述每个样本帧图像的下一个样本帧图像的预测表情隐码信息，包括：

对所述样本表情类别标签进行编码处理，得到编码后的样本表情类别标签；

分别将所述每个样本帧图像的表情隐码信息和所述编码后的样本表情类别标签进行拼接，得到所述每个样本帧图像的拼接信息；

通过所述待训练的预测模型，对所述每个样本帧图像的拼接信息进行处理，得到所述每个样本帧图像的下一个样本帧图像的预测表情隐码信息。

在一示例性实施例中，所述获取样本视频对应的样本帧图像集合，包括：

对所述样本视频进行视频帧提取处理，得到多个样本帧图像；

根据各所述样本帧图像在所述样本视频中的播放时间戳顺序，将各所述样本帧图像组合成所述样本视频对应的样本帧图像集合。

在一示例性实施例中，在将所述表情类别标签和所述特征隐码信息输入训练完成的预测模型，得到预测隐码序列之前，还包括：

对所述表情类别标签进行编码处理，得到编码后的表情类别标签；

所述将所述表情类别标签和所述特征隐码信息输入训练完成的预测模型，得到预测隐码序列，包括：

将所述编码后的表情类别标签和所述特征隐码信息输入所述训练完成的预测模型，得到所述预测隐码序列。

根据本公开实施例的第二方面，提供一种视频合成装置，包括：

获取单元，被配置为执行获取表情类别标签和人脸图像；

第一编码单元，被配置为执行对所述人脸图像进行编码处理，得到所述人脸图像对应的特征隐码信息；所述特征隐码信息用于表征所述人脸图像的脸部特征；

预测单元，被配置为执行将所述表情类别标签和所述特征隐码信息输入训练完成的预测模型，得到预测隐码序列；所述预测隐码序列中包括多个表情隐码信息，所述表情隐码信息用于表征所述人脸图像中的人脸作出所述表情类别标签所对应表情的脸部特征；

解码单元，被配置为执行对各所述表情隐码信息进行解码处理，得到各所述表情隐码信息对应的表情图像；

合成单元，被配置为执行基于各所述表情图像，得到表情视频；所述表情视频为所述人脸图像中的人脸作出所述表情类别标签所对应表情的合成视频。

在一示例性实施例中，所述预测单元，还被配置为执行通过所述训练完成的预测模型，对所述表情类别标签和所述特征隐码信息进行预测，得到对应的表情隐码信息，作为当前表情隐码信息；通过所述训练完成的预测模型，对所述表情类别标签和所述当前表情隐码信息进行预测，得到新的表情隐码信息；将所述当前表情隐码信息更新为所述新的表情隐码信息，并跳转至对所述表情类别标签和所述当前表情隐码信息进行预测，得到新的表情隐码信息的步骤，直到预测得到的表情隐码信息达到预设个数，基于所述特征隐码信息和预测得到的各个表情隐码信息，得到所述预测隐码序列。

在一示例性实施例中，所述合成单元，还被配置为执行获取各所述表情图像所对应的表情隐码信息的预测顺序；所述预测顺序表示各所述表情隐码信息被预测出的顺序；按照所述预测顺序，将各所述表情图像进行组合，得到所述表情视频。

在一示例性实施例中，所述装置还包括训练单元，被配置为执行获取样本视频对应的样本帧图像集合；所述样本帧图像集合中的每个样本帧图像携带有相同的样本表情类别标签；通过待训练的预测模型，对所述每个样本帧图像的表情隐码信息和所述样本表情类别标签进行处理，得到所述每个样本帧图像的下一个样本帧图像的预测表情隐码信息；基于所述下一个样本帧图像的预测表情隐码信息和所述下一个样本帧图像的实际表情隐码信息之间的损失值，对所述待训练的预测模型进行训练，得到所述训练完成的预测模型。

在一示例性实施例中，所述训练单元，还被配置为执行对所述样本表情类别标签进行编码处理，得到编码后的样本表情类别标签；分别将所述每个样本帧图像的表情隐码信息和所述编码后的样本表情类别标签进行拼接，得到所述每个样本帧图像的拼接信息；通过所述待训练的预测模型，对所述每个样本帧图像的拼接信息进行处理，得到所述每个样本帧图像的下一个样本帧图像的预测表情隐码信息。

在一示例性实施例中，所述训练单元，还被配置为执行对所述样本视频进行视频帧提取处理，得到多个样本帧图像；根据各所述样本帧图像在所述样本视频中的播放时间戳顺序，将各所述样本帧图像组合成所述样本视频对应的样本帧图像集合。

在一示例性实施例中，所述装置还包括第二编码单元，被配置为执行对所述表情类别标签进行编码处理，得到编码后的表情类别标签；

所述预测单元，还被配置为执行将所述编码后的表情类别标签和所述特征隐码信息输入所述训练完成的预测模型，得到所述预测隐码序列。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上任一项所述的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如上任一项所述的方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品中包括指令，所述指令被电子设备的处理器执行时，使得所述电子设备能够执行如上任一项所述的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

该方法以表情类别标签和人脸图像为输入条件，利用预测模型得到预测隐码序列，基于预测隐码序列的表情隐码信息得到表情图像来进行视频合成，由于预测隐码序列中的各个表情隐码信息均是基于前一步的表情隐码信息得到的，这种链式连接的循环方法使得得到的各个表情隐码信息之间可以实现自然的过渡，从而可以合成自然且连续的表情视频。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频合成方法的流程示意图。

图2a是根据一示例性实施例示出的通过预测模型得到预测隐码序列的示意图。

图2b是根据另一示例性实施例示出的通过预测模型得到预测隐码序列的示意图。

图3是根据一示例性实施例示出的预测模型的训练步骤的流程示意图。

图4是根据一示例性实施例示出的RNN模型的训练示意图。

图5是根据一示例性实施例示出的一种视频合成装置的结构框图。

图6是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。还需要说明的是，本公开所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于展示的数据、分析的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

在一示例性实施例中，如图1所示，提供了一种视频合成方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中，该方法包括以下步骤：

在步骤S110中，获取表情类别标签和人脸图像。

其中，表情类别标签可以为喜、怒、哀、乐等表征不同表情的信息。

具体实现中，人脸图像可以为从互联网下载的人脸图像，也可以为通过终端直接拍摄得到的人脸图像，在获取人脸图像和表情类别标签后，可以对该人脸图像中人脸的表情进行重建，得到该人脸图像中的人脸作出表情类别标签所对应表情的多张表情图像，并对各张表情图像进行合成，得到该人脸图像中的人脸作出表情类别标签所对应表情的表情视频。

在步骤S120中，对人脸图像进行编码处理，得到人脸图像对应的特征隐码信息；特征隐码信息用于表征人脸图像的脸部特征。

具体实现中，可以预先训练一个具有编码功能的图像生成模型，通过训练完成的图像生成模型对人脸图像进行编码处理，以将人脸图像从图像空间映射到图像生成模型的隐空间中，得到人脸图像在隐空间中对应的编码信息，作为该人脸图像对应的特征隐码信息，其中，隐空间可以理解为噪声空间。

例如，以图像生成模型为StyleGAN（Style Generative Adversarial Networks，基于风格的生成式对抗网络）为例，通过StyleGAN中的生成模型将人脸图像从图像空间映射到隐空间，具体可以采用pSp算法（一种空间映射算法）实现图像空间到隐空间的映射：

。

其中，c表示人脸图像的特征隐码信息，I表示人脸图像。

在步骤S130中，将表情类别标签和特征隐码信息输入训练完成的预测模型，得到预测隐码序列；预测隐码序列中包括多个表情隐码信息，表情隐码信息用于表征人脸图像中的人脸作出表情类别标签所对应表情的脸部特征。

其中，预测模型为一种以序列数据为输入，在序列的演进方向进行递归且所有节点（循环单元）按链式连接的递归神经网络，例如，预测模型可以采用如RNN（RecurrentNeural Network，循环神经网络）、LSTM（Long Short-Term Memory networks，长短期记忆网络）等深度学习模型。

其中，预测隐码序列中包括对应同一表情类别标签的多个表情隐码信息，各个表情隐码信息所对应的表情图像为作出同一表情，但脸部特征不同的人脸图像。例如，对于“喜”这一表情，可能有微笑、逐渐漏齿笑、大笑等不同的脸部特征。

具体实现中，由于人脸表情是一个动态过程，同一表情可对应有不同的脸部特征，因此，为了得到自然且连续的表情视频，可以通过预测模型预测多个表情隐码信息，基于各个表情隐码信息得到人脸图像在作出同一表情的过程中的多张表情图像，基于各张表情图像合成表情视频。

更具体地，可先通过样本数据训练得到预测模型，然后以表情类别标签和待合成的人脸图像为输入条件，输入训练完成的预测模型，使预测模型基于表情类别标签和人脸图像预测得到第一表情隐码信息，然后基于表情类别标签和第一表情隐码信息预测得到第二表情隐码信息，基于表情类别标签和第二表情隐码信息预测得到第三表情隐码信息，以此方式进行循环，由此得到人脸图像中的人脸作出表情类别标签所对应表情的多个表情隐码信息，基于各个表情隐码信息，形成预测隐码序列。

例如，以预测模型为RNN（Recurrent Neural Network，循环神经网络）为例，将人脸图像I的特征隐码信息 c和表情类别标签l输入预测模型RNN中，预测模型RNN将生成每一步预测得到的表情隐码信息

：

。

其中，h ^k表示第k-1步输出的表情隐码信息，对人脸图像的特征隐码信息 c和预测得到的各个表情隐码信息进行组合，可得到预测隐码序列：

，其中，s表示预测隐码序列中预测得到的表情隐码信息的总个数。

在步骤S140中，对各表情隐码信息进行解码处理，得到各表情隐码信息对应的表情图像。

其中，表情图像为人脸图像中的人脸作出表情类别标签所对应表情时的图像。

具体实现中，在得到人脸图像中的人脸作出表情类别标签所对应表情的多个表情隐码信息后，可将各个表情隐码信息从隐空间映射到图像空间，实现对各表情隐码信息的解码处理，得到各表情隐码信息对应的表情图像。更具体地，可以通过步骤S120中对人脸图像进行编码处理的图像生成模型，对各表情隐码信息进行解码处理，得到各表情隐码信息对应的表情图像。

例如，仍以图像生成模型为StyleGAN为例，对各表情隐码信息的解码处理，可表示为：

。

其中，

表示表情隐码信息

对应的表情图像，由此可得到预测隐码序列解码后的表情图像序列

。

在步骤S150中，基于各表情图像，得到表情视频；表情视频为人脸图像中的人脸作出表情类别标签所对应表情的合成视频。

具体实现中，在得到各表情隐码信息对应的表情图像后，可将各表情图像进行视频合成处理，得到人脸图像中的人脸作出表情类别标签所对应表情的合成视频。

上述视频合成方法中，在获取表情类别标签和人脸图像后，先对人脸图像进行编码处理，得到人脸图像对应的特征隐码信息，然后将表情类别标签和特征隐码信息输入训练完成的预测模型，得到预测隐码序列，通过对各表情隐码信息进行解码处理，得到各表情隐码信息对应的表情图像，最后基于各表情图像，得到表情视频。该方法以表情类别标签和人脸图像为输入条件，利用预测模型得到预测隐码序列，基于预测隐码序列的表情隐码信息得到表情图像来进行视频合成，由于预测隐码序列中的各个表情隐码信息均是基于前一步的表情隐码信息得到的，这种链式连接的循环方法使得得到的各个表情隐码信息之间可以实现自然的过渡，从而可以合成自然且连续的表情视频。

在一示例性实施例中，上述步骤S130中，将表情类别标签和特征隐码信息输入训练完成的预测模型，得到预测隐码序列，具体可以通过以下步骤实现：

在步骤S130a中，通过训练完成的预测模型，对表情类别标签和特征隐码信息进行预测，得到对应的表情隐码信息，作为当前表情隐码信息；

在步骤S130b中，通过训练完成的预测模型，对表情类别标签和当前表情隐码信息进行预测，得到新的表情隐码信息；

在步骤S130c中，将当前表情隐码信息更新为新的表情隐码信息，并跳转至对表情类别标签和当前表情隐码信息进行预测，得到新的表情隐码信息的步骤，直到预测得到的表情隐码信息达到预设个数，基于特征隐码信息和预测得到的各个表情隐码信息，得到预测隐码序列。

参考图2a，为一示例性实施例中通过预测模型得到预测隐码序列的示意图，以预测模型为StyleGAN模型为例进行说明，c表示人脸图像I的特征隐码信息，如图所示，在得到人脸图像I的特征隐码信息c和表情类别标签l后，将特征隐码信息c和表情类别标签l作为StyleGAN的模型输入，通过对特征隐码信息c和表情类别标签l的处理，预测得到对应的表情隐码信息

，然后将特征隐码信息c更新为表情隐码信息

，以基于表情隐码信息

和表情类别标签l，再次预测得到表情隐码信息

，以此类推，以表情类别标签l和当前预测得到的表情隐码信息作为依据，预测得到下一步的表情隐码信息，直至预测得到的表情隐码信息的数量达到预设个数，停止循环，将人脸图像I的特征隐码信息c和预测得到的各个表情隐码信息

，组成预测隐码序列

。

本实施例中，通过以表情类别标签和当前预测得到的表情隐码信息作为依据，预测得到下一步的表情隐码信息，使得预测得到的各个表情隐码信息之间均对应同一表情类别标签，由此可以保证基于预测隐码序列得到的各张表情图像在时序上的连续性和内容上的一致性。

在一示例性实施例中，上述步骤S150中，基于各表情图像，得到表情视频，具体可以通过以下步骤实现：

步骤S150a，获取各表情图像所对应的表情隐码信息的预测顺序；预测顺序表示各表情隐码信息被预测出的顺序；

步骤S150b，基于的预测顺序，将各表情图像进行组合，得到表情视频。

具体实现中，由于每个表情隐码信息都是基于上一步的表情隐码信息预测得到的，即各个表情隐码信息之间具有时序上的关联，因此，为了保证合成的表情视频的自然和连续，在将各表情图像合成为表情视频前，还需要获取各表情图像所对应的表情隐码信息的预测顺序，按照从早到晚的预测顺序，对各个表情图像进行合成处理，得到人脸图像中的人脸作出表情类别标签所对应表情的合成视频，作为表情视频。

本实施例中，基于各表情图像所对应的表情隐码信息被预测出的预测顺序，将各表情图像合成为表情视频，可以保证表情视频中人脸作出表情类别标签所对应表情这一过程的自然和连续性。

在一示例性实施例中，如图3所示，预测模型可以通过下述方式训练得到：

步骤S310，获取样本视频对应的样本帧图像集合；样本帧图像集合中的每个样本帧图像携带有相同的样本表情类别标签；

步骤S320，通过待训练的预测模型，对每个样本帧图像的表情隐码信息和样本表情类别标签进行处理，得到每个样本帧图像的下一个样本帧图像的预测表情隐码信息；

步骤S330，基于下一个样本帧图像的预测表情隐码信息和下一个样本帧图像的实际表情隐码信息之间的损失值，对待训练的预测模型进行训练，得到训练完成的预测模型。

其中，每个样本帧图像在样本视频中的播放时间戳早于该样本帧图像的下一个样本帧图像在样本视频中的播放时间戳。

具体实现中，在得到具有同一样本表情类别标签的样本帧图像集合后，可通过如StyleGAN的图像生成模型将样本帧图像映射到隐空间中，得到各个样本帧图像对应的特征隐码信息，由于该特征隐码信息为具有表情的人脸图像对应的隐码信息，因此，可记为各个样本帧图像对应的表情隐码信息。进一步地，可以样本视频的样本表情类别标签和各样本帧图像的表情隐码信息为输入，以预测得到的各样本帧图像的下一个样本帧图像的表情隐码信息为输出，基于下一个样本帧图像的预测表情隐码信息和下一个样本帧图像的实际表情隐码信息之间的损失值，对待训练的预测模型进行训练。

进一步地，在一示例性实施例中，上述步骤S320中，对每个样本帧图像的表情隐码信息和样本表情类别标签进行处理，得到每个样本帧图像的下一个样本帧图像的预测表情隐码信息，可以通过下述步骤实现：

步骤S320a，对样本表情类别标签进行编码处理，得到编码后的样本表情类别标签；

步骤S320b，分别将每个样本帧图像的表情隐码信息和编码后的样本表情类别标签进行拼接，得到每个样本帧图像的拼接信息；

步骤S320c，通过待训练的预测模型，对每个样本帧图像的拼接信息进行处理，得到每个样本帧图像的下一个样本帧图像的预测表情隐码信息。

具体地，可采用如one-hot（一种编码方法）的独热编码方法对样本表情类别标签进行编码处理，得到编码后的样本表情类别标签，并且分别将每个样本帧图像的表情隐码信息和编码后的样本表情类别标签进行拼接，得到每个样本帧图像的拼接信息，通过待训练的预测模型，对每个样本帧图像的拼接信息进行处理，得到每个样本帧图像的下一个样本帧图像的预测表情隐码信息。

例如，以图4所示的RNN（Recurrent Neural Network，循环神经网络）模型为例对本实施例进行说明，如图4所示，RNN预测模型在预测的每一步，均是以编码后的样本表情类别标签L _i和第k帧图像的表情隐码信息

为输入，输出第k+1帧图像的预测表情隐码信息

，其中，每一步的输入是将编码后的样本表情类别标签L _i和第k帧图像的表情隐码信息

进行拼接，使用下述L₂损失函数计算每一步的预测表情隐码信息与真实的表情隐码信息之间的损失，以训练预测模型RNN，L₂损失函数的关系式为：

可以理解的是，本实施例中的样本视频可以有多个，针对每个样本视频，均执行上述步骤S210至步骤S230的处理过程，使得训练完成的预测模型可以实现对任意表情类别标签和任意图像的表情视频的合成。

本实施例中，通过以表情类别标签和人脸图像为输入条件，利用序列化的预测模型建模隐空间的轨迹，使得训练完成的序列化的预测模型能够生成预测隐码序列，以便于后续可利用生成式的模型将预测隐码序列转化为表情图像序列，从而合成对应的人脸表情视频。

在一示例性实施例中，在步骤S310中，获取样本视频对应的样本帧图像集合，可以通过下述方式实现：对样本视频进行视频帧提取处理，得到多个样本帧图像；根据各样本帧图像在样本视频中的播放时间戳顺序，将各样本帧图像组合成样本视频对应的样本帧图像集合。

具体实现中，可以从网络中收集多个带有表情类别标签的样本视频，针对每个样本视频，进行视频帧提取处理，得到多个样本帧图像，按照各样本帧图像在样本视频中的播放时间戳顺序，将各样本帧图像组成样本帧图像集合。更具体地，可以按照播放时间戳从前到后的顺序，将各样本帧图像组成样本帧图像集合。

例如，设收集了n个带有表情类别标签的样本视频

，其中l为表情类别标签，包括喜、怒、哀、乐等，从每个样本视频v _i中进行抽帧，假设一共抽取了s帧，则可得到样本视频v _i对应的样本帧图像集合

，其中，I _i表示样本帧图像，则样本帧图像集合中各样本帧图像在样本视频中的播放时间戳从前到后的顺序为：

。

本实施例中，通过各个样本帧图像在样本视频中的播放时间戳从前到后的顺序，将各样本帧图像组成样本视频对应的样本帧图像集合，使得各样本帧图像在时序上具有连续性，从而可以保证训练得到的预测模型的预测准确性。

在一示例性实施例中，在步骤S120之前还包括：对表情类别标签进行编码处理，得到编码后的表情类别标签；

上述步骤S120具体包括：将编码后的表情类别标签和特征隐码信息输入训练完成的预测模型，得到预测隐码序列。

具体实现中，在获取表情类别标签和人脸图像后，除了对人脸图像的编码处理，以得到人脸图像对应的特征隐码信息外，还可以通过用于编码类别特征的编码方法对表情类别标签进行编码处理，将表情类别标签编码为多维向量，其中一个维度为1，其余维度为0，作为目标表情类别标签。例如，以one-hot（独热编码）方法为例，可以将表情类别标签喜、怒、哀、乐四种表情分别编码为1000、0100、0010、0001，作为编码后的表情类别标签。进一步地，将编码后的表情类别标签和人脸图像的特征隐码信息输入训练完成的预测模型进行处理，得到预测隐码序列。

例如，在图2b中，在通过one-hot方法对表情类别标签进行编码后，得到编码后的表情类别标签L，将编码后的表情类别标签L和人脸图像的特征隐码信息c输入训练完成的预测模型进行处理，得到预测隐码序列。

本实施例中，通过对表情类别标签进行编码处理，可以避免因将表情类别标签直接用数字表示而将人工误差导致的假设引入到表情类别特征中，提高准确性。

在一示例性实施例中，为了便于本领域技术人员理解本申请实施例，以下将结合附图的具体示例进行说明，本申请的表情视频的合成方法可分为预测模型的训练和表情视频的合成两个部分，下面以预测模型下对各部分分别进行说明：

（1）预测模型的训练：

（1a）采集训练数据：可从网络上收集n个带有样本表情类别标签的样本视频

，其中l为样本表情类别标签，包括喜、怒、哀、乐等。

（1b）训练数据的预处理：从每个样本视频v _i中进行抽帧，假设一共抽取了s帧，则可得到样本视频v _i对应的样本帧图像集合

，其中，I _i表示样本帧图像。

（1c）隐码信息的生成：利用编码器将各个样本帧图像映射到隐空间中，得到各个样本帧图像的表情隐码信息，以StyleGAN为例，从图像空间映射到其隐空间可采用pSp算法：

。

其中，c为样本帧图像I的表情隐码信息。因此，对于每个样本帧图像集合

，可以得到其隐码集合

。

（1d）预测模型的训练：将每个样本视频v _i的样本表情类别标签l _i和第一样本帧图像的表情隐码信息

作为输入，序列化建模样本视频对应的隐码序列，预测模型可以采用如RNN、LSTM等的深度学习模型，以RNN模型为例：

首先，将样本表情类别标签l _i编码为多维向量L _i，如采用one-hot进行编码，喜怒哀乐表示为其中一个维度为1，其他维度为0。然后，如图4所示，在预测的每一步，以编码后的样本表情类别标签L _i和第k帧图像的表情隐码信息

为输入，对编码后的样本表情类别标签L _i和第k帧图像的表情隐码信息

进行拼接，输出第k+1帧图像的预测表情隐码信息

，使用下述L₂损失函数计算每一步的预测表情隐码信息与实际的表情隐码信息之间的损失，对预测模型RNN进行训练，直至遍历所有的样本帧图像，得到训练完成的预测模型。

（2）表情视频的合成，下面将结合图2b进行表情视频的合成的说明：

（2a）获取表情类别标签l和一张待驱动的人脸图像I。

（2b）通过one-hot方法对表情类别标签l进行独热编码，得到编码后的表情类别标签L：L=onehot（l）。

（2c）将人脸图像I通过pSp方法映射到图像生成模型StyleGAN的隐空间中，得到人脸图像I的特征隐码信息c：

。

（2d）将编码后的表情类别标签L和特征隐码信息c作为训练完成的预测模型RNN的输入，RNN将生成每一步的表情隐码信息：

其中，h ^k为第k-1步输出的隐层，由此可得到预测隐码序列

。

（2e）将预测隐码序列中的各个表情隐码信息，通过图像生成模型StyleGAN解码为表情图像：

因此，可以得到预测隐码序列解码后的表情图像序列

，将表情图像序列合成为表情视频v作为输出。

上述基于生成式模型隐空间搜索的表情视频合成方法，将表情视频合成转化为隐空间路径搜索问题，每个视频可以映射到隐空间的一串序列隐码，输入是一张人脸图像和表情类别标签，其中人脸图像作为身份信息，表情类别标签作为表情指导，将以上两个输入作为条件，训练序列化模型建模隐码序列的分布，训练好的序列化模型能够根据输入的身份信息和表情类别标签，个性化的生成身份和表情匹配的隐码序列，隐码序列通过生成式模型映射到图像序列，从而合成目标视频。该方法可以实现对任意表情类别标签和任意图像的表情视频的合成，从而实现可控的人脸表情视频的合成，该方法能够根据用户的输入，合成个性化的自然的表情视频，由于该方法完全是基于数据驱动的，因此也无需依赖人工的先验。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

可以理解的是，本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见，每个实施例重点说明的是与其他实施例的不同之处，相关之处参见其他方法实施例的说明即可。

基于同样的发明构思，本公开实施例还提供了一种用于实现上述所涉及的视频合成方法的视频合成装置。

图5是根据一示例性实施例示出的一种视频合成装置的结构框图。参照图5，该装置包括：获取单元510、第一编码单元520、预测单元530、解码单元540和合成单元550，其中，

获取单元510，被配置为执行获取表情类别标签和人脸图像；

第一编码单元520，被配置为执行对人脸图像进行编码处理，得到人脸图像对应的特征隐码信息；特征隐码信息用于表征人脸图像的脸部特征；

预测单元530，被配置为执行将表情类别标签和特征隐码信息输入训练完成的预测模型，得到预测隐码序列；预测隐码序列中包括多个表情隐码信息，表情隐码信息用于表征人脸图像中的人脸作出表情类别标签所对应表情的脸部特征；

解码单元540，被配置为执行对各表情隐码信息进行解码处理，得到各表情隐码信息对应的表情图像；

合成单元550，被配置为执行基于各表情图像，得到表情视频；表情视频为人脸图像中的人脸作出表情类别标签所对应表情的合成视频。

在一示例性实施例中，预测单元530，还被配置为执行通过训练完成的预测模型，对表情类别标签和特征隐码信息进行预测，得到对应的表情隐码信息，作为当前表情隐码信息；通过训练完成的预测模型，对表情类别标签和当前表情隐码信息进行预测，得到新的表情隐码信息；将当前表情隐码信息更新为新的表情隐码信息，并跳转至对表情类别标签和当前表情隐码信息进行预测，得到新的表情隐码信息的步骤，直到预测得到的表情隐码信息达到预设个数，基于特征隐码信息和预测得到的各个表情隐码信息，得到预测隐码序列。

在一示例性实施例中，合成单元550，还被配置为执行获取各表情图像所对应的表情隐码信息的预测顺序；预测顺序表示各表情隐码信息被预测出的顺序；按照预测顺序，将各表情图像进行组合，得到表情视频。

在一示例性实施例中，所述装置还包括训练单元，被配置为执行获取样本视频对应的样本帧图像集合；样本帧图像集合中的每个样本帧图像携带有相同的样本表情类别标签；通过待训练的预测模型，对每个样本帧图像的表情隐码信息和样本表情类别标签进行处理，得到每个样本帧图像的下一个样本帧图像的预测表情隐码信息；基于下一个样本帧图像的预测表情隐码信息和下一个样本帧图像的实际表情隐码信息之间的损失值，对待训练的预测模型进行训练，得到训练完成的预测模型。

在一示例性实施例中，训练单元，还被配置为执行对样本表情类别标签进行编码处理，得到编码后的样本表情类别标签；分别将每个样本帧图像的表情隐码信息和编码后的样本表情类别标签进行拼接，得到每个样本帧图像的拼接信息；通过待训练的预测模型，对每个样本帧图像的拼接信息进行处理，得到每个样本帧图像的下一个样本帧图像的预测表情隐码信息。

在一示例性实施例中，训练单元，还被配置为执行对样本视频进行视频帧提取处理，得到多个样本帧图像；根据各样本帧图像在样本视频中的播放时间戳顺序，将各样本帧图像组合成样本视频对应的样本帧图像集合。

在一示例性实施例中，上述装置还包括第二编码单元，被配置为执行对表情类别标签进行编码处理，得到编码后的表情类别标签；

预测单元530，还被配置为执行将编码后的表情类别标签和特征隐码信息输入训练完成的预测模型，得到预测隐码序列。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种用于实现视频合成方法的电子设备600的框图。例如，电子设备600可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图6，电子设备600可以包括以下一个或多个组件：处理组件602、存储器604、电源组件606、多媒体组件608、音频组件610、输入/输出（I/O）的接口612、传感器组件614以及通信组件616。

处理组件602通常控制电子设备600的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在电子设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM）、电可擦除可编程只读存储器（EEPROM）、可擦除可编程只读存储器（EPROM）、可编程只读存储器（PROM）、只读存储器（ROM）、磁存储器、快闪存储器、磁盘、光盘或石墨烯存储器。

电源组件606为电子设备600的各种组件提供电力。电源组件606可以包括电源管理系统，一个或多个电源，及其他与为电子设备600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述电子设备600和用户之间的提供输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器（LCD）和触摸面板（TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括前置摄像头和/或后置摄像头。当电子设备600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括麦克风（MIC），当电子设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为电子设备600提供各个方面的状态评估。例如，传感器组件614可以检测到电子设备600的打开/关闭状态，组件的相对定位，例如所述组件为电子设备600的显示器和小键盘，传感器组件614还可以检测电子设备600或电子设备600组件的位置改变，用户与电子设备600接触的存在或不存在，设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件616被配置为便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络，如WiFi，运营商网络（如2G、3G、4G或5G），或它们的组合。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件616还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

在示例性实施例中，电子设备600可以被一个或多个应用专用集成电路（ASIC）、数字信号处理器（DSP）、数字信号处理设备（DSPD）、可编程逻辑器件（PLD）、现场可编程门阵列（FPGA）、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在一示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器604，上述指令可由电子设备600的处理器620执行以完成上述方法。例如，计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

在一示例性实施例中，还提供了一种计算机程序产品，所述计算机程序产品中包括指令，上述指令可由电子设备600的处理器620执行以完成上述方法。

需要说明的，上述的装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频合成方法，其特征在于，包括：

获取表情类别标签和人脸图像；

将所述表情类别标签和所述特征隐码信息输入训练完成的预测模型，得到预测隐码序列；所述预测隐码序列中包括多个表情隐码信息，且各个表情隐码信息均基于前一个表情隐码信息预测得到，所述表情隐码信息用于表征所述人脸图像中的人脸作出所述表情类别标签所对应表情的脸部特征；

2.根据权利要求1所述的方法，其特征在于，所述将所述表情类别标签和所述特征隐码信息输入训练完成的预测模型，得到预测隐码序列，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于各所述表情图像，得到表情视频，包括：

4.根据权利要求1所述的方法，其特征在于，所述预测模型通过下述方式训练得到：

通过待训练的预测模型，对所述每个样本帧图像的表情隐码信息和所述样本表情类别标签进行预测，得到所述每个样本帧图像的下一个样本帧图像的预测表情隐码信息；

5.根据权利要求4所述的方法，其特征在于，所述对所述每个样本帧图像的表情隐码信息和所述样本表情类别标签进行处理，得到所述每个样本帧图像的下一个样本帧图像的预测表情隐码信息，包括：

6.根据权利要求4所述的方法，其特征在于，所述获取样本视频对应的样本帧图像集合，包括：

7.根据权利要求1所述的方法，其特征在于，在将所述表情类别标签和所述特征隐码信息输入训练完成的预测模型，得到预测隐码序列之前，还包括：

8.一种视频合成装置，其特征在于，包括：

获取单元，被配置为执行获取表情类别标签和人脸图像；

预测单元，被配置为执行将所述表情类别标签和所述特征隐码信息输入训练完成的预测模型，得到预测隐码序列；所述预测隐码序列中包括多个表情隐码信息，且各个表情隐码信息均基于前一个表情隐码信息预测得到，所述表情隐码信息用于表征所述人脸图像中的人脸作出所述表情类别标签所对应表情的脸部特征；

9.根据权利要求8所述的装置，其特征在于，所述预测单元，还被配置为执行通过所述训练完成的预测模型，对所述表情类别标签和所述特征隐码信息进行预测，得到对应的表情隐码信息，作为当前表情隐码信息；通过所述训练完成的预测模型，对所述表情类别标签和所述当前表情隐码信息进行预测，得到新的表情隐码信息；将所述当前表情隐码信息更新为所述新的表情隐码信息，并跳转至对所述表情类别标签和所述当前表情隐码信息进行预测，得到新的表情隐码信息的步骤，直到预测得到的表情隐码信息达到预设个数，基于所述特征隐码信息和预测得到的各个表情隐码信息，得到所述预测隐码序列。

10.根据权利要求9所述的装置，其特征在于，所述合成单元，还被配置为执行获取各所述表情图像所对应的表情隐码信息的预测顺序；预测顺序表示各所述表情隐码信息被预测出的顺序；按照所述预测顺序，将各所述表情图像进行组合，得到所述表情视频。

11.根据权利要求8所述的装置，其特征在于，所述装置还包括训练单元，被配置为执行获取样本视频对应的样本帧图像集合；所述样本帧图像集合中的每个样本帧图像携带有相同的样本表情类别标签；通过待训练的预测模型，对所述每个样本帧图像的表情隐码信息和所述样本表情类别标签进行处理，得到所述每个样本帧图像的下一个样本帧图像的预测表情隐码信息；基于所述下一个样本帧图像的预测表情隐码信息和所述下一个样本帧图像的实际表情隐码信息之间的损失值，对所述待训练的预测模型进行训练，得到所述训练完成的预测模型。

12.根据权利要求11所述的装置，其特征在于，所述训练单元，还被配置为执行对所述样本表情类别标签进行编码处理，得到编码后的样本表情类别标签；分别将所述每个样本帧图像的表情隐码信息和所述编码后的样本表情类别标签进行拼接，得到所述每个样本帧图像的拼接信息；通过所述待训练的预测模型，对所述每个样本帧图像的拼接信息进行处理，得到所述每个样本帧图像的下一个样本帧图像的预测表情隐码信息。

13.根据权利要求11所述的装置，其特征在于，所述训练单元，还被配置为执行对所述样本视频进行视频帧提取处理，得到多个样本帧图像；根据各所述样本帧图像在所述样本视频中的播放时间戳顺序，将各所述样本帧图像组合成所述样本视频对应的样本帧图像集合。

14.根据权利要求8所述的装置，其特征在于，所述装置还包括第二编码单元，被配置为执行对所述表情类别标签进行编码处理，得到编码后的表情类别标签；

15.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的视频合成方法。

16.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至7中任一项所述的视频合成方法。