CN115883753A

CN115883753A - 视频的生成方法、装置、计算设备及存储介质

Info

Publication number: CN115883753A
Application number: CN202211380730.XA
Authority: CN
Inventors: 马一丰; 王苏振; 丁彧; 吕唐杰; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2023-03-31

Abstract

本申请提供了一种视频的生成方法、装置、计算设备及存储介质，该方法通过获取参考视频、参考音频、以及待处理人脸图像，并根据参考视频，确定参考视频的风格特征向量，风格特征向量用于表述参考视频的各个帧图像中行为风格信息，之后根据参考音频，确定参考音频中各个帧音素对应的音频特征，并根据风格特征向量和各个帧音素对应的音频特征，确定表情系数序列，最后根据表情系数序列和待处理人脸图像，生成待处理人脸图像对应的目标视频。该技术方案中，通过对参考视频中表示发声人的风格信息的向量的提取，并结合音频特征以及待处理人脸图像，以达到生成的视频的表情与应有的表情一致的目的。

Description

视频的生成方法、装置、计算设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频的生成方法、装置、计算设备及存储介质。

背景技术

语音驱动单张人脸图像目标视频生成的目的是以任意音频和任意单张人脸参考图像作为输入，合成参考图像中发声人的说话视频。在合成的视频中，发声人的口型、表情、自然的头部运动应与输入音频相匹配。这一视频生成技术可广泛应用于元宇宙构建、智能客服、新闻虚拟主播等多个领域。

在现有技术中，常见的说话视频方式是将一个参考视频中发声人表情逐帧迁移到新生成的说话视频中，使得生成的说话视频和参考视频逐帧的表情一致，从而使生成的说话视频的说话风格与参考视频近似。

然而，在上述技术方案中，通过逐帧迁移参考视频的表情到生成视频，其逐帧迁移的表情未必和生成的视频时应有的表情相匹配。

发明内容

有鉴于此，本申请提供了一种视频的生成方法、装置、计算设备及存储介质，用以解决现有技术中生成的视频的表情与应有的表情存在不一致情况的问题。

本申请实施例第一方面提供了一种视频的生成方法，该方法包括：

获取参考视频、参考音频、以及待处理人脸图像；

根据所述参考视频，确定所述参考视频的风格特征向量，风格特征向量用于表述所述参考视频的各个帧图像中行为风格信息；

根据所述参考音频，确定所述参考音频中各个帧音素对应的音频特征；

根据所述风格特征向量和各个帧音素对应的音频特征，确定表情系数序列，所述表情系数序列为用于描述所述待处理人脸图像的表情向量；

根据所述表情系数序列和所述待处理人脸图像，生成所述待处理人脸图像对应的目标视频。

本申请实施例第二方面提供了一种视频的生成装置，该装置包括：

获取模块，用于获取参考视频、参考音频、以及待处理人脸图像；

确定模块，用于根据所述参考视频，确定所述参考视频的风格特征向量，风格特征向量用于表述所述参考视频的各个帧图像中行为风格信息，并根据所述参考音频，确定所述参考音频中各个帧音素对应的音频特征，之后根据所述风格特征向量和各个帧音素对应的音频特征，确定表情系数序列，所述表情系数序列为用于描述所述待处理人脸图像的表情向量；

生成模块，用于根据所述表情系数序列和所述待处理人脸图像，生成所述待处理人脸图像对应的目标视频。

本申请实施例第三方面提供了一种计算设备，包括：处理器、存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述计算机执行指令，使得所述终端设备执行如上述第一方面所述的视频的生成方法。

本申请实施例第四方面还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上述第一方面中所述的视频的生成方法。

本申请实施例第五方面还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时用于实现如上述第一方面及各种可能的设计中所述的视频的生成方法。

本申请实施例所提供的技术方案，通过获取参考视频、参考音频、以及待处理人脸图像，并根据参考视频，确定参考视频的风格特征向量，风格特征向量用于表述参考视频的各个帧图像中行为风格信息，之后根据参考音频，确定参考音频中各个帧音素对应的音频特征，并根据风格特征向量和各个帧音素对应的音频特征，确定表情系数序列，表情系数序列为用于描述待处理人脸图像的表情向量，最后根据表情系数序列和待处理人脸图像，生成待处理人脸图像对应的目标视频。该技术方案中，通过对参考视频中表示发声人的风格信息的向量的提取，并结合音频特征以及待处理人脸图像，以达到生成的视频的表情与应有的表情一致的目的。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的视频的生成方法的应用场景示意图；

图2为本申请实施例提供的视频的生成方法实施例一的流程示意图；

图3为本申请实施例提供的视频的生成方法实施例二的流程示意图；

图4为本申请实施例提供的视频的生成装置的示意图；

图5为本申请实施例提供的计算设备的结构示意图。

以上5个附图为本申请实施例中具体实施方式所涉及的附图。

具体实施方式

本申请提供了一种视频的生成方法、装置、计算设备及存储介质，通过获取参考视频、参考音频、以及待处理人脸图像，并根据参考视频，确定参考视频的风格特征向量，风格特征向量用于表述参考视频的各个帧图像中行为风格信息，之后根据参考音频，确定参考音频中各个帧音素对应的音频特征，并根据风格特征向量和各个帧音素对应的音频特征，确定表情系数序列，表情系数序列为用于描述待处理人脸图像的表情向量，最后根据表情系数序列和待处理人脸图像，生成待处理人脸图像对应的目标视频，用以解决现有技术中无法准确生成表示发声人的个性化信息的视频的问题。

为了使本领域的技术人员能够更好的理解本申请的技术方案，下面结合本申请实施例中的附图，对本申请进行清楚、完整地描述。但本申请能够以很多不同于上述描述的其他方式进行实施，因此，基于本申请提供的实施例，本领域普通技术人员在不经过创造性劳动的情况下，所获得的所有其他实施例，都应属于本申请保护的范围。

需要说明的是，本申请的权利要求书、说明书及附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象，并不用于描述特定的顺序或先后次序。这样使用的数据在适当情况下是可以互换的，以便于本文所描述的本申请的实施例，能够以除了在本文图示或描述的内容以外的顺序实施。此外，术语“包括”、“具有”以及他们的变形形式，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在对本申请涉及的技术方案进行说明之前，先对本申请涉及的专业名词和现有技术进行叙述：

三维形变模型(3D Morphable Model，3DMM)：是一种较为基础的三维人脸统计模型，最早被提出是用于解决从二维人脸图像恢复三维形状的问题。在3DMM方法发展的二十年来，各位学者对其进行了数据扩展和深入研究，又由于神经网络广泛使用，使得3DMM参数优化得到简化，基于3DMM方法的三维重建文章层出不穷。但此类方法基于一组人脸形状和纹理的统计模型来表示任意一张人脸，仍然存在重建人脸判别性较差，参数求解难的问题，目前也是学术界研究的重点方向。

卷积神经网络(Convolutional Neural Network，CNN)：是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks，FNN)，是深度学习(英文：deep learning)的代表算法之一。卷积神经网络具有表征学习(英文：representationlearning)能力，能够按其阶层结构对输入信息进行平移不变分类(英文：shift-invariantclassification)，因此也被称为“平移不变人工神经网络(Shift-Invariant ArtificialNeural Networks，SIANN)。

Transformer：一种基于注意力机制的深度学习网络模型。

语音驱动单张人脸图像目标视频生成的目的是：以任意音频和任意单张人脸参考图像作为输入，合成参考图像中发声人的讲话视频。在合成的视频中，发声人的口型、表情、自然的头部运动应与输入音频相匹配。这一视频生成技术可广泛应用于元宇宙构建、智能客服、新闻虚拟主播等多个领域，并可利用人工智能大幅度降低上述任务的人工需求。

然而：说话风格是指人在讲话时所展现出的面部运动规律，比如习惯性的张大嘴巴等等。生成不同行为风格的视频对提高视频真实感至关重要。近来，这个领域引起了国际研究者的高度关注，很多新颖的方案被提出，但其生成的视频效果还远不能令人满意。

例如，现有技术中常见的几种方式如下所述：

第1种、在目标发声人的视频上进行训练，利用新的输入音频生成发声人的目标视频；

第2种、不同情绪可以视作不同的说话风格，一些方法通过输入额外的情绪标签，指定情绪为说话风格；

第3种、将一个参考视频中发声人表情逐帧迁移到新生成的视频，使得生成的视频和参考视频逐帧的表情一致，从而使生成的视频的行为风格与参考视频近似。

然而，上述的几种方式中，生成效果距离使人满意还有很大距离，具体为：

第1、在一个人的说话视频上训练的方法只能生成该发声人的说话视频，无法将该发声人的说话风格迁移到其他发声人上；

第2、只能生成不同情绪的说话视频，而情绪只是行为风格的一个小子集。行为风格还包括发声人的一些说话习惯，比如张大眼睛说话等等，单纯的情绪标签不能表示这些个性化信息；

第3、行为风格是面部表情的动态规律，然而，逐帧将参考视频表情迁移到生成视频的方法并未建模这一动态规律，这将导致迁移的表情与生成视频应有的表情不匹配，比如，第2帧对应的参考视频的表情为闭嘴，但生成视频根据音频该帧应为张大嘴等。

基于上述存在的技术问题，发明人有如下构思：发声人在说话、唱歌等场景下对应的风格可以包括有发声人的一些行为习惯、情绪，如果能够将需要处理的参考视频中的行为风格进行提取，并且将参考语音中的语音转为音素，以替代音频，得到音频特征，之后将需要生成的视频对应的人物图像与行为风格、音频特征相结合，便可以得到具有参考视频中的行为风格的视频，从而避免了不能将发声人的行为风格迁移到其他发声人上、以及表情与视频应有的表情不匹配的问题、且保证了行为情绪的多样性。

在上述现有技术存在的问题基础上，图1为本申请实施例提供的视频的生成方法的应用场景示意图，用以解决上述技术问题。如图1所示，该应用场景示意图包括：行为风格特征提取模块21、音频特征提取模块22、表情系数提取模块23、以及目标视频生成模块24。

其中，行为风格特征提取模块21、音频特征提取模块22、表情系数提取模块23、以及目标视频生成模块24可以集成在计算设备上，以供技术人员通过计算设备实现本申请实施例所提供的技术方案。计算设备可以是计算机、平板、电脑、手机等等，在一些实现中，计算设备还可以由服务器替代。

此外，上述行为风格特征提取模块21、音频特征提取模块22、表情系数提取模块23、以及目标视频生成模块24得功能集成在一个或多个计算设备中，并且，上述4个模块之间可以任意组合，将功能任意集成，在功能任意集成的情况下，其执行步骤也对应做出变化。

在一种可能的实现中，为了生成具有符合发声人的个性化信息的目标视频，此时，技术人员先获取一段生成该目标视频的参考视频，用于提取出参考视频中用户的表情等信息。

此时，技术人员通过操控计算设备，将参考视频输入至行为风格特征提取模块21中，得到参考视频的风格特征向量。之后技术人员将参考音频输入至音频特征提取模块22中，以得到参考音频中各个帧音素对应的音频特征。

进一步的，将上述行为风格特征提取模块21和音频特征提取模块22分别得到的风格特征向量和音频特征输入至表情系数提取模块23，以提取得到描述待处理人脸表情的向量，之后将该描述目标人脸表情的向量与待处理人脸图像输入至目标视频生成模块24，得到最后的待处理人脸图像对应的目标视频，也即具有发声人个性化信息的目标视频。

应理解：上述的应用场景仅为一种可能的实现的示例，并不具体实施例的限定。此外，该应用场景中未披露的内容参见下述实施例。

下面通过具体实施例对本申请的技术方案进行详细说明。需要说明的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请实施例提供的视频的生成方法实施例一的流程示意图。

如图2所示，该视频的生成方法可以包括如下步骤：

步骤21、获取参考视频、参考音频、以及待处理人脸图像。

在本步骤中，为了生成具有发声人个性化信息的目标视频，首先需要获取具有个性化信息的参考视频、以及参考音频，而生成的目标视频需要有人脸图像，即待处理人脸图像。

可选的，参考视频可以是一段人物讲话、交流、唱歌、演讲等相关的视频，该视频中人物可以有各种行为的风格，其表现可以是悲伤、开心、抽泣、眼睛张大、眼睛眯着、皱眉等等，其中，讲话、交流、唱歌、演讲等均可以称为发声。

可选的，参考音频可以是一段人物讲话、交流、唱歌、演讲等相关的音频，可以采集于新闻音频、音乐播放软件中的音频、录音等等。

可选的，待处理人脸图像可以是生成的目标视频的人脸图像，该待处理人脸图像可以根据用户的需要而定，可以从图库中获取、从网络中下载、从他人处取得等等。

步骤22、根据参考视频，确定参考视频的风格特征向量。

其中，风格特征向量用于表述参考视频的各个帧图像中行为风格信息。

在本步骤中，上述获取到的参考视频中蕴含有行为风格的动态规律，在该步骤中，需要将该动态规律确定出来，即确定出参考视频的风格特征向量，也即参考视频的各个帧图像中行为风格信息的向量。

可选的，可以利用预先训练好的3DMM系数提取器提取参考视频的每个帧图像所对应的3DMM表情系数。

其中，该3DMM表情系数可以是表示对应帧图像中描述人脸表情的一个64维的向量，也即参考视频中每帧图像的人脸表征，而任何人脸表情都可以使用3DMM系数提取器获取其对应的表情系数。

进一步的，将每个帧图像所对应的3DMM表情系数输入至行为风格提取transformer模型，之后经过自注意力池化，获得参考视频的风格特征向量，也即各个帧图像中行为风格信息的向量。

其中，风格特征向量是一个概括参考视频中行为风格信息的Ns维向量，该Ns的取值可以是256。

在一种可能的实现中，例如，从发声人开心的参考视频中，该步骤通过上述方式可提取得到具有开心行为风格的风格特征向量；从歌手伤心的参考视频中，该步骤通过上述方式可提取得到具有伤心行为风格的风格特征向量；从演讲者睁眼规律的参考视频中，该步骤通过上述方式可提取得到具有睁眼规律行为风格的风格特征向量；对于其他行为风格的参考视频亦然。

步骤23、根据参考音频，确定参考音频中各个帧音素对应的音频特征。

在本步骤中，在上述获取到参考音频之后，提取得到参考音频中各帧的音素，并根据各帧音素，确定出各个帧音素对应的音频特征，该音频特征用以表示后续生成的目标视频的音频信息。

可选的，参考音频中各个帧音素对应的音频特征可以是去除音频中影响行为风格的信息之后的音频信息，从而音频信息不会干扰上述参考视频中提取的行为风格，使得生成视频的行为风格更加明显。

其中，影响行为风格的信息比如声音强度。

在一种可能的实现中，首先在参考音频中提取音素，以作为音频信号的表征。取当前音素的前后各w帧音素，组成帧音素窗口，输入音频编码器中以获得音频特征。

例如，本申请实施例选用w＝5，也可取其他数值。

其中，音频编码器由一个transformer编码器构成，也可使用其他神经网络，比如CNN等。音频编码器可以提取整个音素窗口的音频信息，从而生成更加精准的嘴型。

应理解，步骤22和步骤23的执行顺序不作固定，可以先执行步骤23，再执行步骤22，也可以同时执行。

步骤24、根据风格特征向量和各个帧音素对应的音频特征，确定表情系数序列。

其中，表情系数序列为用于描述待处理人脸图像的表情向量。

在本步骤中，将上述对参考视频处理得到的风格特征向量和对参考音频处理得到的音频特征作为输入，以生成用于描述目标视频中每帧人脸图像对应的表情向量，合称为表情系数序列。

可选的，利用风格化表情系数解码器将风格特征向量复制(2w+1)份，然后将复制后的风格特征向量和音频特征在第二维上进行拼接操作，将拼接后的对象输入至一个神经网络中，从而生成具有指定行为风格的、嘴型与指定音频相匹配的表情系数序列。

具体的，该步骤所示实施例中的神经网络可以是1D CNN，也可以使用其他网络，如transformer等。

其中，1D CNN在输入特征的第二维度上进行卷积操作，最终输出一个64维的表情系数序列。在具体的神经网络模型的训练时，可以利用生成的表情系数将与真值相比较，利用L1损失函数计算反向传播的梯度，从而实现模型的训练。

步骤25、根据表情系数序列和待处理人脸图像，生成待处理人脸图像对应的目标视频。

在本步骤中，依据表情系数序列和待处理人脸图像，生成待处理人脸图像中发声人依照表情系数序列的描述的目标视频。

其中，待处理人脸图像为最终生成的目标视频中的人物人脸的图像，

可选的，具体的实现可以是将表情系数序列和待处理人脸图像输入至预先训练好的图像生成器中，生成待处理人脸图像对应的目标视频。

在一种可能的实现中，按照表情系数序列中各个表情系数分别与待处理人脸图像结合，生成各个具有表情系数的人脸图像，也即生成待处理人脸图像对应的目标视频。

具体的，图像生成器基于卷积神经网络，经过与表情系数和待处理人脸图像相关的大量数据预训练之后，便可以以表情系数和待处理人脸图像作为输入，生成参考图像中发声人的任意姿势、表情的图像。发声人姿势和表情由输入的表情系数决定。

本申请实施例所提供的视频的生成方法，通过获取参考视频、参考音频、以及待处理人脸图像，并根据参考视频，确定参考视频的风格特征向量，风格特征向量用于表述参考视频的各个帧图像中行为风格信息，之后根据参考音频，确定参考音频中各个帧音素对应的音频特征，并根据风格特征向量和各个帧音素对应的音频特征，确定表情系数序列，表情系数序列为用于描述待处理人脸图像的表情向量，最后根据表情系数序列和待处理人脸图像，生成待处理人脸图像对应的目标视频。该技术方案中，通过对参考视频中表示发声人的风格信息的向量的提取，并结合音频特征以及待处理人脸图像，以达到生成的视频的表情与应有的表情一致情况的目的。

在上述实施例的基础上，图3为本申请实施例提供的视频的生成方法实施例二的流程示意图。如图3所示，该视频的生成方法可以包括如下详细的步骤：

步骤31、获取参考视频。

在本步骤中，为了生成具有人物个性化信息的目标视频，首先需要获取具有个性化信息的参考视频。

可选的，参考视频可以是一段人物说话的视频，该视频中人物可以有各种说话的风格，其表现可以是悲伤、开心、抽泣、眼睛长大、眼睛眯着、皱眉等等。

步骤32、根据参考视频，确定参考视频中的各个帧图像。

在本步骤中，一个视频是由各个帧图像拼接而成，为了对参考视频中的行为风格进行准确提取，此时将参考视频划分为各个帧图像。

也即，将参考视频划分为多个图像，划分规则为依据视频帧，得到参考视频中的各个帧图像。

在一种可能的实现中，可以利用PR软件(一种视频编辑软件，全称Adobe PremierePro)在导出设置中设置图片格式将参考视频转换成一张张的帧图片。

应理解：该实现为一种可能的实现方式，还可以在下述过程中直接将参考视频直接输入至预先训练好的系数提取器，该系数提取器本身具有视频的帧处理能力。

例如，表1为本申请实施例提供的帧图像示例，如表1所示：

表1：

参考视频	帧图像
		V	V1、V2、V3、V4、V5…V100

也即，在本步骤中的处理过程中，参考视频V被分割成帧图像V1、帧图像V2、帧图像V3、帧图像V4、帧图像V5…帧图像V100共计100个帧图像。

步骤33、将各个帧图像依次输入预先训练好的系数提取器，得到各个帧图像的表情系数。

其中，表情系数为描述帧图像人脸表情的向量。

在本步骤中，将各个帧图像输入预先训练好的系数提取器中，便可以得到各个帧图像中的人脸表征，即描述帧图像人脸表情的向量，也即表情系数。

可选的，系数提取器可以通过多个不同行为风格的图像训练得到，对于发声人脸表情开心的图像，系数提取器可以根据该图像得到相应的表示人脸表情开心的向量。

在一种可能的实现中，本申请实施例以系数提取器为三维形变模型系数提取器作为示例进行说明：

将各个帧图像依次输入三维形变模型系数提取器，可以得到各个帧图像的表情系数，该表情系数为描述该表情系数对应的帧图像中人脸表情的一个64维的向量。

例如，表2为本申请实施例提供的表情系数示例，如表2所示：

表2：

也即，在本步骤中的处理过程中，将参考视频V确定成帧图像V1、帧图像V2、帧图像V3、帧图像V4、帧图像V5…帧图像V100共计100个帧图像，进而将上述100个帧图像输入至三维形变模型系数提取器中，分别得到表情系数σ1、σ2、σ3、σ4、σ5…σ100，其中，表情系数也可以称为3DMM表情系数。

可选的，该步骤的过程可以通过如下公式说明：σ＝F_m(V)，其中，V表示参考视频，F_m表示3DMM系数提取器，σ表示参考视频中各个帧图像对应的表情系数组成的序列，也即各个帧图像的表情系数。

步骤34、将各个帧图像的表情系数输入行为风格提取模型和自注意力池化组成的模块，得到参考视频的风格特征向量。

在本步骤中，将每个帧图像所对应的3DMM表情系数输入至行为风格提取模型，之后经过自注意力池化，获得参考视频的风格特征向量，也即表示各个帧图像中行为风格信息的向量。

可选的，行为风格提取模型可以是transformer模型，将各个帧图像对应的表情系数组成的序列进行行为风格提取，得到表示各帧图像的风格表征，进而，将风格表征经过自注意力池化的处理，来得到参考视频的风格特征向量。

其中，自注意力池化的步骤是：使用一个可学习的注意力向量t与各帧图像的风格表征(例如，s1、s2、…、sn)做点积运算，得到n个数(例如，a1、a2、…、an)作为各帧图像的风格表征的权重，而注意力向量t是模型中预设的，维度与各帧图像的风格表征一致，可以是256。

进一步的，以n个数(a1、a2、…、an)作为权重,求风格表征(s1、s2、…、sn)的加权和，得到风格特征向量。

风格特征向量是一个概括参考视频中行为风格信息的Ns维向量，该Ns的取值可以是256。例如，从发声人开心的参考视频中，该步骤通过上述方式可提取得到具有开心行为风格的风格特征向量；对于其他行为风格的参考视频亦然。

例如，表3为本申请实施例提供的风格特征向量示例，如表3所示：

表3：

也即，在本步骤中的处理过程中，将各个帧图像对应的表情系数组成的序列，输入至σ行为风格提取模型(即可以是一种说话风格提取模型)和自注意力池化组成的模块，得到风格特征向量s。

可选的，该步骤的过程可以通过如下公式说明：s＝F_s(σ)，其中，s表示参考视频的风格特征向量，F_s表示行为风格提取模型和自注意力池化组成的模块，σ表示参考视频中各个帧图像对应的表情系数组成的序列。

也即，步骤34和步骤35的过程中，将整个参考视频提取为一个向量(即风格特征向量)，而不是逐帧迁移参考视频的表情，使得该风格特征向量可以体现出行为风格的动态规律。

应理解：步骤32、步骤33、以及步骤34的执行过程可以依据于一个行为风格特征提取模块实现，也即上述图1中的行为风格特征提取模块21，其实现原理由步骤32、步骤33、以及步骤34所示。

步骤35、获取参考音频。

在本步骤中，为了生成具有人物个性化信息的目标视频，首先需要获取需要生成目标视频的音频，即参考音频。

可选的，参考音频可以是一段人物说话的音频，可以采集于新闻音频、音乐播放软件中的音频、录音等等。

步骤36、根据参考音频，提取参考音频中的各个帧音素。

在本步骤中，一个音频是由各个帧音素构成，为了对参考音频中的音频信息进行准确提取，此时将参考音频划分为各个帧音素。

其中，音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。

举例来说，表4为本申请实施例提供的帧音素示例，如表4所示：

表4：

参考音频中的单词	各个帧音素
		take	T，EY，K
about	AH，B，AW，T

即，以参考音频中的单词take为例，take的音素表示为[T，EY，K]；以参考音频中的单词about为例，about的音素表示为[AH，B，AW，T]。此处的音素AH，B等来自于通用的音素标签集。音素可通过专业的ASR工具从语音中提取。

提取的方式可以是：将参考音频中的各个帧音素依次提取。

步骤37、针对每个帧音素，取帧音素的前、后各w个音素，生成帧音素窗口。

其中，w为大于或等于1的整数，一般可以选择w＝5。

在本步骤中，针对每个帧音素，取该帧音素的前、后各w个音素，组成该帧音素对应的帧音素窗口。

其中，音素窗口的内容为连续的音素。

在一种可能的实现中，表5为本申请实施例提供的帧音素示例，如表5所示(分别以当前帧音素K和T为例，取w为2为例)：

表5：

即，示例1中，各个帧音素为“…T，EY，K，AH，B，B，AW…”，此时针对当前帧音素为K，则生成的帧音素窗口为“T，EY，K，AH，B”；示例2中，各个帧音素为“…AH，AH，AH，B，B，AW，AW，AW，T，T，SIL…”，此时针对当前帧音素为第一个T，则生成的帧音素窗口为“AW，AW，T，T，SIL”。

此外，在该帧音素的前、后各w个音素中存在缺失的音素时，即以参考音频中的单词about为例，其音素表示为[AH，B，AW，T]，当前帧音素为B时，前后各2个音素则为[AH，以及AW，T]，则将该帧音素窗口的表示为[0，AH，B，AW，T]。

其中，上述的参考音频中的各个帧音素，可以理解为音频窗口，也即音频窗口的内容为连续的音频。音频在计算机中表示为浮点数数组。音频窗口就是窗口时长(如40ms等))音频所对应的浮点数数组。

可选的，该步骤的过程可以通过如下公式说明：a＝Fp(A)，其中，a表示音素窗口，Fp表示音素提取，A表示音频窗口，即参考音频。

步骤38、将各个帧音素对应的帧音素窗口分别输入至音频编码器中，得到参考音频中各个帧音素对应的音频特征。

在本步骤中，将该帧音素对应的帧音素窗口输入至音频编码器中，便可以得到该帧音素对应的音频特征，以表征参考音频的音频信息。

其中，音频编码器可以由一个transformer编码器构成，也可以由其他的神经网络构成，比如CNN模型等。音频编码器可以提取整个音素窗口的音频信息，从而生成目标视频中更加精准的嘴型。

在一种可能的实现中，表6为本申请实施例提供的音频特征示例，如表6所示(分别以当前帧音素K和B为例)：

表6：

帧音素窗口	音频特征
		T，EY，K，AH，B	K对应的f<sup>a</sup>1
AW，AW，T，T，SIL	T对应的f<sup>a</sup>2

即，示例1中，将K对应的帧音素窗口“T，EY，K，AH，B”输入至音频编码器后得到K对应的音频特征f^a1；示例2中，将T对应的帧音素窗口“AW，AW，T，T，SIL”输入至音频编码器后得到T对应的音频特征f^a2。

可选的，该步骤的过程可以通过如下公式说明：f^a＝Fa(a)，其中，a表示音素窗口，Fa表示音频编码器，f^a表示音频特征。

其中，音频特征的维度为(2w+1)*N_a，其中每帧音素都对应一个N_a维的音频特征。本方案中N_a取256。

应理解：步骤36、步骤37、以及步骤38的执行过程可以依据于一个音频特征提取模块实现，也即上述图1中的音频特征提取模块22，其实现原理由步骤36、步骤37、以及步骤38所示。

步骤39、根据所述风格特征向量和各个帧音素对应的音频特征，得到特征序列。

在本步骤中，上述将整个视频提取为一个向量(即风格特征向量)而不是逐帧迁移参考视频的表情，使得模型可以建模行为风格的动态规律，而音频特征包括各个帧音素的音频特征，后续将行为风格的动态规律添加至各个帧音素的音频特征上，以形成具有描述待处理人脸图像的特征序列。

可选的，该步骤可以通过如下方式实现：

第一步、将风格特征向量复制2w+1份，得到2w+1份风格特征向量。

此时，将风格特征向量复制2w+1份，得到2w+1份风格特征向量。

例如，表7为本申请实施例提供的复制风格特征向量示例，如表7所示：

表7：

风格特征向量	复制后的风格特征向量
		s	s<sup>1</sup>

具体的，风格特征向量表示为

对s复制2w+1份得到/>

第二步、将2w+1份风格特征向量和各个帧音素对应的音频特征在第二维度上进行拼接操作，得到特征序列。

在本步骤中，将复制后的风格特征向量和各个帧音素对应的音频特征在第二维上拼接起来，以得到整个参考音频对应的具有风格特征的特征序列。

例如，表8为本申请实施例提供的特征序列示例，如表8所示：

表8：

也即，可选的，该步骤的过程可以通过如下公式说明：输入为复制后的风格特征向量

和各个帧音素对应的音频特征f^a∈R^(2w+1)Na，输出为特征序列/>

步骤40、将特征序列输入预先训练好的神经网络模型，得到表情系数序列。

其中，神经网络模型为一维神经网络模型。

在本步骤中，将2w+1份风格特征向量和各个帧音素对应的音频特征在第二维度上进行拼接操作得到的特征序列输入至神经网络中，从而生成具有指定行为风格的、嘴型与指定音频相匹配的表情系数序列。

其中，该步骤所示实施例中的神经网络可以是1D CNN，也可以使用其他网络，如transformer等。

例如，表9为本申请实施例提供的表情系数序列示例，如表9所示：

表9：

输入(特征序列)	表情系数序列
		f<sup>c</sup>	δ

也即，将特征序列f^c输入至预先训练好的神经网络模型，得到表情系数序列δ。

应理解：步骤39的执行过程可以依据于一个风格化表情系数解码器实现，也即上述图1中的表情系数提取模块23，其实现原理由步骤39、步骤40所示。

可选的，上述3步骤的公式表达为δ＝F_d(s，f^a)，其中s、f^a分别为上述步骤中生成的风格特征向量和音频特征，F_d为风格话表情系数解码器，δ为生成的表情系数，即表情系数序列，该表情系数序列描述了发声人在说音频内容时的面部表情，面部表情包括嘴部，眼部等的动作。

步骤41、获取待处理人脸图像。

在本步骤中，为了生成具有人物个性化信息的目标视频，获取生成的目标视频需要有发声人的图像，即待处理人脸图像。

步骤42、将表情系数序列和待处理人脸图像输入至预先训练好的图像生成器中，生成待处理人脸图像对应的目标视频。

在本步骤中，待处理人脸图像中人物的任意姿势、表情由输入的表情系数序列决定，也即视频的生成基于表情系数序列和待处理人脸图像，将表情系数序列和待处理人脸图像输入至图像生成器中，便可以得到待处理人脸图像对应的目标视频。

该步骤为根据表情系数序列和待处理人脸图像，生成待处理人脸图像对应的目标视频的具体实现。

具体的，目标视频由一张张图像组成，而表情系数序列中各个表情系数分别代表了以参考视频对应的行为风格说参考音频时各帧图像对应的人脸表情特征，将该各帧图像对应的人脸表情特征与待处理人脸图像输入至图像生成器中，得到具有行为风格的图像，继而对所有具有行为风格的图像进行处理，便可以得到待处理人脸图像对应的目标视频。

可选的，图像生成器可以是基于神经绘制模型PIRenderer(一种基于卷积网络的深度学习模型)实现。

具体的，给定原待处理人脸图像和目标3DMM参数(即表情系数序列)，经过映射网络、扭曲网络和编辑网络生成待处理人脸图像中人的目标视频。

其中，映射网络从运动描述符生成潜在向量。在向量的构造下，扭曲网络估计参考图片与目标图片之间的光流，并通过参考图片和估计的光流生成粗略结果。编辑网络从粗略结果生成最终图像。

例如，表10为本申请实施例提供的目标视频示例，如表10所示：

表10：

也即，将表情系数序列δ和待处理人脸图像R输入至图像生成器中，以得到目标视频I。

可选的，该步骤的公式表达为I＝F_G(R，δ)，其中δ为表情系数序列，即表情系数序列，F_G为图像生成器，R为待处理人脸图像，I为目标视频。

本申请实施例提供的视频的生成方法，获取参考视频，并根据参考视频，确定参考视频中的各个帧图像，之后将各个帧图像依次输入预先训练好的系数提取器，得到各个帧图像的表情系数，其中，表情系数为描述帧图像人脸表情的向量，系数提取器为三维形变模型系数提取器，再将各个帧图像的表情系数输入行为风格提取模型和自注意力池化组成的模块，得到参考视频的风格特征向量，再获取参考音频，并根据参考音频，提取参考音频中的各个帧音素，进而针对每个帧音素，取帧音素的前、后各w个音素，生成帧音素窗口，其中，w为大于或等于1的整数，然后将各个帧音素对应的帧音素窗口分别输入至音频编码器中，得到参考音频中各个帧音素对应的音频特征，并根据所述风格特征向量和各个帧音素对应的音频特征，得到特征序列，最后将特征序列输入预先训练好的神经网络模型，得到表情系数序列，其中，神经网络模型为一维神经网络模型，再获取待处理人脸图像，最后将表情系数序列和待处理人脸图像输入至预先训练好的图像生成器中，生成待处理人脸图像对应的目标视频。该技术方案中，提取出参考视频中发声人的行为风格、并在参考音频中得到音频特征，进而结合目标人脸，生成相应的目标视频，实现了音频、表情与行为风格的结合，从而实现了将发声人的行为风格迁移到其他发声人上、以及行为风格在目标视频中体现等目的。

在上述方法实施例的基础上，图4为本申请实施例提供的视频的生成装置的示意图，如图4所示，该视频的生成装置包括：

获取模块410，用于获取参考视频、参考音频、以及待处理人脸图像；

确定模块411，用于根据参考视频，确定参考视频的风格特征向量，风格特征向量用于表述参考视频的各个帧图像中行为风格信息，并根据参考音频，确定参考音频中各个帧音素对应的音频特征，之后根据风格特征向量和各个帧音素对应的音频特征，确定表情系数序列，表情系数序列为用于描述待处理人脸图像的表情向量；

生成模块412，用于根据表情系数序列和待处理人脸图像，生成待处理人脸图像对应的目标视频。

在本申请实施例一种可能的实现中，确定模块411根据参考视频，确定参考视频的风格特征向量，具体用于：

根据参考视频，确定参考视频中的各个帧图像；

将各个帧图像依次输入预先训练好的系数提取器，得到各个帧图像的表情系数，表情系数为描述帧图像人脸表情的向量；

将各个帧图像的表情系数输入行为风格提取模型和自注意力池化组成的模块，得到参考视频的风格特征向量。

在该种可能的实现中，系数提取器为三维形变模型系数提取器。

在本申请实施例另一种可能的实现中，确定模块411根据参考音频，确定参考音频中各个帧音素对应的音频特征，具体用于：

根据参考音频，提取参考音频中的各个帧音素；

针对每个帧音素，取帧音素的前、后各w个音素，生成帧音素窗口，w为大于或等于1的整数；

将各个帧音素对应的帧音素窗口分别输入至音频编码器中，得到参考音频中各个帧音素对应的音频特征。

在本申请实施例再一种可能的实现中，确定模块411根据风格特征向量和各个帧音素对应的音频特征，确定表情系数序列，具体用于：

根据风格特征向量和各个帧音素对应的音频特征，得到特征序列；

将特征序列输入预先训练好的神经网络模型，得到表情系数序列。

其中，确定模块411根据风格特征向量和各个帧音素对应的音频特征，得到特征序列，具体用于：

将风格特征向量复制2w+1份，得到2w+1份风格特征向量；

将2w+1份风格特征向量和各个帧音素对应的音频特征在第二维度上进行拼接操作，得到特征序列。

在该种可能的设计中，神经网络模型为一维神经网络模型。

在本申请实施例还一种可能的实现中，生成模块412根据表情系数序列和待处理人脸图像，生成待处理人脸图像对应的目标视频，具体用于：

将表情系数序列和待处理人脸图像输入至预先训练好的图像生成器中，生成待处理人脸图像对应的目标视频。

本申请实施例提供的视频的生成装置，可用于执行上述实施例中视频的生成方法对应的技术方案，其实现原理和技术效果类似，在此不再赘述。

需要说明的是，应理解以上装置的各个模块(获取模块、处理模块、以及确定模块)的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

进一步的，图5为本申请实施例提供的计算设备的结构示意图。如图5所示，该计算设备可以包括：处理器51、存储器52及存储在该存储器52上并可在处理器51上运行的计算机程序指令。

处理器51执行存储器52存储的计算机执行指令，使得处理器51执行上述实施例中的方案。处理器51可以是通用处理器，包括中央处理器CPU、网络处理器(networkprocessor，NP)等；还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

存储器52通过系统总线与处理器51连接并完成相互间的通信，存储器52用于存储计算机程序指令。

可选的，该计算设备的结构还包括：收发器53，该收发器53通过系统总线与处理器51连接并完成相互间的通信。

在实现上，该收发器53可以对应图4所示实施例中的获取模块410。

系统总线可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

应理解，该计算设备可以是图1及方法实施例中的计算设备。

本申请实施例提供的计算设备，可用于执行上述实施例中视频的生成方法对应的技术方案，其实现原理和技术效果类似，在此不再赘述。

本申请实施例还提供一种运行指令的芯片，该芯片用于执行上述实施例中视频的生成方法的技术方案。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当该计算机指令在计算设备上运行时，使得计算设备执行上述实施例中视频的生成方法的技术方案。

本申请实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时用于执行上述实施例中视频的生成方法的技术方案。

上述的计算机可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算设备能够存取的任何可用介质。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims

1.一种视频的生成方法，其特征在于，所述方法包括：

获取参考视频、参考音频、以及待处理人脸图像；

2.根据权利要求1所述的方法，其特征在于，所述根据所述参考视频，确定所述参考视频的风格特征向量，包括：

根据所述参考视频，确定所述参考视频中的各个帧图像；

将各个帧图像依次输入预先训练好的系数提取器，得到各个帧图像的表情系数，所述表情系数为描述帧图像人脸表情的向量；

将各个帧图像的表情系数输入行为风格提取模型和自注意力池化组成的模块，得到所述参考视频的风格特征向量。

3.根据权利要求2所述的方法，其特征在于，所述系数提取器为三维形变模型系数提取器。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述参考音频，确定所述参考音频中各个帧音素对应的音频特征，包括：

根据所述参考音频，提取所述参考音频中的各个帧音素；

针对每个帧音素，取所述帧音素的前、后各w个音素，生成帧音素窗口，所述w为大于或等于1的整数；

将各个帧音素对应的帧音素窗口分别输入至音频编码器中，得到所述参考音频中各个帧音素对应的音频特征。

5.根据权利要求1所述的方法，其特征在于，所述根据所述风格特征向量和各个帧音素对应的音频特征，确定表情系数序列，包括：

根据所述风格特征向量和各个帧音素对应的音频特征，得到特征序列；

将所述特征序列输入预先训练好的神经网络模型，得到所述表情系数序列。

6.根据权利要求5所述的方法，其特征在于，所述根据所述风格特征向量和各个帧音素对应的音频特征，得到特征序列，包括：

将所述风格特征向量复制2w+1份，得到2w+1份风格特征向量；

将所述2w+1份风格特征向量和各个帧音素对应的音频特征在第二维度上进行拼接操作，得到所述特征序列。

7.根据权利要求5或6所述的方法，其特征在于，所述神经网络模型为一维神经网络模型。

8.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述表情系数序列和所述待处理人脸图像，生成所述待处理人脸图像对应的目标视频，包括：

将所述表情系数序列和所述待处理人脸图像输入至预先训练好的图像生成器中，生成所述待处理人脸图像对应的目标视频。

9.一种计算设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序指令；

所述处理器执行所述计算机程序指令时实现如上述权利要求1-8任一项所述的视频的生成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上述权利要求1至8中任一项所述的视频的生成方法。